2026年4月19日

最新研究总览 2024-2026

**OpenAI o1(2024.9)**

知识库大模型总览

最新研究总览 2024-2026

一、2024 年度重大突破

1.1 推理模型诞生(重点读)

OpenAI o1(2024.9)

  • 开创"推理时计算扩展"新范式
  • 通过强化学习训练模型进行链式思维推理
  • 在数学、编程、科学推理上大幅超越 GPT-4o
  • 影响:开启了推理模型这一全新赛道

Claude 3.5 Sonnet / Haiku / Opus(Anthropic, 2024)

  • 编码和推理能力显著提升
  • 引入 computer use(计算机操作)能力
  • 工具调用能力增强

1.2 开源模型飞跃(重点读)

Meta LLaMA 3 / 3.1 / 3.3(2024)

  • LLaMA 3.1 405B:当时最大的开源模型
  • 8B 和 70B 版本极具竞争力
  • 支持多语言、长上下文

Mistral Large / Small(2024)

  • 法国 AI 实验室的竞争力模型
  • Mixtral 8x22B 开源 MoE 模型

Qwen 2 / 2.5 系列(阿里, 2024)

  • 多语言、多模态、多尺寸
  • Qwen2-VL:视觉理解的领先开源 VLM

1.3 多模态突破(了解即可)

  • GPT-4o:原生多模态(文本+视觉+音频)
  • Gemini 1.5 Pro:100 万 token 上下文窗口
  • Stable Diffusion 3 / FLUX:图像生成质量飞跃
  • Sora:OpenAI 视频生成模型(虽未公开发布但引发巨大关注)

1.4 偏好优化进展(重点读)

  • DPO 成为标配:几乎所有主流模型都采用 DPO 或其变体
  • 自奖励模型(Self-Rewarding LMs):Meta 提出,模型自己生成偏好数据
  • ORPO / SimPO / KTO:DPO 的多种改进变体

二、2025 年度重大突破(截至 4 月)

2.1 推理模型民主化(重点读)

DeepSeek-R1(2025.1)

  • 开源推理模型,性能比肩 o1
  • 纯 RL 训练(GRPO),无需推理 SFT
  • 模型自发涌现推理行为("顿悟时刻")
  • 提供蒸馏版本(1.5B-70B)

OpenAI o3 / o4-mini(2025)

  • 推理能力进一步提升
  • 更高效的小型推理模型

2.2 基座模型进展(重点读)

DeepSeek-V3(2024.12-2025.1)

  • 671B MoE,训练成本极低(约 550 万美元)
  • 性能媲美 GPT-4o 和 Claude 3.5 Sonnet
  • MLA(Multi-head Latent Attention)+ DeepSeekMoE

Claude 4 / Claude Opus 4(Anthropic, 2025)

  • Anthropic 最新旗舰模型
  • 增强的推理、编码和工具调用能力

Gemini 2.0 / 2.5(Google, 2025)

  • 原生多模态 + Agent 能力
  • 2.5 Pro:1M token 上下文 + 强推理
  • Flash 系列:高效率推理

GPT-4.5 / GPT-5(OpenAI, 2025)

  • 推理和多模态能力持续提升

2.3 Agent 系统进展(重点读)

  • Deep Research:OpenAI 和 Google 都推出自主浏览网络的深度研究 Agent
  • Computer Use Agent:Anthropic Claude 可操作桌面应用
  • 编码 Agent:Devin、Claude Code、Cursor 等自主编程工具
  • Multi-Agent 框架:AutoGen、CrewAI、LangGraph 等

2.4 基础设施与推理优化(了解即可)

  • NVIDIA Blackwell B200:新一代 GPU
  • vLLM / SGLang:开源推理引擎快速迭代
  • FP8 / FP4 量化:更低精度、更快推理

三、2026 年展望(暂不深挖)

  1. Agent 生态成熟:更多生产级 Agent 应用
  2. 具身 AI:LLM 控制的机器人
  3. 实时多模态交互:语音+视觉+行动的实时交互
  4. 安全与监管:AI 安全框架和法规进一步完善
  5. 数据墙应对:合成数据和高效训练策略

四、研究优先级分类

优先级 主题 理由
重点读 推理模型(o1/R1/o3) 新范式,影响深远
重点读 GRPO/强化学习推理 开源推理训练方法
重点读 Agent 系统 下一波应用浪潮
重点读 DPO 及变体 对齐训练的标配
了解即可 多模态融合 快速发展但非核心
了解即可 视频生成 技术炫但实际应用有限
暂不深挖 具身 AI / 机器人 早期阶段
暂不深挖 量子+AI 过于前沿