最新研究总览 2024-2026
一、2024 年度重大突破
1.1 推理模型诞生(重点读)
OpenAI o1(2024.9)
- 开创"推理时计算扩展"新范式
- 通过强化学习训练模型进行链式思维推理
- 在数学、编程、科学推理上大幅超越 GPT-4o
- 影响:开启了推理模型这一全新赛道
Claude 3.5 Sonnet / Haiku / Opus(Anthropic, 2024)
- 编码和推理能力显著提升
- 引入 computer use(计算机操作)能力
- 工具调用能力增强
1.2 开源模型飞跃(重点读)
Meta LLaMA 3 / 3.1 / 3.3(2024)
- LLaMA 3.1 405B:当时最大的开源模型
- 8B 和 70B 版本极具竞争力
- 支持多语言、长上下文
Mistral Large / Small(2024)
- 法国 AI 实验室的竞争力模型
- Mixtral 8x22B 开源 MoE 模型
Qwen 2 / 2.5 系列(阿里, 2024)
- 多语言、多模态、多尺寸
- Qwen2-VL:视觉理解的领先开源 VLM
1.3 多模态突破(了解即可)
- GPT-4o:原生多模态(文本+视觉+音频)
- Gemini 1.5 Pro:100 万 token 上下文窗口
- Stable Diffusion 3 / FLUX:图像生成质量飞跃
- Sora:OpenAI 视频生成模型(虽未公开发布但引发巨大关注)
1.4 偏好优化进展(重点读)
- DPO 成为标配:几乎所有主流模型都采用 DPO 或其变体
- 自奖励模型(Self-Rewarding LMs):Meta 提出,模型自己生成偏好数据
- ORPO / SimPO / KTO:DPO 的多种改进变体
二、2025 年度重大突破(截至 4 月)
2.1 推理模型民主化(重点读)
DeepSeek-R1(2025.1)
- 开源推理模型,性能比肩 o1
- 纯 RL 训练(GRPO),无需推理 SFT
- 模型自发涌现推理行为("顿悟时刻")
- 提供蒸馏版本(1.5B-70B)
OpenAI o3 / o4-mini(2025)
- 推理能力进一步提升
- 更高效的小型推理模型
2.2 基座模型进展(重点读)
DeepSeek-V3(2024.12-2025.1)
- 671B MoE,训练成本极低(约 550 万美元)
- 性能媲美 GPT-4o 和 Claude 3.5 Sonnet
- MLA(Multi-head Latent Attention)+ DeepSeekMoE
Claude 4 / Claude Opus 4(Anthropic, 2025)
- Anthropic 最新旗舰模型
- 增强的推理、编码和工具调用能力
Gemini 2.0 / 2.5(Google, 2025)
- 原生多模态 + Agent 能力
- 2.5 Pro:1M token 上下文 + 强推理
- Flash 系列:高效率推理
GPT-4.5 / GPT-5(OpenAI, 2025)
- 推理和多模态能力持续提升
2.3 Agent 系统进展(重点读)
- Deep Research:OpenAI 和 Google 都推出自主浏览网络的深度研究 Agent
- Computer Use Agent:Anthropic Claude 可操作桌面应用
- 编码 Agent:Devin、Claude Code、Cursor 等自主编程工具
- Multi-Agent 框架:AutoGen、CrewAI、LangGraph 等
2.4 基础设施与推理优化(了解即可)
- NVIDIA Blackwell B200:新一代 GPU
- vLLM / SGLang:开源推理引擎快速迭代
- FP8 / FP4 量化:更低精度、更快推理
三、2026 年展望(暂不深挖)
- Agent 生态成熟:更多生产级 Agent 应用
- 具身 AI:LLM 控制的机器人
- 实时多模态交互:语音+视觉+行动的实时交互
- 安全与监管:AI 安全框架和法规进一步完善
- 数据墙应对:合成数据和高效训练策略
四、研究优先级分类
| 优先级 | 主题 | 理由 |
|---|---|---|
| 重点读 | 推理模型(o1/R1/o3) | 新范式,影响深远 |
| 重点读 | GRPO/强化学习推理 | 开源推理训练方法 |
| 重点读 | Agent 系统 | 下一波应用浪潮 |
| 重点读 | DPO 及变体 | 对齐训练的标配 |
| 了解即可 | 多模态融合 | 快速发展但非核心 |
| 了解即可 | 视频生成 | 技术炫但实际应用有限 |
| 暂不深挖 | 具身 AI / 机器人 | 早期阶段 |
| 暂不深挖 | 量子+AI | 过于前沿 |