2026年4月19日

最新研究总览 2024-2026

**OpenAI o1（2024.9）**

知识库大模型总览

最新研究总览 2024-2026

一、2024 年度重大突破

1.1 推理模型诞生（重点读）

OpenAI o1（2024.9）

开创"推理时计算扩展"新范式
通过强化学习训练模型进行链式思维推理
在数学、编程、科学推理上大幅超越 GPT-4o
影响：开启了推理模型这一全新赛道

Claude 3.5 Sonnet / Haiku / Opus（Anthropic, 2024）

编码和推理能力显著提升
引入 computer use（计算机操作）能力
工具调用能力增强

1.2 开源模型飞跃（重点读）

Meta LLaMA 3 / 3.1 / 3.3（2024）

LLaMA 3.1 405B：当时最大的开源模型
8B 和 70B 版本极具竞争力
支持多语言、长上下文

Mistral Large / Small（2024）

法国 AI 实验室的竞争力模型
Mixtral 8x22B 开源 MoE 模型

Qwen 2 / 2.5 系列（阿里, 2024）

多语言、多模态、多尺寸
Qwen2-VL：视觉理解的领先开源 VLM

1.3 多模态突破（了解即可）

GPT-4o：原生多模态（文本+视觉+音频）
Gemini 1.5 Pro：100 万 token 上下文窗口
Stable Diffusion 3 / FLUX：图像生成质量飞跃
Sora：OpenAI 视频生成模型（虽未公开发布但引发巨大关注）

1.4 偏好优化进展（重点读）

DPO 成为标配：几乎所有主流模型都采用 DPO 或其变体
自奖励模型（Self-Rewarding LMs）：Meta 提出，模型自己生成偏好数据
ORPO / SimPO / KTO：DPO 的多种改进变体

二、2025 年度重大突破（截至 4 月）

2.1 推理模型民主化（重点读）

DeepSeek-R1（2025.1）

开源推理模型，性能比肩 o1
纯 RL 训练（GRPO），无需推理 SFT
模型自发涌现推理行为（"顿悟时刻"）
提供蒸馏版本（1.5B-70B）

OpenAI o3 / o4-mini（2025）

推理能力进一步提升
更高效的小型推理模型

2.2 基座模型进展（重点读）

DeepSeek-V3（2024.12-2025.1）

671B MoE，训练成本极低（约 550 万美元）
性能媲美 GPT-4o 和 Claude 3.5 Sonnet
MLA（Multi-head Latent Attention）+ DeepSeekMoE

Claude 4 / Claude Opus 4（Anthropic, 2025）

Anthropic 最新旗舰模型
增强的推理、编码和工具调用能力

Gemini 2.0 / 2.5（Google, 2025）

原生多模态 + Agent 能力
2.5 Pro：1M token 上下文 + 强推理
Flash 系列：高效率推理

GPT-4.5 / GPT-5（OpenAI, 2025）

推理和多模态能力持续提升

2.3 Agent 系统进展（重点读）

Deep Research：OpenAI 和 Google 都推出自主浏览网络的深度研究 Agent
Computer Use Agent：Anthropic Claude 可操作桌面应用
编码 Agent：Devin、Claude Code、Cursor 等自主编程工具
Multi-Agent 框架：AutoGen、CrewAI、LangGraph 等

2.4 基础设施与推理优化（了解即可）

NVIDIA Blackwell B200：新一代 GPU
vLLM / SGLang：开源推理引擎快速迭代
FP8 / FP4 量化：更低精度、更快推理

三、2026 年展望（暂不深挖）

Agent 生态成熟：更多生产级 Agent 应用
具身 AI：LLM 控制的机器人
实时多模态交互：语音+视觉+行动的实时交互
安全与监管：AI 安全框架和法规进一步完善
数据墙应对：合成数据和高效训练策略

四、研究优先级分类

优先级	主题	理由
重点读	推理模型（o1/R1/o3）	新范式，影响深远
重点读	GRPO/强化学习推理	开源推理训练方法
重点读	Agent 系统	下一波应用浪潮
重点读	DPO 及变体	对齐训练的标配
了解即可	多模态融合	快速发展但非核心
了解即可	视频生成	技术炫但实际应用有限
暂不深挖	具身 AI / 机器人	早期阶段
暂不深挖	量子+AI	过于前沿