2023年9月20日

推理模型与 Test-Time Compute

Test-Time Compute(测试时计算)是指在推理阶段投入更多计算资源(生成更长的思维链、进行多次采样和验证),以换取模型在复杂推理任务上更优表现的技术范式,OpenAI o1/o3 和 DeepSeek-R1 是其代表性模型。

知识库大模型推理与系统inference

推理模型与 Test-Time Compute

先说结论

Test-Time Compute(测试时计算)是指在推理阶段投入更多计算资源(生成更长的思维链、进行多次采样和验证),以换取模型在复杂推理任务上更优表现的技术范式,OpenAI o1/o3 和 DeepSeek-R1 是其代表性模型。

先把核心脉络捋清楚

推理模型 vs 普通模型对比

维度 普通 LLM(如 GPT-4o) 推理模型(如 o1/o3/R1)
推理方式 直接生成回答 先内部"思考"再输出回答
输出特征 单次前向生成 包含隐藏的思维链(CoT)
计算分配 训练时投入大量计算 训练 + 推理时均可调整计算量
延迟 相对低 根据任务复杂度动态变化
强项 通用对话、写作 数学、编程、逻辑推理
计费方式 按 token 计费 按 reasoning token + 输出 token 计费

关键术语

术语 含义
Test-Time Compute 推理时投入的额外计算,用于"想更久"
Chain of Thought (CoT) 模型内部逐步推理的过程
Reasoning Token 模型在内部思维链中生成的 token
Best-of-N Sampling 生成 N 个候选答案,选最优
Reasoning Effort 用户可调节的推理计算量(低/中/高)
Cold Start RL 训练前用少量监督数据初始化模型

原理/机制

1. 从 Scaling Laws 到推理时 Scaling

经典 Scaling Laws(Kaplan et al., 2020)表明模型性能随训练计算量增长。而 test-time compute 开辟了新维度:推理时的计算量也可以作为 scaling 的维度

核心洞察:对于复杂推理任务,给模型更多"思考时间"(即更多推理 token)比简单地增大模型参数更高效。

2. OpenAI o1/o3 系列的演进

o1(2024年9月)

  • 首个大规模商业化的推理模型
  • 在数学(AIME)、编程(Codeforces)、科学推理上显著超越 GPT-4o
  • 内部使用 CoT 进行多步推理、自我验证、回溯
  • 用户无法看到完整的内部思维链

o3 / o3-mini(2024年12月 / 2025年1月)

  • o3 在 ARC-AGI 基准上取得约 87.5%(高计算模式),而 GPT-4o 仅约 5%
  • 引入可调节的 "reasoning effort"——用户可选择推理深度
  • o3-mini 提供更经济的选择,适合生产部署
  • 证明了 test-time compute scaling 可以在推理基准上实现质的飞跃

3. DeepSeek-R1 的开放突破

R1(2025年1月)

  • 基于 DeepSeek-V3 架构,通过大规模 RL 训练获得推理能力
  • 训练流程:冷启动(少量 SFT)→ 大规模 GRPO RL → 拒绝采样 + SFT → 全场景 RL
  • R1-Zero 变体:不用任何监督数据,纯 RL 训练自发涌现出 CoT 行为(自我验证、回溯、反思),证明推理能力不一定需要模仿人类思维链
  • 开放权重(1.5B 到 671B),使 o1 级推理能力民主化
  • 蒸馏出的 7B/14B/32B/70B 小模型在同类尺寸中表现领先

4. Test-Time Compute 的技术手段

方法 描述 成本
延长思维链 让模型生成更多推理步骤 线性增长
Best-of-N 多次采样选最优 N 倍推理成本
过程验证 在推理过程中用 PRM 验证每步 显著增加
搜索(Beam/Tree) 系统搜索推理路径 指数级增长
自我反思 模型回顾并修正自己的推理 适中

设计时真正要权衡什么

  1. 推理时间 vs 准确性:更多推理计算几乎总是能提升准确率,但延迟和成本也随之增加。需要根据应用场景权衡。
  2. 透明度 vs 性能:o1/o3 隐藏内部思维链(竞争壁垒),R1 开放思维链(社区友好但可能暴露训练策略)。
  3. RL vs SFT 初始化:R1-Zero 证明纯 RL 可以涌现推理,但 R1(有冷启动)性能更好、训练更稳定。
  4. 通用性 vs 专精:推理模型在数学/编程上表现卓越,但在创意写作等任务上不一定优于普通模型。
  5. 成本控制:reasoning token 的费用可以是普通 token 的数倍,大规模部署需要精细的成本管理。

容易踩的坑

  1. 过度推理(Over-Reasoning):简单问题也生成冗长的思维链,浪费计算且可能引入错误。
  2. 思维链中的幻觉:多步推理中某一步出错,错误会级联放大。模型会"合理化"错误路径。
  3. 推理预算浪费:多次采样但答案都集中在同一错误上(缺乏多样性),Best-of-N 无效。
  4. 延迟不可接受:高 reasoning effort 模式下延迟可能达到数十秒甚至分钟级,不适合实时场景。
  5. 语言混合:R1-Zero 训练中出现的已知问题——思维链中混合多种语言,影响可读性。

工程落地时我会怎么做

  1. 动态 Reasoning Effort:根据问题复杂度自动调整推理深度。简单问题用低 effort,复杂问题用高 effort。
  2. 缓存推理结果:对相似问题的推理过程进行缓存复用,避免重复计算。
  3. 结构化输出:要求模型以特定格式输出推理步骤,便于后续解析和验证。
  4. 成本监控:实时跟踪 reasoning token 使用量,设置预算上限。
  5. 混合部署:用普通模型处理简单任务,推理模型处理复杂任务,通过路由器自动分流。

如果要对外讲,可以怎么概括

"Test-time compute 是 2024-2025 年大模型领域最重要的范式转变之一。核心思想是:与其只靠训练时堆计算,不如在推理时也给模型更多'思考时间'。OpenAI o1 首次将这个概念产品化,o3 在 ARC-AGI 上从 GPT-4o 的 5% 跃升到 87.5%。DeepSeek-R1 则证明了用纯 RL(GRPO 算法)训练可以自发涌现出链式推理能力,并且开放了从 1.5B 到 671B 的全部权重。这意味着推理能力不再是大公司的专属——通过知识蒸馏,7B 模型也能有不错的推理表现。未来的方向是让模型自动判断需要多'认真思考',避免对简单问题过度推理。"

最后记几条

  1. Test-time compute 是新 scaling 维度:不只是训练时花钱,推理时也可以花钱换质量。
  2. o3 在 ARC-AGI 上的 87.5% 是该范式的里程碑式验证。
  3. DeepSeek-R1-Zero 证明纯 RL 可以涌现推理:不需要人类示范思维链。
  4. GRPO 取代 PPO:不需要 critic 网络,用组内相对奖励代替绝对价值估计,简化了训练。
  5. 推理模型不是万能的:在创意、对话等任务上不一定优于普通模型,需要按场景选择。

参考资料

  • OpenAI o1 Blog Post (2024.09)
  • OpenAI o3 & o3-mini Announcement (2024.12 / 2025.01)
  • DeepSeek-R1 Technical Report (2025.01, arXiv:2501.12948)
  • Scaling Laws for Neural Language Models (Kaplan et al., 2020)
  • Let's Verify Step by Step (Lightman et al., 2023)
  • Tree of Thoughts (Yao et al., 2023)
  • ARC Prize & ARC-AGI Benchmark (Chollet, 2019; arcprize.org)

延伸阅读