2025年4月24日

GRPO 与 Reasoning 模型后训练

GRPO 用组内相对奖励替代价值函数,是 DeepSeek-R1 等推理模型的核心训练方法。

知识库大模型训练与对齐llmmodelalignmentgrporeasoning

先说结论

GRPO 用组内相对奖励替代价值函数,是 DeepSeek-R1 等推理模型的核心训练方法。

先把核心脉络捋清楚

GRPO vs PPO

维度 PPO GRPO
Critic 需要 不需要
优势估计 GAE 组内标准化
模型数 4 2
显存 极高

GRPO 流程

1. 采样 prompt x
2. 为同一 x 生成 G 个回复
3. 奖励函数打分 {r_1, ..., r_G}
4. 组内标准化:Â_i = (r_i - mean) / std
5. PPO 式 clipped 更新

DeepSeek-R1 多阶段训练

  1. 冷启动 SFT:少量 CoT 示例
  2. 大规模 GRPO:数学/代码任务 + 规则奖励
  3. 拒绝采样 + SFT:恢复通用能力
  4. 全场景 GRPO:综合对齐

R1-Zero 的涌现

直接在基础模型上应用 GRPO(无 SFT),模型自发涌现出 CoT 推理和自我纠错能力。

如果要对外讲,可以怎么概括

"GRPO 是 DeepSeek-R1 的核心创新。它用组内相对奖励替代了 PPO 中的价值函数,将模型数从 4 降到 2。关键洞察是推理任务有客观正确答案,可以用规则验证器作奖励,不需要人类偏好。R1-Zero 更惊人的发现是:纯 RL 就能诱导出推理能力,无需显式教授。"

最后记几条

  1. GRPO 不需要 Critic,显存减半
  2. 组内标准化替代 GAE
  3. 推理任务可用规则奖励(代码测试、数学验证)
  4. R1-Zero:纯 RL 涌现推理能力
  5. TRL 的 GRPOTrainer 可直接使用

延伸阅读

参考资料

  • DeepSeek-R1 (2025) — arxiv.org/abs/2501.12948
  • HuggingFace TRL GRPOTrainer