先说结论
GRPO 用组内相对奖励替代价值函数,是 DeepSeek-R1 等推理模型的核心训练方法。
先把核心脉络捋清楚
GRPO vs PPO
| 维度 | PPO | GRPO |
|---|---|---|
| Critic | 需要 | 不需要 |
| 优势估计 | GAE | 组内标准化 |
| 模型数 | 4 | 2 |
| 显存 | 极高 | 中 |
GRPO 流程
1. 采样 prompt x
2. 为同一 x 生成 G 个回复
3. 奖励函数打分 {r_1, ..., r_G}
4. 组内标准化:Â_i = (r_i - mean) / std
5. PPO 式 clipped 更新
DeepSeek-R1 多阶段训练
- 冷启动 SFT:少量 CoT 示例
- 大规模 GRPO:数学/代码任务 + 规则奖励
- 拒绝采样 + SFT:恢复通用能力
- 全场景 GRPO:综合对齐
R1-Zero 的涌现
直接在基础模型上应用 GRPO(无 SFT),模型自发涌现出 CoT 推理和自我纠错能力。
如果要对外讲,可以怎么概括
"GRPO 是 DeepSeek-R1 的核心创新。它用组内相对奖励替代了 PPO 中的价值函数,将模型数从 4 降到 2。关键洞察是推理任务有客观正确答案,可以用规则验证器作奖励,不需要人类偏好。R1-Zero 更惊人的发现是:纯 RL 就能诱导出推理能力,无需显式教授。"
最后记几条
- GRPO 不需要 Critic,显存减半
- 组内标准化替代 GAE
- 推理任务可用规则奖励(代码测试、数学验证)
- R1-Zero:纯 RL 涌现推理能力
- TRL 的 GRPOTrainer 可直接使用
延伸阅读
参考资料
- DeepSeek-R1 (2025) — arxiv.org/abs/2501.12948
- HuggingFace TRL GRPOTrainer