2025年4月24日

GRPO 与 Reasoning 模型后训练

GRPO 用组内相对奖励替代价值函数，是 DeepSeek-R1 等推理模型的核心训练方法。

知识库大模型训练与对齐llmmodelalignmentgrporeasoning

先说结论

GRPO 用组内相对奖励替代价值函数，是 DeepSeek-R1 等推理模型的核心训练方法。

先把核心脉络捋清楚

GRPO vs PPO

维度	PPO	GRPO
Critic	需要	不需要
优势估计	GAE	组内标准化
模型数	4	2
显存	极高	中

GRPO 流程

1. 采样 prompt x
2. 为同一 x 生成 G 个回复
3. 奖励函数打分 {r_1, ..., r_G}
4. 组内标准化：Â_i = (r_i - mean) / std
5. PPO 式 clipped 更新

DeepSeek-R1 多阶段训练

冷启动 SFT：少量 CoT 示例
大规模 GRPO：数学/代码任务 + 规则奖励
拒绝采样 + SFT：恢复通用能力
全场景 GRPO：综合对齐

R1-Zero 的涌现

直接在基础模型上应用 GRPO（无 SFT），模型自发涌现出 CoT 推理和自我纠错能力。

如果要对外讲，可以怎么概括

"GRPO 是 DeepSeek-R1 的核心创新。它用组内相对奖励替代了 PPO 中的价值函数，将模型数从 4 降到 2。关键洞察是推理任务有客观正确答案，可以用规则验证器作奖励，不需要人类偏好。R1-Zero 更惊人的发现是：纯 RL 就能诱导出推理能力，无需显式教授。"

最后记几条

GRPO 不需要 Critic，显存减半
组内标准化替代 GAE
推理任务可用规则奖励（代码测试、数学验证）
R1-Zero：纯 RL 涌现推理能力
TRL 的 GRPOTrainer 可直接使用

延伸阅读

大模型总索引
PPO训练细节 — GRPO 简化了 PPO
过程奖励与结果奖励 — 奖励粒度
推理RL训练 — 更多研究前沿

参考资料

DeepSeek-R1 (2025) — arxiv.org/abs/2501.12948
HuggingFace TRL GRPOTrainer