Reasoning 与 RL 训练
先说结论
推理任务的强化学习训练是指通过奖励信号(如数学题的对错、代码是否通过测试)优化大语言模型的推理策略,使其学会生成更高质量的多步推理过程,核心方法包括 PPO、GRPO 和 Process Reward Model(PRM)。
先把核心脉络捋清楚
RL 训练方法对比
| 维度 | PPO | GRPO | DPO |
|---|---|---|---|
| 是否需要 Critic 网络 | 是 | 否 | 否 |
| 是否需要 Reward Model | 是 | 是(可用规则替代) | 否(隐式学习) |
| 训练稳定性 | 中等,需仔细调参 | 较高,组内相对比较 | 高,但上限有限 |
| 计算开销 | 高(actor + critic + reward) | 中(仅 actor + reward) | 低(只需策略模型) |
| 适用场景 | 通用对齐 | 推理任务(有明确对错) | 偏好学习 |
| 代表应用 | InstructGPT, ChatGPT | DeepSeek-R1 | LLaMA 2 Chat |
奖励模型对比
| 类型 | 描述 | 优势 | 劣势 |
|---|---|---|---|
| ORM(Outcome RM) | 只评价最终答案 | 标注成本低 | 无法区分好的过程 + 错误结果 vs 全错 |
| PRM(Process RM) | 评价每一步推理 | 精细监督,减少奖励作弊 | 标注成本高,需步骤级标注 |
| 规则型奖励 | 程序判断对错(如代码执行) | 完全客观,无作弊 | 仅适用于可验证任务 |
原理/机制
1. PPO(Proximal Policy Optimization)
PPO 是 RLHF 的标准算法(Schulman et al., 2017),在 InstructGPT 和 ChatGPT 中使用:
- 采样:当前策略模型为每个 prompt 生成多个回复
- 评分:Reward Model 对每个回复打分
- 优势估计:Critic 网络预测每个状态的价值,优势 = 实际奖励 - 预期价值
- 策略更新:用 clipped surrogate objective 更新策略,限制每步更新幅度
关键问题:Critic 网络的参数量与策略模型相当,训练成本翻倍;Critic 和 Reward Model 都可能不准确,误差叠加。
2. GRPO(Group Relative Policy Optimization)
GRPO(DeepSeek, 2025)是专为推理任务设计的 RL 算法:
- 组内采样:对每个 prompt,策略模型生成一组回复(如 16 个)
- 奖励评分:对每个回复打分(可用规则奖励,如数学题对错)
- 组内归一化:计算组内奖励的均值和标准差,将每个回复的奖励归一化为相对优势
- 策略更新:用 PPO 式的 clipped objective 更新,但优势来自组内比较
核心洞察:不需要 Critic 网络预测"这个回复比平均水平好多少",直接在同一 prompt 的多个回复之间比较就行。
GRPO vs PPO 的本质区别:
- PPO 用绝对优势(vs Critic 预测值)
- GRPO 用相对优势(vs 组内其他回复)
- GRPO 省掉了 Critic,计算量减半
3. Process Reward Model(PRM)
PRM(Lightman et al., 2023, "Let's Verify Step by Step")对推理的每一步打分:
- 步骤切分:将模型的推理过程切分为多个步骤
- 步骤标注:人工或自动标注每步的正确性(PRM800K 数据集:80 万条步骤级标注)
- 训练 PRM:训练一个模型对每个步骤预测正确概率
- 使用 PRM:在 RL 训练中作为细粒度奖励信号,或在推理时用于 Best-of-N 筛选
PRM 的关键优势:能区分"正确的过程但最后算错了"和"全错",提供更精细的学习信号。
4. DeepSeek-R1 的训练流程
| 阶段 | 方法 | 目的 |
|---|---|---|
| 阶段 1:冷启动 | 少量高质量 CoT SFT | 稳定 RL 训练的起点 |
| 阶段 2:推理 RL | GRPO + 规则奖励 | 学习推理策略 |
| 阶段 3:拒绝采样 + SFT | 采样优质推理数据 + 全场景 SFT | 扩展到非推理任务 |
| 阶段 4:全场景 RL | GRPO + 多种奖励 | 优化整体有用性和安全性 |
5. R1-Zero 的自发涌现
R1-Zero 最令人震惊的发现:直接在 base model(DeepSeek-V3)上做大规模 RL,不用任何 SFT,模型自发涌现出:
- 自我验证(self-verification)
- 回溯和修正(backtracking)
- 反思性思考(reflective thinking)
- 自发地将思考时间分配给更难的问题
这证明:推理行为不一定需要从人类思维链中学习,RL 可以自发发现有效的推理策略。
设计时真正要权衡什么
- 规则奖励 vs 神经奖励模型:规则奖励(如代码执行、数学验算)完全客观但仅限可验证任务;神经 RM 通用但可能被利用(reward hacking)。
- PRM vs ORM:PRM 提供更精细信号但标注成本高、训练复杂;ORM 简单但可能忽略好的推理过程。
- 冷启动 vs 纯 RL:R1(有冷启动)比 R1-Zero(纯 RL)更稳定、性能更好,但 R1-Zero 的科学价值更大。
- 组大小(Group Size):GRPO 中每组采样更多回复 → 更准确的相对优势 → 但计算成本更高。典型值 8-16。
- RL 训练的长度:RL 训练过久可能导致推理退化或"过度优化"奖励信号,需要监控泛化能力。
容易踩的坑
- Reward Hacking(奖励作弊):模型学会利用奖励模型的漏洞而非真正解决问题。例如:学会生成看似正确但实际错误的推理过程来骗取高分。
- 长度膨胀(Length Exploitation):模型发现生成更长的回答容易获得更高奖励,产生冗长无意义的推理。
- Critic 不准确导致训练不稳定(PPO):Critic 网络的价值估计不准会引入高方差,导致训练震荡。
- 语言混合(R1-Zero 已知问题):RL 训练中模型的思维链在多种语言之间跳转,影响推理质量和可读性。
- 灾难性遗忘:RL 训练过度专注于推理任务,丧失对话、写作等通用能力。
工程落地时我会怎么做
- 优先使用规则奖励:对于数学、编程等可验证任务,规则奖励 > 神经 RM,完全消除 reward hacking。
- GRPO 替代 PPO:对于推理训练场景,GRPO 更简单、更稳定、更省计算。
- 多阶段训练:SFT 冷启动 → 推理 RL → 全场景 RL,分阶段递进比一步到位更稳定。
- KL 散度控制:RL 训练时限制策略模型与参考模型的偏离程度,防止过度优化。
- 推理长度自适应:训练模型学会根据问题难度自动调整推理长度,而非盲目延长。
如果要对外讲,可以怎么概括
"推理任务的 RL 训练核心挑战是如何给出正确的学习信号。传统 PPO 需要 actor + critic + reward model 三套模型,又贵又不稳定。DeepSeek-R1 提出的 GRPO 用一个巧妙的方法绕过了 critic:对同一个问题生成一组回复,直接在组内做相对比较作为优势估计,计算量直接减半。另一个重要方向是 Process Reward Model(PRM),它对推理的每一步打分而不是只看最终答案,能区分'过程对了但结论错了'和'全错'。DeepSeek-R1-Zero 最震撼的发现是:纯 RL 训练(不用任何人类思维链数据)可以自发涌现出自我验证、回溯等推理行为,说明推理能力不是必须从人类示范中学习的。"
最后记几条
- GRPO 用组内相对比较替代 Critic:推理 RL 训练的最重要简化,已成为主流方法。
- 规则奖励 > 神经 RM:对可验证任务,用代码执行或数学验算做奖励信号最可靠。
- PRM 提供步骤级监督:比 ORM 更精细,是推理训练的未来方向。
- R1-Zero 证明推理可以涌现:纯 RL 不需要人类 CoT 数据就能学会推理。
- Reward Hacking 是最大敌人:模型会利用奖励信号的任何漏洞,必须持续监控。
参考资料
- Proximal Policy Optimization Algorithms (Schulman et al., 2017)
- Training language models to follow instructions with human feedback (InstructGPT, Ouyang et al., 2022)
- Let's Verify Step by Step (Lightman et al., 2023)
- DeepSeek-R1 Technical Report (arXiv:2501.12948, 2025)
- Math-Shepherd: Verify and Reinforce LLMs Step-by-step (Wang et al., 2024)
- PRM vs ORM comparison studies (Snell et al., 2024)
- STaR: Self-Taught Reasoner (Zelikman et al., 2022)