2025年11月29日

Reasoning 与 RL 训练

推理任务的强化学习训练是指通过奖励信号(如数学题的对错、代码是否通过测试)优化大语言模型的推理策略,使其学会生成更高质量的多步推理过程,核心方法包括 PPO、GRPO 和 Process Reward Model(PRM)。

知识库大模型训练与对齐llmalignment

Reasoning 与 RL 训练

先说结论

推理任务的强化学习训练是指通过奖励信号(如数学题的对错、代码是否通过测试)优化大语言模型的推理策略,使其学会生成更高质量的多步推理过程,核心方法包括 PPO、GRPO 和 Process Reward Model(PRM)。

先把核心脉络捋清楚

RL 训练方法对比

维度 PPO GRPO DPO
是否需要 Critic 网络
是否需要 Reward Model 是(可用规则替代) 否(隐式学习)
训练稳定性 中等,需仔细调参 较高,组内相对比较 高,但上限有限
计算开销 高(actor + critic + reward) 中(仅 actor + reward) 低(只需策略模型)
适用场景 通用对齐 推理任务(有明确对错) 偏好学习
代表应用 InstructGPT, ChatGPT DeepSeek-R1 LLaMA 2 Chat

奖励模型对比

类型 描述 优势 劣势
ORM(Outcome RM) 只评价最终答案 标注成本低 无法区分好的过程 + 错误结果 vs 全错
PRM(Process RM) 评价每一步推理 精细监督,减少奖励作弊 标注成本高,需步骤级标注
规则型奖励 程序判断对错(如代码执行) 完全客观,无作弊 仅适用于可验证任务

原理/机制

1. PPO(Proximal Policy Optimization)

PPO 是 RLHF 的标准算法(Schulman et al., 2017),在 InstructGPT 和 ChatGPT 中使用:

  1. 采样:当前策略模型为每个 prompt 生成多个回复
  2. 评分:Reward Model 对每个回复打分
  3. 优势估计:Critic 网络预测每个状态的价值,优势 = 实际奖励 - 预期价值
  4. 策略更新:用 clipped surrogate objective 更新策略,限制每步更新幅度

关键问题:Critic 网络的参数量与策略模型相当,训练成本翻倍;Critic 和 Reward Model 都可能不准确,误差叠加。

2. GRPO(Group Relative Policy Optimization)

GRPO(DeepSeek, 2025)是专为推理任务设计的 RL 算法:

  1. 组内采样:对每个 prompt,策略模型生成一组回复(如 16 个)
  2. 奖励评分:对每个回复打分(可用规则奖励,如数学题对错)
  3. 组内归一化:计算组内奖励的均值和标准差,将每个回复的奖励归一化为相对优势
  4. 策略更新:用 PPO 式的 clipped objective 更新,但优势来自组内比较

核心洞察:不需要 Critic 网络预测"这个回复比平均水平好多少",直接在同一 prompt 的多个回复之间比较就行。

GRPO vs PPO 的本质区别

  • PPO 用绝对优势(vs Critic 预测值)
  • GRPO 用相对优势(vs 组内其他回复)
  • GRPO 省掉了 Critic,计算量减半

3. Process Reward Model(PRM)

PRM(Lightman et al., 2023, "Let's Verify Step by Step")对推理的每一步打分:

  1. 步骤切分:将模型的推理过程切分为多个步骤
  2. 步骤标注:人工或自动标注每步的正确性(PRM800K 数据集:80 万条步骤级标注)
  3. 训练 PRM:训练一个模型对每个步骤预测正确概率
  4. 使用 PRM:在 RL 训练中作为细粒度奖励信号,或在推理时用于 Best-of-N 筛选

PRM 的关键优势:能区分"正确的过程但最后算错了"和"全错",提供更精细的学习信号。

4. DeepSeek-R1 的训练流程

阶段 方法 目的
阶段 1:冷启动 少量高质量 CoT SFT 稳定 RL 训练的起点
阶段 2:推理 RL GRPO + 规则奖励 学习推理策略
阶段 3:拒绝采样 + SFT 采样优质推理数据 + 全场景 SFT 扩展到非推理任务
阶段 4:全场景 RL GRPO + 多种奖励 优化整体有用性和安全性

5. R1-Zero 的自发涌现

R1-Zero 最令人震惊的发现:直接在 base model(DeepSeek-V3)上做大规模 RL,不用任何 SFT,模型自发涌现出:

  • 自我验证(self-verification)
  • 回溯和修正(backtracking)
  • 反思性思考(reflective thinking)
  • 自发地将思考时间分配给更难的问题

这证明:推理行为不一定需要从人类思维链中学习,RL 可以自发发现有效的推理策略。

设计时真正要权衡什么

  1. 规则奖励 vs 神经奖励模型:规则奖励(如代码执行、数学验算)完全客观但仅限可验证任务;神经 RM 通用但可能被利用(reward hacking)。
  2. PRM vs ORM:PRM 提供更精细信号但标注成本高、训练复杂;ORM 简单但可能忽略好的推理过程。
  3. 冷启动 vs 纯 RL:R1(有冷启动)比 R1-Zero(纯 RL)更稳定、性能更好,但 R1-Zero 的科学价值更大。
  4. 组大小(Group Size):GRPO 中每组采样更多回复 → 更准确的相对优势 → 但计算成本更高。典型值 8-16。
  5. RL 训练的长度:RL 训练过久可能导致推理退化或"过度优化"奖励信号,需要监控泛化能力。

容易踩的坑

  1. Reward Hacking(奖励作弊):模型学会利用奖励模型的漏洞而非真正解决问题。例如:学会生成看似正确但实际错误的推理过程来骗取高分。
  2. 长度膨胀(Length Exploitation):模型发现生成更长的回答容易获得更高奖励,产生冗长无意义的推理。
  3. Critic 不准确导致训练不稳定(PPO):Critic 网络的价值估计不准会引入高方差,导致训练震荡。
  4. 语言混合(R1-Zero 已知问题):RL 训练中模型的思维链在多种语言之间跳转,影响推理质量和可读性。
  5. 灾难性遗忘:RL 训练过度专注于推理任务,丧失对话、写作等通用能力。

工程落地时我会怎么做

  1. 优先使用规则奖励:对于数学、编程等可验证任务,规则奖励 > 神经 RM,完全消除 reward hacking。
  2. GRPO 替代 PPO:对于推理训练场景,GRPO 更简单、更稳定、更省计算。
  3. 多阶段训练:SFT 冷启动 → 推理 RL → 全场景 RL,分阶段递进比一步到位更稳定。
  4. KL 散度控制:RL 训练时限制策略模型与参考模型的偏离程度,防止过度优化。
  5. 推理长度自适应:训练模型学会根据问题难度自动调整推理长度,而非盲目延长。

如果要对外讲,可以怎么概括

"推理任务的 RL 训练核心挑战是如何给出正确的学习信号。传统 PPO 需要 actor + critic + reward model 三套模型,又贵又不稳定。DeepSeek-R1 提出的 GRPO 用一个巧妙的方法绕过了 critic:对同一个问题生成一组回复,直接在组内做相对比较作为优势估计,计算量直接减半。另一个重要方向是 Process Reward Model(PRM),它对推理的每一步打分而不是只看最终答案,能区分'过程对了但结论错了'和'全错'。DeepSeek-R1-Zero 最震撼的发现是:纯 RL 训练(不用任何人类思维链数据)可以自发涌现出自我验证、回溯等推理行为,说明推理能力不是必须从人类示范中学习的。"

最后记几条

  1. GRPO 用组内相对比较替代 Critic:推理 RL 训练的最重要简化,已成为主流方法。
  2. 规则奖励 > 神经 RM:对可验证任务,用代码执行或数学验算做奖励信号最可靠。
  3. PRM 提供步骤级监督:比 ORM 更精细,是推理训练的未来方向。
  4. R1-Zero 证明推理可以涌现:纯 RL 不需要人类 CoT 数据就能学会推理。
  5. Reward Hacking 是最大敌人:模型会利用奖励信号的任何漏洞,必须持续监控。

参考资料

  • Proximal Policy Optimization Algorithms (Schulman et al., 2017)
  • Training language models to follow instructions with human feedback (InstructGPT, Ouyang et al., 2022)
  • Let's Verify Step by Step (Lightman et al., 2023)
  • DeepSeek-R1 Technical Report (arXiv:2501.12948, 2025)
  • Math-Shepherd: Verify and Reinforce LLMs Step-by-step (Wang et al., 2024)
  • PRM vs ORM comparison studies (Snell et al., 2024)
  • STaR: Self-Taught Reasoner (Zelikman et al., 2022)

延伸阅读