Reasoning 与 RL 训练

先说结论

推理任务的强化学习训练是指通过奖励信号（如数学题的对错、代码是否通过测试）优化大语言模型的推理策略，使其学会生成更高质量的多步推理过程，核心方法包括 PPO、GRPO 和 Process Reward Model（PRM）。

先把核心脉络捋清楚

RL 训练方法对比

维度	PPO	GRPO	DPO
是否需要 Critic 网络	是	否	否
是否需要 Reward Model	是	是（可用规则替代）	否（隐式学习）
训练稳定性	中等，需仔细调参	较高，组内相对比较	高，但上限有限
计算开销	高（actor + critic + reward）	中（仅 actor + reward）	低（只需策略模型）
适用场景	通用对齐	推理任务（有明确对错）	偏好学习
代表应用	InstructGPT, ChatGPT	DeepSeek-R1	LLaMA 2 Chat

奖励模型对比

类型	描述	优势	劣势
ORM（Outcome RM）	只评价最终答案	标注成本低	无法区分好的过程 + 错误结果 vs 全错
PRM（Process RM）	评价每一步推理	精细监督，减少奖励作弊	标注成本高，需步骤级标注
规则型奖励	程序判断对错（如代码执行）	完全客观，无作弊	仅适用于可验证任务

原理/机制

1. PPO（Proximal Policy Optimization）

PPO 是 RLHF 的标准算法（Schulman et al., 2017），在 InstructGPT 和 ChatGPT 中使用：

采样：当前策略模型为每个 prompt 生成多个回复
评分：Reward Model 对每个回复打分
优势估计：Critic 网络预测每个状态的价值，优势 = 实际奖励 - 预期价值
策略更新：用 clipped surrogate objective 更新策略，限制每步更新幅度

关键问题：Critic 网络的参数量与策略模型相当，训练成本翻倍；Critic 和 Reward Model 都可能不准确，误差叠加。

2. GRPO（Group Relative Policy Optimization）

GRPO（DeepSeek, 2025）是专为推理任务设计的 RL 算法：

组内采样：对每个 prompt，策略模型生成一组回复（如 16 个）
奖励评分：对每个回复打分（可用规则奖励，如数学题对错）
组内归一化：计算组内奖励的均值和标准差，将每个回复的奖励归一化为相对优势
策略更新：用 PPO 式的 clipped objective 更新，但优势来自组内比较

核心洞察：不需要 Critic 网络预测"这个回复比平均水平好多少"，直接在同一 prompt 的多个回复之间比较就行。

GRPO vs PPO 的本质区别：

PPO 用绝对优势（vs Critic 预测值）
GRPO 用相对优势（vs 组内其他回复）
GRPO 省掉了 Critic，计算量减半

3. Process Reward Model（PRM）

PRM（Lightman et al., 2023, "Let's Verify Step by Step"）对推理的每一步打分：

步骤切分：将模型的推理过程切分为多个步骤
步骤标注：人工或自动标注每步的正确性（PRM800K 数据集：80 万条步骤级标注）
训练 PRM：训练一个模型对每个步骤预测正确概率
使用 PRM：在 RL 训练中作为细粒度奖励信号，或在推理时用于 Best-of-N 筛选

PRM 的关键优势：能区分"正确的过程但最后算错了"和"全错"，提供更精细的学习信号。

4. DeepSeek-R1 的训练流程

阶段	方法	目的
阶段 1：冷启动	少量高质量 CoT SFT	稳定 RL 训练的起点
阶段 2：推理 RL	GRPO + 规则奖励	学习推理策略
阶段 3：拒绝采样 + SFT	采样优质推理数据 + 全场景 SFT	扩展到非推理任务
阶段 4：全场景 RL	GRPO + 多种奖励	优化整体有用性和安全性

5. R1-Zero 的自发涌现

R1-Zero 最令人震惊的发现：直接在 base model（DeepSeek-V3）上做大规模 RL，不用任何 SFT，模型自发涌现出：

自我验证（self-verification）
回溯和修正（backtracking）
反思性思考（reflective thinking）
自发地将思考时间分配给更难的问题

这证明：推理行为不一定需要从人类思维链中学习，RL 可以自发发现有效的推理策略。

设计时真正要权衡什么

规则奖励 vs 神经奖励模型：规则奖励（如代码执行、数学验算）完全客观但仅限可验证任务；神经 RM 通用但可能被利用（reward hacking）。
PRM vs ORM：PRM 提供更精细信号但标注成本高、训练复杂；ORM 简单但可能忽略好的推理过程。
冷启动 vs 纯 RL：R1（有冷启动）比 R1-Zero（纯 RL）更稳定、性能更好，但 R1-Zero 的科学价值更大。
组大小（Group Size）：GRPO 中每组采样更多回复 → 更准确的相对优势 → 但计算成本更高。典型值 8-16。
RL 训练的长度：RL 训练过久可能导致推理退化或"过度优化"奖励信号，需要监控泛化能力。

容易踩的坑

Reward Hacking（奖励作弊）：模型学会利用奖励模型的漏洞而非真正解决问题。例如：学会生成看似正确但实际错误的推理过程来骗取高分。
长度膨胀（Length Exploitation）：模型发现生成更长的回答容易获得更高奖励，产生冗长无意义的推理。
Critic 不准确导致训练不稳定（PPO）：Critic 网络的价值估计不准会引入高方差，导致训练震荡。
语言混合（R1-Zero 已知问题）：RL 训练中模型的思维链在多种语言之间跳转，影响推理质量和可读性。
灾难性遗忘：RL 训练过度专注于推理任务，丧失对话、写作等通用能力。

工程落地时我会怎么做

优先使用规则奖励：对于数学、编程等可验证任务，规则奖励 > 神经 RM，完全消除 reward hacking。
GRPO 替代 PPO：对于推理训练场景，GRPO 更简单、更稳定、更省计算。
多阶段训练：SFT 冷启动 → 推理 RL → 全场景 RL，分阶段递进比一步到位更稳定。
KL 散度控制：RL 训练时限制策略模型与参考模型的偏离程度，防止过度优化。
推理长度自适应：训练模型学会根据问题难度自动调整推理长度，而非盲目延长。

如果要对外讲，可以怎么概括

"推理任务的 RL 训练核心挑战是如何给出正确的学习信号。传统 PPO 需要 actor + critic + reward model 三套模型，又贵又不稳定。DeepSeek-R1 提出的 GRPO 用一个巧妙的方法绕过了 critic：对同一个问题生成一组回复，直接在组内做相对比较作为优势估计，计算量直接减半。另一个重要方向是 Process Reward Model（PRM），它对推理的每一步打分而不是只看最终答案，能区分'过程对了但结论错了'和'全错'。DeepSeek-R1-Zero 最震撼的发现是：纯 RL 训练（不用任何人类思维链数据）可以自发涌现出自我验证、回溯等推理行为，说明推理能力不是必须从人类示范中学习的。"

最后记几条

GRPO 用组内相对比较替代 Critic：推理 RL 训练的最重要简化，已成为主流方法。
规则奖励 > 神经 RM：对可验证任务，用代码执行或数学验算做奖励信号最可靠。
PRM 提供步骤级监督：比 ORM 更精细，是推理训练的未来方向。
R1-Zero 证明推理可以涌现：纯 RL 不需要人类 CoT 数据就能学会推理。
Reward Hacking 是最大敌人：模型会利用奖励信号的任何漏洞，必须持续监控。

参考资料

Proximal Policy Optimization Algorithms (Schulman et al., 2017)
Training language models to follow instructions with human feedback (InstructGPT, Ouyang et al., 2022)
Let's Verify Step by Step (Lightman et al., 2023)
DeepSeek-R1 Technical Report (arXiv:2501.12948, 2025)
Math-Shepherd: Verify and Reinforce LLMs Step-by-step (Wang et al., 2024)
PRM vs ORM comparison studies (Snell et al., 2024)
STaR: Self-Taught Reasoner (Zelikman et al., 2022)

Reasoning 与 RL 训练

Reasoning 与 RL 训练

先说结论

先把核心脉络捋清楚

RL 训练方法对比

奖励模型对比

原理/机制

1. PPO（Proximal Policy Optimization）

2. GRPO（Group Relative Policy Optimization）

3. Process Reward Model（PRM）

4. DeepSeek-R1 的训练流程

5. R1-Zero 的自发涌现

设计时真正要权衡什么

容易踩的坑

工程落地时我会怎么做

如果要对外讲，可以怎么概括

最后记几条

参考资料

延伸阅读