先说结论
结果奖励只评估最终答案是否正确,过程奖励则逐步评估推理链中每一步的质量;两者的核心差异在于奖励信号的粒度和信用分配能力。
为什么我会单独记这一篇
在数学、代码、证明和长链推理任务里,只看最终答案会遇到几个问题:
- 最终答对了,但中间过程可能充满错误或偶然碰对。
- 最终答错了,很难知道究竟是哪一步开始偏离。
- 奖励信号太稀疏,不利于训练推理能力。
因此,过程奖励与结果奖励的核心问题是:我们到底希望模型学会“最后答对”,还是“沿着更可靠的路径答对”。
先把核心脉络捋清楚
ORM:Outcome Reward Model / 结果奖励
- 对整条回答给一个整体分数。
- 常见标准是最终结果是否正确、是否符合偏好、是否满足任务目标。
- 优点:
- 标注简单
- 训练成本低
- 适合很多非推理型任务
- 缺点:
- 信号稀疏
- 无法精确定位错误步骤
- 容易奖励“碰巧答对”
PRM:Process Reward Model / 过程奖励
- 对每个推理步骤或中间状态打分。
- 关注的是每一步是否合理、是否朝正确方向推进。
- 优点:
- 奖励更密集
- 信用分配更清晰
- 更适合复杂推理任务
- 缺点:
- 标注和构建成本高
- 需要定义“什么是好步骤”
- 推理路径本身可能并不唯一
对比表
| 维度 | ORM | PRM |
|---|---|---|
| 奖励粒度 | 整体一个分数 | 每步一个分数 |
| 信号密度 | 稀疏 | 密集 |
| 信用分配 | 弱 | 强 |
| 标注成本 | 低 | 高 |
| 适合任务 | 通用问答、偏好排序 | 数学、代码、长链推理 |
| 风险 | 奖励偶然正确 | 奖励设计复杂、路径偏见 |
原理 / 数学直觉
如果只给最终结果打分,训练时模型只能知道“整条回答整体好不好”,却不知道:
- 哪一步是关键错误
- 哪一步值得保留
- 哪一步虽然最后没用上,但方向其实是对的
这就是信用分配问题。PRM 相当于把一个长期回报问题拆成更细粒度的局部监督,使模型更容易学到“怎样一步步逼近正确答案”。
为什么 PRM 在难题上更有优势
问题越难、推理链越长,单个最终结果就越不够用。因为:
- 长链任务里错误会逐步积累
- 单次 outcome 很难告诉模型“哪里出了问题”
- 高质量的中间步骤往往比最终结果本身更稳定
这也是为什么 OpenAI 的 Let’s Verify Step by Step 强调逐步验证在复杂数学任务上更有效。
典型应用
Best-of-N 采样
- 先生成多个候选推理链。
- 用 ORM 只能选最终看起来最好的。
- 用 PRM 可以沿步骤质量筛选更稳定的解。
Beam Search / Tree Search
- PRM 能在中间节点进行剪枝。
- 这让搜索不只是看最后结果,而是看“当前这条路径是否还值得继续扩展”。
推理强化学习
- ORM 提供终局奖励。
- PRM 提供密集奖励。
- 在工程上,很多系统会混合使用二者:过程奖励稳定训练,结果奖励保证最终目标一致。
设计时真正要权衡什么
- 最终正确性 vs 过程可解释性:ORM 更直接,PRM 更细致。
- 标注成本 vs 推理收益:PRM 效果更强,但数据更贵。
- 路径唯一性 vs 多样性:有些题目不止一种好路径,PRM 设计不能过度僵化。
- 自动标注 vs 人工标注:自动化可扩展,但噪声更大。
容易踩的坑
- 把错误但“像样”的中间步骤奖励过高。
- 过程奖励过于模板化,压制模型探索不同解法。
- 只做 PRM,不看最终结果,导致模型过程漂亮但答案没完成。
- 自动构造的过程标签噪声过大,反而误导训练。
- 在不需要复杂推理的任务上滥用 PRM,投入产出比低。
工程落地时我会怎么做
- 对数学、代码、符号推理任务优先考虑 PRM。
- 对一般客服、摘要、写作任务,ORM 往往已经足够。
- 最稳妥的方案通常是 PRM + ORM 混合,而不是二选一。
- 对 PRM 数据要特别重视标注一致性和路径多样性。
- 把 PRM 不只用于训练,也用于 test-time reranking 和搜索剪枝。
如果要对外讲,可以怎么概括
“结果奖励只告诉模型最后对不对,过程奖励则告诉模型每一步好不好。两者最大的区别在于信用分配。对于数学和代码这类长链推理任务,PRM 的价值很大,因为它能定位错误步骤、提供更密集的信号,并支持搜索和 reranking。但 PRM 成本更高,所以工程上常见做法是把过程奖励和结果奖励结合起来。”
最后记几条
- ORM 信号稀疏,PRM 信号密集。
- PRM 的核心价值是更强的信用分配。
- 难题越复杂,PRM 的优势通常越明显。
- PRM 不只用于训练,也适合 test-time rerank。
- 工业实践里,PRM 和 ORM 往往是组合关系。
延伸阅读
-
GRPO与推理训练 — 推理训练中的奖励设计
-
推理RL训练 — 推理 RL 前沿
-
偏好优化DPO_GRPO — 偏好优化与过程优化的关系
参考资料
- Let’s Verify Step by Step (Lightman et al., 2024)
- PRM800K (OpenAI)
- Math-Shepherd (Wang et al., 2024)