先说结论

结果奖励只评估最终答案是否正确，过程奖励则逐步评估推理链中每一步的质量；两者的核心差异在于奖励信号的粒度和信用分配能力。

为什么我会单独记这一篇

在数学、代码、证明和长链推理任务里，只看最终答案会遇到几个问题：

最终答对了，但中间过程可能充满错误或偶然碰对。
最终答错了，很难知道究竟是哪一步开始偏离。
奖励信号太稀疏，不利于训练推理能力。

因此，过程奖励与结果奖励的核心问题是：我们到底希望模型学会“最后答对”，还是“沿着更可靠的路径答对”。

先把核心脉络捋清楚

ORM：Outcome Reward Model / 结果奖励

对整条回答给一个整体分数。
常见标准是最终结果是否正确、是否符合偏好、是否满足任务目标。
优点：
- 标注简单
- 训练成本低
- 适合很多非推理型任务
缺点：
- 信号稀疏
- 无法精确定位错误步骤
- 容易奖励“碰巧答对”

PRM：Process Reward Model / 过程奖励

对每个推理步骤或中间状态打分。
关注的是每一步是否合理、是否朝正确方向推进。
优点：
- 奖励更密集
- 信用分配更清晰
- 更适合复杂推理任务
缺点：
- 标注和构建成本高
- 需要定义“什么是好步骤”
- 推理路径本身可能并不唯一

对比表

维度	ORM	PRM
奖励粒度	整体一个分数	每步一个分数
信号密度	稀疏	密集
信用分配	弱	强
标注成本	低	高
适合任务	通用问答、偏好排序	数学、代码、长链推理
风险	奖励偶然正确	奖励设计复杂、路径偏见

原理 / 数学直觉

如果只给最终结果打分，训练时模型只能知道“整条回答整体好不好”，却不知道：

哪一步是关键错误
哪一步值得保留
哪一步虽然最后没用上，但方向其实是对的

这就是信用分配问题。PRM 相当于把一个长期回报问题拆成更细粒度的局部监督，使模型更容易学到“怎样一步步逼近正确答案”。

为什么 PRM 在难题上更有优势

问题越难、推理链越长，单个最终结果就越不够用。因为：

长链任务里错误会逐步积累
单次 outcome 很难告诉模型“哪里出了问题”
高质量的中间步骤往往比最终结果本身更稳定

这也是为什么 OpenAI 的 Let’s Verify Step by Step 强调逐步验证在复杂数学任务上更有效。

典型应用

Best-of-N 采样

先生成多个候选推理链。
用 ORM 只能选最终看起来最好的。
用 PRM 可以沿步骤质量筛选更稳定的解。

Beam Search / Tree Search

PRM 能在中间节点进行剪枝。
这让搜索不只是看最后结果，而是看“当前这条路径是否还值得继续扩展”。

推理强化学习

ORM 提供终局奖励。
PRM 提供密集奖励。
在工程上，很多系统会混合使用二者：过程奖励稳定训练，结果奖励保证最终目标一致。

设计时真正要权衡什么

最终正确性 vs 过程可解释性：ORM 更直接，PRM 更细致。
标注成本 vs 推理收益：PRM 效果更强，但数据更贵。
路径唯一性 vs 多样性：有些题目不止一种好路径，PRM 设计不能过度僵化。
自动标注 vs 人工标注：自动化可扩展，但噪声更大。

容易踩的坑

把错误但“像样”的中间步骤奖励过高。
过程奖励过于模板化，压制模型探索不同解法。
只做 PRM，不看最终结果，导致模型过程漂亮但答案没完成。
自动构造的过程标签噪声过大，反而误导训练。
在不需要复杂推理的任务上滥用 PRM，投入产出比低。

工程落地时我会怎么做

对数学、代码、符号推理任务优先考虑 PRM。
对一般客服、摘要、写作任务，ORM 往往已经足够。
最稳妥的方案通常是 PRM + ORM 混合，而不是二选一。
对 PRM 数据要特别重视标注一致性和路径多样性。
把 PRM 不只用于训练，也用于 test-time reranking 和搜索剪枝。

如果要对外讲，可以怎么概括

“结果奖励只告诉模型最后对不对，过程奖励则告诉模型每一步好不好。两者最大的区别在于信用分配。对于数学和代码这类长链推理任务，PRM 的价值很大，因为它能定位错误步骤、提供更密集的信号，并支持搜索和 reranking。但 PRM 成本更高，所以工程上常见做法是把过程奖励和结果奖励结合起来。”

最后记几条

ORM 信号稀疏，PRM 信号密集。
PRM 的核心价值是更强的信用分配。
难题越复杂，PRM 的优势通常越明显。
PRM 不只用于训练，也适合 test-time rerank。
工业实践里，PRM 和 ORM 往往是组合关系。

参考资料

Let’s Verify Step by Step (Lightman et al., 2024)
PRM800K (OpenAI)
Math-Shepherd (Wang et al., 2024)

过程奖励与结果奖励