2024年10月4日

过程奖励与结果奖励

结果奖励只评估最终答案是否正确,过程奖励则逐步评估推理链中每一步的质量;两者的核心差异在于奖励信号的粒度和信用分配能力。

知识库大模型训练与对齐llmmodelalignmentprmorm

先说结论

结果奖励只评估最终答案是否正确,过程奖励则逐步评估推理链中每一步的质量;两者的核心差异在于奖励信号的粒度和信用分配能力。

为什么我会单独记这一篇

在数学、代码、证明和长链推理任务里,只看最终答案会遇到几个问题:

  1. 最终答对了,但中间过程可能充满错误或偶然碰对。
  2. 最终答错了,很难知道究竟是哪一步开始偏离。
  3. 奖励信号太稀疏,不利于训练推理能力。

因此,过程奖励与结果奖励的核心问题是:我们到底希望模型学会“最后答对”,还是“沿着更可靠的路径答对”。

先把核心脉络捋清楚

ORM:Outcome Reward Model / 结果奖励

  • 对整条回答给一个整体分数。
  • 常见标准是最终结果是否正确、是否符合偏好、是否满足任务目标。
  • 优点:
    • 标注简单
    • 训练成本低
    • 适合很多非推理型任务
  • 缺点:
    • 信号稀疏
    • 无法精确定位错误步骤
    • 容易奖励“碰巧答对”

PRM:Process Reward Model / 过程奖励

  • 对每个推理步骤或中间状态打分。
  • 关注的是每一步是否合理、是否朝正确方向推进。
  • 优点:
    • 奖励更密集
    • 信用分配更清晰
    • 更适合复杂推理任务
  • 缺点:
    • 标注和构建成本高
    • 需要定义“什么是好步骤”
    • 推理路径本身可能并不唯一

对比表

维度 ORM PRM
奖励粒度 整体一个分数 每步一个分数
信号密度 稀疏 密集
信用分配
标注成本
适合任务 通用问答、偏好排序 数学、代码、长链推理
风险 奖励偶然正确 奖励设计复杂、路径偏见

原理 / 数学直觉

如果只给最终结果打分,训练时模型只能知道“整条回答整体好不好”,却不知道:

  • 哪一步是关键错误
  • 哪一步值得保留
  • 哪一步虽然最后没用上,但方向其实是对的

这就是信用分配问题。PRM 相当于把一个长期回报问题拆成更细粒度的局部监督,使模型更容易学到“怎样一步步逼近正确答案”。

为什么 PRM 在难题上更有优势

问题越难、推理链越长,单个最终结果就越不够用。因为:

  • 长链任务里错误会逐步积累
  • 单次 outcome 很难告诉模型“哪里出了问题”
  • 高质量的中间步骤往往比最终结果本身更稳定

这也是为什么 OpenAI 的 Let’s Verify Step by Step 强调逐步验证在复杂数学任务上更有效。

典型应用

Best-of-N 采样

  • 先生成多个候选推理链。
  • 用 ORM 只能选最终看起来最好的。
  • 用 PRM 可以沿步骤质量筛选更稳定的解。
  • PRM 能在中间节点进行剪枝。
  • 这让搜索不只是看最后结果,而是看“当前这条路径是否还值得继续扩展”。

推理强化学习

  • ORM 提供终局奖励。
  • PRM 提供密集奖励。
  • 在工程上,很多系统会混合使用二者:过程奖励稳定训练,结果奖励保证最终目标一致。

设计时真正要权衡什么

  • 最终正确性 vs 过程可解释性:ORM 更直接,PRM 更细致。
  • 标注成本 vs 推理收益:PRM 效果更强,但数据更贵。
  • 路径唯一性 vs 多样性:有些题目不止一种好路径,PRM 设计不能过度僵化。
  • 自动标注 vs 人工标注:自动化可扩展,但噪声更大。

容易踩的坑

  1. 把错误但“像样”的中间步骤奖励过高。
  2. 过程奖励过于模板化,压制模型探索不同解法。
  3. 只做 PRM,不看最终结果,导致模型过程漂亮但答案没完成。
  4. 自动构造的过程标签噪声过大,反而误导训练。
  5. 在不需要复杂推理的任务上滥用 PRM,投入产出比低。

工程落地时我会怎么做

  1. 对数学、代码、符号推理任务优先考虑 PRM。
  2. 对一般客服、摘要、写作任务,ORM 往往已经足够。
  3. 最稳妥的方案通常是 PRM + ORM 混合,而不是二选一。
  4. 对 PRM 数据要特别重视标注一致性和路径多样性。
  5. 把 PRM 不只用于训练,也用于 test-time reranking 和搜索剪枝。

如果要对外讲,可以怎么概括

“结果奖励只告诉模型最后对不对,过程奖励则告诉模型每一步好不好。两者最大的区别在于信用分配。对于数学和代码这类长链推理任务,PRM 的价值很大,因为它能定位错误步骤、提供更密集的信号,并支持搜索和 reranking。但 PRM 成本更高,所以工程上常见做法是把过程奖励和结果奖励结合起来。”

最后记几条

  1. ORM 信号稀疏,PRM 信号密集。
  2. PRM 的核心价值是更强的信用分配。
  3. 难题越复杂,PRM 的优势通常越明显。
  4. PRM 不只用于训练,也适合 test-time rerank。
  5. 工业实践里,PRM 和 ORM 往往是组合关系。

延伸阅读

参考资料

  • Let’s Verify Step by Step (Lightman et al., 2024)
  • PRM800K (OpenAI)
  • Math-Shepherd (Wang et al., 2024)