先说结论
奖励模型(RM)是将 (prompt, response) 映射为标量偏好分数的模型,偏好数据是人类对多个回复的排序信号。
为什么我会单独记这一篇
RLHF 需要一个可微分的信号来指导策略模型的优化。人类偏好是定性的("A 比 B 好"),而 RM 将其转化为定量的标量分数,使得梯度优化成为可能。
先把核心脉络捋清楚
Bradley-Terry 偏好模型
RM 训练损失:
模型架构
- 以 SFT 模型为骨干(去除 LM 头)
- 添加标量输出头
- 取最后一个 token 的隐状态 → 标量奖励
偏好数据格式
{
"prompt": "解释量子纠缠。",
"chosen": "量子纠缠是两个粒子之间的特殊关联...(高质量)",
"rejected": "量子纠缠就是两个东西连在一起...(低质量)"
}
收集流程
- Prompt 采样 → 2. 多回复生成 → 3. 人类排序 → 4. 构造 pairwise 对
设计时真正要权衡什么
| 取舍 | 分析 |
|---|---|
| 标注者多样性 vs 一致性 | 多样性减少偏差但降低一致性 |
| On-policy vs Off-policy 采样 | On-policy 更准确但成本高 |
| RM 规模 | 太小分辨力不够,太大成本过高 |
容易踩的坑
- Reward Hacking:策略模型利用 RM 盲区获得虚假高分
- 长度偏差:RM 偏好更长的回复
- 风格偏差:RM 偏好特定写作风格而非内容质量
- 分布偏移:训练 RM 时的数据分布与实际推理时的分布不一致
如果要对外讲,可以怎么概括
"奖励模型的核心是 Bradley-Terry 偏好模型,将人类对回复的偏好排序转化为可微分的标量分数。RM 用 SFT 模型做骨干,加一个标量输出头。训练数据是人类排序的回复对。最大挑战是 reward hacking——策略模型可能找到 RM 的盲区。缓解手段包括 KL 惩罚、迭代 RM 训练和 RM 集成。"
最后记几条
- RM 基于 Bradley-Terry 模型:
- 偏好数据格式:三元组 (prompt, chosen, rejected)
- Reward Hacking 是最大挑战
- 2024 趋势:LLM-as-Judge 替代部分人工标注
- Process Reward Model (PRM) 是前沿方向
延伸阅读
-
PPO训练细节 — RM 如何被用于 PPO 训练
-
偏好优化DPO_GRPO — DPO 绕过了 RM 训练
-
过程奖励与结果奖励 — PRM vs ORM
参考资料
- InstructGPT (Ouyang et al., 2022)
- HuggingFace TRL RewardTrainer 文档
- LLM-as-Judge (Zheng et al., 2023)