2025年10月13日

奖励模型与偏好数据

奖励模型(RM)是将 (prompt, response) 映射为标量偏好分数的模型,偏好数据是人类对多个回复的排序信号。

知识库大模型训练与对齐llmmodelalignmentreward-model

先说结论

奖励模型(RM)是将 (prompt, response) 映射为标量偏好分数的模型,偏好数据是人类对多个回复的排序信号。

为什么我会单独记这一篇

RLHF 需要一个可微分的信号来指导策略模型的优化。人类偏好是定性的("A 比 B 好"),而 RM 将其转化为定量的标量分数,使得梯度优化成为可能。

先把核心脉络捋清楚

Bradley-Terry 偏好模型

P(ywylx)=σ(rϕ(x,yw)rϕ(x,yl))P(y_w \succ y_l \mid x) = \sigma\big(r_\phi(x, y_w) - r_\phi(x, y_l)\big)

RM 训练损失:

LRM(ϕ)=E(x,yw,yl)[logσ(rϕ(x,yw)rϕ(x,yl))]\mathcal{L}_{\text{RM}}(\phi) = -\mathbb{E}_{(x, y_w, y_l)} \Big[\log \sigma\big(r_\phi(x, y_w) - r_\phi(x, y_l)\big)\Big]

模型架构

  • 以 SFT 模型为骨干(去除 LM 头)
  • 添加标量输出头
  • 取最后一个 token 的隐状态 → 标量奖励

偏好数据格式

{
  "prompt": "解释量子纠缠。",
  "chosen": "量子纠缠是两个粒子之间的特殊关联...(高质量)",
  "rejected": "量子纠缠就是两个东西连在一起...(低质量)"
}

收集流程

  1. Prompt 采样 → 2. 多回复生成 → 3. 人类排序 → 4. 构造 pairwise 对

设计时真正要权衡什么

取舍 分析
标注者多样性 vs 一致性 多样性减少偏差但降低一致性
On-policy vs Off-policy 采样 On-policy 更准确但成本高
RM 规模 太小分辨力不够,太大成本过高

容易踩的坑

  1. Reward Hacking:策略模型利用 RM 盲区获得虚假高分
  2. 长度偏差:RM 偏好更长的回复
  3. 风格偏差:RM 偏好特定写作风格而非内容质量
  4. 分布偏移:训练 RM 时的数据分布与实际推理时的分布不一致

如果要对外讲,可以怎么概括

"奖励模型的核心是 Bradley-Terry 偏好模型,将人类对回复的偏好排序转化为可微分的标量分数。RM 用 SFT 模型做骨干,加一个标量输出头。训练数据是人类排序的回复对。最大挑战是 reward hacking——策略模型可能找到 RM 的盲区。缓解手段包括 KL 惩罚、迭代 RM 训练和 RM 集成。"

最后记几条

  1. RM 基于 Bradley-Terry 模型:P(ywyl)=σ(rwrl)P(y_w \succ y_l) = \sigma(r_w - r_l)
  2. 偏好数据格式:三元组 (prompt, chosen, rejected)
  3. Reward Hacking 是最大挑战
  4. 2024 趋势:LLM-as-Judge 替代部分人工标注
  5. Process Reward Model (PRM) 是前沿方向

延伸阅读

参考资料

  • InstructGPT (Ouyang et al., 2022)
  • HuggingFace TRL RewardTrainer 文档
  • LLM-as-Judge (Zheng et al., 2023)