先说结论

奖励模型（RM）是将 (prompt, response) 映射为标量偏好分数的模型，偏好数据是人类对多个回复的排序信号。

为什么我会单独记这一篇

RLHF 需要一个可微分的信号来指导策略模型的优化。人类偏好是定性的（"A 比 B 好"），而 RM 将其转化为定量的标量分数，使得梯度优化成为可能。

先把核心脉络捋清楚

Bradley-Terry 偏好模型

$P(y_w \succ y_l \mid x) = \sigma\big(r_\phi(x, y_w) - r_\phi(x, y_l)\big)$

RM 训练损失：

$\mathcal{L}_{\text{RM}}(\phi) = -\mathbb{E}_{(x, y_w, y_l)} \Big[\log \sigma\big(r_\phi(x, y_w) - r_\phi(x, y_l)\big)\Big]$

模型架构

以 SFT 模型为骨干（去除 LM 头）
添加标量输出头
取最后一个 token 的隐状态 → 标量奖励

偏好数据格式

{
  "prompt": "解释量子纠缠。",
  "chosen": "量子纠缠是两个粒子之间的特殊关联...（高质量）",
  "rejected": "量子纠缠就是两个东西连在一起...（低质量）"
}

收集流程

Prompt 采样 → 2. 多回复生成 → 3. 人类排序 → 4. 构造 pairwise 对

设计时真正要权衡什么

取舍	分析
标注者多样性 vs 一致性	多样性减少偏差但降低一致性
On-policy vs Off-policy 采样	On-policy 更准确但成本高
RM 规模	太小分辨力不够，太大成本过高

容易踩的坑

Reward Hacking：策略模型利用 RM 盲区获得虚假高分
长度偏差：RM 偏好更长的回复
风格偏差：RM 偏好特定写作风格而非内容质量
分布偏移：训练 RM 时的数据分布与实际推理时的分布不一致

如果要对外讲，可以怎么概括

"奖励模型的核心是 Bradley-Terry 偏好模型，将人类对回复的偏好排序转化为可微分的标量分数。RM 用 SFT 模型做骨干，加一个标量输出头。训练数据是人类排序的回复对。最大挑战是 reward hacking——策略模型可能找到 RM 的盲区。缓解手段包括 KL 惩罚、迭代 RM 训练和 RM 集成。"

最后记几条

RM 基于 Bradley-Terry 模型： $P(y_w \succ y_l) = \sigma(r_w - r_l)$
偏好数据格式：三元组 (prompt, chosen, rejected)
Reward Hacking 是最大挑战
2024 趋势：LLM-as-Judge 替代部分人工标注
Process Reward Model (PRM) 是前沿方向

参考资料

InstructGPT (Ouyang et al., 2022)
HuggingFace TRL RewardTrainer 文档
LLM-as-Judge (Zheng et al., 2023)

奖励模型与偏好数据