2026年4月19日

偏好优化评测

| 方法 | 年份 | 核心思想 |

知识库大模型评测

偏好优化评测

一、偏好优化方法回顾

1.1 方法演进

方法 年份 核心思想
RLHF (PPO) 2022 训练奖励模型 + PPO 优化
DPO 2023 直接优化偏好对,无需奖励模型
IPO 2024 解决 DPO 隐式奖励模型的问题
KTO 2024 使用非配对偏好信号(赞/踩)
ORPO 2024 将 SFT 和对齐合并为一步
SimPO 2024 用长度归一化奖励简化 DPO
GRPO 2025 DeepSeek-R1 使用,无需 critic 模型

1.2 方法分类

  • 基于 RL:RLHF (PPO), GRPO
  • 基于对比学习:DPO, IPO, KTO, SimPO
  • 混合方法:ORPO (SFT+对齐), RLAIF (AI 反馈替代人类反馈)

二、偏好优化评测维度

2.1 对齐质量评测

基准 评测内容
MT-Bench 多轮对话质量(GPT-4 评分,满分10)
AlpacaEval 2.0 指令遵循(胜率%)
Chatbot Arena 人类偏好 Elo 排名
Arena Hard 高难度提示的自动评测
MixEval / MixEval-Hard 多维度综合评测

2.2 奖励模型评测

  • RewardBench:评测奖励模型在不同领域的判断能力
  • 偏好准确率:奖励模型与人类偏好的一致性
  • 校准度:奖励分数的置信度校准

2.3 安全性与有用性权衡

  • TruthfulQA:真实性评测
  • Safety 评测:有害输出率
  • HHH 评测:Helpful + Harmless + Honest 三维评分

三、偏好优化特有问题与评测

3.1 奖励黑客(Reward Hacking)

  • 模型学会利用奖励模型漏洞而非真正提升质量
  • 表现:奖励分数上升但人类评估不升反降
  • 检测:定期人工评估 + 与 Chatbot Arena 对比

3.2 长度利用(Length Exploitation)

  • DPO 训练的模型可能学会生成更长但非更好的回答
  • 原因:偏好数据中 chosen 通常比 rejected 长
  • 解决:SimPO 的长度归一化、长度惩罚

3.3 多样性丧失

  • 偏好优化可能导致输出同质化
  • 检测:测量输出分布的熵或词汇多样性

3.4 SFT 遗忘

  • 偏好优化可能遗忘 SFT 学到的能力
  • 检测:偏好优化前后在通用基准上对比

四、实验设计最佳实践

4.1 对比实验设置

基座模型 -> SFT -> DPO/RLHF -> 评测
                  |
                  +-> 仅 SFT -> 评测(对照)

4.2 关键超参数

参数 典型值 影响
beta (KL 散度系数) 0.1-0.5 控制偏离参考模型的程度
学习率 5e-7 到 5e-6 训练稳定性
偏好数据量 10K-1M 对 数据质量 > 数量

4.3 A/B 评测

  • 偏好优化后上线前必须 A/B 测试
  • 对比关键业务指标:用户满意度、任务完成率、安全性事件

五、前沿趋势(2024-2025)

  1. 迭代/在线 DPO:训练中动态生成新偏好数据
  2. 过程奖励模型(PRM):对推理的每一步打分,而非仅看最终结果
  3. 自博弈(Self-Play):模型自己生成偏好数据并自我优化
  4. AI 反馈替代人类反馈(RLAIF):降低人类标注成本
  5. 推理模型的对齐:如何对 o1/R1 这类推理模型进行偏好优化