偏好优化评测
一、偏好优化方法回顾
1.1 方法演进
| 方法 |
年份 |
核心思想 |
| RLHF (PPO) |
2022 |
训练奖励模型 + PPO 优化 |
| DPO |
2023 |
直接优化偏好对,无需奖励模型 |
| IPO |
2024 |
解决 DPO 隐式奖励模型的问题 |
| KTO |
2024 |
使用非配对偏好信号(赞/踩) |
| ORPO |
2024 |
将 SFT 和对齐合并为一步 |
| SimPO |
2024 |
用长度归一化奖励简化 DPO |
| GRPO |
2025 |
DeepSeek-R1 使用,无需 critic 模型 |
1.2 方法分类
- 基于 RL:RLHF (PPO), GRPO
- 基于对比学习:DPO, IPO, KTO, SimPO
- 混合方法:ORPO (SFT+对齐), RLAIF (AI 反馈替代人类反馈)
二、偏好优化评测维度
2.1 对齐质量评测
| 基准 |
评测内容 |
| MT-Bench |
多轮对话质量(GPT-4 评分,满分10) |
| AlpacaEval 2.0 |
指令遵循(胜率%) |
| Chatbot Arena |
人类偏好 Elo 排名 |
| Arena Hard |
高难度提示的自动评测 |
| MixEval / MixEval-Hard |
多维度综合评测 |
2.2 奖励模型评测
- RewardBench:评测奖励模型在不同领域的判断能力
- 偏好准确率:奖励模型与人类偏好的一致性
- 校准度:奖励分数的置信度校准
2.3 安全性与有用性权衡
- TruthfulQA:真实性评测
- Safety 评测:有害输出率
- HHH 评测:Helpful + Harmless + Honest 三维评分
三、偏好优化特有问题与评测
3.1 奖励黑客(Reward Hacking)
- 模型学会利用奖励模型漏洞而非真正提升质量
- 表现:奖励分数上升但人类评估不升反降
- 检测:定期人工评估 + 与 Chatbot Arena 对比
3.2 长度利用(Length Exploitation)
- DPO 训练的模型可能学会生成更长但非更好的回答
- 原因:偏好数据中 chosen 通常比 rejected 长
- 解决:SimPO 的长度归一化、长度惩罚
3.3 多样性丧失
- 偏好优化可能导致输出同质化
- 检测:测量输出分布的熵或词汇多样性
3.4 SFT 遗忘
- 偏好优化可能遗忘 SFT 学到的能力
- 检测:偏好优化前后在通用基准上对比
四、实验设计最佳实践
4.1 对比实验设置
基座模型 -> SFT -> DPO/RLHF -> 评测
|
+-> 仅 SFT -> 评测(对照)
4.2 关键超参数
| 参数 |
典型值 |
影响 |
| beta (KL 散度系数) |
0.1-0.5 |
控制偏离参考模型的程度 |
| 学习率 |
5e-7 到 5e-6 |
训练稳定性 |
| 偏好数据量 |
10K-1M 对 |
数据质量 > 数量 |
4.3 A/B 评测
- 偏好优化后上线前必须 A/B 测试
- 对比关键业务指标:用户满意度、任务完成率、安全性事件
五、前沿趋势(2024-2025)
- 迭代/在线 DPO:训练中动态生成新偏好数据
- 过程奖励模型(PRM):对推理的每一步打分,而非仅看最终结果
- 自博弈(Self-Play):模型自己生成偏好数据并自我优化
- AI 反馈替代人类反馈(RLAIF):降低人类标注成本
- 推理模型的对齐:如何对 o1/R1 这类推理模型进行偏好优化