2026年4月19日

偏好优化评测

| 方法 | 年份 | 核心思想 |

知识库大模型评测

偏好优化评测

一、偏好优化方法回顾

1.1 方法演进

方法	年份	核心思想
RLHF (PPO)	2022	训练奖励模型 + PPO 优化
DPO	2023	直接优化偏好对，无需奖励模型
IPO	2024	解决 DPO 隐式奖励模型的问题
KTO	2024	使用非配对偏好信号（赞/踩）
ORPO	2024	将 SFT 和对齐合并为一步
SimPO	2024	用长度归一化奖励简化 DPO
GRPO	2025	DeepSeek-R1 使用，无需 critic 模型

1.2 方法分类

基于 RL：RLHF (PPO), GRPO
基于对比学习：DPO, IPO, KTO, SimPO
混合方法：ORPO (SFT+对齐), RLAIF (AI 反馈替代人类反馈)

二、偏好优化评测维度

2.1 对齐质量评测

基准	评测内容
MT-Bench	多轮对话质量（GPT-4 评分，满分10）
AlpacaEval 2.0	指令遵循（胜率%）
Chatbot Arena	人类偏好 Elo 排名
Arena Hard	高难度提示的自动评测
MixEval / MixEval-Hard	多维度综合评测

2.2 奖励模型评测

RewardBench：评测奖励模型在不同领域的判断能力
偏好准确率：奖励模型与人类偏好的一致性
校准度：奖励分数的置信度校准

2.3 安全性与有用性权衡

TruthfulQA：真实性评测
Safety 评测：有害输出率
HHH 评测：Helpful + Harmless + Honest 三维评分

三、偏好优化特有问题与评测

3.1 奖励黑客（Reward Hacking）

模型学会利用奖励模型漏洞而非真正提升质量
表现：奖励分数上升但人类评估不升反降
检测：定期人工评估 + 与 Chatbot Arena 对比

3.2 长度利用（Length Exploitation）

DPO 训练的模型可能学会生成更长但非更好的回答
原因：偏好数据中 chosen 通常比 rejected 长
解决：SimPO 的长度归一化、长度惩罚

3.3 多样性丧失

偏好优化可能导致输出同质化
检测：测量输出分布的熵或词汇多样性

3.4 SFT 遗忘

偏好优化可能遗忘 SFT 学到的能力
检测：偏好优化前后在通用基准上对比

四、实验设计最佳实践

4.1 对比实验设置

基座模型 -> SFT -> DPO/RLHF -> 评测
                  |
                  +-> 仅 SFT -> 评测（对照）

4.2 关键超参数

参数	典型值	影响
beta (KL 散度系数)	0.1-0.5	控制偏离参考模型的程度
学习率	5e-7 到 5e-6	训练稳定性
偏好数据量	10K-1M 对	数据质量 > 数量

4.3 A/B 评测

偏好优化后上线前必须 A/B 测试
对比关键业务指标：用户满意度、任务完成率、安全性事件

五、前沿趋势（2024-2025）

迭代/在线 DPO：训练中动态生成新偏好数据
过程奖励模型（PRM）：对推理的每一步打分，而非仅看最终结果
自博弈（Self-Play）：模型自己生成偏好数据并自我优化
AI 反馈替代人类反馈（RLAIF）：降低人类标注成本
推理模型的对齐：如何对 o1/R1 这类推理模型进行偏好优化