Post-Training 新趋势
一、后训练管线演进
1.1 传统管线(2023)
预训练 -> SFT -> RLHF (PPO)
1.2 当前主流管线(2024-2025)
预训练 -> SFT -> 偏好优化 (DPO/迭代DPO/GRPO)
|
+-> 可能跳过 SFT 直接 RL(如 DeepSeek-R1)
二、关键方法详解
2.1 DPO 及其变体(重点读)
DPO (Direct Preference Optimization)
- 核心公式:将 RLHF 的奖励函数重参数化,直接用偏好对优化策略
- 优势:无需训练奖励模型,训练简单稳定
- 局限:依赖离线偏好数据,可能存在分布偏移
DPO 变体对比
| 方法 | 核心改进 | 适用场景 |
|---|---|---|
| IPO | 解决 DPO 隐式奖励模型问题 | 需要更稳定的训练 |
| KTO | 非配对偏好信号(赞/踩) | 只有二元反馈数据 |
| ORPO | SFT + 对齐一步完成 | 简化训练流程 |
| SimPO | 长度归一化奖励,无参考模型 | 解决长度利用问题 |
| NCA | 对比学习方法 | Nash 均衡对齐 |
2.2 迭代/在线偏好优化(重点读)
核心思想:不在固定的离线数据上训练,而是在训练中动态生成新的偏好数据
流程:
策略模型生成响应 -> 奖励模型/自评估排序 -> 构建偏好对 -> DPO 更新 -> 循环
优势:
- 减少分布偏移(on-policy 数据)
- 持续改进而非一次性优化
- 更好地探索策略空间
2.3 自奖励模型(重点读)
Self-Rewarding Language Models (Meta, 2024.1)
核心创新:
- 模型同时扮演生成器和评判者
- 生成多个候选响应
- 用 LLM-as-a-Judge 评分
- 用高分和低分响应构建偏好对
- DPO 训练
- 迭代重复
关键发现:
- 模型不仅生成能力提升,自评估能力也在迭代中提升
- 减少/消除对外部人类标注的依赖
2.4 SPIN (Self-Play Fine-Tuning)(了解即可)
- 将 RLHF 转化为模型与自身的 minimax 博弈
- 当前策略 vs 参考策略的对抗训练
- 不需要人类偏好数据
2.5 强化微调 (RFT)(重点读)
OpenAI Reinforcement Fine-Tuning (2024.12)
- 在特定领域任务上进行 RL 微调
- 使用可验证的奖励信号(如数学答案正确性、代码通过测试)
- 不需要人类偏好数据
- 适合有明确正确答案的领域
2.6 GRPO(重点读)
Group Relative Policy Optimization (DeepSeek-R1)
核心思想:
- 不需要独立的 critic 模型
- 对同一问题生成一组响应
- 组内相对排名作为奖励信号
- 比传统 PPO 更简单高效
三、训练数据趋势
3.1 合成数据
- 用强模型生成训练数据成为标配
- 包括合成偏好数据、合成指令数据、合成推理轨迹
- 关键是质量过滤和多样性保障
3.2 过程奖励模型 (PRM)(重点读)
- 对推理的每一步打分,而非仅看最终结果
- 比 ORM (Outcome Reward Model) 提供更细粒度的反馈
- 适合多步推理任务的训练
四、前沿趋势总结
| 趋势 | 状态 | 优先级 |
|---|---|---|
| DPO 成为标配 | 已广泛采用 | 重点读 |
| 迭代/在线 DPO | 快速增长 | 重点读 |
| 自奖励/自博弈 | 前沿研究 | 重点读 |
| GRPO | DeepSeek 验证有效 | 重点读 |
| 过程奖励模型 (PRM) | 活跃研究 | 重点读 |
| ORPO/SimPO/KTO | 实际应用中 | 了解即可 |
| 完全自动化对齐 | 研究愿景 | 暂不深挖 |