2026年4月19日

Post-Training 新趋势

预训练 -> SFT -> RLHF (PPO)

知识库大模型训练与对齐

Post-Training 新趋势

一、后训练管线演进

1.1 传统管线（2023）

预训练 -> SFT -> RLHF (PPO)

1.2 当前主流管线（2024-2025）

预训练 -> SFT -> 偏好优化 (DPO/迭代DPO/GRPO)
          |
          +-> 可能跳过 SFT 直接 RL（如 DeepSeek-R1）

二、关键方法详解

2.1 DPO 及其变体（重点读）

DPO (Direct Preference Optimization)

核心公式：将 RLHF 的奖励函数重参数化，直接用偏好对优化策略
优势：无需训练奖励模型，训练简单稳定
局限：依赖离线偏好数据，可能存在分布偏移

DPO 变体对比

方法	核心改进	适用场景
IPO	解决 DPO 隐式奖励模型问题	需要更稳定的训练
KTO	非配对偏好信号（赞/踩）	只有二元反馈数据
ORPO	SFT + 对齐一步完成	简化训练流程
SimPO	长度归一化奖励，无参考模型	解决长度利用问题
NCA	对比学习方法	Nash 均衡对齐

2.2 迭代/在线偏好优化（重点读）

核心思想：不在固定的离线数据上训练，而是在训练中动态生成新的偏好数据

流程：

策略模型生成响应 -> 奖励模型/自评估排序 -> 构建偏好对 -> DPO 更新 -> 循环

优势：

减少分布偏移（on-policy 数据）
持续改进而非一次性优化
更好地探索策略空间

2.3 自奖励模型（重点读）

Self-Rewarding Language Models (Meta, 2024.1)

核心创新：

模型同时扮演生成器和评判者
生成多个候选响应
用 LLM-as-a-Judge 评分
用高分和低分响应构建偏好对
DPO 训练
迭代重复

关键发现：

模型不仅生成能力提升，自评估能力也在迭代中提升
减少/消除对外部人类标注的依赖

2.4 SPIN (Self-Play Fine-Tuning)（了解即可）

将 RLHF 转化为模型与自身的 minimax 博弈
当前策略 vs 参考策略的对抗训练
不需要人类偏好数据

2.5 强化微调 (RFT)（重点读）

OpenAI Reinforcement Fine-Tuning (2024.12)

在特定领域任务上进行 RL 微调
使用可验证的奖励信号（如数学答案正确性、代码通过测试）
不需要人类偏好数据
适合有明确正确答案的领域

2.6 GRPO（重点读）

Group Relative Policy Optimization (DeepSeek-R1)

核心思想：

不需要独立的 critic 模型
对同一问题生成一组响应
组内相对排名作为奖励信号
比传统 PPO 更简单高效

三、训练数据趋势

3.1 合成数据

用强模型生成训练数据成为标配
包括合成偏好数据、合成指令数据、合成推理轨迹
关键是质量过滤和多样性保障

3.2 过程奖励模型 (PRM)（重点读）

对推理的每一步打分，而非仅看最终结果
比 ORM (Outcome Reward Model) 提供更细粒度的反馈
适合多步推理任务的训练

四、前沿趋势总结

趋势	状态	优先级
DPO 成为标配	已广泛采用	重点读
迭代/在线 DPO	快速增长	重点读
自奖励/自博弈	前沿研究	重点读
GRPO	DeepSeek 验证有效	重点读
过程奖励模型 (PRM)	活跃研究	重点读
ORPO/SimPO/KTO	实际应用中	了解即可
完全自动化对齐	研究愿景	暂不深挖