2026年4月19日

Post-Training 新趋势

预训练 -> SFT -> RLHF (PPO)

知识库大模型训练与对齐

Post-Training 新趋势

一、后训练管线演进

1.1 传统管线(2023)

预训练 -> SFT -> RLHF (PPO)

1.2 当前主流管线(2024-2025)

预训练 -> SFT -> 偏好优化 (DPO/迭代DPO/GRPO)
          |
          +-> 可能跳过 SFT 直接 RL(如 DeepSeek-R1)

二、关键方法详解

2.1 DPO 及其变体(重点读)

DPO (Direct Preference Optimization)

  • 核心公式:将 RLHF 的奖励函数重参数化,直接用偏好对优化策略
  • 优势:无需训练奖励模型,训练简单稳定
  • 局限:依赖离线偏好数据,可能存在分布偏移

DPO 变体对比

方法 核心改进 适用场景
IPO 解决 DPO 隐式奖励模型问题 需要更稳定的训练
KTO 非配对偏好信号(赞/踩) 只有二元反馈数据
ORPO SFT + 对齐一步完成 简化训练流程
SimPO 长度归一化奖励,无参考模型 解决长度利用问题
NCA 对比学习方法 Nash 均衡对齐

2.2 迭代/在线偏好优化(重点读)

核心思想:不在固定的离线数据上训练,而是在训练中动态生成新的偏好数据

流程

策略模型生成响应 -> 奖励模型/自评估排序 -> 构建偏好对 -> DPO 更新 -> 循环

优势

  • 减少分布偏移(on-policy 数据)
  • 持续改进而非一次性优化
  • 更好地探索策略空间

2.3 自奖励模型(重点读)

Self-Rewarding Language Models (Meta, 2024.1)

核心创新:

  1. 模型同时扮演生成器和评判者
  2. 生成多个候选响应
  3. 用 LLM-as-a-Judge 评分
  4. 用高分和低分响应构建偏好对
  5. DPO 训练
  6. 迭代重复

关键发现

  • 模型不仅生成能力提升,自评估能力也在迭代中提升
  • 减少/消除对外部人类标注的依赖

2.4 SPIN (Self-Play Fine-Tuning)(了解即可)

  • 将 RLHF 转化为模型与自身的 minimax 博弈
  • 当前策略 vs 参考策略的对抗训练
  • 不需要人类偏好数据

2.5 强化微调 (RFT)(重点读)

OpenAI Reinforcement Fine-Tuning (2024.12)

  • 在特定领域任务上进行 RL 微调
  • 使用可验证的奖励信号(如数学答案正确性、代码通过测试)
  • 不需要人类偏好数据
  • 适合有明确正确答案的领域

2.6 GRPO(重点读)

Group Relative Policy Optimization (DeepSeek-R1)

核心思想:

  • 不需要独立的 critic 模型
  • 对同一问题生成一组响应
  • 组内相对排名作为奖励信号
  • 比传统 PPO 更简单高效

三、训练数据趋势

3.1 合成数据

  • 用强模型生成训练数据成为标配
  • 包括合成偏好数据、合成指令数据、合成推理轨迹
  • 关键是质量过滤和多样性保障

3.2 过程奖励模型 (PRM)(重点读)

  • 对推理的每一步打分,而非仅看最终结果
  • 比 ORM (Outcome Reward Model) 提供更细粒度的反馈
  • 适合多步推理任务的训练

四、前沿趋势总结

趋势 状态 优先级
DPO 成为标配 已广泛采用 重点读
迭代/在线 DPO 快速增长 重点读
自奖励/自博弈 前沿研究 重点读
GRPO DeepSeek 验证有效 重点读
过程奖励模型 (PRM) 活跃研究 重点读
ORPO/SimPO/KTO 实际应用中 了解即可
完全自动化对齐 研究愿景 暂不深挖