2023年10月27日

对齐方法总览

对齐方法总览讨论的是:如何让预训练模型从“会续写文本”变成“更符合人类偏好、任务目标和安全边界的助手”,以及不同对齐范式之间的目标、成本和取舍。

知识库大模型训练与对齐llmmodelalignmentoverview

先说结论

对齐方法总览讨论的是:如何让预训练模型从“会续写文本”变成“更符合人类偏好、任务目标和安全边界的助手”,以及不同对齐范式之间的目标、成本和取舍。

为什么我会单独记这一篇

预训练模型通常具备很强的语言能力和知识容量,但它默认优化的是“预测下一个 token”,而不是:

  1. 理解用户真正想完成什么任务。
  2. 按特定格式、风格和角色回应。
  3. 在冲突目标之间做偏好权衡。
  4. 在有害、违规或不确定场景下表现得更稳健。

因此,对齐方法的核心就是把“语言建模目标”转成“人类可用、可信、可控的行为目标”。

核心范式

1. SFT:监督微调

  • 用高质量示范数据教模型学会指令遵循和输出格式。
  • 本质是行为克隆。
  • 优点:稳定、成熟、成本较低。
  • 局限:只能学“怎么答”,很难精细表达偏好强弱。

2. RLHF:基于人类反馈的强化学习

  • 常见三阶段:SFT -> 奖励模型 -> PPO 等 RL 优化。
  • 通过偏好数据学习“哪种回答更好”。
  • 优点:理论上上限高,可表达复杂偏好。
  • 局限:训练复杂、稳定性差、成本高。

3. DPO / ORPO / KTO / CPO:直接偏好优化

  • 将偏好学习转化为更稳定的分类或相对优化问题。
  • 通常不需要完整的 RL 环路。
  • 优点:实现简单、训练稳定、工业落地广。
  • 局限:上限可能受离线数据质量限制。

4. Constitutional AI / 安全对齐

  • 用原则、宪法或规则指导模型自我批判和修正。
  • 重点是 Helpful / Honest / Harmless 的平衡。
  • 优点:可扩展,适合降低纯人工标注依赖。
  • 局限:原则设计和执行一致性本身也需要验证。

5. 推理对齐 / Reasoning Alignment

  • 不只优化最终答案,还优化推理过程、步骤质量和 test-time behavior。
  • 常见做法包括过程奖励、结果奖励、GRPO 和推理专用训练。
  • 适合数学、代码和长链推理问题。

关键比较

方法 核心目标 数据形式 成本 稳定性 典型价值
SFT 学会任务格式和基本行为 示范数据 低到中 指令遵循
RLHF 优化复杂人类偏好 偏好对 + RM 低到中 偏好细化
DPO 类 直接做偏好优化 偏好对 / 好坏标签 工业主流
CAI 安全与原则对齐 宪法原则 + 自我批判 安全扩展
推理对齐 优化解题过程与推理质量 过程 / 结果奖励 中到高 推理增强

设计时真正要权衡什么

  • 有用性 vs 安全性:过度对齐会带来对齐税,过松又会放大风险。
  • 人工反馈 vs AI 反馈:人工更可信,AI 更可扩展。
  • 在线 RL vs 离线偏好优化:前者上限高,后者更稳。
  • 结果对齐 vs 过程对齐:只看结果成本低,只看过程更细致但昂贵。
  • 通用助手对齐 vs 垂直任务对齐:后者更贴场景,但泛化更弱。

容易踩的坑

  1. 只有 SFT,没有后续偏好与安全层,模型“会做题但不会做人”。
  2. 只盯安全,不监控有用性和对齐税。
  3. 偏好数据分布狭窄,模型学到谄媚或单一风格。
  4. 奖励模型或 judge 模型本身有偏差。
  5. 训练阶段对齐了,推理阶段却缺少护栏和回归测试。

工程落地时我会怎么做

  1. 默认把 SFT 作为所有后训练的起点。
  2. 如果团队资源有限,优先考虑 DPO 类方法而不是直接上 PPO-RLHF。
  3. 对数学、代码、工具调用等任务,补上过程奖励或推理专项训练。
  4. 安全对齐不要只做训练,还要和护栏、红队测试、回归评测联动。
  5. 用公开 benchmark + 私有业务评测双轨验证对齐效果。

如果要对外讲,可以怎么概括

“对齐的本质,是把预训练模型从 token 预测器变成符合人类偏好和业务目标的助手。SFT 负责教会模型基本行为,RLHF 和 DPO 负责细化偏好,Constitutional AI 更偏安全原则,而推理对齐则专门解决复杂 reasoning 任务。实际工程里,我通常把 SFT 当起点,把 DPO 当主力,把安全护栏和评测体系当长期配套设施。”

最后记几条

  1. SFT 是后训练起点,不是终点。
  2. RLHF 上限高,但工程复杂度也最高。
  3. DPO 类方法是当前工业界更常见的偏好优化路线。
  4. 安全对齐和运行时护栏必须配套。
  5. 推理模型的崛起让“过程对齐”越来越重要。

延伸阅读

参考资料

  • InstructGPT (Ouyang et al., 2022)
  • Constitutional AI (Bai et al., 2022)
  • DPO (Rafailov et al., 2023)
  • ORPO (Hong et al., 2024)
  • KTO (Ethayarajh et al., 2024)