先说结论
对齐方法总览讨论的是:如何让预训练模型从“会续写文本”变成“更符合人类偏好、任务目标和安全边界的助手”,以及不同对齐范式之间的目标、成本和取舍。
为什么我会单独记这一篇
预训练模型通常具备很强的语言能力和知识容量,但它默认优化的是“预测下一个 token”,而不是:
- 理解用户真正想完成什么任务。
- 按特定格式、风格和角色回应。
- 在冲突目标之间做偏好权衡。
- 在有害、违规或不确定场景下表现得更稳健。
因此,对齐方法的核心就是把“语言建模目标”转成“人类可用、可信、可控的行为目标”。
核心范式
1. SFT:监督微调
- 用高质量示范数据教模型学会指令遵循和输出格式。
- 本质是行为克隆。
- 优点:稳定、成熟、成本较低。
- 局限:只能学“怎么答”,很难精细表达偏好强弱。
2. RLHF:基于人类反馈的强化学习
- 常见三阶段:SFT -> 奖励模型 -> PPO 等 RL 优化。
- 通过偏好数据学习“哪种回答更好”。
- 优点:理论上上限高,可表达复杂偏好。
- 局限:训练复杂、稳定性差、成本高。
3. DPO / ORPO / KTO / CPO:直接偏好优化
- 将偏好学习转化为更稳定的分类或相对优化问题。
- 通常不需要完整的 RL 环路。
- 优点:实现简单、训练稳定、工业落地广。
- 局限:上限可能受离线数据质量限制。
4. Constitutional AI / 安全对齐
- 用原则、宪法或规则指导模型自我批判和修正。
- 重点是 Helpful / Honest / Harmless 的平衡。
- 优点:可扩展,适合降低纯人工标注依赖。
- 局限:原则设计和执行一致性本身也需要验证。
5. 推理对齐 / Reasoning Alignment
- 不只优化最终答案,还优化推理过程、步骤质量和 test-time behavior。
- 常见做法包括过程奖励、结果奖励、GRPO 和推理专用训练。
- 适合数学、代码和长链推理问题。
关键比较
| 方法 | 核心目标 | 数据形式 | 成本 | 稳定性 | 典型价值 |
|---|---|---|---|---|---|
| SFT | 学会任务格式和基本行为 | 示范数据 | 低到中 | 高 | 指令遵循 |
| RLHF | 优化复杂人类偏好 | 偏好对 + RM | 高 | 低到中 | 偏好细化 |
| DPO 类 | 直接做偏好优化 | 偏好对 / 好坏标签 | 中 | 高 | 工业主流 |
| CAI | 安全与原则对齐 | 宪法原则 + 自我批判 | 中 | 中 | 安全扩展 |
| 推理对齐 | 优化解题过程与推理质量 | 过程 / 结果奖励 | 中到高 | 中 | 推理增强 |
设计时真正要权衡什么
- 有用性 vs 安全性:过度对齐会带来对齐税,过松又会放大风险。
- 人工反馈 vs AI 反馈:人工更可信,AI 更可扩展。
- 在线 RL vs 离线偏好优化:前者上限高,后者更稳。
- 结果对齐 vs 过程对齐:只看结果成本低,只看过程更细致但昂贵。
- 通用助手对齐 vs 垂直任务对齐:后者更贴场景,但泛化更弱。
容易踩的坑
- 只有 SFT,没有后续偏好与安全层,模型“会做题但不会做人”。
- 只盯安全,不监控有用性和对齐税。
- 偏好数据分布狭窄,模型学到谄媚或单一风格。
- 奖励模型或 judge 模型本身有偏差。
- 训练阶段对齐了,推理阶段却缺少护栏和回归测试。
工程落地时我会怎么做
- 默认把 SFT 作为所有后训练的起点。
- 如果团队资源有限,优先考虑 DPO 类方法而不是直接上 PPO-RLHF。
- 对数学、代码、工具调用等任务,补上过程奖励或推理专项训练。
- 安全对齐不要只做训练,还要和护栏、红队测试、回归评测联动。
- 用公开 benchmark + 私有业务评测双轨验证对齐效果。
如果要对外讲,可以怎么概括
“对齐的本质,是把预训练模型从 token 预测器变成符合人类偏好和业务目标的助手。SFT 负责教会模型基本行为,RLHF 和 DPO 负责细化偏好,Constitutional AI 更偏安全原则,而推理对齐则专门解决复杂 reasoning 任务。实际工程里,我通常把 SFT 当起点,把 DPO 当主力,把安全护栏和评测体系当长期配套设施。”
最后记几条
- SFT 是后训练起点,不是终点。
- RLHF 上限高,但工程复杂度也最高。
- DPO 类方法是当前工业界更常见的偏好优化路线。
- 安全对齐和运行时护栏必须配套。
- 推理模型的崛起让“过程对齐”越来越重要。
延伸阅读
-
监督微调SFT — 指令遵循的起点
-
人类反馈强化学习RLHF — 完整 RLHF 流程
-
偏好优化DPO_GRPO — 直接偏好优化方法
-
过程奖励与结果奖励 — 过程对齐的关键区别
-
安全总览 — 运行时安全与护栏
参考资料
- InstructGPT (Ouyang et al., 2022)
- Constitutional AI (Bai et al., 2022)
- DPO (Rafailov et al., 2023)
- ORPO (Hong et al., 2024)
- KTO (Ethayarajh et al., 2024)