先说结论

对齐方法总览讨论的是：如何让预训练模型从“会续写文本”变成“更符合人类偏好、任务目标和安全边界的助手”，以及不同对齐范式之间的目标、成本和取舍。

为什么我会单独记这一篇

预训练模型通常具备很强的语言能力和知识容量，但它默认优化的是“预测下一个 token”，而不是：

理解用户真正想完成什么任务。
按特定格式、风格和角色回应。
在冲突目标之间做偏好权衡。
在有害、违规或不确定场景下表现得更稳健。

因此，对齐方法的核心就是把“语言建模目标”转成“人类可用、可信、可控的行为目标”。

核心范式

1. SFT：监督微调

用高质量示范数据教模型学会指令遵循和输出格式。
本质是行为克隆。
优点：稳定、成熟、成本较低。
局限：只能学“怎么答”，很难精细表达偏好强弱。

2. RLHF：基于人类反馈的强化学习

常见三阶段：SFT -> 奖励模型 -> PPO 等 RL 优化。
通过偏好数据学习“哪种回答更好”。
优点：理论上上限高，可表达复杂偏好。
局限：训练复杂、稳定性差、成本高。

3. DPO / ORPO / KTO / CPO：直接偏好优化

将偏好学习转化为更稳定的分类或相对优化问题。
通常不需要完整的 RL 环路。
优点：实现简单、训练稳定、工业落地广。
局限：上限可能受离线数据质量限制。

4. Constitutional AI / 安全对齐

用原则、宪法或规则指导模型自我批判和修正。
重点是 Helpful / Honest / Harmless 的平衡。
优点：可扩展，适合降低纯人工标注依赖。
局限：原则设计和执行一致性本身也需要验证。

5. 推理对齐 / Reasoning Alignment

不只优化最终答案，还优化推理过程、步骤质量和 test-time behavior。
常见做法包括过程奖励、结果奖励、GRPO 和推理专用训练。
适合数学、代码和长链推理问题。

关键比较

方法	核心目标	数据形式	成本	稳定性	典型价值
SFT	学会任务格式和基本行为	示范数据	低到中	高	指令遵循
RLHF	优化复杂人类偏好	偏好对 + RM	高	低到中	偏好细化
DPO 类	直接做偏好优化	偏好对 / 好坏标签	中	高	工业主流
CAI	安全与原则对齐	宪法原则 + 自我批判	中	中	安全扩展
推理对齐	优化解题过程与推理质量	过程 / 结果奖励	中到高	中	推理增强

设计时真正要权衡什么

有用性 vs 安全性：过度对齐会带来对齐税，过松又会放大风险。
人工反馈 vs AI 反馈：人工更可信，AI 更可扩展。
在线 RL vs 离线偏好优化：前者上限高，后者更稳。
结果对齐 vs 过程对齐：只看结果成本低，只看过程更细致但昂贵。
通用助手对齐 vs 垂直任务对齐：后者更贴场景，但泛化更弱。

容易踩的坑

只有 SFT，没有后续偏好与安全层，模型“会做题但不会做人”。
只盯安全，不监控有用性和对齐税。
偏好数据分布狭窄，模型学到谄媚或单一风格。
奖励模型或 judge 模型本身有偏差。
训练阶段对齐了，推理阶段却缺少护栏和回归测试。

工程落地时我会怎么做

默认把 SFT 作为所有后训练的起点。
如果团队资源有限，优先考虑 DPO 类方法而不是直接上 PPO-RLHF。
对数学、代码、工具调用等任务，补上过程奖励或推理专项训练。
安全对齐不要只做训练，还要和护栏、红队测试、回归评测联动。
用公开 benchmark + 私有业务评测双轨验证对齐效果。

如果要对外讲，可以怎么概括

“对齐的本质，是把预训练模型从 token 预测器变成符合人类偏好和业务目标的助手。SFT 负责教会模型基本行为，RLHF 和 DPO 负责细化偏好，Constitutional AI 更偏安全原则，而推理对齐则专门解决复杂 reasoning 任务。实际工程里，我通常把 SFT 当起点，把 DPO 当主力，把安全护栏和评测体系当长期配套设施。”

最后记几条

SFT 是后训练起点，不是终点。
RLHF 上限高，但工程复杂度也最高。
DPO 类方法是当前工业界更常见的偏好优化路线。
安全对齐和运行时护栏必须配套。
推理模型的崛起让“过程对齐”越来越重要。

参考资料

InstructGPT (Ouyang et al., 2022)
Constitutional AI (Bai et al., 2022)
DPO (Rafailov et al., 2023)
ORPO (Hong et al., 2024)
KTO (Ethayarajh et al., 2024)

对齐方法总览

先说结论

为什么我会单独记这一篇

核心范式

1. SFT：监督微调

2. RLHF：基于人类反馈的强化学习

3. DPO / ORPO / KTO / CPO：直接偏好优化

4. Constitutional AI / 安全对齐

5. 推理对齐 / Reasoning Alignment

关键比较

设计时真正要权衡什么

容易踩的坑

工程落地时我会怎么做

如果要对外讲，可以怎么概括

最后记几条

延伸阅读

参考资料