面试框架:SFT、RLHF、LoRA 怎么讲
一、总体回答框架
面试中讲解技术方案时,使用 "是什么 -> 为什么 -> 怎么做 -> 效果 -> 权衡" 五步法。
二、SFT(监督微调)讲解框架
2.1 先说结论
"SFT 是在预训练模型基础上,用标注的指令-回答对进一步训练,让模型学会按指令格式回答问题。"
2.2 展开讲解要点
为什么需要 SFT?
- 预训练模型只会"续写文本",不会"按指令回答"
- SFT 教会模型对话格式、遵循指令、拒绝不当请求
怎么做?
- 收集高质量指令数据(人工编写 + GPT-4 合成)
- 数据格式:(system_prompt, user_message, assistant_response)
- 使用标准语言模型损失训练
- 典型数据量:1K-100K 条
关键经验:
- 数据质量 >> 数据数量(LIMA 用 1000 条高质量数据达到很好效果)
- 多样性很重要:覆盖不同任务类型
- 避免 SFT 数据分布与预训练差异过大
常见面试追问:
- Q: "SFT 数据多少合适?" -> A: "质量好的话 1K-10K 就够了。关键是覆盖度和质量。质量差的话 100K 也不够。"
- Q: "如何防止灾难性遗忘?" -> A: "混入部分预训练数据;降低学习率(2e-5);使用 LoRA 减少参数变化。"
三、RLHF 讲解框架
3.1 先说结论
"RLHF 是通过人类偏好反馈来训练奖励模型,再用奖励模型指导策略模型优化的对齐方法。"
3.2 三步流程讲解
第一步:SFT
- 先在有监督数据上训练一个基础模型
第二步:训练奖励模型 (RM)
- 让人工标注者对同一问题的多个回答排序
- 用 Bradley-Terry 模型训练 RM 学习人类偏好
第三步:PPO 优化
- 用 RM 的评分作为奖励信号
- PPO 算法优化策略模型
- 加入 KL 散度约束防止偏离 SFT 模型太远
3.3 与 DPO 对比(高频考点)
面试话术: "DPO 是 RLHF 的简化替代方案。它直接用偏好对(chosen vs rejected)优化策略模型,跳过了训练奖励模型的步骤。数学上等价于将奖励函数重参数化。DPO 更简单、更稳定,但缺乏在线数据生成能力。"
关键对比表:
| 维度 | RLHF (PPO) | DPO |
|---|---|---|
| 奖励模型 | 需要 | 不需要 |
| 训练稳定性 | 不稳定 | 稳定 |
| 计算成本 | 高 | 低 |
| 数据需求 | 偏好对 | 偏好对 |
| 在线学习 | 支持 | 默认不支持 |
四、LoRA 讲解框架
4.1 先说结论
"LoRA 是一种参数高效微调方法,冻结原始权重,只训练注入的低秩分解矩阵,用不到 1% 的参数达到接近全参数微调的效果。"
4.2 核心原理讲解
面试话术: "LoRA 的核心假设是:微调过程中的权重变化矩阵具有低秩特性。它将权重更新分解为两个小矩阵的乘积:Delta W = A x B。比如原始权重是 4096x4096,用 rank=16 的 LoRA,只需要训练 2 x 4096 x 16 = 131K 个参数,而不是 16M 个。"
LoRA 应用的层:
- 通常应用于 Q/K/V/O 投影矩阵和 FFN 的 up/down/gate 矩阵
- 不一定需要应用于所有层
4.3 关键超参数
面试话术: "LoRA 的关键参数是 rank(r)和 alpha。rank 控制表达能力,通常 8-64;alpha 控制更新幅度,通常设为 rank 的 1-2 倍。alpha/rank 的比值相当于学习率的缩放因子。"
4.4 QLoRA 补充
面试话术: "QLoRA 在 LoRA 基础上将基座模型量化到 4-bit,进一步降低显存。单张 A100 80GB 就能微调 65B 模型。质量损失极小,是 2024 年最实用的微调方案。"
五、综合回答模板
5.1 "请介绍大模型训练流程"
推荐回答结构:
1. 预训练(Pre-training)
- 自监督学习,下一 token 预测
- 数万亿 token,数万 GPU 月
- 目标:获得通用语言理解和知识
2. SFT(监督微调)
- 用指令-回答对训练
- 教会模型按指令格式回答
- 1K-100K 高质量数据
3. 偏好优化(RLHF / DPO)
- 用人类偏好对齐输出
- 提升有用性、安全性和诚实性
- DPO 是更简单的替代方案
4. (可选)领域微调
- LoRA / QLoRA 高效微调
- 在特定领域数据上进一步优化
5.2 "RLHF 和 DPO 怎么选?"
面试话术: "如果追求简单稳定,DPO 是更好的选择。如果需要在线学习和持续优化,PPO-based RLHF 更灵活。实际工作中,大多数团队先用 DPO 快速迭代,在需要更精细控制时再考虑 RLHF。2025 年的趋势是迭代 DPO 和自奖励方法,兼顾两者优势。"