面试框架：SFT、RLHF、LoRA 怎么讲

一、总体回答框架

面试中讲解技术方案时，使用 "是什么 -> 为什么 -> 怎么做 -> 效果 -> 权衡" 五步法。

二、SFT（监督微调）讲解框架

2.1 先说结论

"SFT 是在预训练模型基础上，用标注的指令-回答对进一步训练，让模型学会按指令格式回答问题。"

2.2 展开讲解要点

为什么需要 SFT？

预训练模型只会"续写文本"，不会"按指令回答"
SFT 教会模型对话格式、遵循指令、拒绝不当请求

怎么做？

收集高质量指令数据（人工编写 + GPT-4 合成）
数据格式：（system_prompt, user_message, assistant_response）
使用标准语言模型损失训练
典型数据量：1K-100K 条

关键经验：

数据质量 >> 数据数量（LIMA 用 1000 条高质量数据达到很好效果）
多样性很重要：覆盖不同任务类型
避免 SFT 数据分布与预训练差异过大

常见面试追问：

Q: "SFT 数据多少合适？" -> A: "质量好的话 1K-10K 就够了。关键是覆盖度和质量。质量差的话 100K 也不够。"
Q: "如何防止灾难性遗忘？" -> A: "混入部分预训练数据；降低学习率（2e-5）；使用 LoRA 减少参数变化。"

三、RLHF 讲解框架

3.1 先说结论

"RLHF 是通过人类偏好反馈来训练奖励模型，再用奖励模型指导策略模型优化的对齐方法。"

3.2 三步流程讲解

第一步：SFT

先在有监督数据上训练一个基础模型

第二步：训练奖励模型 (RM)

让人工标注者对同一问题的多个回答排序
用 Bradley-Terry 模型训练 RM 学习人类偏好

第三步：PPO 优化

用 RM 的评分作为奖励信号
PPO 算法优化策略模型
加入 KL 散度约束防止偏离 SFT 模型太远

3.3 与 DPO 对比（高频考点）

面试话术： "DPO 是 RLHF 的简化替代方案。它直接用偏好对（chosen vs rejected）优化策略模型，跳过了训练奖励模型的步骤。数学上等价于将奖励函数重参数化。DPO 更简单、更稳定，但缺乏在线数据生成能力。"

关键对比表：

维度	RLHF (PPO)	DPO
奖励模型	需要	不需要
训练稳定性	不稳定	稳定
计算成本	高	低
数据需求	偏好对	偏好对
在线学习	支持	默认不支持

四、LoRA 讲解框架

4.1 先说结论

"LoRA 是一种参数高效微调方法，冻结原始权重，只训练注入的低秩分解矩阵，用不到 1% 的参数达到接近全参数微调的效果。"

4.2 核心原理讲解

面试话术： "LoRA 的核心假设是：微调过程中的权重变化矩阵具有低秩特性。它将权重更新分解为两个小矩阵的乘积：Delta W = A x B。比如原始权重是 4096x4096，用 rank=16 的 LoRA，只需要训练 2 x 4096 x 16 = 131K 个参数，而不是 16M 个。"

LoRA 应用的层：

通常应用于 Q/K/V/O 投影矩阵和 FFN 的 up/down/gate 矩阵
不一定需要应用于所有层

4.3 关键超参数

面试话术： "LoRA 的关键参数是 rank（r）和 alpha。rank 控制表达能力，通常 8-64；alpha 控制更新幅度，通常设为 rank 的 1-2 倍。alpha/rank 的比值相当于学习率的缩放因子。"

4.4 QLoRA 补充

面试话术： "QLoRA 在 LoRA 基础上将基座模型量化到 4-bit，进一步降低显存。单张 A100 80GB 就能微调 65B 模型。质量损失极小，是 2024 年最实用的微调方案。"

五、综合回答模板

5.1 "请介绍大模型训练流程"

推荐回答结构：

1. 预训练（Pre-training）
   - 自监督学习，下一 token 预测
   - 数万亿 token，数万 GPU 月
   - 目标：获得通用语言理解和知识

2. SFT（监督微调）
   - 用指令-回答对训练
   - 教会模型按指令格式回答
   - 1K-100K 高质量数据

3. 偏好优化（RLHF / DPO）
   - 用人类偏好对齐输出
   - 提升有用性、安全性和诚实性
   - DPO 是更简单的替代方案

4. （可选）领域微调
   - LoRA / QLoRA 高效微调
   - 在特定领域数据上进一步优化

5.2 "RLHF 和 DPO 怎么选？"

面试话术： "如果追求简单稳定，DPO 是更好的选择。如果需要在线学习和持续优化，PPO-based RLHF 更灵活。实际工作中，大多数团队先用 DPO 快速迭代，在需要更精细控制时再考虑 RLHF。2025 年的趋势是迭代 DPO 和自奖励方法，兼顾两者优势。"

面试框架：SFT、RLHF、LoRA 怎么讲

面试框架：SFT、RLHF、LoRA 怎么讲

一、总体回答框架

二、SFT（监督微调）讲解框架

2.1 先说结论

2.2 展开讲解要点

三、RLHF 讲解框架

3.1 先说结论

3.2 三步流程讲解

3.3 与 DPO 对比（高频考点）

四、LoRA 讲解框架

4.1 先说结论

4.2 核心原理讲解

4.3 关键超参数

4.4 QLoRA 补充

五、综合回答模板

5.1 "请介绍大模型训练流程"

5.2 "RLHF 和 DPO 怎么选？"

延伸阅读