2024年7月24日

面试框架:SFT、RLHF、LoRA 怎么讲

面试中讲解技术方案时,使用 **"是什么 -> 为什么 -> 怎么做 -> 效果 -> 权衡"** 五步法。

知识库大模型案例复盘case-study

面试框架:SFT、RLHF、LoRA 怎么讲

一、总体回答框架

面试中讲解技术方案时,使用 "是什么 -> 为什么 -> 怎么做 -> 效果 -> 权衡" 五步法。

二、SFT(监督微调)讲解框架

2.1 先说结论

"SFT 是在预训练模型基础上,用标注的指令-回答对进一步训练,让模型学会按指令格式回答问题。"

2.2 展开讲解要点

为什么需要 SFT?

  • 预训练模型只会"续写文本",不会"按指令回答"
  • SFT 教会模型对话格式、遵循指令、拒绝不当请求

怎么做?

  • 收集高质量指令数据(人工编写 + GPT-4 合成)
  • 数据格式:(system_prompt, user_message, assistant_response)
  • 使用标准语言模型损失训练
  • 典型数据量:1K-100K 条

关键经验:

  • 数据质量 >> 数据数量(LIMA 用 1000 条高质量数据达到很好效果)
  • 多样性很重要:覆盖不同任务类型
  • 避免 SFT 数据分布与预训练差异过大

常见面试追问:

  • Q: "SFT 数据多少合适?" -> A: "质量好的话 1K-10K 就够了。关键是覆盖度和质量。质量差的话 100K 也不够。"
  • Q: "如何防止灾难性遗忘?" -> A: "混入部分预训练数据;降低学习率(2e-5);使用 LoRA 减少参数变化。"

三、RLHF 讲解框架

3.1 先说结论

"RLHF 是通过人类偏好反馈来训练奖励模型,再用奖励模型指导策略模型优化的对齐方法。"

3.2 三步流程讲解

第一步:SFT

  • 先在有监督数据上训练一个基础模型

第二步:训练奖励模型 (RM)

  • 让人工标注者对同一问题的多个回答排序
  • 用 Bradley-Terry 模型训练 RM 学习人类偏好

第三步:PPO 优化

  • 用 RM 的评分作为奖励信号
  • PPO 算法优化策略模型
  • 加入 KL 散度约束防止偏离 SFT 模型太远

3.3 与 DPO 对比(高频考点)

面试话术: "DPO 是 RLHF 的简化替代方案。它直接用偏好对(chosen vs rejected)优化策略模型,跳过了训练奖励模型的步骤。数学上等价于将奖励函数重参数化。DPO 更简单、更稳定,但缺乏在线数据生成能力。"

关键对比表:

维度 RLHF (PPO) DPO
奖励模型 需要 不需要
训练稳定性 不稳定 稳定
计算成本
数据需求 偏好对 偏好对
在线学习 支持 默认不支持

四、LoRA 讲解框架

4.1 先说结论

"LoRA 是一种参数高效微调方法,冻结原始权重,只训练注入的低秩分解矩阵,用不到 1% 的参数达到接近全参数微调的效果。"

4.2 核心原理讲解

面试话术: "LoRA 的核心假设是:微调过程中的权重变化矩阵具有低秩特性。它将权重更新分解为两个小矩阵的乘积:Delta W = A x B。比如原始权重是 4096x4096,用 rank=16 的 LoRA,只需要训练 2 x 4096 x 16 = 131K 个参数,而不是 16M 个。"

LoRA 应用的层:

  • 通常应用于 Q/K/V/O 投影矩阵和 FFN 的 up/down/gate 矩阵
  • 不一定需要应用于所有层

4.3 关键超参数

面试话术: "LoRA 的关键参数是 rank(r)和 alpha。rank 控制表达能力,通常 8-64;alpha 控制更新幅度,通常设为 rank 的 1-2 倍。alpha/rank 的比值相当于学习率的缩放因子。"

4.4 QLoRA 补充

面试话术: "QLoRA 在 LoRA 基础上将基座模型量化到 4-bit,进一步降低显存。单张 A100 80GB 就能微调 65B 模型。质量损失极小,是 2024 年最实用的微调方案。"

五、综合回答模板

5.1 "请介绍大模型训练流程"

推荐回答结构:

1. 预训练(Pre-training)
   - 自监督学习,下一 token 预测
   - 数万亿 token,数万 GPU 月
   - 目标:获得通用语言理解和知识

2. SFT(监督微调)
   - 用指令-回答对训练
   - 教会模型按指令格式回答
   - 1K-100K 高质量数据

3. 偏好优化(RLHF / DPO)
   - 用人类偏好对齐输出
   - 提升有用性、安全性和诚实性
   - DPO 是更简单的替代方案

4. (可选)领域微调
   - LoRA / QLoRA 高效微调
   - 在特定领域数据上进一步优化

5.2 "RLHF 和 DPO 怎么选?"

面试话术: "如果追求简单稳定,DPO 是更好的选择。如果需要在线学习和持续优化,PPO-based RLHF 更灵活。实际工作中,大多数团队先用 DPO 快速迭代,在需要更精细控制时再考虑 RLHF。2025 年的趋势是迭代 DPO 和自奖励方法,兼顾两者优势。"


延伸阅读