模型知识体系总览
这套知识库覆盖从 Transformer 基础到最新研究前沿的完整模型知识体系,面向工程师和算法面试。 设计目标:可复习、可面试、可做系统设计、可支撑训练/微调/部署决策、可持续更新。
知识地图
Transformer基础 ──→ 预训练 ──→ SFT ──→ RLHF/对齐
↓
PEFT/微调 ← ──→ 训练工程
↓
推理部署 ← ──→ 评测诊断 ← ──→ 多模态/Agent
↓
研究前沿 → 面试与系统设计
导航
基础原理
- Transformer — 从 RNN/CNN 到 Transformer 的演变
- 注意力机制 — Q/K/V 与注意力机制
- 归一化与残差连接 — Transformer 组件详解
- 位置编码 — 位置编码原理与对比
- 编码器与解码器 — 三种架构对比
- Transformer — 掩码与生成目标
- Transformer — 扩展性、并行化、工程优势
训练与对齐(预训练基础)
训练与对齐(后训练与对齐)
- 监督微调SFT — 监督微调的本质
- 指令微调 — 指令调优与对话调优
- 人类反馈强化学习RLHF — RLHF 全流程
- 奖励模型 — 奖励模型与偏好数据
- PPO训练细节 — PPO 训练流程
- 偏好优化DPO_GRPO — 直接偏好优化方法
- GRPO与推理训练 — GRPO 与推理模型
- 过程奖励与结果奖励 — 过程奖励 vs 结果奖励
- 对齐方法总览 — 安全对齐
PEFT
- PEFT总览 — 参数高效微调概览
- LoRA与QLoRA — LoRA 原理与调参
- LoRA与QLoRA — 4-bit 量化训练
- PEFT扩展方法 — PEFT 扩展方法
- LoRA与QLoRA — 微调方法选型对比
- Adapter管理 — 适配器管理
训练流程
- 训练流程 — 完整训练 pipeline
- 训练流程 — 数据格式规范
- 监督微调SFT — 损失函数与掩码
- 训练流程 — 训练优化技术
- 训练生态工具 — 分布式训练框架
- 训练生态工具 — 训练框架生态
- 训练失败排障 — 训练排障指南
推理与系统
智能体与工具调用
- VLM基础 — 视觉语言模型
- 工具调用 — 工具调用训练
- Agent训练数据 — Agent 训练数据
- 推理模型vs聊天模型 — 推理模型 vs 聊天模型
评测
研究前沿
案例复盘
- SFT_RLHF_LoRA怎么讲 — 核心主题面试框架
- Transformer高频题 — Transformer 面试题
- 微调方案选型题 — 微调选型系统设计
- 训练资源估算题 — 资源估算
- 部署与推理优化题 — 部署系统设计
- 项目深挖题 — 项目经验问答
总览
核心比较页
| 比较主题 | 页面 | 核心问题 |
|---|---|---|
| 训练范式对照 | 对齐方法总览 | 预训练 vs SFT vs RLHF vs DPO vs GRPO |
| 微调方法选型 | LoRA与QLoRA | Full FT vs LoRA vs QLoRA |
| 训练框架生态 | 训练生态工具 | 各框架职责与协作 |
| 推理优化总表 | 量化 | 量化方法对比 |
| 高频面试题 | Transformer高频题 | 10 道高频题及答案 |
| 偏好优化对比 | 偏好优化DPO_GRPO | DPO vs ORPO vs KTO vs CPO |
学习路径建议
入门路径
- Transformer → 注意力机制
- 分词器 → 监督微调SFT
- PEFT总览 → LoRA与QLoRA
进阶路径
- 人类反馈强化学习RLHF → 偏好优化DPO_GRPO → GRPO与推理训练
- 训练生态工具 → KV Cache → vLLM