模型知识体系总览

这套知识库覆盖从 Transformer 基础到最新研究前沿的完整模型知识体系，面向工程师和算法面试。设计目标：可复习、可面试、可做系统设计、可支撑训练/微调/部署决策、可持续更新。

知识地图

Transformer基础 ──→ 预训练 ──→ SFT ──→ RLHF/对齐
                                    ↓
                        PEFT/微调 ← ──→ 训练工程
                                    ↓
              推理部署 ← ──→ 评测诊断 ← ──→ 多模态/Agent
                                    ↓
                              研究前沿 → 面试与系统设计

Transformer — 从 RNN/CNN 到 Transformer 的演变
注意力机制 — Q/K/V 与注意力机制
归一化与残差连接 — Transformer 组件详解
位置编码 — 位置编码原理与对比
编码器与解码器 — 三种架构对比
Transformer — 掩码与生成目标
Transformer — 扩展性、并行化、工程优势

训练与对齐（预训练基础）

分词器 — 分词器与模板
预训练目标 — 预训练目标函数
数据工程 — 数据工程
预训练 — 缩放定律
基座与指令模型 — 基座模型 vs 指令模型
后训练新趋势 — 持续预训练

训练与对齐（后训练与对齐）

监督微调SFT — 监督微调的本质
指令微调 — 指令调优与对话调优
人类反馈强化学习RLHF — RLHF 全流程
奖励模型 — 奖励模型与偏好数据
PPO训练细节 — PPO 训练流程
偏好优化DPO_GRPO — 直接偏好优化方法
GRPO与推理训练 — GRPO 与推理模型
过程奖励与结果奖励 — 过程奖励 vs 结果奖励
对齐方法总览 — 安全对齐

PEFT

PEFT总览 — 参数高效微调概览
LoRA与QLoRA — LoRA 原理与调参
LoRA与QLoRA — 4-bit 量化训练
PEFT扩展方法 — PEFT 扩展方法
LoRA与QLoRA — 微调方法选型对比
Adapter管理 — 适配器管理

训练流程

训练流程 — 完整训练 pipeline
训练流程 — 数据格式规范
监督微调SFT — 损失函数与掩码
训练流程 — 训练优化技术
训练生态工具 — 分布式训练框架
训练生态工具 — 训练框架生态
训练失败排障 — 训练排障指南

推理与系统

KV Cache — KV 缓存原理
量化 — 量化方法对比
vLLM — vLLM 核心
推理加速 — 注意力与解码优化
吞吐与延迟 — 服务指标
长上下文处理 — 长上下文优化

智能体与工具调用

VLM基础 — 视觉语言模型
工具调用 — 工具调用训练
Agent训练数据 — Agent 训练数据
推理模型vs聊天模型 — 推理模型 vs 聊天模型

评测

困惑度详解 — Perplexity 与预训练评测
离线评测 — SFT 评测方法
偏好优化评测 — 偏好优化评测
安全与稳定性 — 安全与稳定性评测
在线评测 — 线上指标
回归测试 — 回归测试

研究前沿

研究前沿总览 — 最新研究全景
注意力优化前沿 — 架构改进
后训练新趋势 — 后训练新方法
推理RL训练 — 推理与强化学习
PEFT扩展方法 — 高效训练前沿
推理优化前沿 — 推理优化进展

案例复盘

SFT_RLHF_LoRA怎么讲 — 核心主题面试框架
Transformer高频题 — Transformer 面试题
微调方案选型题 — 微调选型系统设计
训练资源估算题 — 资源估算
部署与推理优化题 — 部署系统设计
项目深挖题 — 项目经验问答

总览

术语导航 — 80+ 关键术语
论文索引 — 30+ 重要论文
框架索引 — 框架与工具索引
对齐方法总览 — 训练范式全面对比

核心比较页

比较主题	页面	核心问题
训练范式对照	对齐方法总览	预训练 vs SFT vs RLHF vs DPO vs GRPO
微调方法选型	LoRA与QLoRA	Full FT vs LoRA vs QLoRA
训练框架生态	训练生态工具	各框架职责与协作
推理优化总表	量化	量化方法对比
高频面试题	Transformer高频题	10 道高频题及答案
偏好优化对比	偏好优化DPO_GRPO	DPO vs ORPO vs KTO vs CPO

MOC 模型知识总览

模型知识体系总览

知识地图

导航

基础原理

训练与对齐（预训练基础）

训练与对齐（后训练与对齐）

PEFT

训练流程

推理与系统

智能体与工具调用

评测

研究前沿

案例复盘

总览

核心比较页

学习路径建议

入门路径

进阶路径

面试路径

研究路径