训练流程总览
1. 完整 Pipeline 架构
大语言模型的训练是一条多阶段 Pipeline,从原始数据到可部署模型,历经数据工程、预训练、后训练对齐、评估与部署五个核心阶段。
原始数据 → 数据预处理 → Tokenizer → 预训练(Next-Token Prediction)
↓
SFT (监督微调)
↓
RLHF / DPO / KTO (偏好对齐)
↓
评估 & 部署
2. 数据收集与预处理
数据来源
- Web 爬取:Common Crawl、FineWeb、RedPajama
- 精选语料:Wikipedia、书籍、科学论文、代码仓库(The Stack、StarCoder Data)
- 合成数据:使用更强模型生成训练数据(蒸馏、Self-Instruct)
- 对话数据:ShareGPT、OpenAssistant、UltraChat
预处理步骤
- 去重:MinHash、Suffix Array、精确去重,去除冗余文档
- 质量过滤:基于分类器(fastText、小型 LM)过滤低质量内容
- PII 去除:清除个人身份信息(姓名、电话、邮箱等)
- 语言检测:保留目标语言内容
- 毒性过滤:移除有害、仇恨性内容
- 数据混合:平衡不同来源数据的比例(如代码:自然语言 = 30:70)
3. Tokenization
主流方案
| 方法 | 代表实现 | 词汇表大小 | 使用模型 |
|---|---|---|---|
| BPE | Tiktoken、SentencePiece | 32K–100K | GPT-4、LLaMA |
| Unigram | SentencePiece | 32K–256K | T5、Mistral |
| WordPiece | HuggingFace Tokenizers | 30K | BERT 系列 |
关键设计决策
- 特殊 Token:
<|im_start|>、<|im_end|>、<|pad|>、<|tool_calls|>等 - 字节级回退:确保任何文本都能被编码
- 多语言覆盖:2025 年趋势是优化非英语语言的 Token 效率
4. 模型架构选择
现代 Decoder-Only Transformer 已成为绝对主流:
- 注意力机制:Grouped Query Attention (GQA) / Multi-Query Attention (MQA)
- 位置编码:Rotary Position Embeddings (RoPE)
- 激活函数:SwiGLU
- 归一化:RMSNorm(Pre-Norm 配置)
- 注意力加速:Flash Attention 2/3
5. 预训练(Pre-training)
训练目标
自回归因果语言建模(Next-Token Prediction):
训练规模
| 模型规模 | Token 数量 | GPU 需求 | 训练时长 |
|---|---|---|---|
| 7B | 1-2T | 64-256 A100 | 数天 |
| 70B | 1-2T | 512-2048 A100 | 数周 |
| 405B+ | 10T+ | 数千 H100 | 数月 |
并行策略
- 数据并行(DP):不同 GPU 处理不同数据批次
- 张量并行(TP):将单个矩阵乘法切分到多个 GPU
- 流水线并行(PP):将模型层切分到不同 GPU
- 上下文并行(CP):将长序列切分到多个 GPU
混合精度
- BF16 已成为默认选择(相比 FP16 有更大的动态范围)
- FP8 训练正在兴起(H100 原生支持)
6. 后训练对齐(Post-training Alignment)
监督微调(SFT)
- 使用高质量指令遵循数据进行微调
- 数据量:10K–100K 条
- 训练目标:仅对回答部分计算 Loss(Label Masking)
偏好对齐
| 方法 | 特点 | 复杂度 |
|---|---|---|
| RLHF (PPO) | 需要奖励模型,训练复杂 | 高 |
| DPO | 无需奖励模型,直接优化偏好 | 中 |
| ORPO | 将偏好信号融入 SFT | 低 |
| KTO | 只需正/负标签,无需成对偏好 | 低 |
2025 年趋势
- 迭代 DPO:多轮偏好数据收集与训练
- 在线偏好学习:训练过程中动态生成偏好数据
- 自我对弈:模型与自身博弈生成偏好数据
7. 评估体系
基准测试
- 知识推理:MMLU、GPQA、ARC
- 语言理解:HellaSwag、WinoGrande
- 代码:HumanEval、MBPP
- 数学:MATH、GSM8K
- 指令遵循:IFEval、MT-Bench、AlpacaEval
- 安全性:Red-teaming、毒性检测、偏见审计
- 人类评估:LMSYS Chatbot Arena(黄金标准)
8. 部署优化
- 量化:GPTQ、AWQ、GGUF(FP8/INT4)
- 推理引擎:vLLM、TGI、TensorRT-LLM
- 蒸馏:从大模型训练小模型
- 剪枝:移除不重要的参数/注意力头