训练流程总览

1. 完整 Pipeline 架构

大语言模型的训练是一条多阶段 Pipeline，从原始数据到可部署模型，历经数据工程、预训练、后训练对齐、评估与部署五个核心阶段。

原始数据 → 数据预处理 → Tokenizer → 预训练(Next-Token Prediction)
                                          ↓
                                    SFT (监督微调)
                                          ↓
                               RLHF / DPO / KTO (偏好对齐)
                                          ↓
                                     评估 & 部署

2. 数据收集与预处理

数据来源

Web 爬取：Common Crawl、FineWeb、RedPajama
精选语料：Wikipedia、书籍、科学论文、代码仓库（The Stack、StarCoder Data）
合成数据：使用更强模型生成训练数据（蒸馏、Self-Instruct）
对话数据：ShareGPT、OpenAssistant、UltraChat

预处理步骤

去重：MinHash、Suffix Array、精确去重，去除冗余文档
质量过滤：基于分类器（fastText、小型 LM）过滤低质量内容
PII 去除：清除个人身份信息（姓名、电话、邮箱等）
语言检测：保留目标语言内容
毒性过滤：移除有害、仇恨性内容
数据混合：平衡不同来源数据的比例（如代码:自然语言 = 30:70）

3. Tokenization

主流方案

方法	代表实现	词汇表大小	使用模型
BPE	Tiktoken、SentencePiece	32K–100K	GPT-4、LLaMA
Unigram	SentencePiece	32K–256K	T5、Mistral
WordPiece	HuggingFace Tokenizers	30K	BERT 系列

关键设计决策

特殊 Token：<|im_start|>、<|im_end|>、<|pad|>、<|tool_calls|> 等
字节级回退：确保任何文本都能被编码
多语言覆盖：2025 年趋势是优化非英语语言的 Token 效率

4. 模型架构选择

现代 Decoder-Only Transformer 已成为绝对主流：

注意力机制：Grouped Query Attention (GQA) / Multi-Query Attention (MQA)
位置编码：Rotary Position Embeddings (RoPE)
激活函数：SwiGLU
归一化：RMSNorm（Pre-Norm 配置）
注意力加速：Flash Attention 2/3

5. 预训练（Pre-training）

训练目标

自回归因果语言建模（Next-Token Prediction）：

$L = -\sum_{t=1}^{T} \log P(x_t | x_{1:t-1}; \theta)$

训练规模

模型规模	Token 数量	GPU 需求	训练时长
7B	1-2T	64-256 A100	数天
70B	1-2T	512-2048 A100	数周
405B+	10T+	数千 H100	数月

并行策略

数据并行（DP）：不同 GPU 处理不同数据批次
张量并行（TP）：将单个矩阵乘法切分到多个 GPU
流水线并行（PP）：将模型层切分到不同 GPU
上下文并行（CP）：将长序列切分到多个 GPU

混合精度

BF16 已成为默认选择（相比 FP16 有更大的动态范围）
FP8 训练正在兴起（H100 原生支持）

6. 后训练对齐（Post-training Alignment）

监督微调（SFT）

使用高质量指令遵循数据进行微调
数据量：10K–100K 条
训练目标：仅对回答部分计算 Loss（Label Masking）

偏好对齐

方法	特点	复杂度
RLHF (PPO)	需要奖励模型，训练复杂	高
DPO	无需奖励模型，直接优化偏好	中
ORPO	将偏好信号融入 SFT	低
KTO	只需正/负标签，无需成对偏好	低

2025 年趋势

迭代 DPO：多轮偏好数据收集与训练
在线偏好学习：训练过程中动态生成偏好数据
自我对弈：模型与自身博弈生成偏好数据

7. 评估体系

基准测试

知识推理：MMLU、GPQA、ARC
语言理解：HellaSwag、WinoGrande
代码：HumanEval、MBPP
数学：MATH、GSM8K
指令遵循：IFEval、MT-Bench、AlpacaEval
安全性：Red-teaming、毒性检测、偏见审计
人类评估：LMSYS Chatbot Arena（黄金标准）

8. 部署优化

量化：GPTQ、AWQ、GGUF（FP8/INT4）
推理引擎：vLLM、TGI、TensorRT-LLM
蒸馏：从大模型训练小模型
剪枝：移除不重要的参数/注意力头