2026年4月19日

训练流程总览

大语言模型的训练是一条多阶段 Pipeline,从原始数据到可部署模型,历经数据工程、预训练、后训练对齐、评估与部署五个核心阶段。

知识库大模型训练与对齐

训练流程总览

1. 完整 Pipeline 架构

大语言模型的训练是一条多阶段 Pipeline,从原始数据到可部署模型,历经数据工程、预训练、后训练对齐、评估与部署五个核心阶段。

原始数据 → 数据预处理 → Tokenizer → 预训练(Next-Token Prediction)
                                          ↓
                                    SFT (监督微调)
                                          ↓
                               RLHF / DPO / KTO (偏好对齐)
                                          ↓
                                     评估 & 部署

2. 数据收集与预处理

数据来源

  • Web 爬取:Common Crawl、FineWeb、RedPajama
  • 精选语料:Wikipedia、书籍、科学论文、代码仓库(The Stack、StarCoder Data)
  • 合成数据:使用更强模型生成训练数据(蒸馏、Self-Instruct)
  • 对话数据:ShareGPT、OpenAssistant、UltraChat

预处理步骤

  1. 去重:MinHash、Suffix Array、精确去重,去除冗余文档
  2. 质量过滤:基于分类器(fastText、小型 LM)过滤低质量内容
  3. PII 去除:清除个人身份信息(姓名、电话、邮箱等)
  4. 语言检测:保留目标语言内容
  5. 毒性过滤:移除有害、仇恨性内容
  6. 数据混合:平衡不同来源数据的比例(如代码:自然语言 = 30:70)

3. Tokenization

主流方案

方法 代表实现 词汇表大小 使用模型
BPE Tiktoken、SentencePiece 32K–100K GPT-4、LLaMA
Unigram SentencePiece 32K–256K T5、Mistral
WordPiece HuggingFace Tokenizers 30K BERT 系列

关键设计决策

  • 特殊 Token<|im_start|><|im_end|><|pad|><|tool_calls|>
  • 字节级回退:确保任何文本都能被编码
  • 多语言覆盖:2025 年趋势是优化非英语语言的 Token 效率

4. 模型架构选择

现代 Decoder-Only Transformer 已成为绝对主流:

  • 注意力机制:Grouped Query Attention (GQA) / Multi-Query Attention (MQA)
  • 位置编码:Rotary Position Embeddings (RoPE)
  • 激活函数:SwiGLU
  • 归一化:RMSNorm(Pre-Norm 配置)
  • 注意力加速:Flash Attention 2/3

5. 预训练(Pre-training)

训练目标

自回归因果语言建模(Next-Token Prediction):

L=t=1TlogP(xtx1:t1;θ)L = -\sum_{t=1}^{T} \log P(x_t | x_{1:t-1}; \theta)

训练规模

模型规模 Token 数量 GPU 需求 训练时长
7B 1-2T 64-256 A100 数天
70B 1-2T 512-2048 A100 数周
405B+ 10T+ 数千 H100 数月

并行策略

  • 数据并行(DP):不同 GPU 处理不同数据批次
  • 张量并行(TP):将单个矩阵乘法切分到多个 GPU
  • 流水线并行(PP):将模型层切分到不同 GPU
  • 上下文并行(CP):将长序列切分到多个 GPU

混合精度

  • BF16 已成为默认选择(相比 FP16 有更大的动态范围)
  • FP8 训练正在兴起(H100 原生支持)

6. 后训练对齐(Post-training Alignment)

监督微调(SFT)

  • 使用高质量指令遵循数据进行微调
  • 数据量:10K–100K 条
  • 训练目标:仅对回答部分计算 Loss(Label Masking)

偏好对齐

方法 特点 复杂度
RLHF (PPO) 需要奖励模型,训练复杂
DPO 无需奖励模型,直接优化偏好
ORPO 将偏好信号融入 SFT
KTO 只需正/负标签,无需成对偏好

2025 年趋势

  • 迭代 DPO:多轮偏好数据收集与训练
  • 在线偏好学习:训练过程中动态生成偏好数据
  • 自我对弈:模型与自身博弈生成偏好数据

7. 评估体系

基准测试

  • 知识推理:MMLU、GPQA、ARC
  • 语言理解:HellaSwag、WinoGrande
  • 代码:HumanEval、MBPP
  • 数学:MATH、GSM8K
  • 指令遵循:IFEval、MT-Bench、AlpacaEval
  • 安全性:Red-teaming、毒性检测、偏见审计
  • 人类评估:LMSYS Chatbot Arena(黄金标准)

8. 部署优化

  • 量化:GPTQ、AWQ、GGUF(FP8/INT4)
  • 推理引擎:vLLM、TGI、TensorRT-LLM
  • 蒸馏:从大模型训练小模型
  • 剪枝:移除不重要的参数/注意力头