框架与工具索引
训练框架
| 框架 |
负责层 |
必须掌握 |
对应笔记 |
| Transformers (HuggingFace) |
模型定义、加载、推理 |
是 |
训练生态工具 |
| TRL (HuggingFace) |
训练流程 (SFTTrainer, PPOTrainer, DPOTrainer, GRPOTrainer) |
是 |
训练生态工具 |
| PEFT (HuggingFace) |
参数高效微调 (LoRA, QLoRA, AdaLoRA, IA3) |
是 |
PEFT总览 |
| Accelerate (HuggingFace) |
分布式训练抽象层 |
是 |
训练生态工具 |
| DeepSpeed (Microsoft) |
分布式训练 (ZeRO Stage 1/2/3, Offload) |
重点了解 |
训练生态工具 |
| FSDP (PyTorch) |
全分片数据并行 |
重点了解 |
训练生态工具 |
| Unsloth |
训练加速(2x faster, 60% less memory) |
了解 |
训练生态工具 |
| Liger Kernel |
Triton kernel 优化(跨 entropy、layer norm 等) |
了解 |
训练生态工具 |
| Megatron-LM (NVIDIA) |
大规模分布式训练框架 |
了解 |
训练生态工具 |
框架协作关系
用户代码
└── TRL (训练流程: SFTTrainer / DPOTrainer / PPOTrainer)
├── Transformers (模型加载/定义)
├── PEFT (LoRA/QLoRA 注入)
├── Accelerate → DeepSpeed / FSDP (分布式)
└── bitsandbytes (量化)
└── Unsloth (加速补丁,可选)
└── Liger Kernel (kernel 优化,可选)
推理框架
| 框架 |
核心能力 |
必须掌握 |
对应笔记 |
| vLLM |
PagedAttention, Continuous Batching, 量化 |
是 |
vLLM |
| llama.cpp |
GGUF 量化、CPU/GPU 推理、端侧部署 |
是 |
量化 |
| TensorRT-LLM (NVIDIA) |
GPU 极致优化、量化、in-flight batching |
了解 |
推理优化前沿 |
| TGI (HuggingFace) |
Text Generation Inference,生产级 serving |
了解 |
吞吐与延迟 |
| SGLang |
结构化生成、高效 serving |
了解 |
推理优化前沿 |
| AutoGPTQ |
GPTQ 量化实现 |
重点了解 |
量化 |
| AutoAWQ |
AWQ 量化实现 |
重点了解 |
量化 |
评测工具
| 工具 |
用途 |
对应笔记 |
| lm-evaluation-harness (EleutherAI) |
标准化评测框架 |
离线评测 |
| AlpacaEval |
指令跟随评测 |
偏好优化评测 |
| MT-Bench |
多轮对话评测 |
偏好优化评测 |
| HELM (Stanford) |
全面语言模型评测 |
离线评测 |
| OpenCompass (上海AI Lab) |
中文评测为主 |
离线评测 |
| HumanEval |
代码生成评测 |
离线评测 |
数据处理
| 工具 |
用途 |
对应笔记 |
| Datasets (HuggingFace) |
数据加载和处理 |
数据工程 |
| DataTrove |
大规模数据清洗 |
数据工程 |
模型合并与部署
| 工具 |
用途 |
对应笔记 |
| Mergekit |
模型合并 (SVD, TIES, DARE) |
Adapter管理 |
| Weights & Biases |
训练监控 |
训练失败排障 |