框架与工具索引

训练框架

框架	负责层	必须掌握	对应笔记
Transformers (HuggingFace)	模型定义、加载、推理	是	训练生态工具
TRL (HuggingFace)	训练流程 (SFTTrainer, PPOTrainer, DPOTrainer, GRPOTrainer)	是	训练生态工具
PEFT (HuggingFace)	参数高效微调 (LoRA, QLoRA, AdaLoRA, IA3)	是	PEFT总览
Accelerate (HuggingFace)	分布式训练抽象层	是	训练生态工具
DeepSpeed (Microsoft)	分布式训练 (ZeRO Stage 1/2/3, Offload)	重点了解	训练生态工具
FSDP (PyTorch)	全分片数据并行	重点了解	训练生态工具
Unsloth	训练加速（2x faster, 60% less memory）	了解	训练生态工具
Liger Kernel	Triton kernel 优化（跨 entropy、layer norm 等）	了解	训练生态工具
Megatron-LM (NVIDIA)	大规模分布式训练框架	了解	训练生态工具

框架协作关系

用户代码
  └── TRL (训练流程: SFTTrainer / DPOTrainer / PPOTrainer)
        ├── Transformers (模型加载/定义)
        ├── PEFT (LoRA/QLoRA 注入)
        ├── Accelerate → DeepSpeed / FSDP (分布式)
        └── bitsandbytes (量化)
              └── Unsloth (加速补丁，可选)
              └── Liger Kernel (kernel 优化，可选)

推理框架

框架	核心能力	必须掌握	对应笔记
vLLM	PagedAttention, Continuous Batching, 量化	是	vLLM
llama.cpp	GGUF 量化、CPU/GPU 推理、端侧部署	是	量化
TensorRT-LLM (NVIDIA)	GPU 极致优化、量化、in-flight batching	了解	推理优化前沿
TGI (HuggingFace)	Text Generation Inference，生产级 serving	了解	吞吐与延迟
SGLang	结构化生成、高效 serving	了解	推理优化前沿
AutoGPTQ	GPTQ 量化实现	重点了解	量化
AutoAWQ	AWQ 量化实现	重点了解	量化

评测工具

工具	用途	对应笔记
lm-evaluation-harness (EleutherAI)	标准化评测框架	离线评测
AlpacaEval	指令跟随评测	偏好优化评测
MT-Bench	多轮对话评测	偏好优化评测
HELM (Stanford)	全面语言模型评测	离线评测
OpenCompass (上海AI Lab)	中文评测为主	离线评测
HumanEval	代码生成评测	离线评测

数据处理

工具	用途	对应笔记
Datasets (HuggingFace)	数据加载和处理	数据工程
DataTrove	大规模数据清洗	数据工程

模型合并与部署

工具	用途	对应笔记
Mergekit	模型合并 (SVD, TIES, DARE)	Adapter管理
Weights & Biases	训练监控	训练失败排障

框架索引

框架与工具索引

训练框架

框架协作关系

推理框架

评测工具

数据处理

模型合并与部署