2026年4月19日

框架索引

| 框架 | 负责层 | 必须掌握 | 对应笔记 |

知识库大模型总览llmmodelframeworks

框架与工具索引

训练框架

框架 负责层 必须掌握 对应笔记
Transformers (HuggingFace) 模型定义、加载、推理 训练生态工具
TRL (HuggingFace) 训练流程 (SFTTrainer, PPOTrainer, DPOTrainer, GRPOTrainer) 训练生态工具
PEFT (HuggingFace) 参数高效微调 (LoRA, QLoRA, AdaLoRA, IA3) PEFT总览
Accelerate (HuggingFace) 分布式训练抽象层 训练生态工具
DeepSpeed (Microsoft) 分布式训练 (ZeRO Stage 1/2/3, Offload) 重点了解 训练生态工具
FSDP (PyTorch) 全分片数据并行 重点了解 训练生态工具
Unsloth 训练加速(2x faster, 60% less memory) 了解 训练生态工具
Liger Kernel Triton kernel 优化(跨 entropy、layer norm 等) 了解 训练生态工具
Megatron-LM (NVIDIA) 大规模分布式训练框架 了解 训练生态工具

框架协作关系

用户代码
  └── TRL (训练流程: SFTTrainer / DPOTrainer / PPOTrainer)
        ├── Transformers (模型加载/定义)
        ├── PEFT (LoRA/QLoRA 注入)
        ├── Accelerate → DeepSpeed / FSDP (分布式)
        └── bitsandbytes (量化)
              └── Unsloth (加速补丁,可选)
              └── Liger Kernel (kernel 优化,可选)

推理框架

框架 核心能力 必须掌握 对应笔记
vLLM PagedAttention, Continuous Batching, 量化 vLLM
llama.cpp GGUF 量化、CPU/GPU 推理、端侧部署 量化
TensorRT-LLM (NVIDIA) GPU 极致优化、量化、in-flight batching 了解 推理优化前沿
TGI (HuggingFace) Text Generation Inference,生产级 serving 了解 吞吐与延迟
SGLang 结构化生成、高效 serving 了解 推理优化前沿
AutoGPTQ GPTQ 量化实现 重点了解 量化
AutoAWQ AWQ 量化实现 重点了解 量化

评测工具

工具 用途 对应笔记
lm-evaluation-harness (EleutherAI) 标准化评测框架 离线评测
AlpacaEval 指令跟随评测 偏好优化评测
MT-Bench 多轮对话评测 偏好优化评测
HELM (Stanford) 全面语言模型评测 离线评测
OpenCompass (上海AI Lab) 中文评测为主 离线评测
HumanEval 代码生成评测 离线评测

数据处理

工具 用途 对应笔记
Datasets (HuggingFace) 数据加载和处理 数据工程
DataTrove 大规模数据清洗 数据工程

模型合并与部署

工具 用途 对应笔记
Mergekit 模型合并 (SVD, TIES, DARE) Adapter管理
Weights & Biases 训练监控 训练失败排障