推理优化前沿
一、推测解码 (Speculative Decoding)(重点读)
1.1 核心原理
- 小型草稿模型快速生成 K 个候选 token
- 大型目标模型一次性并行验证所有 K 个 token
- 接受匹配的 token,拒绝不匹配的
- 无损加速:输出与直接使用大模型完全一致
1.2 性能提升
- 典型加速比:2-3x
- 接受率取决于草稿模型质量
- 草稿模型越接近目标模型,加速比越高
1.3 变体
| 方法 | 核心改进 |
|---|---|
| Medusa | 多 token 预测头(无需独立草稿模型) |
| Eagle | 特征级草稿 + 自回归头 |
| SpecInfer | 树状推测 + 并行验证 |
| 投机采样 | 基于采样的无损加速 |
二、MoE 推理优化(重点读)
2.1 MoE 推理挑战
- 所有专家必须驻留在内存中(即使每次只用少量)
- 内存需求与总参数量成正比,而非活跃参数量
- 专家路由开销
- 典型模型:Mixtral 8x7B (47B 总参数, 13B 活跃)
2.2 MoE 推理优化方法
专家卸载 (Expert Offloading)
- 将不活跃专家存储在 CPU/SSD
- 按需加载到 GPU
- MoE-Infinity 等系统优化加载延迟
专家剪枝 (Expert Pruning)
- 识别并移除不常用的专家
- 知识蒸馏到更少的专家
专家并行 (Expert Parallelism)
- 不同专家分布在不同 GPU 上
- 通信与计算重叠
2.3 DeepSeek-V3 MoE 创新
- 共享专家 + 路由专家的混合设计
- 共享专家始终激活,提供通用知识
- 路由专家按需激活,提供专业化知识
- MLA 压缩 KV Cache,降低通信开销
三、量化技术前沿(重点读)
3.1 量化方法对比
| 方法 | 精度 | 核心技术 | 质量损失 | 适用场景 |
|---|---|---|---|---|
| GPTQ | 4-bit | Hessian 信息后训练量化 | 小 | GPU 推理 |
| AWQ | 4-bit | 激活感知权重量化 | 极小 | GPU 推理 |
| SmoothQuant | 8-bit | 将量化难度从激活迁移到权重 | 极小 | W8A8 推理 |
| GGUF | 2-8-bit | CPU/GPU 混合推理 | 可变 | 本地/边缘部署 |
| FP8 | 8-bit | 硬件原生支持 | 极小 | H200/B200 |
| FP4 | 4-bit | Blackwell 原生支持 | 小 | 最新硬件 |
| BitDistil | 2-3-bit | 极端压缩 | 较大 | 极端成本优化 |
3.2 量化选择指南
- GPU 服务端:AWQ 4-bit(质量最好)或 FP8(最新硬件)
- 本地/边缘:GGUF(灵活,支持 CPU)
- 极致性能:FP16/BF16(无量化损失)
- 极致成本:INT4 GPTQ/AWQ
四、端侧推理优化(了解即可)
4.1 端侧部署挑战
- 内存有限(手机 8-16GB 共享内存)
- 算力有限(移动 GPU/NPU)
- 功耗限制
- 需要实时响应
4.2 端侧优化技术
- 模型压缩:量化 + 蒸馏到 1-3B 模型
- Apple ANE:Apple Neural Engine 加速
- Qualcomm AI Engine:Snapdragon NPU 加速
- llama.cpp / MLX:端侧推理框架
- Gemini Nano / Phi-3-mini:为端侧设计的小模型
4.3 端侧模型代表
- Phi-3-mini (3.8B)
- Gemma 2B
- Qwen2.5-1.5B/3B
- LLaMA 3.2 1B/3B
五、推理引擎对比(重点读)
| 引擎 | 核心特性 | 最佳场景 |
|---|---|---|
| vLLM | PagedAttention, 连续批处理 | 通用高吞吐 |
| TensorRT-LLM | NVIDIA 深度优化 | NVIDIA GPU 低延迟 |
| SGLang | 编程式推理, 高效调度 | 复杂推理流程 |
| TGI | 易用, 功能丰富 | 快速部署 |
| llama.cpp | CPU/混合推理 | 本地/边缘 |
| Ollama | 一键本地部署 | 开发者本地使用 |
六、分离式推理架构(重点读)
6.1 核心思想
将推理分为两个阶段,分别部署在不同硬件上:
- Prefill(预填充):计算密集,适合高算力 GPU
- Decode(解码):访存密集,适合高带宽 GPU
6.2 实现
- Splitwise / DistServe:将 prefill 和 decode 分到不同 GPU 池
- 显著提升整体吞吐和资源利用率
七、前沿趋势总结
| 趋势 | 状态 | 优先级 |
|---|---|---|
| 推测解码 (Medusa/Eagle) | 快速成熟 | 重点读 |
| MoE 推理优化 | 实际需求 | 重点读 |
| INT4 量化 (AWQ/GPTQ) | 已成标配 | 重点读 |
| vLLM / SGLang | 生产标配 | 重点读 |
| 分离式 Prefill/Decode | 前沿 | 重点读 |
| 端侧推理 | 快速发展 | 了解即可 |
| 2-bit 极端量化 | 研究阶段 | 暂不深挖 |