2026年4月19日

推理优化前沿

1. 小型**草稿模型**快速生成 K 个候选 token

知识库大模型推理与系统

推理优化前沿

一、推测解码 (Speculative Decoding)(重点读)

1.1 核心原理

  1. 小型草稿模型快速生成 K 个候选 token
  2. 大型目标模型一次性并行验证所有 K 个 token
  3. 接受匹配的 token,拒绝不匹配的
  4. 无损加速:输出与直接使用大模型完全一致

1.2 性能提升

  • 典型加速比:2-3x
  • 接受率取决于草稿模型质量
  • 草稿模型越接近目标模型,加速比越高

1.3 变体

方法 核心改进
Medusa 多 token 预测头(无需独立草稿模型)
Eagle 特征级草稿 + 自回归头
SpecInfer 树状推测 + 并行验证
投机采样 基于采样的无损加速

二、MoE 推理优化(重点读)

2.1 MoE 推理挑战

  • 所有专家必须驻留在内存中(即使每次只用少量)
  • 内存需求与总参数量成正比,而非活跃参数量
  • 专家路由开销
  • 典型模型:Mixtral 8x7B (47B 总参数, 13B 活跃)

2.2 MoE 推理优化方法

专家卸载 (Expert Offloading)

  • 将不活跃专家存储在 CPU/SSD
  • 按需加载到 GPU
  • MoE-Infinity 等系统优化加载延迟

专家剪枝 (Expert Pruning)

  • 识别并移除不常用的专家
  • 知识蒸馏到更少的专家

专家并行 (Expert Parallelism)

  • 不同专家分布在不同 GPU 上
  • 通信与计算重叠

2.3 DeepSeek-V3 MoE 创新

  • 共享专家 + 路由专家的混合设计
  • 共享专家始终激活,提供通用知识
  • 路由专家按需激活,提供专业化知识
  • MLA 压缩 KV Cache,降低通信开销

三、量化技术前沿(重点读)

3.1 量化方法对比

方法 精度 核心技术 质量损失 适用场景
GPTQ 4-bit Hessian 信息后训练量化 GPU 推理
AWQ 4-bit 激活感知权重量化 极小 GPU 推理
SmoothQuant 8-bit 将量化难度从激活迁移到权重 极小 W8A8 推理
GGUF 2-8-bit CPU/GPU 混合推理 可变 本地/边缘部署
FP8 8-bit 硬件原生支持 极小 H200/B200
FP4 4-bit Blackwell 原生支持 最新硬件
BitDistil 2-3-bit 极端压缩 较大 极端成本优化

3.2 量化选择指南

  • GPU 服务端:AWQ 4-bit(质量最好)或 FP8(最新硬件)
  • 本地/边缘:GGUF(灵活,支持 CPU)
  • 极致性能:FP16/BF16(无量化损失)
  • 极致成本:INT4 GPTQ/AWQ

四、端侧推理优化(了解即可)

4.1 端侧部署挑战

  • 内存有限(手机 8-16GB 共享内存)
  • 算力有限(移动 GPU/NPU)
  • 功耗限制
  • 需要实时响应

4.2 端侧优化技术

  • 模型压缩:量化 + 蒸馏到 1-3B 模型
  • Apple ANE:Apple Neural Engine 加速
  • Qualcomm AI Engine:Snapdragon NPU 加速
  • llama.cpp / MLX:端侧推理框架
  • Gemini Nano / Phi-3-mini:为端侧设计的小模型

4.3 端侧模型代表

  • Phi-3-mini (3.8B)
  • Gemma 2B
  • Qwen2.5-1.5B/3B
  • LLaMA 3.2 1B/3B

五、推理引擎对比(重点读)

引擎 核心特性 最佳场景
vLLM PagedAttention, 连续批处理 通用高吞吐
TensorRT-LLM NVIDIA 深度优化 NVIDIA GPU 低延迟
SGLang 编程式推理, 高效调度 复杂推理流程
TGI 易用, 功能丰富 快速部署
llama.cpp CPU/混合推理 本地/边缘
Ollama 一键本地部署 开发者本地使用

六、分离式推理架构(重点读)

6.1 核心思想

将推理分为两个阶段,分别部署在不同硬件上:

  • Prefill(预填充):计算密集,适合高算力 GPU
  • Decode(解码):访存密集,适合高带宽 GPU

6.2 实现

  • Splitwise / DistServe:将 prefill 和 decode 分到不同 GPU 池
  • 显著提升整体吞吐和资源利用率

七、前沿趋势总结

趋势 状态 优先级
推测解码 (Medusa/Eagle) 快速成熟 重点读
MoE 推理优化 实际需求 重点读
INT4 量化 (AWQ/GPTQ) 已成标配 重点读
vLLM / SGLang 生产标配 重点读
分离式 Prefill/Decode 前沿 重点读
端侧推理 快速发展 了解即可
2-bit 极端量化 研究阶段 暂不深挖