2026年4月19日

推理优化前沿

1. 小型**草稿模型**快速生成 K 个候选 token

知识库大模型推理与系统

推理优化前沿

一、推测解码 (Speculative Decoding)（重点读）

1.1 核心原理

小型草稿模型快速生成 K 个候选 token
大型目标模型一次性并行验证所有 K 个 token
接受匹配的 token，拒绝不匹配的
无损加速：输出与直接使用大模型完全一致

1.2 性能提升

典型加速比：2-3x
接受率取决于草稿模型质量
草稿模型越接近目标模型，加速比越高

1.3 变体

方法	核心改进
Medusa	多 token 预测头（无需独立草稿模型）
Eagle	特征级草稿 + 自回归头
SpecInfer	树状推测 + 并行验证
投机采样	基于采样的无损加速

二、MoE 推理优化（重点读）

2.1 MoE 推理挑战

所有专家必须驻留在内存中（即使每次只用少量）
内存需求与总参数量成正比，而非活跃参数量
专家路由开销
典型模型：Mixtral 8x7B (47B 总参数, 13B 活跃)

2.2 MoE 推理优化方法

专家卸载 (Expert Offloading)

将不活跃专家存储在 CPU/SSD
按需加载到 GPU
MoE-Infinity 等系统优化加载延迟

专家剪枝 (Expert Pruning)

识别并移除不常用的专家
知识蒸馏到更少的专家

专家并行 (Expert Parallelism)

不同专家分布在不同 GPU 上
通信与计算重叠

2.3 DeepSeek-V3 MoE 创新

共享专家 + 路由专家的混合设计
共享专家始终激活，提供通用知识
路由专家按需激活，提供专业化知识
MLA 压缩 KV Cache，降低通信开销

三、量化技术前沿（重点读）

3.1 量化方法对比

方法	精度	核心技术	质量损失	适用场景
GPTQ	4-bit	Hessian 信息后训练量化	小	GPU 推理
AWQ	4-bit	激活感知权重量化	极小	GPU 推理
SmoothQuant	8-bit	将量化难度从激活迁移到权重	极小	W8A8 推理
GGUF	2-8-bit	CPU/GPU 混合推理	可变	本地/边缘部署
FP8	8-bit	硬件原生支持	极小	H200/B200
FP4	4-bit	Blackwell 原生支持	小	最新硬件
BitDistil	2-3-bit	极端压缩	较大	极端成本优化

3.2 量化选择指南

GPU 服务端：AWQ 4-bit（质量最好）或 FP8（最新硬件）
本地/边缘：GGUF（灵活，支持 CPU）
极致性能：FP16/BF16（无量化损失）
极致成本：INT4 GPTQ/AWQ

四、端侧推理优化（了解即可）

4.1 端侧部署挑战

内存有限（手机 8-16GB 共享内存）
算力有限（移动 GPU/NPU）
功耗限制
需要实时响应

4.2 端侧优化技术

模型压缩：量化 + 蒸馏到 1-3B 模型
Apple ANE：Apple Neural Engine 加速
Qualcomm AI Engine：Snapdragon NPU 加速
llama.cpp / MLX：端侧推理框架
Gemini Nano / Phi-3-mini：为端侧设计的小模型

4.3 端侧模型代表

Phi-3-mini (3.8B)
Gemma 2B
Qwen2.5-1.5B/3B
LLaMA 3.2 1B/3B

五、推理引擎对比（重点读）

引擎	核心特性	最佳场景
vLLM	PagedAttention, 连续批处理	通用高吞吐
TensorRT-LLM	NVIDIA 深度优化	NVIDIA GPU 低延迟
SGLang	编程式推理, 高效调度	复杂推理流程
TGI	易用, 功能丰富	快速部署
llama.cpp	CPU/混合推理	本地/边缘
Ollama	一键本地部署	开发者本地使用

六、分离式推理架构（重点读）

6.1 核心思想

将推理分为两个阶段，分别部署在不同硬件上：

Prefill（预填充）：计算密集，适合高算力 GPU
Decode（解码）：访存密集，适合高带宽 GPU

6.2 实现

Splitwise / DistServe：将 prefill 和 decode 分到不同 GPU 池
显著提升整体吞吐和资源利用率

七、前沿趋势总结

趋势	状态	优先级
推测解码 (Medusa/Eagle)	快速成熟	重点读
MoE 推理优化	实际需求	重点读
INT4 量化 (AWQ/GPTQ)	已成标配	重点读
vLLM / SGLang	生产标配	重点读
分离式 Prefill/Decode	前沿	重点读
端侧推理	快速发展	了解即可
2-bit 极端量化	研究阶段	暂不深挖