在线评测
先说结论
在线评测是在生产环境中通过真实用户交互数据评估模型的延迟、吞吐、成本和用户满意度,是验证模型实际部署效果的金标准。
QUESTION 面试高频:离线评测和在线评测的区别?
离线评测在静态 benchmark 上跑分,成本低、可复现,但与真实场景有差距。在线评测在生产环境中收集真实用户反馈,最接近实际效果,但周期长、需要流量、受干扰因素多。最佳实践是离线筛选候选 → 在线 A/B 验证。
核心线上指标
延迟指标
| 指标 |
定义 |
典型目标 |
| TTFT (Time to First Token) |
从请求到首 token 的时间 |
< 500ms |
| TPOT (Time per Output Token) |
每个 token 的生成时间 |
< 50ms |
| E2E Latency |
端到端总延迟 |
场景相关 |
| Inter-token Latency |
相邻 token 间隔 |
< 50ms |
E2E Latency=TTFT+TPOT×Ntokens
吞吐指标
| 指标 |
定义 |
影响因素 |
| TPS (Tokens Per Second) |
每秒生成 token 数 |
batch size、模型大小、硬件 |
| RPS (Requests Per Second) |
每秒处理请求数 |
请求复杂度、并发策略 |
| QPS (Queries Per Second) |
每秒查询数 |
与 RPS 类似 |
| GPU 利用率 |
GPU 计算资源使用率 |
批处理策略、模型并行 |
成本指标
| 指标 |
定义 |
优化方向 |
| 每千 token 成本 |
生成 1000 token 的费用 |
量化、蒸馏、更小模型 |
| 每请求成本 |
单次请求的平均费用 |
缓存、批处理 |
| GPU 小时成本 |
每小时 GPU 使用费 |
硬件选择、利用率优化 |
| TCO |
含基础设施+运维的总成本 |
全链路优化 |
质量与成功率指标
| 指标 |
定义 |
目标 |
| 任务成功率 |
任务正确完成的百分比 |
> 95% |
| 错误率 |
API 错误/超时率 |
< 1% |
| 用户满意度 |
正反馈率/Likert 评分 |
持续监控 |
| 幻觉率 |
包含事实错误的响应比例 |
越低越好 |
| 安全事件率 |
产生有害内容的比例 |
< 0.1% |
推理引擎与吞吐优化
主流推理引擎
| 引擎 |
特点 |
适用场景 |
| vLLM |
PagedAttention、连续批处理 |
通用高吞吐 |
| TensorRT-LLM |
NVIDIA 优化、低延迟 |
NVIDIA GPU 生产环境 |
| TGI (HuggingFace) |
易用、功能丰富 |
快速部署 |
| SGLang |
编程式推理、高效调度 |
复杂推理流程 |
| llama.cpp/Ollama |
CPU/边缘推理 |
本地部署 |
关键优化技术
| 技术 |
原理 |
效果 |
| 连续批处理 |
Token 级别请求调度 |
吞吐提升 2-4x |
| PagedAttention |
KV Cache 虚拟内存管理 |
显存节省 50%+ |
| 前缀缓存 |
共享系统提示的 KV 复用 |
延迟降低 30%+ |
| 推测解码 |
小模型起草 + 大模型验证 |
延迟降低 2-3x |
| 分离式 Prefill/Decode |
计算密集和访存密集分池 |
资源利用率提升 |
量化方案
| 方案 |
精度 |
质量损失 |
成本降低 |
| FP16/BF16 |
16-bit |
基线 |
基线 |
| INT8 (SmoothQuant) |
8-bit |
极小 |
~2x |
| INT4 (GPTQ/AWQ) |
4-bit |
小 |
~4x |
| FP8 (H200/B200) |
8-bit |
极小 |
~2x |
A/B 测试与在线实验
A/B 测试流程
1. 定义假设:新模型/策略是否能提升某指标?
2. 设计实验:分流比例、实验周期、评估指标
3. 流量分割:随机分配用户到 A/B 组
4. 收集数据:记录所有关键指标
5. 统计检验:确认差异是否显著
6. 决策上线:效果确认后全量发布
关键注意事项
- 样本量计算:确保统计显著性,通常需要数千到数万次交互
- ** Novelty 效应**:新功能初期效果可能虚高,需观察足够长时间
- 分流的随机性:确保 A/B 组用户分布一致
- 多指标权衡:质量提升可能伴随延迟增加,需综合判断
生产环境监控
监控栈
- 指标收集:Prometheus + Grafana
- 日志追踪:LangFuse / LangSmith / Helicone / Arize
- 告警:延迟/错误率/成本超阈值自动告警
关键监控看板
| 看板 |
内容 |
| 性能看板 |
实时 TPS/RPS、TTFT/TPOT 百分位 |
| 质量看板 |
任务成功率、幻觉率、安全事件率 |
| 成本看板 |
每日/每周成本趋势、GPU 利用率 |
| 用户满意度 |
正反馈率、NPS 趋势 |
容量规划
- 峰值 QPS 与 GPU 数量的关系
- 不同模型大小的吞吐基准
- 自动扩缩容策略(KEDA + K8s)
多模型/多租户架构
模型路由
请求 → 复杂度评估 → 简单请求 → 小模型(低延迟、低成本)
复杂请求 → 大模型(高质量)
多租户 LoRA 服务
- S-LoRA / LoRAX / Punica:同时服务数千个 LoRA 适配器
- 共享基座模型,动态加载适配器
- 极大降低多任务服务的总成本
前沿趋势
- 推理时计算扩展:推理模型(o1/R1)需要更多推理时计算
- 成本/质量/延迟三角权衡:系统化的 Pareto 优化
- 端侧部署:移动设备上的小模型推理
- NPUs/TPUs 推理:Apple Silicon ANE、Google TPU v5
如果要对外讲,可以怎么概括
"在线评测验证模型在生产环境中的真实表现。我关注三个维度:性能(TTFT < 500ms, TPOT < 50ms)、质量(任务成功率 > 95%, 幻觉率可控)、成本(每请求成本、GPU 利用率)。在推理引擎选择上,vLLM 是通用场景的首选,TensorRT-LLM 适合追求极致延迟的 NVIDIA 环境。关键优化包括连续批处理提升吞吐、PagedAttention 节省显存、推测解码降低延迟。对于成本敏感的场景,INT4 量化可以在极小质量损失下降低 4x 成本。上线流程是:离线评测筛选候选 → 影子模式验证 → A/B 测试确认效果 → 全量发布。"
最后记几条
- TTFT 和 TPOT 是最关键的延迟指标:用户体验直接取决于这两个指标
- vLLM + PagedAttention 是当前最主流的推理方案
- INT4 量化:4x 成本降低,质量损失小
- A/B 测试是在线评测的金标准:离线筛选 + 在线验证
- 成本/质量/延迟三角:不存在同时优化三者的方案,只能找 Pareto 最优
参考资料
- Kwon, W. et al. "Efficient Memory Management for Large Language Model Serving with PagedAttention" (vLLM, SOSP 2024)
- Leviathan, Y. et al. "Fast Inference from Transformers via Speculative Decoding" (2023)
- Frantar, E. et al. "GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers" (2023)
延伸阅读