2024年6月4日

在线评测

在线评测是在生产环境中通过**真实用户交互数据**评估模型的延迟、吞吐、成本和用户满意度,是验证模型实际部署效果的金标准。

知识库大模型评测evaluationonline

在线评测

先说结论

在线评测是在生产环境中通过真实用户交互数据评估模型的延迟、吞吐、成本和用户满意度,是验证模型实际部署效果的金标准。

QUESTION 面试高频:离线评测和在线评测的区别? 离线评测在静态 benchmark 上跑分,成本低、可复现,但与真实场景有差距。在线评测在生产环境中收集真实用户反馈,最接近实际效果,但周期长、需要流量、受干扰因素多。最佳实践是离线筛选候选 → 在线 A/B 验证

核心线上指标

延迟指标

指标 定义 典型目标
TTFT (Time to First Token) 从请求到首 token 的时间 < 500ms
TPOT (Time per Output Token) 每个 token 的生成时间 < 50ms
E2E Latency 端到端总延迟 场景相关
Inter-token Latency 相邻 token 间隔 < 50ms

E2E Latency=TTFT+TPOT×Ntokens\text{E2E Latency} = \text{TTFT} + \text{TPOT} \times N_{\text{tokens}}

吞吐指标

指标 定义 影响因素
TPS (Tokens Per Second) 每秒生成 token 数 batch size、模型大小、硬件
RPS (Requests Per Second) 每秒处理请求数 请求复杂度、并发策略
QPS (Queries Per Second) 每秒查询数 与 RPS 类似
GPU 利用率 GPU 计算资源使用率 批处理策略、模型并行

成本指标

指标 定义 优化方向
每千 token 成本 生成 1000 token 的费用 量化、蒸馏、更小模型
每请求成本 单次请求的平均费用 缓存、批处理
GPU 小时成本 每小时 GPU 使用费 硬件选择、利用率优化
TCO 含基础设施+运维的总成本 全链路优化

质量与成功率指标

指标 定义 目标
任务成功率 任务正确完成的百分比 > 95%
错误率 API 错误/超时率 < 1%
用户满意度 正反馈率/Likert 评分 持续监控
幻觉率 包含事实错误的响应比例 越低越好
安全事件率 产生有害内容的比例 < 0.1%

推理引擎与吞吐优化

主流推理引擎

引擎 特点 适用场景
vLLM PagedAttention、连续批处理 通用高吞吐
TensorRT-LLM NVIDIA 优化、低延迟 NVIDIA GPU 生产环境
TGI (HuggingFace) 易用、功能丰富 快速部署
SGLang 编程式推理、高效调度 复杂推理流程
llama.cpp/Ollama CPU/边缘推理 本地部署

关键优化技术

技术 原理 效果
连续批处理 Token 级别请求调度 吞吐提升 2-4x
PagedAttention KV Cache 虚拟内存管理 显存节省 50%+
前缀缓存 共享系统提示的 KV 复用 延迟降低 30%+
推测解码 小模型起草 + 大模型验证 延迟降低 2-3x
分离式 Prefill/Decode 计算密集和访存密集分池 资源利用率提升

量化方案

方案 精度 质量损失 成本降低
FP16/BF16 16-bit 基线 基线
INT8 (SmoothQuant) 8-bit 极小 ~2x
INT4 (GPTQ/AWQ) 4-bit ~4x
FP8 (H200/B200) 8-bit 极小 ~2x

A/B 测试与在线实验

A/B 测试流程

1. 定义假设:新模型/策略是否能提升某指标?
2. 设计实验:分流比例、实验周期、评估指标
3. 流量分割:随机分配用户到 A/B 组
4. 收集数据:记录所有关键指标
5. 统计检验:确认差异是否显著
6. 决策上线:效果确认后全量发布

关键注意事项

  1. 样本量计算:确保统计显著性,通常需要数千到数万次交互
  2. ** Novelty 效应**:新功能初期效果可能虚高,需观察足够长时间
  3. 分流的随机性:确保 A/B 组用户分布一致
  4. 多指标权衡:质量提升可能伴随延迟增加,需综合判断

生产环境监控

监控栈

  • 指标收集:Prometheus + Grafana
  • 日志追踪:LangFuse / LangSmith / Helicone / Arize
  • 告警:延迟/错误率/成本超阈值自动告警

关键监控看板

看板 内容
性能看板 实时 TPS/RPS、TTFT/TPOT 百分位
质量看板 任务成功率、幻觉率、安全事件率
成本看板 每日/每周成本趋势、GPU 利用率
用户满意度 正反馈率、NPS 趋势

容量规划

  • 峰值 QPS 与 GPU 数量的关系
  • 不同模型大小的吞吐基准
  • 自动扩缩容策略(KEDA + K8s)

多模型/多租户架构

模型路由

请求 → 复杂度评估 → 简单请求 → 小模型(低延迟、低成本)
                     复杂请求 → 大模型(高质量)

多租户 LoRA 服务

  • S-LoRA / LoRAX / Punica:同时服务数千个 LoRA 适配器
  • 共享基座模型,动态加载适配器
  • 极大降低多任务服务的总成本

前沿趋势

  1. 推理时计算扩展:推理模型(o1/R1)需要更多推理时计算
  2. 成本/质量/延迟三角权衡:系统化的 Pareto 优化
  3. 端侧部署:移动设备上的小模型推理
  4. NPUs/TPUs 推理:Apple Silicon ANE、Google TPU v5

如果要对外讲,可以怎么概括

"在线评测验证模型在生产环境中的真实表现。我关注三个维度:性能(TTFT < 500ms, TPOT < 50ms)、质量(任务成功率 > 95%, 幻觉率可控)、成本(每请求成本、GPU 利用率)。在推理引擎选择上,vLLM 是通用场景的首选,TensorRT-LLM 适合追求极致延迟的 NVIDIA 环境。关键优化包括连续批处理提升吞吐、PagedAttention 节省显存、推测解码降低延迟。对于成本敏感的场景,INT4 量化可以在极小质量损失下降低 4x 成本。上线流程是:离线评测筛选候选 → 影子模式验证 → A/B 测试确认效果 → 全量发布。"

最后记几条

  1. TTFT 和 TPOT 是最关键的延迟指标:用户体验直接取决于这两个指标
  2. vLLM + PagedAttention 是当前最主流的推理方案
  3. INT4 量化:4x 成本降低,质量损失小
  4. A/B 测试是在线评测的金标准:离线筛选 + 在线验证
  5. 成本/质量/延迟三角:不存在同时优化三者的方案,只能找 Pareto 最优

参考资料

  • Kwon, W. et al. "Efficient Memory Management for Large Language Model Serving with PagedAttention" (vLLM, SOSP 2024)
  • Leviathan, Y. et al. "Fast Inference from Transformers via Speculative Decoding" (2023)
  • Frantar, E. et al. "GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers" (2023)

延伸阅读