在线评测

先说结论

在线评测是在生产环境中通过真实用户交互数据评估模型的延迟、吞吐、成本和用户满意度，是验证模型实际部署效果的金标准。

QUESTION 面试高频：离线评测和在线评测的区别？离线评测在静态 benchmark 上跑分，成本低、可复现，但与真实场景有差距。在线评测在生产环境中收集真实用户反馈，最接近实际效果，但周期长、需要流量、受干扰因素多。最佳实践是离线筛选候选 → 在线 A/B 验证。

核心线上指标

延迟指标

指标	定义	典型目标
TTFT (Time to First Token)	从请求到首 token 的时间	< 500ms
TPOT (Time per Output Token)	每个 token 的生成时间	< 50ms
E2E Latency	端到端总延迟	场景相关
Inter-token Latency	相邻 token 间隔	< 50ms

$\text{E2E Latency} = \text{TTFT} + \text{TPOT} \times N_{\text{tokens}}$

吞吐指标

指标	定义	影响因素
TPS (Tokens Per Second)	每秒生成 token 数	batch size、模型大小、硬件
RPS (Requests Per Second)	每秒处理请求数	请求复杂度、并发策略
QPS (Queries Per Second)	每秒查询数	与 RPS 类似
GPU 利用率	GPU 计算资源使用率	批处理策略、模型并行

成本指标

指标	定义	优化方向
每千 token 成本	生成 1000 token 的费用	量化、蒸馏、更小模型
每请求成本	单次请求的平均费用	缓存、批处理
GPU 小时成本	每小时 GPU 使用费	硬件选择、利用率优化
TCO	含基础设施+运维的总成本	全链路优化

质量与成功率指标

指标	定义	目标
任务成功率	任务正确完成的百分比	> 95%
错误率	API 错误/超时率	< 1%
用户满意度	正反馈率/Likert 评分	持续监控
幻觉率	包含事实错误的响应比例	越低越好
安全事件率	产生有害内容的比例	< 0.1%

推理引擎与吞吐优化

主流推理引擎

引擎	特点	适用场景
vLLM	PagedAttention、连续批处理	通用高吞吐
TensorRT-LLM	NVIDIA 优化、低延迟	NVIDIA GPU 生产环境
TGI (HuggingFace)	易用、功能丰富	快速部署
SGLang	编程式推理、高效调度	复杂推理流程
llama.cpp/Ollama	CPU/边缘推理	本地部署

关键优化技术

技术	原理	效果
连续批处理	Token 级别请求调度	吞吐提升 2-4x
PagedAttention	KV Cache 虚拟内存管理	显存节省 50%+
前缀缓存	共享系统提示的 KV 复用	延迟降低 30%+
推测解码	小模型起草 + 大模型验证	延迟降低 2-3x
分离式 Prefill/Decode	计算密集和访存密集分池	资源利用率提升

量化方案

方案	精度	质量损失	成本降低
FP16/BF16	16-bit	基线	基线
INT8 (SmoothQuant)	8-bit	极小	~2x
INT4 (GPTQ/AWQ)	4-bit	小	~4x
FP8 (H200/B200)	8-bit	极小	~2x

A/B 测试与在线实验

A/B 测试流程

1. 定义假设：新模型/策略是否能提升某指标？
2. 设计实验：分流比例、实验周期、评估指标
3. 流量分割：随机分配用户到 A/B 组
4. 收集数据：记录所有关键指标
5. 统计检验：确认差异是否显著
6. 决策上线：效果确认后全量发布

关键注意事项

样本量计算：确保统计显著性，通常需要数千到数万次交互
** Novelty 效应**：新功能初期效果可能虚高，需观察足够长时间
分流的随机性：确保 A/B 组用户分布一致
多指标权衡：质量提升可能伴随延迟增加，需综合判断

生产环境监控

监控栈

指标收集：Prometheus + Grafana
日志追踪：LangFuse / LangSmith / Helicone / Arize
告警：延迟/错误率/成本超阈值自动告警

关键监控看板

看板	内容
性能看板	实时 TPS/RPS、TTFT/TPOT 百分位
质量看板	任务成功率、幻觉率、安全事件率
成本看板	每日/每周成本趋势、GPU 利用率
用户满意度	正反馈率、NPS 趋势

容量规划

峰值 QPS 与 GPU 数量的关系
不同模型大小的吞吐基准
自动扩缩容策略（KEDA + K8s）

多模型/多租户架构

模型路由

请求 → 复杂度评估 → 简单请求 → 小模型（低延迟、低成本）
                     复杂请求 → 大模型（高质量）

多租户 LoRA 服务

S-LoRA / LoRAX / Punica：同时服务数千个 LoRA 适配器
共享基座模型，动态加载适配器
极大降低多任务服务的总成本

前沿趋势

推理时计算扩展：推理模型（o1/R1）需要更多推理时计算
成本/质量/延迟三角权衡：系统化的 Pareto 优化
端侧部署：移动设备上的小模型推理
NPUs/TPUs 推理：Apple Silicon ANE、Google TPU v5

如果要对外讲，可以怎么概括

"在线评测验证模型在生产环境中的真实表现。我关注三个维度：性能（TTFT < 500ms, TPOT < 50ms）、质量（任务成功率 > 95%, 幻觉率可控）、成本（每请求成本、GPU 利用率）。在推理引擎选择上，vLLM 是通用场景的首选，TensorRT-LLM 适合追求极致延迟的 NVIDIA 环境。关键优化包括连续批处理提升吞吐、PagedAttention 节省显存、推测解码降低延迟。对于成本敏感的场景，INT4 量化可以在极小质量损失下降低 4x 成本。上线流程是：离线评测筛选候选 → 影子模式验证 → A/B 测试确认效果 → 全量发布。"

最后记几条

TTFT 和 TPOT 是最关键的延迟指标：用户体验直接取决于这两个指标
vLLM + PagedAttention 是当前最主流的推理方案
INT4 量化：4x 成本降低，质量损失小
A/B 测试是在线评测的金标准：离线筛选 + 在线验证
成本/质量/延迟三角：不存在同时优化三者的方案，只能找 Pareto 最优

参考资料

Kwon, W. et al. "Efficient Memory Management for Large Language Model Serving with PagedAttention" (vLLM, SOSP 2024)
Leviathan, Y. et al. "Fast Inference from Transformers via Speculative Decoding" (2023)
Frantar, E. et al. "GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers" (2023)

在线评测

在线评测

先说结论

核心线上指标

延迟指标

吞吐指标

成本指标

质量与成功率指标

推理引擎与吞吐优化

主流推理引擎

关键优化技术

量化方案

A/B 测试与在线实验

A/B 测试流程

关键注意事项

生产环境监控

监控栈

关键监控看板

容量规划

多模型/多租户架构

模型路由

多租户 LoRA 服务

前沿趋势

如果要对外讲，可以怎么概括

最后记几条

参考资料

延伸阅读