大模型评测总览
先说结论
大模型评测是对 LLM 在知识能力、推理能力、指令遵循、安全性、稳定性等多个维度上进行量化评估,是模型选型、能力迭代和上线决策的核心依据。
QUESTION 面试高频:大模型评测有哪些主要维度? 六大核心维度:知识广度(MMLU/GPQA)、推理能力(GSM8K/MATH)、代码能力(HumanEval/SWE-bench)、对话质量(MT-Bench/Chatbot Arena)、安全性(TruthfulQA/HarmBench)、稳定性(自一致性/对抗鲁棒性)。没有单一基准能全面评估模型,必须多维度组合。
评测体系架构
┌─ 知识广度:MMLU, GPQA, MMMU
├─ 推理能力:GSM8K, MATH, ARC
离线评测 ──────├─ 代码能力:HumanEval, MBPP, SWE-bench
(Offline) ├─ 指令遵循:MT-Bench, IFEval, AlpacaEval
├─ 安全性:TruthfulQA, HarmBench, BBQ
└─ 稳定性:自一致性, 对抗鲁棒性
┌─ 延迟:TTFT, TPOT, E2E Latency
在线评测 ──────├─ 吞吐:TPS, RPS, QPS
(Online) ├─ 成本:每千Token成本, GPU利用率
├─ 质量:任务成功率, 幻觉率
└─ 用户满意度:正反馈率, NPS
评测方法分类
| 方法 | 说明 | 优势 | 劣势 |
|---|---|---|---|
| 自动基准评测 | 在标准化 benchmark 上跑分 | 可复现、成本低 | 可能被优化、存在数据泄露风险 |
| LLM-as-a-Judge | 用强模型评估弱模型 | 灵活、可扩展 | 裁判模型有偏差 |
| 人类偏好评测 | 人工对比选择(如 Chatbot Arena) | 最接近真实体验 | 成本高、规模受限 |
| 专家评测 | 领域专家评估 | 精确、深度高 | 成本极高、难以规模化 |
| 在线 A/B 测试 | 线上真实用户对比 | 最真实 | 周期长、需要流量 |
核心基准一览
知识与推理
| 基准 | 评测能力 | 题目数量 | 评估方式 |
|---|---|---|---|
| MMLU | 57 科知识广度 | ~15,900 | 5-shot 准确率 |
| MMLU-Pro | 更难的知识评测 | ~12,000 | 10 选项准确率 |
| GPQA | 研究生级专家问答 | 448 | 专家验证 |
| GSM8K | 小学数学推理 | 8,500 | 准确率 |
| MATH | 竞赛数学 | 5,000 | 准确率 |
| ARC | 科学推理 | 7,787 | 准确率 |
代码能力
| 基准 | 评测能力 | 特点 |
|---|---|---|
| HumanEval | Python 函数补全 | 164 题,pass@k |
| HumanEval+ | 增强版 HumanEval | 80x 测试用例,减少假阳性 |
| MBPP | 基础 Python 编程 | 974 题 |
| LiveCodeBench | 持续更新编程题 | 从竞赛平台实时抓取 |
| SWE-bench | 真实 GitHub issue 修复 | 评估工程能力 |
对话与指令遵循
| 基准 | 评测能力 | 评估方式 |
|---|---|---|
| MT-Bench | 多轮对话质量 | GPT-4 打分 1-10 |
| Chatbot Arena | 人类偏好排名 | 盲测 Elo 排名 |
| AlpacaEval 2.0 | 指令遵循 | 自动化评测 |
| IFEval | 格式指令遵循 | 规则匹配 |
QUESTION 面试高频:MMLU、MT-Bench、HumanEval 的区别和各自局限? MMLU评测知识广度(57 科选择题),已趋于饱和且存在数据泄露风险;MT-Bench评测多轮对话(80 题),依赖 LLM-as-a-Judge 存在裁判偏差(偏好更长更格式化的回答);HumanEval评测代码生成(164 题),测试用例不足导致假阳性,且仅覆盖 Python。三者互补但都不能单独作为选型依据。
数据泄露问题
QUESTION 面试高频:什么是评测数据泄露?如何检测和防止?
数据泄露是指训练数据中包含了 benchmark 的题目和答案,导致评测分数虚高,不能反映模型真实能力。
检测方法
| 方法 | 原理 | 效果 |
|---|---|---|
| N-gram 重叠检测 | 检查训练集与测试集的 n-gram 重叠 | 简单但不够全面 |
| Membership Inference | 判断测试题是否出现在训练集中 | 更精确但计算量大 |
| 重phrased 测试 | 用不同表述问同一题,看分数是否下降 | 揭示记忆 vs 理解 |
| 时间分割 | 用训练截止日期后的新题测试 | 最可靠 |
防止措施
- 动态评测集:LiveCodeBench、Chatbot Arena 等持续更新的基准
- 私有评测集:构建内部标注的私有 benchmark
- 去污染声明:报告评测结果时声明去污染方法和检测结果
- 零样本评测:避免 few-shot 示例中包含测试题
评测最佳实践
- 多基准交叉验证:不依赖单一基准,MMLU + MT-Bench + HumanEval + Chatbot Arena 组合
- 检测数据污染:评测前用 n-gram 重叠等方法检查
- 建立内部 benchmark:公开基准有被优化风险
- 报告评测设置:few-shot 数量、prompt 模板、温度参数等
- 关注版本一致性:API 版本更新后重新评测
- SFT 前后对比:确保微调没有退化基础能力
如果要对外讲,可以怎么概括
"大模型评测需要多维度、多方法的组合。我通常会从三个层面构建评测体系:自动化基准评测(MMLU + HumanEval + MT-Bench)量化模型在知识、代码、对话方面的能力;LLM-as-a-Judge 评估特定任务的输出质量;线上 A/B 测试验证真实用户偏好。关键是认识到每个基准的局限——MMLU 已饱和、MT-Bench 有裁判偏差、HumanEval 有假阳性。数据泄露是最严重的威胁,去污染检测是必须步骤。在工程落地中,我更重视内部私有评测集,因为公开基准有被优化的风险。"
最后记几条
- 没有万能基准:必须多维度组合评测,单一基准不足以为据
- 数据泄露是最大威胁:去污染检测是评测的必要步骤
- LLM-as-a-Judge 有偏差:偏好更长更格式化的回答
- Chatbot Arena 最真实:基于真实人类偏好的 Elo 排名
- 私有评测集最可靠:公开基准有被优化风险
参考资料
- Hendrycks, D. et al. "Measuring Massive Multitask Language Understanding" (MMLU, 2021)
- Zheng, L. et al. "Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena" (2023)
- Chen, M. et al. "Evaluating Large Language Models Trained on Code" (HumanEval, 2021)
- Liang, P. et al. "Holistic Evaluation of Language Models" (HELM, 2022)
- Jacovi, A. et al. "A Comprehensive Evaluation of Data Contamination" (2024)