大模型评测总览

先说结论

大模型评测是对 LLM 在知识能力、推理能力、指令遵循、安全性、稳定性等多个维度上进行量化评估，是模型选型、能力迭代和上线决策的核心依据。

QUESTION 面试高频：大模型评测有哪些主要维度？六大核心维度：知识广度（MMLU/GPQA）、推理能力（GSM8K/MATH）、代码能力（HumanEval/SWE-bench）、对话质量（MT-Bench/Chatbot Arena）、安全性（TruthfulQA/HarmBench）、稳定性（自一致性/对抗鲁棒性）。没有单一基准能全面评估模型，必须多维度组合。

评测体系架构

                    ┌─ 知识广度：MMLU, GPQA, MMMU
                    ├─ 推理能力：GSM8K, MATH, ARC
     离线评测 ──────├─ 代码能力：HumanEval, MBPP, SWE-bench
     (Offline)      ├─ 指令遵循：MT-Bench, IFEval, AlpacaEval
                    ├─ 安全性：TruthfulQA, HarmBench, BBQ
                    └─ 稳定性：自一致性, 对抗鲁棒性

                    ┌─ 延迟：TTFT, TPOT, E2E Latency
     在线评测 ──────├─ 吞吐：TPS, RPS, QPS
     (Online)       ├─ 成本：每千Token成本, GPU利用率
                    ├─ 质量：任务成功率, 幻觉率
                    └─ 用户满意度：正反馈率, NPS

评测方法分类

方法	说明	优势	劣势
自动基准评测	在标准化 benchmark 上跑分	可复现、成本低	可能被优化、存在数据泄露风险
LLM-as-a-Judge	用强模型评估弱模型	灵活、可扩展	裁判模型有偏差
人类偏好评测	人工对比选择（如 Chatbot Arena）	最接近真实体验	成本高、规模受限
专家评测	领域专家评估	精确、深度高	成本极高、难以规模化
在线 A/B 测试	线上真实用户对比	最真实	周期长、需要流量

核心基准一览

知识与推理

基准	评测能力	题目数量	评估方式
MMLU	57 科知识广度	~15,900	5-shot 准确率
MMLU-Pro	更难的知识评测	~12,000	10 选项准确率
GPQA	研究生级专家问答	448	专家验证
GSM8K	小学数学推理	8,500	准确率
MATH	竞赛数学	5,000	准确率
ARC	科学推理	7,787	准确率

代码能力

基准	评测能力	特点
HumanEval	Python 函数补全	164 题，pass@k
HumanEval+	增强版 HumanEval	80x 测试用例，减少假阳性
MBPP	基础 Python 编程	974 题
LiveCodeBench	持续更新编程题	从竞赛平台实时抓取
SWE-bench	真实 GitHub issue 修复	评估工程能力

对话与指令遵循

基准	评测能力	评估方式
MT-Bench	多轮对话质量	GPT-4 打分 1-10
Chatbot Arena	人类偏好排名	盲测 Elo 排名
AlpacaEval 2.0	指令遵循	自动化评测
IFEval	格式指令遵循	规则匹配

QUESTION 面试高频：MMLU、MT-Bench、HumanEval 的区别和各自局限？ MMLU评测知识广度（57 科选择题），已趋于饱和且存在数据泄露风险；MT-Bench评测多轮对话（80 题），依赖 LLM-as-a-Judge 存在裁判偏差（偏好更长更格式化的回答）；HumanEval评测代码生成（164 题），测试用例不足导致假阳性，且仅覆盖 Python。三者互补但都不能单独作为选型依据。

数据泄露问题

QUESTION 面试高频：什么是评测数据泄露？如何检测和防止？

数据泄露是指训练数据中包含了 benchmark 的题目和答案，导致评测分数虚高，不能反映模型真实能力。

检测方法

方法	原理	效果
N-gram 重叠检测	检查训练集与测试集的 n-gram 重叠	简单但不够全面
Membership Inference	判断测试题是否出现在训练集中	更精确但计算量大
重phrased 测试	用不同表述问同一题，看分数是否下降	揭示记忆 vs 理解
时间分割	用训练截止日期后的新题测试	最可靠

防止措施

动态评测集：LiveCodeBench、Chatbot Arena 等持续更新的基准
私有评测集：构建内部标注的私有 benchmark
去污染声明：报告评测结果时声明去污染方法和检测结果
零样本评测：避免 few-shot 示例中包含测试题

评测最佳实践

多基准交叉验证：不依赖单一基准，MMLU + MT-Bench + HumanEval + Chatbot Arena 组合
检测数据污染：评测前用 n-gram 重叠等方法检查
建立内部 benchmark：公开基准有被优化风险
报告评测设置：few-shot 数量、prompt 模板、温度参数等
关注版本一致性：API 版本更新后重新评测
SFT 前后对比：确保微调没有退化基础能力

如果要对外讲，可以怎么概括

"大模型评测需要多维度、多方法的组合。我通常会从三个层面构建评测体系：自动化基准评测（MMLU + HumanEval + MT-Bench）量化模型在知识、代码、对话方面的能力；LLM-as-a-Judge 评估特定任务的输出质量；线上 A/B 测试验证真实用户偏好。关键是认识到每个基准的局限——MMLU 已饱和、MT-Bench 有裁判偏差、HumanEval 有假阳性。数据泄露是最严重的威胁，去污染检测是必须步骤。在工程落地中，我更重视内部私有评测集，因为公开基准有被优化的风险。"

最后记几条

没有万能基准：必须多维度组合评测，单一基准不足以为据
数据泄露是最大威胁：去污染检测是评测的必要步骤
LLM-as-a-Judge 有偏差：偏好更长更格式化的回答
Chatbot Arena 最真实：基于真实人类偏好的 Elo 排名
私有评测集最可靠：公开基准有被优化风险

参考资料

Hendrycks, D. et al. "Measuring Massive Multitask Language Understanding" (MMLU, 2021)
Zheng, L. et al. "Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena" (2023)
Chen, M. et al. "Evaluating Large Language Models Trained on Code" (HumanEval, 2021)
Liang, P. et al. "Holistic Evaluation of Language Models" (HELM, 2022)
Jacovi, A. et al. "A Comprehensive Evaluation of Data Contamination" (2024)

评测总览