2023年4月17日

评测总览

大模型评测是对 LLM 在**知识能力、推理能力、指令遵循、安全性、稳定性**等多个维度上进行量化评估,是模型选型、能力迭代和上线决策的核心依据。

知识库大模型评测evaluationoverview

大模型评测总览

先说结论

大模型评测是对 LLM 在知识能力、推理能力、指令遵循、安全性、稳定性等多个维度上进行量化评估,是模型选型、能力迭代和上线决策的核心依据。

QUESTION 面试高频:大模型评测有哪些主要维度? 六大核心维度:知识广度(MMLU/GPQA)、推理能力(GSM8K/MATH)、代码能力(HumanEval/SWE-bench)、对话质量(MT-Bench/Chatbot Arena)、安全性(TruthfulQA/HarmBench)、稳定性(自一致性/对抗鲁棒性)。没有单一基准能全面评估模型,必须多维度组合。

评测体系架构

                    ┌─ 知识广度:MMLU, GPQA, MMMU
                    ├─ 推理能力:GSM8K, MATH, ARC
     离线评测 ──────├─ 代码能力:HumanEval, MBPP, SWE-bench
     (Offline)      ├─ 指令遵循:MT-Bench, IFEval, AlpacaEval
                    ├─ 安全性:TruthfulQA, HarmBench, BBQ
                    └─ 稳定性:自一致性, 对抗鲁棒性

                    ┌─ 延迟:TTFT, TPOT, E2E Latency
     在线评测 ──────├─ 吞吐:TPS, RPS, QPS
     (Online)       ├─ 成本:每千Token成本, GPU利用率
                    ├─ 质量:任务成功率, 幻觉率
                    └─ 用户满意度:正反馈率, NPS

评测方法分类

方法 说明 优势 劣势
自动基准评测 在标准化 benchmark 上跑分 可复现、成本低 可能被优化、存在数据泄露风险
LLM-as-a-Judge 用强模型评估弱模型 灵活、可扩展 裁判模型有偏差
人类偏好评测 人工对比选择(如 Chatbot Arena) 最接近真实体验 成本高、规模受限
专家评测 领域专家评估 精确、深度高 成本极高、难以规模化
在线 A/B 测试 线上真实用户对比 最真实 周期长、需要流量

核心基准一览

知识与推理

基准 评测能力 题目数量 评估方式
MMLU 57 科知识广度 ~15,900 5-shot 准确率
MMLU-Pro 更难的知识评测 ~12,000 10 选项准确率
GPQA 研究生级专家问答 448 专家验证
GSM8K 小学数学推理 8,500 准确率
MATH 竞赛数学 5,000 准确率
ARC 科学推理 7,787 准确率

代码能力

基准 评测能力 特点
HumanEval Python 函数补全 164 题,pass@k
HumanEval+ 增强版 HumanEval 80x 测试用例,减少假阳性
MBPP 基础 Python 编程 974 题
LiveCodeBench 持续更新编程题 从竞赛平台实时抓取
SWE-bench 真实 GitHub issue 修复 评估工程能力

对话与指令遵循

基准 评测能力 评估方式
MT-Bench 多轮对话质量 GPT-4 打分 1-10
Chatbot Arena 人类偏好排名 盲测 Elo 排名
AlpacaEval 2.0 指令遵循 自动化评测
IFEval 格式指令遵循 规则匹配

QUESTION 面试高频:MMLU、MT-Bench、HumanEval 的区别和各自局限? MMLU评测知识广度(57 科选择题),已趋于饱和且存在数据泄露风险;MT-Bench评测多轮对话(80 题),依赖 LLM-as-a-Judge 存在裁判偏差(偏好更长更格式化的回答);HumanEval评测代码生成(164 题),测试用例不足导致假阳性,且仅覆盖 Python。三者互补但都不能单独作为选型依据。

数据泄露问题

QUESTION 面试高频:什么是评测数据泄露?如何检测和防止?

数据泄露是指训练数据中包含了 benchmark 的题目和答案,导致评测分数虚高,不能反映模型真实能力。

检测方法

方法 原理 效果
N-gram 重叠检测 检查训练集与测试集的 n-gram 重叠 简单但不够全面
Membership Inference 判断测试题是否出现在训练集中 更精确但计算量大
重phrased 测试 用不同表述问同一题,看分数是否下降 揭示记忆 vs 理解
时间分割 用训练截止日期后的新题测试 最可靠

防止措施

  1. 动态评测集:LiveCodeBench、Chatbot Arena 等持续更新的基准
  2. 私有评测集:构建内部标注的私有 benchmark
  3. 去污染声明:报告评测结果时声明去污染方法和检测结果
  4. 零样本评测:避免 few-shot 示例中包含测试题

评测最佳实践

  1. 多基准交叉验证:不依赖单一基准,MMLU + MT-Bench + HumanEval + Chatbot Arena 组合
  2. 检测数据污染:评测前用 n-gram 重叠等方法检查
  3. 建立内部 benchmark:公开基准有被优化风险
  4. 报告评测设置:few-shot 数量、prompt 模板、温度参数等
  5. 关注版本一致性:API 版本更新后重新评测
  6. SFT 前后对比:确保微调没有退化基础能力

如果要对外讲,可以怎么概括

"大模型评测需要多维度、多方法的组合。我通常会从三个层面构建评测体系:自动化基准评测(MMLU + HumanEval + MT-Bench)量化模型在知识、代码、对话方面的能力;LLM-as-a-Judge 评估特定任务的输出质量;线上 A/B 测试验证真实用户偏好。关键是认识到每个基准的局限——MMLU 已饱和、MT-Bench 有裁判偏差、HumanEval 有假阳性。数据泄露是最严重的威胁,去污染检测是必须步骤。在工程落地中,我更重视内部私有评测集,因为公开基准有被优化的风险。"

最后记几条

  1. 没有万能基准:必须多维度组合评测,单一基准不足以为据
  2. 数据泄露是最大威胁:去污染检测是评测的必要步骤
  3. LLM-as-a-Judge 有偏差:偏好更长更格式化的回答
  4. Chatbot Arena 最真实:基于真实人类偏好的 Elo 排名
  5. 私有评测集最可靠:公开基准有被优化风险

参考资料

  • Hendrycks, D. et al. "Measuring Massive Multitask Language Understanding" (MMLU, 2021)
  • Zheng, L. et al. "Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena" (2023)
  • Chen, M. et al. "Evaluating Large Language Models Trained on Code" (HumanEval, 2021)
  • Liang, P. et al. "Holistic Evaluation of Language Models" (HELM, 2022)
  • Jacovi, A. et al. "A Comprehensive Evaluation of Data Contamination" (2024)

延伸阅读