2026年4月19日
幻觉、对齐、安全、稳定性评测
| 基准 | 评测内容 | 方法 |
知识库大模型安全与护栏
幻觉、对齐、安全、稳定性评测
一、幻觉评测
1.1 幻觉类型
- 事实性幻觉:生成与客观事实不符的内容
- 忠实性幻觉:生成与输入上下文矛盾的内容
- 推理幻觉:逻辑推理过程中出现错误步骤
1.2 幻觉评测基准
| 基准 |
评测内容 |
方法 |
| TruthfulQA |
真实性 vs 常见误解 |
人工标注的问题+真假答案 |
| HaluEval |
幻觉检测与评估 |
对话/摘要/问答中的幻觉 |
| FActScore |
细粒度事实性评估 |
将长文本分解为原子事实逐一验证 |
| RAGAS |
RAG 系统忠实性评估 |
检索增强生成的质量评估 |
| FreshQA |
时效性事实评测 |
需要最新知识的问答 |
1.3 幻觉缓解方法
- 检索增强生成(RAG):用外部知识源约束生成
- 事实性微调:在高质量事实数据上微调
- 解码策略:降低温度、约束解码
- 自一致性(Self-Consistency):多次采样取一致答案
- 验证链:让模型自检输出的事实性
二、对齐评测
2.1 对齐的核心维度
- Helpful(有用):有效帮助用户完成任务
- Honest(诚实):如实表达不确定性和知识边界
- Harmless(无害):不生成有害内容
2.2 对齐评测方法
| 方法 |
说明 |
| Chatbot Arena |
人类盲测偏好排名 |
| MT-Bench |
多轮对话质量评分 |
| AlpacaEval |
自动化指令遵循评测 |
| HELM |
斯坦福多维度全面评测 |
2.3 对齐税(Alignment Tax)
- 对齐可能降低模型在其他能力上的表现
- 需要监控对齐前后的综合能力变化
- 好的对齐方法应最小化对齐税
三、安全评测
3.1 安全评测框架
| 基准/工具 |
评测内容 |
| HarmBench (2024) |
标准化安全审计框架 |
| ToxiGen |
毒性检测 |
| RealToxicityPrompts |
毒性生成评估 |
| BBQ |
社会偏见评测 |
| AEGIS |
内容审核安全基准 |
| AdvBench |
对抗性提示攻击 |
| Anthropic 负责任扩展政策 |
安全级别评估框架 |
3.2 红队测试(Red Teaming)
- 人工红队:专家尝试绕过安全措施
- 自动红队:使用另一个模型自动生成攻击提示
- 越狱测试(Jailbreak Testing):测试对抗性提示的防御能力
- 常见攻击手法:角色扮演、编码绕过、多语言攻击、间接注入
3.3 安全维度
- 暴力与仇恨言论
- 儿童安全
- 隐私泄露(PII)
- 自残与暴力内容
- 违法行为指导
- 医疗错误信息
- 选举与政治操纵
四、稳定性评测
4.1 输出一致性
- 自一致性:同一输入多次采样的一致性
- 提示敏感性:微小提示变化导致的输出差异
- 温度敏感性:不同温度下的输出分布变化
4.2 对抗鲁棒性
- 越狱鲁棒性:对抗性提示的防御能力
- 输入扰动鲁棒性:输入噪声对输出的影响
- 后门攻击防御:检测和防御植入的后门
4.3 长期稳定性
- 版本一致性:API 版本更新后的输出变化
- 分布漂移:输入数据分布变化对输出的影响
五、评测工具与平台
| 工具 |
用途 |
| LangSmith / LangFuse |
追踪和评测平台 |
| TruLens |
RAG 质量评估 |
| DeepEval |
多维度 LLM 评估框架 |
| Promptfoo |
回归测试 CLI |
| Patronus AI |
自动化安全审计 |
六、前沿趋势(2024-2025)
- 多语言安全评测:从英文扩展到多语种
- 多模态安全:图像/视频输入的安全风险
- Agent 安全:工具调用场景的安全风险(间接注入、权限滥用)
- 安全分级框架:Anthropic RSP 等分级安全标准
- 模型自评估安全:模型评估自身输出的安全性