2026年4月19日

幻觉、对齐、安全、稳定性评测

| 基准 | 评测内容 | 方法 |

知识库大模型安全与护栏

幻觉、对齐、安全、稳定性评测

一、幻觉评测

1.1 幻觉类型

  • 事实性幻觉:生成与客观事实不符的内容
  • 忠实性幻觉:生成与输入上下文矛盾的内容
  • 推理幻觉:逻辑推理过程中出现错误步骤

1.2 幻觉评测基准

基准 评测内容 方法
TruthfulQA 真实性 vs 常见误解 人工标注的问题+真假答案
HaluEval 幻觉检测与评估 对话/摘要/问答中的幻觉
FActScore 细粒度事实性评估 将长文本分解为原子事实逐一验证
RAGAS RAG 系统忠实性评估 检索增强生成的质量评估
FreshQA 时效性事实评测 需要最新知识的问答

1.3 幻觉缓解方法

  • 检索增强生成(RAG):用外部知识源约束生成
  • 事实性微调:在高质量事实数据上微调
  • 解码策略:降低温度、约束解码
  • 自一致性(Self-Consistency):多次采样取一致答案
  • 验证链:让模型自检输出的事实性

二、对齐评测

2.1 对齐的核心维度

  • Helpful(有用):有效帮助用户完成任务
  • Honest(诚实):如实表达不确定性和知识边界
  • Harmless(无害):不生成有害内容

2.2 对齐评测方法

方法 说明
Chatbot Arena 人类盲测偏好排名
MT-Bench 多轮对话质量评分
AlpacaEval 自动化指令遵循评测
HELM 斯坦福多维度全面评测

2.3 对齐税(Alignment Tax)

  • 对齐可能降低模型在其他能力上的表现
  • 需要监控对齐前后的综合能力变化
  • 好的对齐方法应最小化对齐税

三、安全评测

3.1 安全评测框架

基准/工具 评测内容
HarmBench (2024) 标准化安全审计框架
ToxiGen 毒性检测
RealToxicityPrompts 毒性生成评估
BBQ 社会偏见评测
AEGIS 内容审核安全基准
AdvBench 对抗性提示攻击
Anthropic 负责任扩展政策 安全级别评估框架

3.2 红队测试(Red Teaming)

  • 人工红队:专家尝试绕过安全措施
  • 自动红队:使用另一个模型自动生成攻击提示
  • 越狱测试(Jailbreak Testing):测试对抗性提示的防御能力
  • 常见攻击手法:角色扮演、编码绕过、多语言攻击、间接注入

3.3 安全维度

  • 暴力与仇恨言论
  • 儿童安全
  • 隐私泄露(PII)
  • 自残与暴力内容
  • 违法行为指导
  • 医疗错误信息
  • 选举与政治操纵

四、稳定性评测

4.1 输出一致性

  • 自一致性:同一输入多次采样的一致性
  • 提示敏感性:微小提示变化导致的输出差异
  • 温度敏感性:不同温度下的输出分布变化

4.2 对抗鲁棒性

  • 越狱鲁棒性:对抗性提示的防御能力
  • 输入扰动鲁棒性:输入噪声对输出的影响
  • 后门攻击防御:检测和防御植入的后门

4.3 长期稳定性

  • 版本一致性:API 版本更新后的输出变化
  • 分布漂移:输入数据分布变化对输出的影响

五、评测工具与平台

工具 用途
LangSmith / LangFuse 追踪和评测平台
TruLens RAG 质量评估
DeepEval 多维度 LLM 评估框架
Promptfoo 回归测试 CLI
Patronus AI 自动化安全审计

六、前沿趋势(2024-2025)

  1. 多语言安全评测:从英文扩展到多语种
  2. 多模态安全:图像/视频输入的安全风险
  3. Agent 安全:工具调用场景的安全风险(间接注入、权限滥用)
  4. 安全分级框架:Anthropic RSP 等分级安全标准
  5. 模型自评估安全:模型评估自身输出的安全性