2026年4月19日

幻觉、对齐、安全、稳定性评测

| 基准 | 评测内容 | 方法 |

知识库大模型安全与护栏

幻觉、对齐、安全、稳定性评测

一、幻觉评测

1.1 幻觉类型

事实性幻觉：生成与客观事实不符的内容
忠实性幻觉：生成与输入上下文矛盾的内容
推理幻觉：逻辑推理过程中出现错误步骤

1.2 幻觉评测基准

基准	评测内容	方法
TruthfulQA	真实性 vs 常见误解	人工标注的问题+真假答案
HaluEval	幻觉检测与评估	对话/摘要/问答中的幻觉
FActScore	细粒度事实性评估	将长文本分解为原子事实逐一验证
RAGAS	RAG 系统忠实性评估	检索增强生成的质量评估
FreshQA	时效性事实评测	需要最新知识的问答

1.3 幻觉缓解方法

检索增强生成（RAG）：用外部知识源约束生成
事实性微调：在高质量事实数据上微调
解码策略：降低温度、约束解码
自一致性（Self-Consistency）：多次采样取一致答案
验证链：让模型自检输出的事实性

二、对齐评测

2.1 对齐的核心维度

Helpful（有用）：有效帮助用户完成任务
Honest（诚实）：如实表达不确定性和知识边界
Harmless（无害）：不生成有害内容

2.2 对齐评测方法

方法	说明
Chatbot Arena	人类盲测偏好排名
MT-Bench	多轮对话质量评分
AlpacaEval	自动化指令遵循评测
HELM	斯坦福多维度全面评测

2.3 对齐税（Alignment Tax）

对齐可能降低模型在其他能力上的表现
需要监控对齐前后的综合能力变化
好的对齐方法应最小化对齐税

三、安全评测

3.1 安全评测框架

基准/工具	评测内容
HarmBench (2024)	标准化安全审计框架
ToxiGen	毒性检测
RealToxicityPrompts	毒性生成评估
BBQ	社会偏见评测
AEGIS	内容审核安全基准
AdvBench	对抗性提示攻击
Anthropic 负责任扩展政策	安全级别评估框架

3.2 红队测试（Red Teaming）

人工红队：专家尝试绕过安全措施
自动红队：使用另一个模型自动生成攻击提示
越狱测试（Jailbreak Testing）：测试对抗性提示的防御能力
常见攻击手法：角色扮演、编码绕过、多语言攻击、间接注入

3.3 安全维度

暴力与仇恨言论
儿童安全
隐私泄露（PII）
自残与暴力内容
违法行为指导
医疗错误信息
选举与政治操纵

四、稳定性评测

4.1 输出一致性

自一致性：同一输入多次采样的一致性
提示敏感性：微小提示变化导致的输出差异
温度敏感性：不同温度下的输出分布变化

4.2 对抗鲁棒性

越狱鲁棒性：对抗性提示的防御能力
输入扰动鲁棒性：输入噪声对输出的影响
后门攻击防御：检测和防御植入的后门

4.3 长期稳定性

版本一致性：API 版本更新后的输出变化
分布漂移：输入数据分布变化对输出的影响

五、评测工具与平台

工具	用途
LangSmith / LangFuse	追踪和评测平台
TruLens	RAG 质量评估
DeepEval	多维度 LLM 评估框架
Promptfoo	回归测试 CLI
Patronus AI	自动化安全审计

六、前沿趋势（2024-2025）

多语言安全评测：从英文扩展到多语种
多模态安全：图像/视频输入的安全风险
Agent 安全：工具调用场景的安全风险（间接注入、权限滥用）
安全分级框架：Anthropic RSP 等分级安全标准
模型自评估安全：模型评估自身输出的安全性