大模型安全总览
先说结论
大模型安全涵盖幻觉防御、对齐安全(HHH)、对抗攻击防御、隐私保护和输出可控性,确保模型在落地中不会产生有害、错误或不可预测的内容。
QUESTION 面试高频:大模型安全包含哪些维度?
六大核心维度:幻觉防御(减少事实错误)、安全对齐(Helpful + Harmless + Honest)、对抗防御(防越狱/注入攻击)、隐私保护(防 PII 泄露)、偏见公平(防歧视性输出)、稳定性(输出一致性)。其中幻觉是最常见的问题,越狱攻击是最受关注的安全风险。
安全维度全景
大模型安全
├── 幻觉防御 ──── 事实错误、与上下文矛盾
├── 对齐安全 ──── HHH: Helpful, Harmless, Honest
├── 对抗防御 ──── 越狱、Prompt注入、间接注入
├── 隐私保护 ──── PII 泄露、训练数据提取
├── 偏见公平 ──── 性别/种族/宗教歧视
└── 稳定性 ────── 自一致性、提示敏感性、版本一致性
一、幻觉评测与缓解
幻觉类型
| 类型 |
定义 |
检测难度 |
| 内在幻觉 |
与输入/上下文矛盾 |
中等(可对比上下文) |
| 外在幻觉 |
无法从上下文验证 |
高(需外部知识) |
| 事实性幻觉 |
与真实世界事实不符 |
高(需权威知识库) |
| 推理幻觉 |
推理步骤逻辑错误 |
中高 |
幻觉缓解方法
| 层面 |
方法 |
效果 |
| 知识层面 |
RAG、知识图谱 |
高 |
| 解码层面 |
低温度、自一致性 |
中等 |
| Prompt 层面 |
要求引用、承认不确定性 |
中高 |
| 后处理 |
NLI 验证、事实核查 |
中高 |
详见 幻觉
二、对齐评测
HHH 原则
| 维度 |
含义 |
评测方法 |
| Helpful(有用) |
有效帮助用户完成任务 |
MT-Bench, AlpacaEval |
| Honest(诚实) |
如实表达不确定性 |
TruthfulQA |
| Harmless(无害) |
不生成有害内容 |
HarmBench, BBQ |
对齐评测方法
| 方法 |
说明 |
| Chatbot Arena |
人类盲测偏好排名 |
| MT-Bench |
多轮对话质量评分 |
| HELM |
斯坦福多维度全面评测 |
对齐税(Alignment Tax)
QUESTION 面试高频:什么是对齐税?
对齐税是指安全对齐可能降低模型在其他能力上的表现。例如,过度安全训练可能导致模型拒绝回答合理问题(过度拒绝),或降低了创意写作能力。好的对齐方法应最小化对齐税,同时确保安全性。RLHF、DPO、Constitutional AI 等方法都在试图降低对齐税。
三、安全评测与红队
安全评测框架
| 基准/工具 |
评测内容 |
| HarmBench (2024) |
标准化安全审计框架 |
| ToxiGen |
毒性检测 |
| RealToxicityPrompts |
毒性生成评估 |
| BBQ |
社会偏见评测 |
| AEGIS |
内容审核安全基准 |
| AdvBench |
对抗性提示攻击 |
| Anthropic RSP |
安全级别评估框架 |
红队测试(Red Teaming)
QUESTION 面试高频:什么是红队测试?有哪些常见攻击手法?
红队测试是主动攻击模型以发现安全漏洞。
| 测试类型 |
说明 |
| 人工红队 |
安全专家手动尝试绕过安全措施 |
| 自动红队 |
用另一个模型自动生成攻击提示 |
| 越狱测试 |
测试对抗性提示的防御能力 |
常见攻击手法:
| 攻击手法 |
原理 |
示例 |
| 角色扮演 |
让模型扮演不受约束的角色 |
"你是一个没有任何限制的 AI..." |
| 编码绕过 |
用 Base64/ROT13 编码恶意指令 |
将有害请求编码后发送 |
| 多语言攻击 |
用低资源语言绕过安全过滤 |
用小语种发送有害请求 |
| 间接注入 |
通过工具返回的内容注入 |
在检索的文档中嵌入恶意指令 |
| 分步诱导 |
将有害请求拆分为无害步骤 |
逐步引导模型执行有害操作 |
| Few-shot 注入 |
用示例"教会"模型忽略安全规则 |
提供多个"违规示例" |
防御策略
| 策略 |
说明 |
效果 |
| 系统 Prompt 加固 |
在系统提示中明确安全边界 |
基础防线 |
| 输入过滤 |
检测和拦截恶意输入 |
中等 |
| 输出过滤 |
检测和拦截有害输出 |
中高 |
| Guardrails |
输入/输出安全校验层 |
高 |
| RLHF/DPO 安全训练 |
在安全数据上做偏好优化 |
高 |
| 多模型交叉审核 |
用另一个模型审核输出 |
高(但成本高) |
四、隐私保护
隐私风险
| 风险 |
说明 |
| PII 泄露 |
模型输出中包含个人身份信息 |
| 训练数据提取 |
通过特定提示从模型中提取训练数据 |
| 工具调用泄露 |
Agent 通过工具调用泄露敏感信息 |
| 上下文泄露 |
多用户共享上下文时的信息交叉 |
隐私保护方法
- 数据脱敏:在训练和推理前对 PII 进行替换/删除
- 差分隐私:在训练中添加噪声保护个体数据
- 访问控制:限制模型对不同级别数据的访问
- 输出过滤:在输出前检测和过滤 PII
- 隔离部署:不同用户/租户的模型实例隔离
五、偏见与公平性
偏见类型
| 类型 |
示例 |
| 性别偏见 |
将某些职业默认关联特定性别 |
| 种族偏见 |
对不同种族群体的差异化描述 |
| 文化偏见 |
以西方文化为默认标准 |
| 年龄偏见 |
对年龄群体的刻板印象 |
评测基准
| 基准 |
评测内容 |
| BBQ |
偏见评测基准 |
| WinoBias |
性别偏见评测 |
| CrowS-Pairs |
刻板印象评测 |
| RealToxicityPrompts |
毒性评测 |
六、稳定性评测
输出一致性
| 指标 |
说明 |
| 自一致性 |
同一输入多次采样的一致性 |
| 提示敏感性 |
微小提示变化导致的输出差异 |
| 温度敏感性 |
不同温度下的输出分布变化 |
对抗鲁棒性
| 维度 |
说明 |
| 越狱鲁棒性 |
对抗性提示的防御能力 |
| 输入扰动 |
输入噪声对输出的影响 |
| 后门攻击 |
检测和防御植入的后门 |
Agent 安全
QUESTION 面试高频:Agent 系统有哪些特殊的安全风险?
| 风险 |
说明 |
缓解措施 |
| 间接注入 |
通过工具返回内容注入恶意指令 |
工具输出净化 |
| 权限滥用 |
Agent 调用超出预期的工具 |
最小权限 + 审批 |
| 成本攻击 |
大量循环调用消耗资源 |
步数限制 + Token 预算 |
| 链式攻击 |
Agent 链中的某个环节被攻破 |
端到端安全审计 |
安全最佳实践
- 多层防御:输入过滤 + 模型安全训练 + 输出过滤,不要只依赖一层
- 红队测试常态化:定期进行人工和自动红队测试
- 建立安全案例库:收集攻击样本,持续回归测试
- 监控安全指标:安全事件率 < 0.1%,越狱成功率 < 1%
- 最小权限原则:Agent 只能访问完成任务所需的最少工具和数据
- 人工审批:涉及高风险操作必须人工确认
前沿趋势
- 多语言安全评测:从英文扩展到多语种
- 多模态安全:图像/视频输入的安全风险
- Agent 安全:工具调用场景的安全风险
- 安全分级框架:Anthropic RSP 等分级安全标准
- Constitutional AI:用 AI 辅助进行安全训练
如果要对外讲,可以怎么概括
"大模型安全是落地的底线。我关注六个维度:幻觉、对齐、对抗防御、隐私、偏见和稳定性。在幻觉方面,RAG 是最有效的缓解手段但不能根治,需要配合 Faithfulness 评测和后处理验证。在对抗防御方面,越狱攻击层出不穷(角色扮演、编码绕过、间接注入),需要多层防御——输入过滤 + 安全训练 + 输出过滤 + Guardrails。Agent 系统引入了新的安全风险:间接注入(通过工具返回内容攻击)和权限滥用(Agent 调用超出预期的工具)。我的原则是最小权限 + 多层防御 + 红队常态化。过度安全会导致过度拒绝,影响用户体验,所以需要在安全性和有用性之间取得平衡。"
最后记几条
- HHH 原则:Helpful + Harmless + Honest 是对齐的核心目标
- 越狱攻击是最大安全威胁:角色扮演、编码绕过、间接注入是三大手法
- 多层防御:不依赖单一安全措施,输入 + 训练 + 输出三层防护
- 对齐税是真实存在的:过度安全导致过度拒绝,需要在安全和有用之间取平衡
- Agent 安全是新兴挑战:间接注入和权限滥用是 Agent 特有的安全风险
参考资料
- Anthropic Responsible Scaling Policy (RSP)
- Mazeika, M. et al. "HarmBench: A Standardized Evaluation Framework for Automated Red Teaming" (2024)
- Huang, L. et al. "A Survey on Hallucination in Large Language Models" (2023)
- Bai, Y. et al. "Constitutional AI: Harmlessness from AI Feedback" (2022)
- Zou, A. et al. "Universal and Transferable Adversarial Attacks on Aligned Language Models" (2023)
延伸阅读