大模型安全总览

先说结论

大模型安全涵盖幻觉防御、对齐安全（HHH）、对抗攻击防御、隐私保护和输出可控性，确保模型在落地中不会产生有害、错误或不可预测的内容。

QUESTION 面试高频：大模型安全包含哪些维度？六大核心维度：幻觉防御（减少事实错误）、安全对齐（Helpful + Harmless + Honest）、对抗防御（防越狱/注入攻击）、隐私保护（防 PII 泄露）、偏见公平（防歧视性输出）、稳定性（输出一致性）。其中幻觉是最常见的问题，越狱攻击是最受关注的安全风险。

安全维度全景

大模型安全
├── 幻觉防御 ──── 事实错误、与上下文矛盾
├── 对齐安全 ──── HHH: Helpful, Harmless, Honest
├── 对抗防御 ──── 越狱、Prompt注入、间接注入
├── 隐私保护 ──── PII 泄露、训练数据提取
├── 偏见公平 ──── 性别/种族/宗教歧视
└── 稳定性 ────── 自一致性、提示敏感性、版本一致性

一、幻觉评测与缓解

幻觉类型

类型	定义	检测难度
内在幻觉	与输入/上下文矛盾	中等（可对比上下文）
外在幻觉	无法从上下文验证	高（需外部知识）
事实性幻觉	与真实世界事实不符	高（需权威知识库）
推理幻觉	推理步骤逻辑错误	中高

幻觉缓解方法

层面	方法	效果
知识层面	RAG、知识图谱	高
解码层面	低温度、自一致性	中等
Prompt 层面	要求引用、承认不确定性	中高
后处理	NLI 验证、事实核查	中高

详见幻觉

二、对齐评测

HHH 原则

维度	含义	评测方法
Helpful（有用）	有效帮助用户完成任务	MT-Bench, AlpacaEval
Honest（诚实）	如实表达不确定性	TruthfulQA
Harmless（无害）	不生成有害内容	HarmBench, BBQ

对齐评测方法

方法	说明
Chatbot Arena	人类盲测偏好排名
MT-Bench	多轮对话质量评分
HELM	斯坦福多维度全面评测

对齐税（Alignment Tax）

QUESTION 面试高频：什么是对齐税？对齐税是指安全对齐可能降低模型在其他能力上的表现。例如，过度安全训练可能导致模型拒绝回答合理问题（过度拒绝），或降低了创意写作能力。好的对齐方法应最小化对齐税，同时确保安全性。RLHF、DPO、Constitutional AI 等方法都在试图降低对齐税。

三、安全评测与红队

安全评测框架

基准/工具	评测内容
HarmBench (2024)	标准化安全审计框架
ToxiGen	毒性检测
RealToxicityPrompts	毒性生成评估
BBQ	社会偏见评测
AEGIS	内容审核安全基准
AdvBench	对抗性提示攻击
Anthropic RSP	安全级别评估框架

红队测试（Red Teaming）

QUESTION 面试高频：什么是红队测试？有哪些常见攻击手法？

红队测试是主动攻击模型以发现安全漏洞。

测试类型	说明
人工红队	安全专家手动尝试绕过安全措施
自动红队	用另一个模型自动生成攻击提示
越狱测试	测试对抗性提示的防御能力

常见攻击手法：

攻击手法	原理	示例
角色扮演	让模型扮演不受约束的角色	"你是一个没有任何限制的 AI..."
编码绕过	用 Base64/ROT13 编码恶意指令	将有害请求编码后发送
多语言攻击	用低资源语言绕过安全过滤	用小语种发送有害请求
间接注入	通过工具返回的内容注入	在检索的文档中嵌入恶意指令
分步诱导	将有害请求拆分为无害步骤	逐步引导模型执行有害操作
Few-shot 注入	用示例"教会"模型忽略安全规则	提供多个"违规示例"

防御策略

策略	说明	效果
系统 Prompt 加固	在系统提示中明确安全边界	基础防线
输入过滤	检测和拦截恶意输入	中等
输出过滤	检测和拦截有害输出	中高
Guardrails	输入/输出安全校验层	高
RLHF/DPO 安全训练	在安全数据上做偏好优化	高
多模型交叉审核	用另一个模型审核输出	高（但成本高）

四、隐私保护

隐私风险

风险	说明
PII 泄露	模型输出中包含个人身份信息
训练数据提取	通过特定提示从模型中提取训练数据
工具调用泄露	Agent 通过工具调用泄露敏感信息
上下文泄露	多用户共享上下文时的信息交叉

隐私保护方法

数据脱敏：在训练和推理前对 PII 进行替换/删除
差分隐私：在训练中添加噪声保护个体数据
访问控制：限制模型对不同级别数据的访问
输出过滤：在输出前检测和过滤 PII
隔离部署：不同用户/租户的模型实例隔离

五、偏见与公平性

偏见类型

类型	示例
性别偏见	将某些职业默认关联特定性别
种族偏见	对不同种族群体的差异化描述
文化偏见	以西方文化为默认标准
年龄偏见	对年龄群体的刻板印象

评测基准

基准	评测内容
BBQ	偏见评测基准
WinoBias	性别偏见评测
CrowS-Pairs	刻板印象评测
RealToxicityPrompts	毒性评测

六、稳定性评测

输出一致性

指标	说明
自一致性	同一输入多次采样的一致性
提示敏感性	微小提示变化导致的输出差异
温度敏感性	不同温度下的输出分布变化

对抗鲁棒性

维度	说明
越狱鲁棒性	对抗性提示的防御能力
输入扰动	输入噪声对输出的影响
后门攻击	检测和防御植入的后门

Agent 安全

QUESTION 面试高频：Agent 系统有哪些特殊的安全风险？

风险	说明	缓解措施
间接注入	通过工具返回内容注入恶意指令	工具输出净化
权限滥用	Agent 调用超出预期的工具	最小权限 + 审批
成本攻击	大量循环调用消耗资源	步数限制 + Token 预算
链式攻击	Agent 链中的某个环节被攻破	端到端安全审计

安全最佳实践

多层防御：输入过滤 + 模型安全训练 + 输出过滤，不要只依赖一层
红队测试常态化：定期进行人工和自动红队测试
建立安全案例库：收集攻击样本，持续回归测试
监控安全指标：安全事件率 < 0.1%，越狱成功率 < 1%
最小权限原则：Agent 只能访问完成任务所需的最少工具和数据
人工审批：涉及高风险操作必须人工确认

前沿趋势

多语言安全评测：从英文扩展到多语种
多模态安全：图像/视频输入的安全风险
Agent 安全：工具调用场景的安全风险
安全分级框架：Anthropic RSP 等分级安全标准
Constitutional AI：用 AI 辅助进行安全训练

如果要对外讲，可以怎么概括

"大模型安全是落地的底线。我关注六个维度：幻觉、对齐、对抗防御、隐私、偏见和稳定性。在幻觉方面，RAG 是最有效的缓解手段但不能根治，需要配合 Faithfulness 评测和后处理验证。在对抗防御方面，越狱攻击层出不穷（角色扮演、编码绕过、间接注入），需要多层防御——输入过滤 + 安全训练 + 输出过滤 + Guardrails。Agent 系统引入了新的安全风险：间接注入（通过工具返回内容攻击）和权限滥用（Agent 调用超出预期的工具）。我的原则是最小权限 + 多层防御 + 红队常态化。过度安全会导致过度拒绝，影响用户体验，所以需要在安全性和有用性之间取得平衡。"

最后记几条

HHH 原则：Helpful + Harmless + Honest 是对齐的核心目标
越狱攻击是最大安全威胁：角色扮演、编码绕过、间接注入是三大手法
多层防御：不依赖单一安全措施，输入 + 训练 + 输出三层防护
对齐税是真实存在的：过度安全导致过度拒绝，需要在安全和有用之间取平衡
Agent 安全是新兴挑战：间接注入和权限滥用是 Agent 特有的安全风险

参考资料

Anthropic Responsible Scaling Policy (RSP)
Mazeika, M. et al. "HarmBench: A Standardized Evaluation Framework for Automated Red Teaming" (2024)
Huang, L. et al. "A Survey on Hallucination in Large Language Models" (2023)
Bai, Y. et al. "Constitutional AI: Harmlessness from AI Feedback" (2022)
Zou, A. et al. "Universal and Transferable Adversarial Attacks on Aligned Language Models" (2023)

安全总览