2025年11月21日

风险处置

风险处置是指当模型出现安全、合规或业务风险事件时,对异常进行识别、分级、遏制、恢复、通报和复盘的全过程。

知识库大模型安全与护栏securityincident-response

风险处置

先说结论

风险处置是指当模型出现安全、合规或业务风险事件时,对异常进行识别、分级、遏制、恢复、通报和复盘的全过程。

为什么我会单独记这一篇

大模型系统会出现传统系统也有、但更加复杂的事故:

  • 越狱成功
  • 敏感信息泄漏
  • 恶意工具执行
  • 大面积幻觉
  • 合规违规

如果没有明确的处置机制,问题往往只能“修一条 prompt”,无法真正止损和复盘。

核心机制

常见事件类型

  • 安全事件:越狱、泄密、越权访问、恶意工具执行。
  • 质量事件:大面积幻觉、错误决策建议、输出不稳定。
  • 合规事件:隐私违规、日志保留不合规、使用范围超界。

典型处置链路

  1. 告警与识别
  2. 事件分级
  3. 遏制与止损
  4. 恢复与回滚
  5. 证据保全
  6. 复盘与回归测试

设计时真正要权衡什么

  • 快速止损 vs 服务连续性:直接下线、降级还是切只读模式。
  • 广谱阻断 vs 精准修复:广谱更快,精准影响更小。
  • 保留证据 vs 立即清理:要兼顾取证与用户保护。

容易踩的坑

  • 没定义什么算事故,导致升级滞后。
  • 只有模型质量指标,没有安全事件分级和 on-call 流程。
  • 事故后只改 prompt,不改权限、工具、日志和回滚机制。
  • 无法还原输入、检索文档、工具调用和输出链路。
  • 只修当前样本,没有沉淀成回归测试和策略更新。

工程落地时我会怎么做

  • 建立 P0 / P1 / P2 等明确分级。
  • 预置止损开关:下线模型版本、关闭高危工具、关闭自动执行、切安全降级回复。
  • 事件证据包至少包含:request ID、trace ID、用户 / 租户、prompt 版本、检索片段、工具参数与结果、安全分类结果。
  • 事故后把样本沉淀进红队集、回归集和策略规则库。
  • 明确责任边界:模型团队、平台团队、业务 owner、法务 / 合规。

如果要对外讲,可以怎么概括

“LLM 风险处置不能停留在‘修一句提示词’。真正有效的做法是把它纳入标准 incident response:有分级、有止损开关、有证据包、有回滚路径、有复盘闭环。这样才能把一次事故变成下一轮策略和评测的输入。”

最后记几条

  1. 风险处置要覆盖识别、分级、止损、恢复、复盘。
  2. 预置止损开关比临场救火更重要。
  3. 没有 request ID 和 trace ID 很难真正复盘。
  4. 安全、质量和合规事件要分别定义。
  5. 事故样本最终应进入回归测试和红队集。

参考资料

延伸阅读