Claude 跨产品隔离与约束

原文标题：How we contain Claude across products
原文链接：https://www.anthropic.com/engineering/how-we-contain-claude
发布时间：2026-05-25
来源：Anthropic Engineering
主题：Agent containment、沙箱、权限边界、产品安全

本文是中文精读笔记，不是原文全文翻译。

这篇文章解决什么问题

随着 Claude 从聊天助手变成能读文件、写代码、调用工具和协作办公的 Agent，风险不再只是“回答错了”，而是“做了不该做的事”。文章讨论 Anthropic 如何在 claude.ai、Claude Code 和 Claude Cowork 等产品中限制 Agent 的 blast radius。

核心内容

风险可以分成用户误用、模型误行为和外部攻击三类。
containment 的核心不是让模型永远不犯错，而是让错误无法越过产品边界。
环境层防线包括沙箱、权限、资源隔离和网络限制。
模型层防线用于补足环境防线不可用的场景，例如识别越权请求和可疑外部内容。
多 Agent 系统会让人工逐步审批更难扩展，因此系统级边界更重要。

深度精读

这篇文章最值得学习的地方，是它把 Agent 安全从“模型会不会听话”转成“系统允许模型造成多大影响”。Claude 在不同产品里的能力不一样：网页聊天主要接触用户提供的信息，Claude Code 会接触本地代码和命令，Cowork 这类协作产品还可能触达组织内部资源。能力越靠近真实世界，安全设计越不能停留在 prompt 约束上。

原文讨论的 containment 可以理解成三层边界。第一层是运行环境边界：Agent 在哪里执行、能读哪些文件、能不能联网、能不能访问凭据。第二层是动作边界：哪些动作可以自动执行，哪些动作必须确认，哪些动作永远禁止。第三层是信息边界：外部网页、邮件、文档里的文字不能自动升级成系统指令。真正可靠的 Agent 产品，需要这三层同时存在。

从产品视角看，containment 不是要降低 Agent 能力，而是让用户敢于开启更强能力。没有边界时，自动化越强越危险；边界清楚后，低风险动作可以更少打扰用户，高风险动作则被明确拦住。这也是 Claude Code auto mode、沙箱和多 Agent 管理文章共同表达的主线。

学习时重点看什么

把“用户误用、模型误行为、外部攻击”分别映射到你的产品风险。
区分“防止模型说错话”和“防止模型做错事”。
思考每个工具调用是否有环境边界、动作边界和信息边界。

工程启发

Agent 安全的第一原则是限制可造成的损失，而不是期待模型完全可靠。
任何能访问外部内容的 Agent 都要考虑间接 prompt injection。
人工确认适合高风险节点，但不能作为唯一安全机制。

和本站章节的关系

面试追问

blast radius 在 Agent 产品里具体指什么？
环境层防线和模型层防线分别能防什么？
多 Agent 系统为什么会放大 containment 难度？

Claude 跨产品隔离与约束 ​

这篇文章解决什么问题 ​

核心内容 ​

深度精读 ​

学习时重点看什么 ​

工程启发 ​

和本站章节的关系 ​

面试追问 ​