Claude 跨产品隔离与约束
- 原文标题:How we contain Claude across products
- 原文链接:https://www.anthropic.com/engineering/how-we-contain-claude
- 发布时间:2026-05-25
- 来源:Anthropic Engineering
- 主题:Agent containment、沙箱、权限边界、产品安全
本文是中文精读笔记,不是原文全文翻译。
这篇文章解决什么问题
随着 Claude 从聊天助手变成能读文件、写代码、调用工具和协作办公的 Agent,风险不再只是“回答错了”,而是“做了不该做的事”。文章讨论 Anthropic 如何在 claude.ai、Claude Code 和 Claude Cowork 等产品中限制 Agent 的 blast radius。
核心内容
- 风险可以分成用户误用、模型误行为和外部攻击三类。
- containment 的核心不是让模型永远不犯错,而是让错误无法越过产品边界。
- 环境层防线包括沙箱、权限、资源隔离和网络限制。
- 模型层防线用于补足环境防线不可用的场景,例如识别越权请求和可疑外部内容。
- 多 Agent 系统会让人工逐步审批更难扩展,因此系统级边界更重要。
深度精读
这篇文章最值得学习的地方,是它把 Agent 安全从“模型会不会听话”转成“系统允许模型造成多大影响”。Claude 在不同产品里的能力不一样:网页聊天主要接触用户提供的信息,Claude Code 会接触本地代码和命令,Cowork 这类协作产品还可能触达组织内部资源。能力越靠近真实世界,安全设计越不能停留在 prompt 约束上。
原文讨论的 containment 可以理解成三层边界。第一层是运行环境边界:Agent 在哪里执行、能读哪些文件、能不能联网、能不能访问凭据。第二层是动作边界:哪些动作可以自动执行,哪些动作必须确认,哪些动作永远禁止。第三层是信息边界:外部网页、邮件、文档里的文字不能自动升级成系统指令。真正可靠的 Agent 产品,需要这三层同时存在。
从产品视角看,containment 不是要降低 Agent 能力,而是让用户敢于开启更强能力。没有边界时,自动化越强越危险;边界清楚后,低风险动作可以更少打扰用户,高风险动作则被明确拦住。这也是 Claude Code auto mode、沙箱和多 Agent 管理文章共同表达的主线。
学习时重点看什么
- 把“用户误用、模型误行为、外部攻击”分别映射到你的产品风险。
- 区分“防止模型说错话”和“防止模型做错事”。
- 思考每个工具调用是否有环境边界、动作边界和信息边界。
工程启发
- Agent 安全的第一原则是限制可造成的损失,而不是期待模型完全可靠。
- 任何能访问外部内容的 Agent 都要考虑间接 prompt injection。
- 人工确认适合高风险节点,但不能作为唯一安全机制。
和本站章节的关系
面试追问
- blast radius 在 Agent 产品里具体指什么?
- 环境层防线和模型层防线分别能防什么?
- 多 Agent 系统为什么会放大 containment 难度?