长周期 Agent 的有效 Harness
- 原文标题:Effective harnesses for long-running agents
- 原文链接:https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents
- 发布时间:2025-11-26
- 来源:Anthropic Engineering
- 主题:长周期 Agent、harness、上下文恢复
本文是中文精读笔记,不是原文全文翻译。
这篇文章解决什么问题
长周期 Agent 的失败经常不是模型“不聪明”,而是环境没有给它稳定支架:目标会漂移,状态会丢失,工具反馈不清楚,失败后不能恢复。文章总结 long-running agents 需要怎样的 harness。
核心内容
- harness 要保存任务状态,减少依赖单次上下文窗口。
- 工具接口要给出清晰反馈,让 Agent 知道动作是否成功。
- 长任务需要阶段性检查点,避免走偏后浪费大量时间。
- 恢复策略要成为设计的一部分,而不是失败后的补丁。
深度精读
这篇文章和 Managed Agents 一起读,会更容易理解。长周期 Agent 的本质问题是:任务运行时间超过了一次上下文、一次进程、一次人工注意力的稳定范围。它会经历中断、失败、状态变化、用户补充需求和外部环境变化。没有 harness,模型只能在越来越乱的对话历史里猜自己该做什么。
有效 harness 要把长任务变成一组可管理的状态:目标是什么,已经完成什么,当前阻塞点是什么,下一步是什么,哪些决策已经被用户确认,哪些文件或资源是关键输入。这样即使模型换一轮、进程重启,任务也不会从头开始。
工具反馈也是 harness 的一部分。工具如果只返回大段日志,模型很难判断成败;如果能返回结构化状态、错误原因和建议下一步,Agent 就更容易自我恢复。长期看,harness 的质量决定 Agent 能不能从 demo 走向稳定产品。
学习时重点看什么
- 长周期 Agent 需要外部状态,而不是把一切留给上下文窗口。
- 工具反馈要告诉模型“发生了什么”和“下一步该怎么办”。
- checkpoint 可以防止 Agent 在错误方向上持续消耗资源。
工程启发
- 长周期任务应当显式记录 plan、progress、blocking issues 和 next actions。
- 工具输出要短、准、可操作,避免日志淹没关键反馈。
- Agent harness 越清晰,模型越容易稳定工作。
和本站章节的关系
面试追问
- 为什么长周期 Agent 不能只依赖长上下文?
- harness 如何防止目标漂移?
- 检查点和恢复策略应该包含哪些信息?