Skip to content

长周期 Agent 的有效 Harness

本文是中文精读笔记,不是原文全文翻译。

这篇文章解决什么问题

长周期 Agent 的失败经常不是模型“不聪明”,而是环境没有给它稳定支架:目标会漂移,状态会丢失,工具反馈不清楚,失败后不能恢复。文章总结 long-running agents 需要怎样的 harness。

核心内容

  • harness 要保存任务状态,减少依赖单次上下文窗口。
  • 工具接口要给出清晰反馈,让 Agent 知道动作是否成功。
  • 长任务需要阶段性检查点,避免走偏后浪费大量时间。
  • 恢复策略要成为设计的一部分,而不是失败后的补丁。

深度精读

这篇文章和 Managed Agents 一起读,会更容易理解。长周期 Agent 的本质问题是:任务运行时间超过了一次上下文、一次进程、一次人工注意力的稳定范围。它会经历中断、失败、状态变化、用户补充需求和外部环境变化。没有 harness,模型只能在越来越乱的对话历史里猜自己该做什么。

有效 harness 要把长任务变成一组可管理的状态:目标是什么,已经完成什么,当前阻塞点是什么,下一步是什么,哪些决策已经被用户确认,哪些文件或资源是关键输入。这样即使模型换一轮、进程重启,任务也不会从头开始。

工具反馈也是 harness 的一部分。工具如果只返回大段日志,模型很难判断成败;如果能返回结构化状态、错误原因和建议下一步,Agent 就更容易自我恢复。长期看,harness 的质量决定 Agent 能不能从 demo 走向稳定产品。

学习时重点看什么

  • 长周期 Agent 需要外部状态,而不是把一切留给上下文窗口。
  • 工具反馈要告诉模型“发生了什么”和“下一步该怎么办”。
  • checkpoint 可以防止 Agent 在错误方向上持续消耗资源。

工程启发

  • 长周期任务应当显式记录 plan、progress、blocking issues 和 next actions。
  • 工具输出要短、准、可操作,避免日志淹没关键反馈。
  • Agent harness 越清晰,模型越容易稳定工作。

和本站章节的关系

面试追问

  • 为什么长周期 Agent 不能只依赖长上下文?
  • harness 如何防止目标漂移?
  • 检查点和恢复策略应该包含哪些信息?

基于 MIT 协议开源