使用 Responses API 的 WebSocket 加速 Agent 工作流

原文标题：Speeding up agentic workflows with WebSockets in the Responses API
原文链接：https://openai.com/index/speeding-up-agentic-workflows-with-websockets/
发布时间：2026-04-22
来源：OpenAI Engineering
主题：Responses API、WebSocket、Agent loop、延迟优化

本文是中文精读笔记，不是原文全文翻译。

这篇文章解决什么问题

Agent loop 往往不是一次请求结束，而是模型思考、调用工具、回传结果、继续推理的多轮过程。每轮都重新建立请求，会把服务处理和网络往返放大成用户可感知的等待时间。

核心内容

Codex 修 bug 时会反复读文件、编辑、运行测试，每一步都可能触发 Responses API 往返。
复杂任务的延迟来自 API 服务处理、模型推理和客户端工具执行三部分。
WebSocket 持久连接减少重复建立连接和请求处理开销，让多轮工具调用更顺滑。
对 Agent 来说，低延迟不仅提升体验，也会改变可接受的工作流粒度。

工程启发

Agent API 设计要面向“会话”和“循环”，不能只按单次 completion 设计。
工具调用密集型任务要优化往返次数和连接复用。
性能分析要把模型时间和非模型时间分开，否则容易误判瓶颈。

和本站章节的关系

面试追问

为什么 Agent 工作流比普通聊天更依赖持久连接？
TTFT、工具执行时间和 API 服务时间应该如何拆分？
WebSocket 会给服务端状态管理带来哪些复杂度？