OpenAI 给 Responses API 接上 WebSocket：Agent 竞争开始从模型速度转向工作流摩擦

核心摘要 Summary

OpenAI 把 Responses API 的 agent 工作流接入 WebSocket 长连接，接口形态基本不变，但用连接级缓存和增量处理压低了重复校验、重复 tokenization 和工具往返带来的开销。
新信息不在“WebSocket”这个词，而在一个更清楚的判断：当模型速度从几十 TPS 走向上千 TPS，决定 agent 体验的越来越不是推理本身，而是 API 编排、工具回路和系统摩擦。

OpenAI 这次更新，表面上是在 Responses API 上加入 WebSocket 支持，实质上是在给 agent 产品补一块过去常被忽略的短板：模型已经越来越快，真正拖慢体验的却常常是模型外面的那一圈系统开销。

如果把前一阶段的重点概括成“把模型做成能力平台”，那这一步更像是在争另一个入口：谁能把调用链路、工具回路和多轮状态处理做得更薄，谁就更接近真实工作流的主入口。对开发者来说，这比一次单纯的模型升级更有现实意义。

发生了什么：Responses API 还是那个 API，但底层传输换了

OpenAI 没把 Responses API 改成一套陌生接口。开发者熟悉的 response.create + previous_response_id 仍然可用，主要变化发生在连接内部：高频多轮调用不再反复走一次次 HTTP 请求，而是放到 WebSocket 长连接里处理。

这带来几件很具体的变化：

连接作用域内可以缓存 previous_response_id 对应状态
后续请求只需要处理新增输入，而不是每轮都重建更多上下文
response 对象、工具定义、已渲染 tokens、部分路由结果可以在连接内复用
一些后处理步骤可以和后续请求重叠，减少链路空转

官方给出的性能锚点有三个：

单次请求的 TTFT 优化后提升接近 45%
WebSocket 模式在 agent 工作流里，端到端延迟最高可降约 40%
背景速度对比是，旧一代旗舰模型约 65 tokens/s，而 GPT-5.3-Codex-Spark 的目标已指向超过 1000 TPS，突发可到 4000 TPS

这些数字里，最值得看的不是“快了多少”，而是为什么现在要做这件事。模型提速之后，外围系统的摩擦开始被放大了。

为什么重要：瓶颈已经从推理转到编排和工具回路

WebSocket 本身不是新技术。真正新增的信息，是 OpenAI 明确把 agent 延迟问题拆开来看：当模型输出速度快速上升，决定用户体感的越来越不是 token 吐得快不快，而是请求校验、重复 tokenization、上下文组装、路由、工具调用往返这些碎开销。

这比单次模型升级更能解释很多产品里的真实体验。用户看到的是“助手怎么还在等”，但那段等待时间里，模型未必在慢慢想，更多时候是在等系统层的一连串小动作完成。

这也让旧判断更清楚了一步：图像生成、编程助手、自动化 agent 这些产品，竞争不再只是模型能力的横向比较，而是在抢工作流入口。入口不只是谁功能全，还是谁能把一条任务链跑得更顺。模型会算，只是起点；链路薄不薄，决定它像不像工具。

铁路提速后，卡住运力的往往变成调度和装卸；云计算性能上去后，拖后腿的常常是网络、存储和编排。今天的 agent 也到了类似阶段。模型速度越来越高，系统摩擦就从边角问题变成主问题。

谁最受影响：编程和工作流 agent 是直接受益者

这次更新最相关的，不是普通单轮聊天用户，而是高频多轮、频繁调工具的 agent 产品。

OpenAI 在案例里提到，受益最直接的是 Codex、Vercel AI SDK、Cline、Cursor 这类编程和工作流工具。公开给出的数字包括：

Vercel AI SDK 报告延迟最高降约 40%
Cline 的多文件工作流快了 39%
Cursor 中的 OpenAI 模型最高快了 30%

这些更像方向证明，不是统一基准，也不能直接当成任何团队接入后的默认收益。因为 agent 延迟高度依赖任务形态：工具调用密度、上下文大小、会话长度、客户端本地执行时间，都会把结果拉开。

真正适合优先评估这套优化的团队，通常有两个特征：

一轮任务里要多次调用模型、工具和外部系统
任务时间里，模型生成只占一部分，剩下不少时间耗在状态传递和工具往返上

如果你的产品还是普通单轮聊天，这次更新就不该被夸大。没有太多多步状态复用，也没有那么多工具回路，长连接带来的改善通常不会接近 agent 场景里的数字。

这对开发者的现实含义：优化重点要从“换模型”转向“减重复劳动”

对开发者来说，最现实的变化不是立刻重构整套架构，而是先重新看自己的延迟账单。

优先检查三件事：

是否每轮都在重复传大段历史和上下文
是否每次都重复做工具定义、校验、路由和 tokenization
是否模型已经足够快，但时间仍耗在工具执行前后的空转上

这会影响接下来的工程取舍。有些团队会继续追更强模型；也有些团队会先压系统开销，因为用户感知的是总等待时间，不是模型榜单名次。

OpenAI 这次的取舍也说明了一个方向：它没有为了极限速度，把开发者接口彻底改型。原文提到过另一条路——把整个 agent rollout 视为一个长生命周期 response——那样可能更快，但开发者心智和迁移成本更高。现在落地的是兼容式优化：接口尽量不动，底层尽量增量。

这很务实。因为眼下真正阻碍 agent 落地的，往往不是模型不够强，而是工程收益和迁移成本算不过来。

接下来该观察什么：能否撑住更长会话和更复杂生产流量

这次更新补强了一个重要判断，但还不是 agent 延迟问题的总解。

写代码 agent 最慢的时候，常常不是模型生成，而是本地工具执行、文件搜索、测试、依赖安装、沙箱运行环境本身。客户端跑工具、读本地文件、构建上下文，这些时间不会因为接入 WebSocket 自动消失。

所以后面更值得看的，是两个更硬的变量：

连接级缓存和增量处理，能不能稳定撑住更长会话、更复杂的生产流量
生态会不会继续跟进做更激进的增量式编排，而不只是把模型继续提速

如果前者撑不住，提速容易停在演示层；如果后者跟不上，模型速度再高，用户拿到的也只是“账面性能”。

对 agent 产品来说，下一阶段的竞争会更像系统工程竞争。模型能力当然还重要，但真正拉开差距的，可能是链路厚度、缓存策略、工具调度和状态管理这些过去不太上台面的东西。

OpenAI 给 Responses API 接上 WebSocket：Agent 竞争开始从模型速度转向工作流摩擦

Agent竞争转向

更新实质

接口不变

连接复用

核心判断

系统摩擦

竞争焦点

直接受益者

适用场景

聊天有限

开发者取舍

先查延迟账单

兼容式落地

后续变量

非模型瓶颈

能否撑住

发生了什么：Responses API 还是那个 API，但底层传输换了

为什么重要：瓶颈已经从推理转到编排和工具回路

谁最受影响：编程和工作流 agent 是直接受益者

这对开发者的现实含义：优化重点要从“换模型”转向“减重复劳动”

接下来该观察什么：能否撑住更长会话和更复杂生产流量