周二,OpenAI 发布了新工具,旨在帮助开发人员和企业使用公司自己的 AI 模型和框架构建 AI 代理——可以独立完成任务的自动化系统。这些工具是 OpenAI 新响应 API 的一部分,它允许企业开发自定义 AI 代理,这些代理可以执行网络搜索、扫描公司文件和导航网站,就像 OpenAI 的 Operator 产品一样。Responses API 有效地取代了 OpenAI 的 Assistants API,该公司计划在 2026 年上半年停用该 API。
近年来,围绕 AI 代理的炒作急剧增长,尽管科技行业一直在努力向人们展示甚至定义“AI 代理”的真正含义。在代理炒作领先于效用的最新例子中,中国初创公司 Butterfly Effect 本周早些时候因一个名为 Manus 的新 AI 代理平台而走红,用户很快发现该平台并没有兑现该公司的许多承诺。
换句话说,OpenAI 要找到合适的代理的风险很高。“演示你的代理非常容易,”OpenAI 的 API 产品负责人奥利维尔·戈德门特 (Olivier Godement) 在接受 TechCrunch 采访时说。“扩大代理的规模非常困难,让人们经常使用它也非常困难。”
今年早些时候,OpenAI 在 ChatGPT 中引入了两个 AI 代理:Operator,代表您导航网站,以及 Deep Research,为您编制研究报告。这两种工具都让我们看到了代理技术可以实现的目标,但在 “自主 ”部门还有很多不足之处。现在有了 Responses API,OpenAI 希望出售对为 AI 代理提供支持的组件的访问权限,允许开发人员构建自己的作员和深入研究风格的代理应用程序。OpenAI 希望开发人员可以使用其代理技术创建一些应用程序,这些应用程序感觉比现在可用的应用程序更加自主。
使用响应 API,开发人员可以在 OpenAI 的 ChatGPT 搜索网络搜索工具的引擎盖下利用相同的 AI 模型(预览版):GPT-4o 搜索和 GPT-4o 迷你搜索。这些模型可以浏览 Web 以寻找问题的答案,并在生成回复时引用来源。
OpenAI 声称 GPT-4o 搜索和 GPT-4o 迷你搜索与事实高度准确。在该公司的 SimpleQA 基准测试中,该基准衡量模型回答简短的事实搜索问题的能力,GPT-4o 搜索得分为 90%,而 GPT-4o 迷你搜索得分为 88%(越高越好)。相比之下,GPT-4.5(OpenAI 最近发布的更大模型)的得分仅为 63%。
Responses API 还包括一个文件搜索实用程序,可以快速扫描公司数据库中的文件以检索信息。(OpenAI 声称它不会在这些文件上训练模型。此外,使用 Responses API 的开发人员可以利用 OpenAI 的计算机使用代理 (CUA) 模型,该模型为 Operator 提供支持。该模型生成鼠标和键盘作,使开发人员能够自动执行数据输入和应用程序工作流等计算机使用任务。OpenAI 表示,企业可以选择在自己的系统上本地运行 CUA 模型,该模型以研究预览版发布。Operator 中提供的 CUA 的使用者版本只能在 Web 上执行作。
需要明确的是,Responses API 不会解决当今困扰 AI 代理的所有技术问题。虽然 AI 驱动的搜索工具比传统的 AI 模型更准确——鉴于它们可以查找正确的答案,这一事实并不奇怪——但网络搜索并不能使 AI 幻觉成为一个已解决的问题。GPT-4o 搜索仍然会出错 10% 的事实问题。除了准确性之外,AI 搜索工具还往往难以处理简短的导航查询(例如“湖人队今天得分”),最近的报告表明 ChatGPT 的引用并不总是可靠的。在提供给 TechCrunch 的一篇博文中,OpenAI 表示,CUA 模型“对于在作系统上自动执行任务还不是高度可靠”,并且很容易犯“无意”的错误。
然而,OpenAI 表示,这些是他们代理工具的早期迭代,并且一直在努力改进它们。除了响应 API,OpenAI 还发布了一个名为 Agents SDK 的开源工具包,它为开发人员提供免费工具,以将模型与其内部系统集成、实施保护措施并监控 AI 代理活动以进行调试和优化。Agents SDK 是 OpenAI 的 Swarm 的后续产品,Swarm 是该公司去年年底发布的多代理编排框架。
Godement 表示,他希望 OpenAI 今年能够弥合 AI 代理演示和产品之间的差距,在他看来,“代理是将发生的最具影响力的 AI 应用。这与 OpenAI 首席执行官 Sam Altman 在 1 月份发布的公告相呼应:2025 年是 AI 代理进入劳动力市场之年。无论 2025 年是否真的成为“AI 代理之年”,OpenAI 的最新版本都表明该公司希望从华而不实的代理演示转变为有影响力的工具。