刚刚,OpenAI发布Agent工具包,网友:谢谢Manus AI

爱范儿
12 Mar

就在刚刚,OpenAI 发布了一系列专为构建 AI Agents 设计的新工具和 API,帮助开发者更容易创建能自动完成任务的 AI Agents(智能体)。

OpenAI 认为虽然过去一年推出的高级推理、多模态交互等模型能力为 Agent 奠定了基础,但开发者在构建生产级 Agent 时,还是会遇到不少难题。

为此,他们今天特地发布了全新的 Responses API、三种内置工具以及以及一个开源的 Agents SDK。

省流版如下:

Responses API:结合 Chat Completions API 简洁性与 Assistants API 工具使用能力的新型 API 接口

Web 搜索工具(Web Search Tool):让模型访问互联网获取最新信息的工具

文件搜索工具(File Search Tool):从大量文档中检索相关信息的增强工具

计算机使用工具(Computer Use Tool):由 Computer-Using Agent (CUA) 模型提供支持的计算机操作自动化工具,让 AI 能像人一样操作电脑界面

Agents SDK:基于 Swarm 框架升级,简化多 Agent 工作流程编排的开源框架

具体来说,Responses API 结合了 Chat Completions API(主要用来生成对话回复)的简洁性和 Assistants API(能让 AI 调用外部功能,比如查资料、操作东西)的工具使用能力,成为构建 Agent 应用的新基础。

开发者只需调用一次 API ,即可利用多种工具和多轮模型交互解决复杂任务。

在内置工具方面,Web 搜索工具支持 GPT-4o 和 GPT-4o-mini 模型获取网络最新信息并提供清晰的引用。在 SimpleQA 基准测试中,这两款模型的搜索预览版分别拿下了 90% 和 88% 的亮眼准确率。

升级后的文件搜索工具更是给力,支持多种文件格式,还能优化查询、过滤元数据、自定义排序,让开发者从堆积如山的文档中迅速找到关键信息。

计算机使用工具则由与 Operator 相同的 Computer-Using Agent (CUA)模型提供支持,可捕获模型生成的鼠标和键盘操作,在 OSWorld、WebArena 和 WebVoyager 基准测试中分别取得 38.1%、58.1% 和 87% 的成绩。

OpenAI 还推出了开源的 Agents SDK,专门用来简化多 Agent 工作流程的编排。

相比去年发布的实验性 Swarm 框架,这个全新 SDK 有了显著的改进。

提供易于配置的 LLM 与内置工具集成、Agent 间智能交接控制、可配置安全检查以及可视化追踪等功能,适用于客户支持自动化、多步研究、内容生成等多种应用场景。

一些早期测试用户已经使用这些新工具做出了实打实的成果。

在官网列举的案例中,Hebbia 利用 Web 搜索工具帮助资产管理者和法律从业者从海量数据中提取可行见解;Navan 将文件搜索工具应用于 AI 旅行 Agent 中,为用户提供精准的旅行政策答案。

Unify 和 Luminai 则使用计算机使用工具自动化复杂操作流程,特别是对缺乏 API 的传统系统;Box 利用 Agents SDK 快速构建和部署了企业数据搜索应用。

产品发布后,网友也在 OpenAI 的评论区玩起了梗。

还有网友专门留言感谢 Manus AI。

在今天凌晨的现场直播中,演示人员也通过一个“个人造型师” Agent 的应用案例,向我们展示了这些新工具的能耐。

举个例子,他们先用文件搜索工具翻看了用户(比如“Elon”和“Kevin”)的服装喜好数据,系统轻松整理出这些人的穿衣风格。

接着结合 Web 搜索工具,系统能够基于用户所在位置(演示中使用了“东京”作为 Kevin 的位置)搜索附近的相关商店,为 Kevin 推荐了东京的 Patagonia 店铺。

然后,计算机使用工具(Computer Use Tool)登场,自动操作网页界面,为 Kevin 买下一件黑色 Patagonia 夹克,整个过程行云流水——点击、拖拽、填信息,宛如真人在操控。

最后还演示了 Agent 间的交接功能。Agent 将退货请求无缝交接给客服 Agent,后者能够调用获取密码和提交退款请求等功能,帮助用户完成 Patagonia 夹克的退货。

可以说,凭借新工具和 API 的默契配合,这些 AI Agent 不仅能读懂用户喜好、获取实时资讯、执行复杂操作,还能在不同任务间灵活切换,完美覆盖从推荐到购买再到退货的全流程。

至于现有 API 的安排,OpenAI 表示会继续全力支持 Chat Completions API,为不需要内置工具的开发者提供新模型和功能。

而基于 Assistants API 测试版的反馈,他们已经把关键改进整合到 Responses API 中,计划在功能对齐后,于 2026 年中期正式停用 Assistants API,同时会提供详细的迁移指南。

新工具的定价也已经新鲜出炉。

Web 搜索每千次查询分别为 GPT-4o 搜索 30 美元和 GPT-4o-mini 搜索 25 美元;文件搜索每千次查询 2.5 美元,文件存储 0.1 美元/GB/天(首 GB 免费);计算机使用工具则按每输入百万 token/3 美元和每输出百万 token/12 美元计费。

OpenAI 表示,随着模型能力变得更加具有 Agent 属性,他们会继续深化 API 间的整合,并提供新工具帮助部署、评估和优化生产环境中的 Agent。

英伟达 CEO 黄仁勋曾指出,未来每个公司的 IT 部门将转变为 AI Agent 的“HR 部门”。

从管人到管 AI,Agent 将很快成为劳动力的重要组成部分,提高各行业的生产力,此次发布的工具集将是帮助开发者和企业构建、部署和扩展可靠高效 AI Agent 的重要一步。

此前,开发者需要自行组合不同 API 和编写复杂的协调逻辑来构建 AI Agent,有了新工具,能够极大地简化了这一过程。

Responses API 将多种功能整合成一个简单接口,而内置工具为 AI 提供了“感知”和“行动”的能力,Agents SDK 则提供了协调多 Agent 的标准框架。

通过降低技术门槛,更多企业能够快速构建和部署 AI Agent。

这或许也是 OpenAI 所说的“Agnet 元年”的真正含义——让 AI 不再局限于聊天框,而是能融入现实工作流程,成为你的“数字助理”甚至“数字同事”。

附上 AMA 问答:

Q:哪种操作系统最适合 computer use:Linux、Mac 还是 Windows?是图形界面(UI)、终端(terminal),还是其他方式更好?哪些应用程序在计算机上表现最佳,还是说这并不重要?

A:CUA 模型主要是针对网页任务进行训练的,但早期用户发现它在桌面应用程序上的表现也出乎意料地好。不过现在还处于早期阶段,我们还有很多可以改进的地方!

Q:你们会提供 TypeScript SDK 吗?

A:很快会推出。

Q:我们未来会在 API 中看到 o1 pro 吗?

A:计划很快在 responses API 中发布。

Q:我们需要自行管理 Docker 环境来使用计算机功能吗?

A:可自行管理 Docker 环境,也可以使用云服务。

Q:何时会有 Operator 在 API 中可用?

A:从今天开始,你可以在 API 中使用与 Operator 相同的功能!我们已经在新的 Responses API 中部署了驱动 Operator 的 CUA 模型。

Q:你们会考虑提供集成的虚拟机(VM)来支持“ computer use”,或者与合作伙伴合作,以减少搭建环境的需求吗?

A:目前还没有这样的计划,但可以查看 CUA 示例应用,其中包含一些示例环境,用于远程托管。

Q:在整个 agent-handoff 流程中,如何确保个人隐私?有没有什么方法可以增强用户与 Agent 交互时的隐私保护?

A:有多种隐私保护机制。Agents SDK 支持开发者定义的安全措施(guardrails),用于输入/输出验证,还可以使用 input_filter 来限制在交接过程中传递的消息上下文。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10