剛剛,OpenAI發佈Agent工具包,網友:謝謝Manus AI

愛範兒
03-12

就在剛剛,OpenAI 發佈了一系列專爲構建 AI Agents 設計的新工具和 API,幫助開發者更容易創建能自動完成任務的 AI Agents(智能體)。

OpenAI 認爲雖然過去一年推出的高級推理、多模態交互等模型能力爲 Agent 奠定了基礎,但開發者在構建生產級 Agent 時,還是會遇到不少難題。

爲此,他們今天特地發佈了全新的 Responses API、三種內置工具以及以及一個開源的 Agents SDK。

省流版如下:

Responses API:結合 Chat Completions API 簡潔性與 Assistants API 工具使用能力的新型 API 接口

Web 搜索工具(Web Search Tool):讓模型訪問互聯網獲取最新信息的工具

文件搜索工具(File Search Tool):從大量文檔中檢索相關信息的增強工具

計算機使用工具(Computer Use Tool):由 Computer-Using Agent (CUA) 模型提供支持的計算機操作自動化工具,讓 AI 能像人一樣操作電腦界面

Agents SDK:基於 Swarm 框架升級,簡化多 Agent 工作流程編排的開源框架

具體來說,Responses API 結合了 Chat Completions API(主要用來生成對話回覆)的簡潔性和 Assistants API(能讓 AI 調用外部功能,比如查資料、操作東西)的工具使用能力,成爲構建 Agent 應用的新基礎。

開發者只需調用一次 API ,即可利用多種工具和多輪模型交互解決複雜任務。

在內置工具方面,Web 搜索工具支持 GPT-4o 和 GPT-4o-mini 模型獲取網絡最新信息並提供清晰的引用。在 SimpleQA 基準測試中,這兩款模型的搜索預覽版分別拿下了 90% 和 88% 的亮眼準確率。

升級後的文件搜索工具更是給力,支持多種文件格式,還能優化查詢、過濾元數據、自定義排序,讓開發者從堆積如山的文檔中迅速找到關鍵信息。

計算機使用工具則由與 Operator 相同的 Computer-Using Agent (CUA)模型提供支持,可捕獲模型生成的鼠標和鍵盤操作,在 OSWorld、WebArena 和 WebVoyager 基準測試中分別取得 38.1%、58.1% 和 87% 的成績。

OpenAI 還推出了開源的 Agents SDK,專門用來簡化多 Agent 工作流程的編排。

相比去年發佈的實驗性 Swarm 框架,這個全新 SDK 有了顯著的改進。

提供易於配置的 LLM 與內置工具集成、Agent 間智能交接控制、可配置安全檢查以及可視化追蹤等功能,適用於客戶支持自動化、多步研究、內容生成等多種應用場景。

一些早期測試用戶已經使用這些新工具做出了實打實的成果。

在官網列舉的案例中,Hebbia 利用 Web 搜索工具幫助資產管理者和法律從業者從海量數據中提取可行見解;Navan 將文件搜索工具應用於 AI 旅行 Agent 中,爲用戶提供精準的旅行政策答案。

Unify 和 Luminai 則使用計算機使用工具自動化複雜操作流程,特別是對缺乏 API 的傳統系統;Box 利用 Agents SDK 快速構建和部署了企業數據搜索應用。

產品發佈後,網友也在 OpenAI 的評論區玩起了梗。

還有網友專門留言感謝 Manus AI。

在今天凌晨的現場直播中,演示人員也通過一個“個人造型師” Agent 的應用案例,向我們展示了這些新工具的能耐。

舉個例子,他們先用文件搜索工具翻看了用戶(比如“Elon”和“Kevin”)的服裝喜好數據,系統輕鬆整理出這些人的穿衣風格。

接着結合 Web 搜索工具,系統能夠基於用戶所在位置(演示中使用了“東京”作爲 Kevin 的位置)搜索附近的相關商店,爲 Kevin 推薦了東京的 Patagonia 店鋪。

然後,計算機使用工具(Computer Use Tool)登場,自動操作網頁界面,爲 Kevin 買下一件黑色 Patagonia 夾克,整個過程行雲流水——點擊、拖拽、填信息,宛如真人在操控。

最後還演示了 Agent 間的交接功能。Agent 將退貨請求無縫交接給客服 Agent,後者能夠調用獲取密碼和提交退款請求等功能,幫助用戶完成 Patagonia 夾克的退貨。

可以說,憑藉新工具和 API 的默契配合,這些 AI Agent 不僅能讀懂用戶喜好、獲取實時資訊、執行復雜操作,還能在不同任務間靈活切換,完美覆蓋從推薦到購買再到退貨的全流程。

至於現有 API 的安排,OpenAI 表示會繼續全力支持 Chat Completions API,爲不需要內置工具的開發者提供新模型和功能。

而基於 Assistants API 測試版的反饋,他們已經把關鍵改進整合到 Responses API 中,計劃在功能對齊後,於 2026 年中期正式停用 Assistants API,同時會提供詳細的遷移指南。

新工具的定價也已經新鮮出爐。

Web 搜索每千次查詢分別爲 GPT-4o 搜索 30 美元和 GPT-4o-mini 搜索 25 美元;文件搜索每千次查詢 2.5 美元,文件存儲 0.1 美元/GB/天(首 GB 免費);計算機使用工具則按每輸入百萬 token/3 美元和每輸出百萬 token/12 美元計費。

OpenAI 表示,隨着模型能力變得更加具有 Agent 屬性,他們會繼續深化 API 間的整合,並提供新工具幫助部署、評估和優化生產環境中的 Agent。

英偉達 CEO 黃仁勳曾指出,未來每個公司的 IT 部門將轉變爲 AI Agent 的“HR 部門”。

從管人到管 AI,Agent 將很快成爲勞動力的重要組成部分,提高各行業的生產力,此次發佈的工具集將是幫助開發者和企業構建、部署和擴展可靠高效 AI Agent 的重要一步。

此前,開發者需要自行組合不同 API 和編寫複雜的協調邏輯來構建 AI Agent,有了新工具,能夠極大地簡化了這一過程。

Responses API 將多種功能整合成一個簡單接口,而內置工具爲 AI 提供了“感知”和“行動”的能力,Agents SDK 則提供了協調多 Agent 的標準框架。

通過降低技術門檻,更多企業能夠快速構建和部署 AI Agent。

這或許也是 OpenAI 所說的“Agnet 元年”的真正含義——讓 AI 不再侷限於聊天框,而是能融入現實工作流程,成爲你的“數字助理”甚至“數字同事”。

附上 AMA 問答:

Q:哪種操作系統最適合 computer use:Linux、Mac 還是 Windows?是圖形界面(UI)、終端(terminal),還是其他方式更好?哪些應用程序在計算機上表現最佳,還是說這並不重要?

A:CUA 模型主要是針對網頁任務進行訓練的,但早期用戶發現它在桌面應用程序上的表現也出乎意料地好。不過現在還處於早期階段,我們還有很多可以改進的地方!

Q:你們會提供 TypeScript SDK 嗎?

A:很快會推出。

Q:我們未來會在 API 中看到 o1 pro 嗎?

A:計劃很快在 responses API 中發佈。

Q:我們需要自行管理 Docker 環境來使用計算機功能嗎?

A:可自行管理 Docker 環境,也可以使用雲服務。

Q:何時會有 Operator 在 API 中可用?

A:從今天開始,你可以在 API 中使用與 Operator 相同的功能!我們已經在新的 Responses API 中部署了驅動 Operator 的 CUA 模型。

Q:你們會考慮提供集成的虛擬機(VM)來支持“ computer use”,或者與合作伙伴合作,以減少搭建環境的需求嗎?

A:目前還沒有這樣的計劃,但可以查看 CUA 示例應用,其中包含一些示例環境,用於遠程託管。

Q:在整個 agent-handoff 流程中,如何確保個人隱私?有沒有什麼方法可以增強用戶與 Agent 交互時的隱私保護?

A:有多種隱私保護機制。Agents SDK 支持開發者定義的安全措施(guardrails),用於輸入/輸出驗證,還可以使用 input_filter 來限制在交接過程中傳遞的消息上下文。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10