OpenAI發新模型o3和o4-mini!首次實現“圖像思維”,可利用所有ChatGPT工具

華爾街見聞
04-17

OpenAI週三發佈新款AI模型o3和o4-mini,模仿人類的推理過程,解決複雜編程和視覺任務的推理。這是該公司首次推出能夠獨立使用全部ChatGPT工具的推理模型——包括網頁瀏覽、Python編程、圖像理解和圖像生成能力。同時,該公司也發佈開源AI agent CodeX CLI,用於幫助用戶執行編程任務,從而改善市場競爭能力。

OpenAI週三發佈新款AI模型o3和o4-mini,模仿人類的推理過程,解決複雜編程和視覺任務的推理。同時,該公司也發佈開源AI agent CodeX CLI,用於幫助用戶執行編程任務,從而改善市場競爭能力。

OpenAI此次推出的主要新型推理模型名為o3,同時還發布了一款更小型的模型,命名為o4-mini。這一發布延續了去年9月OpenAI首個推理模型o1的問世,當時o1主要專注於解決複雜問題,並通過多步驟的方式進行思考和作答。

該公司表示,新發布的o3模型在響應用戶提示之前會花費更多時間進行計算,目標是解決與科學、數學和編程相關的更復雜的多步驟問題。藉助o3,用戶可以上傳白板筆記、草圖和其他圖像內容,讓AI進行分析與討論。這些模型還能對圖像進行旋轉、縮放等編輯操作。

跑分進步 首次實現“圖像思維”

據最新測試結果,o3和o4-mini(無工具版本)在AIME 2024數學競賽題目中的準確率分別達91.6%和93.4%,遠超前代模型o1的74.3%。在AIME 2025題目中,兩者準確率分別達88.9%和92.7%。在Codeforces編程競賽評分中,支持終端工具的o3和o4-mini分別取得了2706和2719的ELO分數,顯著領先於o1的1891和o3-mini的2073,顯示出在複雜數學與代碼任務中的強大推理與執行能力。

同時,o3(無工具)在博士水平科學問答中的準確率為83.3%,高於前代模型o1的78.0%,而o4-mini(無工具)也緊隨其後,達81.4%。在右圖所示的“人類最後的考試”高難度跨學科題目中,開啓Python與瀏覽工具的o3模型準確率達24.9%,顯著優於o1-pro的8.12%和o3-mini的13.4%,顯示出多工具組合在處理複雜問題上的巨大潛力。值得注意的是,Deep Research實驗系統在該測試中表現最佳,準確率達26.6%。這進一步突顯OpenAI新模型在推理鏈、跨模態理解和工具協同方面的持續進步。

在多模態推理方面,OpenAI新發布的o3和o4-mini模型在多項視覺推理測試中全面超越前代模型o1。在MMMU大學級視覺問題解決任務中,o3的準確率達82.9%,領先於o1的77.6%;o4-mini表現相近,為81.6%。在MathVista視覺數學推理測試中,o3取得86.8%的成績,遠高於o1的71.8%;而o4-mini則達84.3%。在CharXiv科學圖表推理測試中,o3的準確率為78.6%,大幅領先o1的55.1%,o4-mini則達到72%。整體來看,o3在處理圖像與文本結合任務中展現出強大能力,o4-mini則在保持高性能的同時提升了響應速度與成本效率,展現出OpenAI多模態模型在複雜視覺任務中的顯著進展。

與此同時,o4-mini則提供了價格、速度和性能之間的“有競爭力的平衡”,這是開發者在選擇AI模型為其應用提供支持時經常考慮的三大因素。兩款模型現已向OpenAI付費用戶開放。

OpenAI在公告中寫道,o3和o4-mini是首批能夠“圖像思維”的AI模型:

這是我們首次推出能夠獨立使用全部ChatGPT工具的推理模型——包括網頁瀏覽、Python編程、圖像理解和圖像生成能力。這使得它們在解決複雜的多步驟問題時更加高效,並朝着自主執行任務的方向邁出了真正一步。”

該公司解釋稱,這意味着“它們不僅能看圖,還能將視覺信息直接整合進推理鏈條之中”。

負責圖像推理的OpenAI華裔研究員Jiahui Yu解釋圖像推理(“Thinking with Images”)的重要性:

“圖像思維”自o系列最早發佈以來,一直是我們在感知方向下注的核心之一。我們悄悄上線了o1 vision作為初步嘗試——而現在,o3和o4-mini終於真正打磨成熟,讓這一能力得以全面實現。”

此外,OpenAI表示,o3在SWE-bench verified測試中表現達到了當前最先進的水平(不使用自定義結構),該測試主要評估編程能力,o3的得分為69.1%。o4-mini的得分也相當出色,達到68.1%。作為對比,OpenAI此前最好的模型o3-mini在該測試中得分為49.3%,而Anthropic的Claude 3.7 Sonnet得分為62.3%。

DeepSeek壓力下 OpenAI也想開源了?

OpenAI在2022年底推出ChatGPT,引發了生成式人工智能的熱潮。當時這款產品搭載的是GPT-3.5模型。此後,該公司陸續發佈了多個日益複雜的系統,包括多個推理模型。但OpenAI目前面臨着來自中國新興企業DeepSeek、Anthropic以及馬斯克旗下xAI等公司的巨大壓力,這些公司不斷推出一系列具備類似前沿能力的AI模型。

分析認為,編程已成為生成式AI應用中增長最快的領域之一,也是OpenAI的一個關鍵競爭戰場。Anthropic和谷歌母公司Alphabet都大力宣傳其新一代AI系統的編程能力。其他創業公司,如Cursor的開發商Anysphere,也憑藉面向程序員的AI工具獲得了廣泛關注。

為在這個競爭激烈的市場中更具優勢,OpenAI週三宣佈推出Codex CLI,這是一款旨在與如o3等模型協同工作的AI代理,可幫助用戶完成編程任務。該產品是開源的,意味着將免費向用戶開放,並可直接在用戶的計算機終端程序中運行。

奧特曼此前曾表示,公司正在開發一個開源版本的推理模型,計劃在未來幾個月內發佈,此舉是為了回應DeepSeek旗下開源系統R1走紅後的市場影響。

OpenAI還表示,未來幾周內將推出o3-pro,這是o3的一個升級版本,使用更多計算資源生成回答,僅向ChatGPT Pro訂閲用戶開放。而奧特曼此前曾表示,o3和o4-mini可能是OpenAI在GPT-5發佈之前推出的最後一批獨立推理模型。GPT-5預計將融合傳統模型(如GPT-4.1)與推理模型,實現統一發展方向。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10