OpenAI震撼發佈o3、o4-mini，首用圖像思考，十倍算力爆表

新智元

04-17

新智元報道

編輯：編輯部 NZYH

【新智元導讀】滿血版o3和o4-mini深夜登場，首次將圖像推理融入思維鏈，還會自主調用工具，60秒內破解複雜難題。尤其是，o3以十倍o1算力刷新編程、數學、視覺推理SOTA，接近“天才水平”。此外，OpenAI還開源了編程神器Codex CLI，一夜爆火。

不出所料，滿血版o3真的來了。

剛剛，OpenAI聯創Greg Brockman和首席研究官Mark Chen帶隊，開啓了20分鐘線上直播。

這次不僅有o3，還有下一代推理模型o4-mini。它們首次實現了“用圖像思考”，堪稱視覺推理的巔峯之作。

如同AI智能體，兩款模型在不到1分鐘內，自主判斷並組合運用ChatGPT內置工具，生成了詳盡周全的答案。

其中包括，搜索網頁、用Python分析上傳的文件及數據、對視覺輸入進行深度推理，乃至生成圖像。

在Codeforces、SWE-bench、MMMU等基準測試中，o3刷新SOTA，不論是在編程、數學、科學，還是在視覺感知領域都樹立了新標杆。

尤其是，對於圖像、圖表、圖形分析，o3表現尤爲突出，能夠深入挖掘視覺輸入的細節。

在Codeforces中，新模型得分均超2700分，在全球參賽者中排名前200名

用奧特曼的話來說，“接近或達到天才水平”。

不過，這個智力的代價是，需要投入o1十倍以上的算力。

相較於滿血版o3，o4-mini則以小巧高效、高性價比的特點脫穎而出。

在AIME 2025測試中，o4-mini配合Python解釋器取得了99.5%高分，幾乎完美拿下了這項基準測試。

而且，在數學、編程、視覺任務，以及非STEM領域，它的性能均優於o3-mini。

此外，o4-mini支持遠超o3的使用額度，是高併發場景最優選。

總而言之，o3和o4-mini都非常擅長編碼，由此OpenAI還開源了一個可在終端運行的輕量級編程 AI 智能體——Codex CLI。

從今天起，ChatGPT Plus、Pro和Team用戶將第一時間體驗到o3、o4‑mini和o4‑mini‑high，它們將取代o1、o3‑mini和o3‑mini‑high。

同時，這兩款模型也將通過Chat Completions API和Responses API，向所有開發者提供。

推理模型，首次會用工具了

直播演示中，Greg先上了一個價值——有些模型就像是質的飛躍，GPT-4是其中之一，今天o3/o4-mini同樣是。

他表示，o3讓他和OpenAI的同事見到了AI大模型能完成“從未見到的事”，比如，它自己就提出了一個很棒的系統架構想法。

這兩款模型真正令人驚訝的地方，它們不僅僅是模型，更是一個“AI系統”。

它們跟之前那些推理模型最大的區別，就是首次被用來訓練各種工具。它們會在CoT中使用這些工具來解決難題。

人類最後考試中，o3模型足以媲美Deep Research表現，而且速率更快

爲了攻克了一個複雜難題，o3曾連續使用約600次工具調用。它們一次性生成的代碼片段，真正在代碼庫發揮效用。

Greg表示，自己最珍視的一點，就是它們的軟件工程能力：它們不僅能編寫一次性的代碼，而且能真正在真實的代碼庫中工作！

比如，它在瀏覽OpenAI代碼庫方面，就比Greg做得更好。這就是它極其有用的地方。

而且，在指令跟隨、智能體工具使用評估中，與工具結合的o3和o4-mini準確性是最高的。

外部專家評估顯示，o3在處理真實世界任務時，嚴重錯誤率比o1還降低了20%。

之所以有如此大的進步，正是因爲RL中持續的算法進步所驅動的。用Greg的話說，引擎蓋下最令人驚歎的是，目前它還仍然是預測一個token，然後加入一點RL的AI，就已經做到這個地步。

那麼，在實操過程中，o3是如何結合使用工具解決複雜任務的呢？

多模態團隊研究員Brandon McKinzie上傳了一張2015年完成的一個物理實習海報，讓ChatGPT估算質子同位標量電荷的數量。

o3開始推理的同時，逐一分析圖片中內容，並確定Brandon提出問題的正確數量。實際上，海報截圖中並沒有覆蓋最終結果。

於是，o3便開始聯網搜索查找最新的估算值，幾秒鐘內讀完數十篇論文，節省了大量時間。

結果顯示，模型計算出了一個未經歸一化的值，並且乘以一個特定常數，又可以重新歸一化，最終結果與實際比較接近。

後訓練團隊研究員Eric Mitchell爲ChatGPT開啓了記憶功能，然後讓o3去查找新聞，而且是與自己興趣有關的內容，同時還要足夠冷門。

o3基於已有的瞭解——潛水和演奏音樂，主動思考並調用工具，找出了一些相關的有趣內容。

比如，研究人員錄製了健康的珊瑚聲音，並用揚聲器播放錄音，加速了新珊瑚和魚類定居。

同時，它還能繪製出可視化的數據，便於直接放入博客文章當中。

也就是說，無論o3是用於前沿的科研領域，還是將模型集成到日常工作流中，都會非常有用。

在解決AIME數學競賽問題時，o3被要求觀察2x2方格網格，並計算出滿足約束條件的顏色方案數量。

它首先生成了一個暴力程序，然後用Python解釋器運行，並得到了正確答案，即82。

即便如此，它的解題過程並不優雅簡潔，對此，o3自動識別後並嘗試簡化解決方案，找到更聰明辦法。

它還會自動覈查答案的可靠性，甚至最後給出了文字解決方案，方便向人類解釋。

讓研究人員驚訝的是，訓練o3過程中並沒有使用類似策略，也沒有要求簡化，都是AI自主學習完成的。

在編碼任務中，研究人員讓o3-high找出一個名爲symbols軟件包的錯誤。

首先，模型會主動檢查指令中，所說的問題是否存在，並嘗試瞭解代碼儲存庫的概況。

然後，它發現一可以mro的解釋類繼承信息的Python結構，基於已有的世界知識，找到了問題所在。

最後，o3通過瀏覽互聯網，找到了最優的解決方案——apply_patch。

就推理成本來看，o3和o4-mini不僅是迄今爲止最智能模型，相較於o1和o3‑mini，更在效率和成本控制方面樹立了新標杆。

在2025年AIME數學競賽上，o3推理成本和性能全面優於 o1，同樣地，o4-mini成本-性能也全面優於o3‑mini。

所以，如果你需要一個小而快的多模態推理模型，o4-mini將是極好的選擇。

o3和o4-mini能夠自主選擇工具、計劃方法解決問題，無論是數學、商業、科學、體育還是視覺推理都沒問題。

比如，在解決體育問題時，o3能聯網獲取最新數據，考慮了最近一個賽季和2022-23年聯賽ERA略升後迴歸正常的情況。

o1給出的數據是大概值，略有偏差，不夠精確，而且它錯誤地認爲偷壘增加完全是因爲投球計時器，忽略了基地墊擴大和限制牽制次數這些更直接的原因。

左右滑動查看

用圖像思考，視覺推理新巔峯

更引人注目的是，o3和o4-mini在視覺推理上全面超越前代，成爲o系列最新的視覺推理模型。

它們通過在思維鏈（CoT）中用圖像進行推理，實現了視覺感知的重大突破。

OpenAI首次實現了模型在其思維鏈中用圖像進行思考——而不僅僅只是看圖。

與早期的OpenAI o1類似，o3和o4-mini能在回答前思考更久，在回答用戶前內部會生成很長的思維鏈。

不僅如此，o3和o4-mini可以在思考過程中“看”圖片。這種能力是通過工具處理用戶上傳的圖像來實現的，比如進行裁剪、放大、旋轉等簡單的圖像處理。

更厲害的是，這些功能都是原生的，不需要依賴額外的專業模型。

在基準測試中，這種用圖像思考，無需依賴網絡瀏覽的能力，碾壓了前代多模態模型的性能。

在STEM問答（MMMU、MathVista）、圖表閱讀與推理（CharXiv）、感知基元（VLMs are Blind）以及視覺搜索（V*）等領域，o3和o4-mini均創下了SOTA。

特別是，在 V*基準測試上，兩款模型以96.3%準確率幾乎攻克了這項挑戰，標誌着視覺推理技術重大飛躍。

ChatGPT增強的視覺智能，能更徹底、精準、可靠地分析圖片，幫你解決更棘手的問題。

它能將高級推理與網頁搜索、圖像處理等工具無縫結合，自動放大、裁剪、翻轉或優化你的圖片，哪怕照片不完美也能挖掘出有用信息。

比如，你可以上傳一張經濟學作業的照片，得到一步步的解答，或者分享一個程序報錯的截圖，快速找出問題根源。

這種方法開啓了一種新的測試時計算擴展方式，完美的融合了視覺和文本推理。

這體現在它們在多模態基準測試中的頂尖表現，標誌着多模態推理邁出了重要一步。

視覺推理實戰

用圖像思考可以與ChatGPT更加輕鬆的互動。

你可以直接拍張照片提問，不用擔心物體擺放問題——不論文字是不是倒的，或者一張照片裏有多道物理題。

即使東西乍一看不太清楚，視覺推理也能讓模型放大看清細節。

比如，一個放在桌子上幾乎與視線平行的筆記本，上面有兩行模糊的字，人看上去也很難直接認出來。

而ChatGPT可以將圖片放大查看，發現字是倒着的後，還將其旋轉過來，最終成功將其給認了出來。

上下滑動查看

上下滑動查看

上下滑動查看

上下滑動查看

OpenAI最新的視覺推理模型能跟Python數據分析、網頁搜索、圖像生成等工具配合，創意又高效地解決更復雜的問題，爲用戶首次帶來了多模態智能體驗。

編程智能體Codex CLI全開源

接下來，OpenAI表示，將展示一些codex遺產的延續，發佈一系列應用程序，而它們，將定義編程的未來。

除了新模型之外，OpenAI還開源了一項新的實驗性工具：Codex CLI，一個可在終端運行的輕量級編程AI智能體。

它的作用，就是在需要的地方安全地部署代碼執行。

它直接在本地計算機上運行，旨在充分發揮o3和o4-mini這類模型的強大推理能力，並將很快支持GPT-4.1⁠等更多模型的API調用。

通過向模型傳遞屏幕截圖或低保真草圖，並結合訪問本地代碼的權限，就能在命令行中體驗到多模態推理的強大功能。

同時，他們也啓動一項100萬美元的資助計劃，用以支持使用Codex CLI 和 OpenAI 模型的項目。

GitHub項目一經發布，Codex CLI已斬獲3.3k星，可見響應度之高。

項目地址：https://github.com/openai/codex

現場，OpenAI演示人員參考了網上的帖子，使用Codex和o4 Mini做了一個很酷的圖片轉ASCII生成器。

只需先截一張圖，拖進終端裏，接下來就可以把它交給Codex。

令人驚歎的是，你可以實際看到它在思考，還可以直接運行工具。

完成後，Codex創建了一個ASCII HTML文件，甚至還生成了一個可以控制分辨率的滑塊。

也就是說，從此電腦上的任何文件，以及你正在處理的代碼庫，都可以放進Codex了！

在現場，研究者們還成功添加了一個網絡攝像頭API。

Scaling強化學習，依舊有效

在OpenAI o3的整個研發過程中，研究者觀察到一個現象：大規模強化學習同樣遵循着GPT系列預訓練時顯現的規律——即“投入越多的計算資源，就能獲得越好的性能”。

他們循着這條Scaling路徑，這次將重點放在強化學習（RL）上，把訓練計算量和推理階段的思考量（或稱推理計算量）都提升了一個數量級，結果依然觀察到顯著的性能提升。

技術報告：https://cdn.openai.com/pdf/2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini-system-card.pdf

這驗證了只要給模型更多時間去“思考”，它的表現就會持續提高。

相較於前代o1，o3在相同延遲和成本下展現出更高的性能。更令人興奮地是，當允許思考更長時間，其性能還會繼續攀升。

此外，OpenAI通過強化學習訓練，讓o3和o4-mini掌握了工具使用的智慧——不僅學會“如何用”，更懂得“何時用”。

它們不僅能完全訪問ChatGPT內置的工具，還能通過API中的函數調用功能接入用戶自定義的工具。

這種能力讓模型在開放式場景時，更加遊刃有餘，尤其是在需要視覺推理和多步驟工作流的複雜任務中。

而且，從前面諸多案例中，我們已經對模型工具調用的能力，獲得了關鍵一撇。

那些提前拿到內測資格的大佬們，紛紛被o3震驚了。

尤其是在臨牀和醫學領域，它的表現堪稱現象級。無論是診斷分析還是治療建議，彷彿出自頂尖專家的手筆。

不論是加速科學發現、優化臨牀決策，還是推理跨領域的創新，o3正成爲這場變革的主導者。

參考資料：

https://openai.com/index/thinking-with-images/

https://openai.com/index/introducing-o3-and-o4-mini/

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

熱議股票

1
2
3
4
5
6
7
8
9
10

{"basename":"/hant","ssrTDKData":{"titleTemplate":"%s - 老虎證券","title":"老虎证券全球投资理财平台| 一站式投资美股新股港股A股","description":"老虎证券助您一站式投资美股，新股，港股，A股等全球金融理财产品。新加坡华人最信赖的在线投资平台，现在加入即享低费用，24/5 无时差炒美股投资理财！","keywords":"老虎證券,老虎證券開戶,老虎券商,老虎證券官網,老虎證券app,tigertrade老虎證券,股票,炒股,新加坡股票交易平臺,投資,投資理財","social":{"ogDescription":"老虎证券助您一站式投资美股，新股，港股，A股等全球金融理财产品。新加坡华人最信赖的在线投资平台，现在加入即享低费用，24/5 无时差炒美股投资理财！","ogImage":"https://c1.itigergrowtha.com/portal5/static/media/og-logo.be62fbe1.png","ogUrl":"https://www.itiger.com/hant/news/2528048092"},"companyName":"老虎證券"},"pageData":{"isMobile":false,"isTiger":false,"isTTM":true,"region":"SGP","license":"TBSG","edition":"fundamental"},"__swrFallback__":{"@#url:\"https://stock-news.skytigris.cn/v3/news\",params:#id:\"2528048092\",edition:\"fundamental\",,,undefined,":{"share":"https://ttm.financial/m/news/2528048092?lang=zh_TW&edition=fundamental","thumbnail":"","is_english":false,"pubTime":"2025-04-17 06:04","share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","id":"2528048092","market":"hk","top_or_hot":-1,"title":"OpenAI震撼發佈o3、o4-mini，首用圖像思考，十倍算力爆表","media":"新智元","content":"<html><body><p><img src=\"https://x0.ifengimg.com/res/2025/802546833C0E9B2F8F0609C4D84F49E57DB1F6D6_size584_w1080_h460.png\"/></p><p><strong>新智元報道</strong></p><p>編輯：編輯部 NZYH</p><p><strong>【新智元導讀】滿血版o3和o4-mini深夜登場，首次將圖像推理融入思維鏈，還會自主調用工具，60秒內破解複雜難題。尤其是，o3以十倍o1算力刷新編程、數學、視覺推理SOTA，接近“天才水平”。此外，OpenAI還開源了編程神器Codex CLI，一夜爆火。</strong></p><p>不出所料，滿血版o3真的來了。</p><p>剛剛，OpenAI聯創Greg Brockman和首席研究官Mark Chen帶隊，開啓了20分鐘線上直播。</p><p>這次不僅有o3，還有下一代推理模型o4-mini。它們首次實現了“用圖像思考”，堪稱視覺推理的巔峯之作。</p><p><img src=\"https://x0.ifengimg.com/res/2025/EDAE386BC8BE6CBE6643FFED96416200A610B26F_size736_w1080_h604.png\"/></p><p>如同AI智能體，兩款模型在不到1分鐘內，自主判斷並組合運用ChatGPT內置工具，生成了詳盡周全的答案。</p><p>其中包括，搜索網頁、用Python分析上傳的文件及數據、對視覺輸入進行深度推理，乃至生成圖像。</p><p><img src=\"https://x0.ifengimg.com/res/2025/DDC65D874BD1D23A8EEDA99B4ECA474CFA3088C3_size4997_w1079_h607.gif\"/></p><p>在Codeforces、SWE-bench、MMMU等基準測試中，o3刷新SOTA，不論是在編程、數學、科學，還是在視覺感知領域都樹立了新標杆。</p><p>尤其是，對於圖像、圖表、圖形分析，o3表現尤爲突出，能夠深入挖掘視覺輸入的細節。</p><table>\n<tbody>\n<tr>\n<td><p><img src=\"https://x0.ifengimg.com/res/2025/A799CB6AD511BB1521B7FC25DFB33C1A62CD0A6F_size303_w1080_h605.png\"/></p></td>\n<td><p><img src=\"https://x0.ifengimg.com/res/2025/0FD5EE822195B68D8C76F4B1AC7F4771DE7968E3_size132_w1080_h406.png\"/></p></td>\n</tr>\n</tbody>\n</table><p>在Codeforces中，新模型得分均超2700分，在全球參賽者中排名前200名</p><p>用奧特曼的話來說，“接近或達到天才水平”。</p><p><img src=\"https://x0.ifengimg.com/res/2025/336239DA6496BDD659DD2EFB933F5345F0DF75DB_size52_w1080_h162.png\"/></p><p>不過，這個智力的代價是，需要投入o1十倍以上的算力。</p><p><img src=\"https://x0.ifengimg.com/res/2025/F495336BF47C685E063479A2BC9C2B0A92F30ACA_size130_w1080_h606.png\"/></p><p>相較於滿血版o3，o4-mini則以小巧高效、高性價比的特點脫穎而出。</p><p>在AIME 2025測試中，o4-mini配合Python解釋器取得了99.5%高分，幾乎完美拿下了這項基準測試。</p><p>而且，在數學、編程、視覺任務，以及非STEM領域，它的性能均優於o3-mini。</p><p>此外，o4-mini支持遠超o3的使用額度，是高併發場景最優選。</p><p>總而言之，o3和o4-mini都非常擅長編碼，由此OpenAI還開源了一個可在終端運行的輕量級編程 AI 智能體——Codex CLI。</p><p><img src=\"https://x0.ifengimg.com/res/2025/BF0F061A71C1274AB35768511D38609E15DEF352_size200_w1080_h448.png\"/></p><table>\n<tbody>\n<tr>\n<td><p><img src=\"https://x0.ifengimg.com/res/2025/2B5FA44156ECABB3C40919956DA46B3361B4B07B_size236_w1027_h922.png\"/></p></td>\n<td><p><img src=\"https://x0.ifengimg.com/res/2025/E78FADE9456E89735EC0C26063D331FC41599429_size138_w1022_h980.png\"/></p></td>\n</tr>\n</tbody>\n</table><p>從今天起，ChatGPT Plus、Pro和Team用戶將第一時間體驗到o3、o4‑mini和o4‑mini‑high，它們將取代o1、o3‑mini和o3‑mini‑high。</p><p>同時，這兩款模型也將通過Chat Completions API和Responses API，向所有開發者提供。</p><p><img src=\"https://x0.ifengimg.com/res/2025/E66E8E3C72E36BDFB34E8BA929E9E23830B55251_size55_w624_h897.png\"/></p><p><strong>推理模型，首次會用工具了</strong></p><p>直播演示中，Greg先上了一個價值——有些模型就像是質的飛躍，GPT-4是其中之一，今天o3/o4-mini同樣是。</p><p>他表示，o3讓他和OpenAI的同事見到了AI大模型能完成“從未見到的事”，比如，它自己就提出了一個很棒的系統架構想法。</p><p>這兩款模型真正令人驚訝的地方，它們不僅僅是模型，更是一個“AI系統”。</p><p>它們跟之前那些推理模型最大的區別，就是首次被用來訓練各種工具。它們會在CoT中使用這些工具來解決難題。</p><p><img src=\"https://x0.ifengimg.com/res/2025/99C81BFBDC0C756864B09411F8A0C2995612248F_size161_w1080_h604.png\"/></p><p>人類最後考試中，o3模型足以媲美Deep Research表現，而且速率更快</p><p>爲了攻克了一個複雜難題，o3曾連續使用約600次工具調用。它們一次性生成的代碼片段，真正在代碼庫發揮效用。</p><p>Greg表示，自己最珍視的一點，就是它們的軟件工程能力：它們不僅能編寫一次性的代碼，而且能真正在真實的代碼庫中工作！</p><p>比如，它在瀏覽OpenAI代碼庫方面，就比Greg做得更好。這就是它極其有用的地方。</p><p><img src=\"https://x0.ifengimg.com/res/2025/95DB2743BEED8A92B4421723A947D5F097A83A60_size146_w1080_h334.png\"/></p><p>而且，在指令跟隨、智能體工具使用評估中，與工具結合的o3和o4-mini準確性是最高的。</p><p><img src=\"https://x0.ifengimg.com/res/2025/BAA67CFB5413D4EE2A75A747A4C732894699C8E9_size97_w1023_h1502.png\"/></p><p>外部專家評估顯示，o3在處理真實世界任務時，嚴重錯誤率比o1還降低了20%。</p><p>之所以有如此大的進步，正是因爲RL中持續的算法進步所驅動的。用Greg的話說，引擎蓋下最令人驚歎的是，目前它還仍然是預測一個token，然後加入一點RL的AI，就已經做到這個地步。</p><p>那麼，在實操過程中，o3是如何結合使用工具解決複雜任務的呢？</p><p>多模態團隊研究員Brandon McKinzie上傳了一張2015年完成的一個物理實習海報，讓ChatGPT估算質子同位標量電荷的數量。</p><p><img src=\"https://x0.ifengimg.com/res/2025/BD23EE899F77CC4D1398E91BF47106C332C84299_size360_w1080_h464.png\"/></p><p>o3開始推理的同時，逐一分析圖片中內容，並確定Brandon提出問題的正確數量。實際上，海報截圖中並沒有覆蓋最終結果。</p><p>於是，o3便開始聯網搜索查找最新的估算值，幾秒鐘內讀完數十篇論文，節省了大量時間。</p><p>結果顯示，模型計算出了一個未經歸一化的值，並且乘以一個特定常數，又可以重新歸一化，最終結果與實際比較接近。</p><p><img src=\"https://x0.ifengimg.com/res/2025/831F896C13C4D0F1391BE7CBB30B8329BB9E4589_size4770_w960_h540.gif\"/></p><p>後訓練團隊研究員Eric Mitchell爲ChatGPT開啓了記憶功能， 然後讓o3去查找新聞，而且是與自己興趣有關的內容，同時還要足夠冷門。</p><p>o3基於已有的瞭解——潛水和演奏音樂，主動思考並調用工具，找出了一些相關的有趣內容。</p><p>比如，研究人員錄製了健康的珊瑚聲音，並用揚聲器播放錄音，加速了新珊瑚和魚類定居。</p><p>同時，它還能繪製出可視化的數據，便於直接放入博客文章當中。</p><p><img src=\"https://x0.ifengimg.com/res/2025/56AF4A501716021C196187FBB31912F0C2DE1583_size279_w640_h360.gif\"/></p><p>也就是說，無論o3是用於前沿的科研領域，還是將模型集成到日常工作流中，都會非常有用。</p><p>在解決AIME數學競賽問題時，o3被要求觀察2x2方格網格，並計算出滿足約束條件的顏色方案數量。</p><p><img src=\"https://x0.ifengimg.com/res/2025/53B90EFBCB4BFDAE0258F98759AFD2DB1AE4E8B6_size488_w1028_h1008.png\"/></p><p>它首先生成了一個暴力程序，然後用Python解釋器運行，並得到了正確答案，即82。</p><p>即便如此，它的解題過程並不優雅簡潔，對此，o3自動識別後並嘗試簡化解決方案，找到更聰明辦法。</p><p><img src=\"https://x0.ifengimg.com/res/2025/B253E7CFE6C857757C2E67E851E36148C8486D9B_size149_w1080_h604.png\"/></p><p>它還會自動覈查答案的可靠性，甚至最後給出了文字解決方案，方便向人類解釋。</p><p>讓研究人員驚訝的是，訓練o3過程中並沒有使用類似策略，也沒有要求簡化，都是AI自主學習完成的。</p><p><img src=\"https://x0.ifengimg.com/res/2025/69F252FBE897577D359E2A7725675EE9F38AB941_size134_w1080_h375.png\"/></p><p>在編碼任務中，研究人員讓o3-high找出一個名爲symbols軟件包的錯誤。</p><p>首先，模型會主動檢查指令中，所說的問題是否存在，並嘗試瞭解代碼儲存庫的概況。</p><p><img src=\"https://x0.ifengimg.com/res/2025/054B301F0A79AFE0065C2E95766B504B422A73A1_size94_w1080_h602.png\"/></p><p>然後，它發現一可以mro的解釋類繼承信息的Python結構，基於已有的世界知識，找到了問題所在。</p><p><img src=\"https://x0.ifengimg.com/res/2025/FD769F97ABFBDAA2A44FA2E7A391C7176058C95A_size176_w1080_h600.png\"/></p><p>最後，o3通過瀏覽互聯網，找到了最優的解決方案——apply_patch。</p><p><img src=\"https://x0.ifengimg.com/res/2025/C8B86AEEE88A30C79E2F9B07F98F004E34D2490F_size1339_w960_h540.gif\"/></p><p>就推理成本來看，o3和o4-mini不僅是迄今爲止最智能模型，相較於o1和o3‑mini，更在效率和成本控制方面樹立了新標杆。</p><p>在2025年AIME數學競賽上，o3推理成本和性能全面優於 o1，同樣地，o4-mini成本-性能也全面優於o3‑mini。</p><p>所以，如果你需要一個小而快的多模態推理模型，o4-mini將是極好的選擇。</p><table>\n<tbody>\n<tr>\n<td><p><img src=\"https://x0.ifengimg.com/res/2025/E957CCC05B86032F27D59278EF8E956D6DF129F1_size240_w1080_h606.png\"/></p></td>\n<td><p><img src=\"https://x0.ifengimg.com/res/2025/560C5F4AD1094A1222458E467115D4B7991B2C38_size215_w1080_h605.png\"/></p></td>\n</tr>\n</tbody>\n</table><p>o3和o4-mini能夠自主選擇工具、計劃方法解決問題，無論是數學、商業、科學、體育還是視覺推理都沒問題。</p><p>比如，在解決體育問題時，o3能聯網獲取最新數據，考慮了最近一個賽季和2022-23年聯賽ERA略升後迴歸正常的情況。</p><p>o1給出的數據是大概值，略有偏差，不夠精確，而且它錯誤地認爲偷壘增加完全是因爲投球計時器，忽略了基地墊擴大和限制牽制次數這些更直接的原因。</p><p><img src=\"https://x0.ifengimg.com/res/2025/88A5633F95A388E88120C89312029E0A31C921FD_size4521_w1054_h640.gif\"/></p><p><img src=\"https://x0.ifengimg.com/res/2025/9C030E947B7C67AA0CD4582C171BC9DDE663A573_size9976_w1054_h640.gif\"/></p><p><img src=\"https://x0.ifengimg.com/res/2025/A6B92DF010115AA93F4BE248D5965BDE7C2D40E4_size4673_w1054_h640.gif\"/></p><p><img src=\"https://x0.ifengimg.com/res/2025/9F2B45A56E6734BAC2F5E094B5053A9BF4049063_size9079_w1054_h640.gif\"/></p><p><img src=\"https://x0.ifengimg.com/res/2025/E6771AD0EFDDC97755C536FD943AE5F2B4C767A9_size7582_w1054_h640.gif\"/></p><p>左右滑動查看</p><p><strong>用圖像思考，視覺推理新巔峯</strong></p><p>更引人注目的是，o3和o4-mini在視覺推理上全面超越前代，成爲o系列最新的視覺推理模型。</p><p>它們通過在思維鏈（CoT）中用圖像進行推理，實現了視覺感知的重大突破。</p><p>OpenAI首次實現了模型在其思維鏈中用圖像進行思考——而不僅僅只是看圖。</p><p>與早期的OpenAI o1類似，o3和o4-mini能在回答前思考更久，在回答用戶前內部會生成很長的思維鏈。</p><p>不僅如此，o3和o4-mini可以在思考過程中“看”圖片。這種能力是通過工具處理用戶上傳的圖像來實現的，比如進行裁剪、放大、旋轉等簡單的圖像處理。</p><p>更厲害的是，這些功能都是原生的，不需要依賴額外的專業模型。</p><p>在基準測試中，這種用圖像思考，無需依賴網絡瀏覽的能力，碾壓了前代多模態模型的性能。</p><p>在STEM問答（MMMU、MathVista）、圖表閱讀與推理（CharXiv）、感知基元（VLMs are Blind）以及視覺搜索（V*）等領域，o3和o4-mini均創下了SOTA。</p><p>特別是，在 V*基準測試上，兩款模型以96.3%準確率幾乎攻克了這項挑戰，標誌着視覺推理技術重大飛躍。</p><p><img src=\"https://x0.ifengimg.com/res/2025/69D8AE72E1E7DF496E44CBD738932793BC7639C1_size181_w1080_h604.png\"/></p><p>ChatGPT增強的視覺智能，能更徹底、精準、可靠地分析圖片，幫你解決更棘手的問題。</p><p>它能將高級推理與網頁搜索、圖像處理等工具無縫結合，自動放大、裁剪、翻轉或優化你的圖片，哪怕照片不完美也能挖掘出有用信息。</p><p>比如，你可以上傳一張經濟學作業的照片，得到一步步的解答，或者分享一個程序報錯的截圖，快速找出問題根源。</p><p>這種方法開啓了一種新的測試時計算擴展方式，完美的融合了視覺和文本推理。</p><p>這體現在它們在多模態基準測試中的頂尖表現，標誌着多模態推理邁出了重要一步。</p><p><strong><img src=\"https://x0.ifengimg.com/res/2025/EA67F8318234F4BA42DD687A2695DE1D0AA7B3C8_size3_w292_h73.png\"/></strong></p><p><strong>視覺推理實戰</strong></p><p>用圖像思考可以與ChatGPT更加輕鬆的互動。</p><p>你可以直接拍張照片提問，不用擔心物體擺放問題——不論文字是不是倒的，或者一張照片裏有多道物理題。</p><p>即使東西乍一看不太清楚，視覺推理也能讓模型放大看清細節。</p><p>比如，一個放在桌子上幾乎與視線平行的筆記本，上面有兩行模糊的字，人看上去也很難直接認出來。</p><p>而ChatGPT可以將圖片放大查看，發現字是倒着的後，還將其旋轉過來，最終成功將其給認了出來。</p><p><img src=\"https://x0.ifengimg.com/res/2025/D52BD269167D5925385BB6A50AFB2E7DA7CC28E4_size890_w1080_h2625.png\"/></p><p>上下滑動查看</p><p><img src=\"https://x0.ifengimg.com/res/2025/6279E33DEBD45D6368CEC03B867164FEC180C5D7_size2395_w1080_h7106.png\"/></p><p>上下滑動查看</p><p><img src=\"https://x0.ifengimg.com/res/2025/4165513FC9DFAD9119D816FCCE214DB3D472CFE5_size1577_w1080_h4286.png\"/></p><p>上下滑動查看</p><p><img src=\"https://x0.ifengimg.com/res/2025/2DAC40CE49C9BFDD9F603C6F64861D5FD7184A2B_size1163_w1080_h3244.png\"/></p><p>上下滑動查看</p><p>OpenAI最新的視覺推理模型能跟Python數據分析、網頁搜索、圖像生成等工具配合，創意又高效地解決更復雜的問題，爲用戶首次帶來了多模態智能體驗。</p><p><img src=\"https://x0.ifengimg.com/res/2025/92F28A46B49355B1EA1003E5B15949F9C09CB7EF_size5008_w812_h640.gif\"/></p><p><strong>編程智能體Codex CLI全開源</strong></p><p>接下來，OpenAI表示，將展示一些codex遺產的延續，發佈一系列應用程序，而它們，將定義編程的未來。</p><p>除了新模型之外，OpenAI還開源了一項新的實驗性工具：Codex CLI，一個可在終端運行的輕量級編程AI智能體。</p><p>它的作用，就是在需要的地方安全地部署代碼執行。</p><p>它直接在本地計算機上運行，旨在充分發揮o3和o4-mini這類模型的強大推理能力，並將很快支持GPT-4.1⁠等更多模型的API調用。</p><p>通過向模型傳遞屏幕截圖或低保真草圖，並結合訪問本地代碼的權限，就能在命令行中體驗到多模態推理的強大功能。</p><p>同時，他們也啓動一項100萬美元的資助計劃，用以支持使用Codex CLI 和 OpenAI 模型的項目。</p><p>GitHub項目一經發布，Codex CLI已斬獲3.3k星，可見響應度之高。</p><p><img src=\"https://x0.ifengimg.com/res/2025/06422EEA971352476DADCEC8BF761A8986E40400_size71_w1080_h240.png\"/></p><p>項目地址：https://github.com/openai/codex</p><p><img src=\"https://x0.ifengimg.com/res/2025/DA8560760DB16DB5128B55FF7B82F92AC140D25C_size7664_w961_h553.gif\"/></p><p>現場，OpenAI演示人員參考了網上的帖子，使用Codex和o4 Mini做了一個很酷的圖片轉ASCII生成器。</p><p>只需先截一張圖，拖進終端裏，接下來就可以把它交給Codex。</p><p><img src=\"https://x0.ifengimg.com/res/2025/A78F221A0B666C420F85312A8A3FB8AF4146ED38_size2418_w961_h533.gif\"/></p><p>令人驚歎的是，你可以實際看到它在思考，還可以直接運行工具。</p><p><img src=\"https://x0.ifengimg.com/res/2025/B7ACAA8A9B71C37D7AF9E91676BA5ECADB2E6FA6_size408_w1080_h592.png\"/></p><p>完成後，Codex創建了一個ASCII HTML文件，甚至還生成了一個可以控制分辨率的滑塊。</p><p>也就是說，從此電腦上的任何文件，以及你正在處理的代碼庫，都可以放進Codex了！</p><p>在現場，研究者們還成功添加了一個網絡攝像頭API。</p><p><img src=\"https://x0.ifengimg.com/res/2025/F9E31E530C2AF60B8DD35984E4E207F608FD3B02_size8168_w960_h540.gif\"/></p><p><strong>Scaling強化學習，依舊有效</strong></p><p>在OpenAI o3的整個研發過程中，研究者觀察到一個現象：大規模強化學習同樣遵循着GPT系列預訓練時顯現的規律——即“投入越多的計算資源，就能獲得越好的性能”。</p><p>他們循着這條Scaling路徑，這次將重點放在強化學習（RL）上，把訓練計算量和推理階段的思考量（或稱推理計算量）都提升了一個數量級，結果依然觀察到顯著的性能提升。</p><p><img src=\"https://x0.ifengimg.com/res/2025/1BEE0E829CEAB7C60FD7E3EF35A86EFC2E621114_size21_w1080_h382.png\"/></p><p>技術報告：https://cdn.openai.com/pdf/2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini-system-card.pdf</p><p>這驗證了只要給模型更多時間去“思考”，它的表現就會持續提高。</p><p>相較於前代o1，o3在相同延遲和成本下展現出更高的性能。更令人興奮地是，當允許思考更長時間，其性能還會繼續攀升。</p><p><img src=\"https://x0.ifengimg.com/res/2025/D7BD85D6EB5CA82B46F181BD8BC9C24D051F2E15_size316_w1080_h920.png\"/></p><p>此外，OpenAI通過強化學習訓練，讓o3和o4-mini掌握了工具使用的智慧——不僅學會“如何用”，更懂得“何時用”。</p><p>它們不僅能完全訪問ChatGPT內置的工具，還能通過API中的函數調用功能接入用戶自定義的工具。</p><p>這種能力讓模型在開放式場景時，更加遊刃有餘，尤其是在需要視覺推理和多步驟工作流的複雜任務中。</p><p>而且，從前面諸多案例中，我們已經對模型工具調用的能力，獲得了關鍵一撇。</p><p>那些提前拿到內測資格的大佬們，紛紛被o3震驚了。</p><p>尤其是在臨牀和醫學領域，它的表現堪稱現象級。無論是診斷分析還是治療建議，彷彿出自頂尖專家的手筆。</p><p><img src=\"https://x0.ifengimg.com/res/2025/3A2FAC5DEA5583553BA4832D2F3E5FA7232C2B47_size314_w1080_h649.png\"/></p><p><img src=\"https://x0.ifengimg.com/res/2025/942069CBB10F646C1FCD602624BFE0EDC84F2440_size1458_w1024_h1024.png\"/></p><p>不論是加速科學發現、優化臨牀決策，還是推理跨領域的創新，o3正成爲這場變革的主導者。</p><p>參考資料：</p><p>https://openai.com/index/thinking-with-images/</p><p>https://openai.com/index/introducing-o3-and-o4-mini/</p></body></html>","source":"fenghuang_stock","html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>OpenAI震撼發佈o3、o4-mini，首用圖像思考，十倍算力爆表</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 12.5px; color: #7E829C; margin: 0;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\nOpenAI震撼發佈o3、o4-mini，首用圖像思考，十倍算力爆表\n</h2>\n<h4 class=\"meta\">\n<p class=\"head\">\n<strong class=\"h-name small\">新智元</strong><span class=\"h-time small\">2025-04-17 06:04</span>\n</p>\n</h4>\n</header>\n<article>\n<html><body><p><img src=\"https://x0.ifengimg.com/res/2025/802546833C0E9B2F8F0609C4D84F49E57DB1F6D6_size584_w1080_h460.png\"/></p><p><strong>新智元報道</strong></p><p>編輯：編輯部 NZYH</p><p><strong>【新智元導讀】滿血版o3和o4-mini深夜登場，首次將圖像推理融入思維鏈，還會自主調用工具，60秒內破解複雜難題。尤其是，o3以十倍o1算力刷新編程、數學、視覺推理SOTA，接近“天才水平”。此外，OpenAI還開源了編程神器Codex CLI，一夜爆火。</strong></p><p>不出所料，滿血版o3真的來了。</p><p>剛剛，OpenAI聯創Greg Brockman和首席研究官Mark Chen帶隊，開啓了20分鐘線上直播。</p><p>這次不僅有o3，還有下一代推理模型o4-mini。它們首次實現了“用圖像思考”，堪稱視覺推理的巔峯之作。</p><p><img src=\"https://x0.ifengimg.com/res/2025/EDAE386BC8BE6CBE6643FFED96416200A610B26F_size736_w1080_h604.png\"/></p><p>如同AI智能體，兩款模型在不到1分鐘內，自主判斷並組合運用ChatGPT內置工具，生成了詳盡周全的答案。</p><p>其中包括，搜索網頁、用Python分析上傳的文件及數據、對視覺輸入進行深度推理，乃至生成圖像。</p><p><img src=\"https://x0.ifengimg.com/res/2025/DDC65D874BD1D23A8EEDA99B4ECA474CFA3088C3_size4997_w1079_h607.gif\"/></p><p>在Codeforces、SWE-bench、MMMU等基準測試中，o3刷新SOTA，不論是在編程、數學、科學，還是在視覺感知領域都樹立了新標杆。</p><p>尤其是，對於圖像、圖表、圖形分析，o3表現尤爲突出，能夠深入挖掘視覺輸入的細節。</p><table>\n<tbody>\n<tr>\n<td><p><img src=\"https://x0.ifengimg.com/res/2025/A799CB6AD511BB1521B7FC25DFB33C1A62CD0A6F_size303_w1080_h605.png\"/></p></td>\n<td><p><img src=\"https://x0.ifengimg.com/res/2025/0FD5EE822195B68D8C76F4B1AC7F4771DE7968E3_size132_w1080_h406.png\"/></p></td>\n</tr>\n</tbody>\n</table><p>在Codeforces中，新模型得分均超2700分，在全球參賽者中排名前200名</p><p>用奧特曼的話來說，“接近或達到天才水平”。</p><p><img src=\"https://x0.ifengimg.com/res/2025/336239DA6496BDD659DD2EFB933F5345F0DF75DB_size52_w1080_h162.png\"/></p><p>不過，這個智力的代價是，需要投入o1十倍以上的算力。</p><p><img src=\"https://x0.ifengimg.com/res/2025/F495336BF47C685E063479A2BC9C2B0A92F30ACA_size130_w1080_h606.png\"/></p><p>相較於滿血版o3，o4-mini則以小巧高效、高性價比的特點脫穎而出。</p><p>在AIME 2025測試中，o4-mini配合Python解釋器取得了99.5%高分，幾乎完美拿下了這項基準測試。</p><p>而且，在數學、編程、視覺任務，以及非STEM領域，它的性能均優於o3-mini。</p><p>此外，o4-mini支持遠超o3的使用額度，是高併發場景最優選。</p><p>總而言之，o3和o4-mini都非常擅長編碼，由此OpenAI還開源了一個可在終端運行的輕量級編程 AI 智能體——Codex CLI。</p><p><img src=\"https://x0.ifengimg.com/res/2025/BF0F061A71C1274AB35768511D38609E15DEF352_size200_w1080_h448.png\"/></p><table>\n<tbody>\n<tr>\n<td><p><img src=\"https://x0.ifengimg.com/res/2025/2B5FA44156ECABB3C40919956DA46B3361B4B07B_size236_w1027_h922.png\"/></p></td>\n<td><p><img src=\"https://x0.ifengimg.com/res/2025/E78FADE9456E89735EC0C26063D331FC41599429_size138_w1022_h980.png\"/></p></td>\n</tr>\n</tbody>\n</table><p>從今天起，ChatGPT Plus、Pro和Team用戶將第一時間體驗到o3、o4‑mini和o4‑mini‑high，它們將取代o1、o3‑mini和o3‑mini‑high。</p><p>同時，這兩款模型也將通過Chat Completions API和Responses API，向所有開發者提供。</p><p><img src=\"https://x0.ifengimg.com/res/2025/E66E8E3C72E36BDFB34E8BA929E9E23830B55251_size55_w624_h897.png\"/></p><p><strong>推理模型，首次會用工具了</strong></p><p>直播演示中，Greg先上了一個價值——有些模型就像是質的飛躍，GPT-4是其中之一，今天o3/o4-mini同樣是。</p><p>他表示，o3讓他和OpenAI的同事見到了AI大模型能完成“從未見到的事”，比如，它自己就提出了一個很棒的系統架構想法。</p><p>這兩款模型真正令人驚訝的地方，它們不僅僅是模型，更是一個“AI系統”。</p><p>它們跟之前那些推理模型最大的區別，就是首次被用來訓練各種工具。它們會在CoT中使用這些工具來解決難題。</p><p><img src=\"https://x0.ifengimg.com/res/2025/99C81BFBDC0C756864B09411F8A0C2995612248F_size161_w1080_h604.png\"/></p><p>人類最後考試中，o3模型足以媲美Deep Research表現，而且速率更快</p><p>爲了攻克了一個複雜難題，o3曾連續使用約600次工具調用。它們一次性生成的代碼片段，真正在代碼庫發揮效用。</p><p>Greg表示，自己最珍視的一點，就是它們的軟件工程能力：它們不僅能編寫一次性的代碼，而且能真正在真實的代碼庫中工作！</p><p>比如，它在瀏覽OpenAI代碼庫方面，就比Greg做得更好。這就是它極其有用的地方。</p><p><img src=\"https://x0.ifengimg.com/res/2025/95DB2743BEED8A92B4421723A947D5F097A83A60_size146_w1080_h334.png\"/></p><p>而且，在指令跟隨、智能體工具使用評估中，與工具結合的o3和o4-mini準確性是最高的。</p><p><img src=\"https://x0.ifengimg.com/res/2025/BAA67CFB5413D4EE2A75A747A4C732894699C8E9_size97_w1023_h1502.png\"/></p><p>外部專家評估顯示，o3在處理真實世界任務時，嚴重錯誤率比o1還降低了20%。</p><p>之所以有如此大的進步，正是因爲RL中持續的算法進步所驅動的。用Greg的話說，引擎蓋下最令人驚歎的是，目前它還仍然是預測一個token，然後加入一點RL的AI，就已經做到這個地步。</p><p>那麼，在實操過程中，o3是如何結合使用工具解決複雜任務的呢？</p><p>多模態團隊研究員Brandon McKinzie上傳了一張2015年完成的一個物理實習海報，讓ChatGPT估算質子同位標量電荷的數量。</p><p><img src=\"https://x0.ifengimg.com/res/2025/BD23EE899F77CC4D1398E91BF47106C332C84299_size360_w1080_h464.png\"/></p><p>o3開始推理的同時，逐一分析圖片中內容，並確定Brandon提出問題的正確數量。實際上，海報截圖中並沒有覆蓋最終結果。</p><p>於是，o3便開始聯網搜索查找最新的估算值，幾秒鐘內讀完數十篇論文，節省了大量時間。</p><p>結果顯示，模型計算出了一個未經歸一化的值，並且乘以一個特定常數，又可以重新歸一化，最終結果與實際比較接近。</p><p><img src=\"https://x0.ifengimg.com/res/2025/831F896C13C4D0F1391BE7CBB30B8329BB9E4589_size4770_w960_h540.gif\"/></p><p>後訓練團隊研究員Eric Mitchell爲ChatGPT開啓了記憶功能， 然後讓o3去查找新聞，而且是與自己興趣有關的內容，同時還要足夠冷門。</p><p>o3基於已有的瞭解——潛水和演奏音樂，主動思考並調用工具，找出了一些相關的有趣內容。</p><p>比如，研究人員錄製了健康的珊瑚聲音，並用揚聲器播放錄音，加速了新珊瑚和魚類定居。</p><p>同時，它還能繪製出可視化的數據，便於直接放入博客文章當中。</p><p><img src=\"https://x0.ifengimg.com/res/2025/56AF4A501716021C196187FBB31912F0C2DE1583_size279_w640_h360.gif\"/></p><p>也就是說，無論o3是用於前沿的科研領域，還是將模型集成到日常工作流中，都會非常有用。</p><p>在解決AIME數學競賽問題時，o3被要求觀察2x2方格網格，並計算出滿足約束條件的顏色方案數量。</p><p><img src=\"https://x0.ifengimg.com/res/2025/53B90EFBCB4BFDAE0258F98759AFD2DB1AE4E8B6_size488_w1028_h1008.png\"/></p><p>它首先生成了一個暴力程序，然後用Python解釋器運行，並得到了正確答案，即82。</p><p>即便如此，它的解題過程並不優雅簡潔，對此，o3自動識別後並嘗試簡化解決方案，找到更聰明辦法。</p><p><img src=\"https://x0.ifengimg.com/res/2025/B253E7CFE6C857757C2E67E851E36148C8486D9B_size149_w1080_h604.png\"/></p><p>它還會自動覈查答案的可靠性，甚至最後給出了文字解決方案，方便向人類解釋。</p><p>讓研究人員驚訝的是，訓練o3過程中並沒有使用類似策略，也沒有要求簡化，都是AI自主學習完成的。</p><p><img src=\"https://x0.ifengimg.com/res/2025/69F252FBE897577D359E2A7725675EE9F38AB941_size134_w1080_h375.png\"/></p><p>在編碼任務中，研究人員讓o3-high找出一個名爲symbols軟件包的錯誤。</p><p>首先，模型會主動檢查指令中，所說的問題是否存在，並嘗試瞭解代碼儲存庫的概況。</p><p><img src=\"https://x0.ifengimg.com/res/2025/054B301F0A79AFE0065C2E95766B504B422A73A1_size94_w1080_h602.png\"/></p><p>然後，它發現一可以mro的解釋類繼承信息的Python結構，基於已有的世界知識，找到了問題所在。</p><p><img src=\"https://x0.ifengimg.com/res/2025/FD769F97ABFBDAA2A44FA2E7A391C7176058C95A_size176_w1080_h600.png\"/></p><p>最後，o3通過瀏覽互聯網，找到了最優的解決方案——apply_patch。</p><p><img src=\"https://x0.ifengimg.com/res/2025/C8B86AEEE88A30C79E2F9B07F98F004E34D2490F_size1339_w960_h540.gif\"/></p><p>就推理成本來看，o3和o4-mini不僅是迄今爲止最智能模型，相較於o1和o3‑mini，更在效率和成本控制方面樹立了新標杆。</p><p>在2025年AIME數學競賽上，o3推理成本和性能全面優於 o1，同樣地，o4-mini成本-性能也全面優於o3‑mini。</p><p>所以，如果你需要一個小而快的多模態推理模型，o4-mini將是極好的選擇。</p><table>\n<tbody>\n<tr>\n<td><p><img src=\"https://x0.ifengimg.com/res/2025/E957CCC05B86032F27D59278EF8E956D6DF129F1_size240_w1080_h606.png\"/></p></td>\n<td><p><img src=\"https://x0.ifengimg.com/res/2025/560C5F4AD1094A1222458E467115D4B7991B2C38_size215_w1080_h605.png\"/></p></td>\n</tr>\n</tbody>\n</table><p>o3和o4-mini能夠自主選擇工具、計劃方法解決問題，無論是數學、商業、科學、體育還是視覺推理都沒問題。</p><p>比如，在解決體育問題時，o3能聯網獲取最新數據，考慮了最近一個賽季和2022-23年聯賽ERA略升後迴歸正常的情況。</p><p>o1給出的數據是大概值，略有偏差，不夠精確，而且它錯誤地認爲偷壘增加完全是因爲投球計時器，忽略了基地墊擴大和限制牽制次數這些更直接的原因。</p><p><img src=\"https://x0.ifengimg.com/res/2025/88A5633F95A388E88120C89312029E0A31C921FD_size4521_w1054_h640.gif\"/></p><p><img src=\"https://x0.ifengimg.com/res/2025/9C030E947B7C67AA0CD4582C171BC9DDE663A573_size9976_w1054_h640.gif\"/></p><p><img src=\"https://x0.ifengimg.com/res/2025/A6B92DF010115AA93F4BE248D5965BDE7C2D40E4_size4673_w1054_h640.gif\"/></p><p><img src=\"https://x0.ifengimg.com/res/2025/9F2B45A56E6734BAC2F5E094B5053A9BF4049063_size9079_w1054_h640.gif\"/></p><p><img src=\"https://x0.ifengimg.com/res/2025/E6771AD0EFDDC97755C536FD943AE5F2B4C767A9_size7582_w1054_h640.gif\"/></p><p>左右滑動查看</p><p><strong>用圖像思考，視覺推理新巔峯</strong></p><p>更引人注目的是，o3和o4-mini在視覺推理上全面超越前代，成爲o系列最新的視覺推理模型。</p><p>它們通過在思維鏈（CoT）中用圖像進行推理，實現了視覺感知的重大突破。</p><p>OpenAI首次實現了模型在其思維鏈中用圖像進行思考——而不僅僅只是看圖。</p><p>與早期的OpenAI o1類似，o3和o4-mini能在回答前思考更久，在回答用戶前內部會生成很長的思維鏈。</p><p>不僅如此，o3和o4-mini可以在思考過程中“看”圖片。這種能力是通過工具處理用戶上傳的圖像來實現的，比如進行裁剪、放大、旋轉等簡單的圖像處理。</p><p>更厲害的是，這些功能都是原生的，不需要依賴額外的專業模型。</p><p>在基準測試中，這種用圖像思考，無需依賴網絡瀏覽的能力，碾壓了前代多模態模型的性能。</p><p>在STEM問答（MMMU、MathVista）、圖表閱讀與推理（CharXiv）、感知基元（VLMs are Blind）以及視覺搜索（V*）等領域，o3和o4-mini均創下了SOTA。</p><p>特別是，在 V*基準測試上，兩款模型以96.3%準確率幾乎攻克了這項挑戰，標誌着視覺推理技術重大飛躍。</p><p><img src=\"https://x0.ifengimg.com/res/2025/69D8AE72E1E7DF496E44CBD738932793BC7639C1_size181_w1080_h604.png\"/></p><p>ChatGPT增強的視覺智能，能更徹底、精準、可靠地分析圖片，幫你解決更棘手的問題。</p><p>它能將高級推理與網頁搜索、圖像處理等工具無縫結合，自動放大、裁剪、翻轉或優化你的圖片，哪怕照片不完美也能挖掘出有用信息。</p><p>比如，你可以上傳一張經濟學作業的照片，得到一步步的解答，或者分享一個程序報錯的截圖，快速找出問題根源。</p><p>這種方法開啓了一種新的測試時計算擴展方式，完美的融合了視覺和文本推理。</p><p>這體現在它們在多模態基準測試中的頂尖表現，標誌着多模態推理邁出了重要一步。</p><p><strong><img src=\"https://x0.ifengimg.com/res/2025/EA67F8318234F4BA42DD687A2695DE1D0AA7B3C8_size3_w292_h73.png\"/></strong></p><p><strong>視覺推理實戰</strong></p><p>用圖像思考可以與ChatGPT更加輕鬆的互動。</p><p>你可以直接拍張照片提問，不用擔心物體擺放問題——不論文字是不是倒的，或者一張照片裏有多道物理題。</p><p>即使東西乍一看不太清楚，視覺推理也能讓模型放大看清細節。</p><p>比如，一個放在桌子上幾乎與視線平行的筆記本，上面有兩行模糊的字，人看上去也很難直接認出來。</p><p>而ChatGPT可以將圖片放大查看，發現字是倒着的後，還將其旋轉過來，最終成功將其給認了出來。</p><p><img src=\"https://x0.ifengimg.com/res/2025/D52BD269167D5925385BB6A50AFB2E7DA7CC28E4_size890_w1080_h2625.png\"/></p><p>上下滑動查看</p><p><img src=\"https://x0.ifengimg.com/res/2025/6279E33DEBD45D6368CEC03B867164FEC180C5D7_size2395_w1080_h7106.png\"/></p><p>上下滑動查看</p><p><img src=\"https://x0.ifengimg.com/res/2025/4165513FC9DFAD9119D816FCCE214DB3D472CFE5_size1577_w1080_h4286.png\"/></p><p>上下滑動查看</p><p><img src=\"https://x0.ifengimg.com/res/2025/2DAC40CE49C9BFDD9F603C6F64861D5FD7184A2B_size1163_w1080_h3244.png\"/></p><p>上下滑動查看</p><p>OpenAI最新的視覺推理模型能跟Python數據分析、網頁搜索、圖像生成等工具配合，創意又高效地解決更復雜的問題，爲用戶首次帶來了多模態智能體驗。</p><p><img src=\"https://x0.ifengimg.com/res/2025/92F28A46B49355B1EA1003E5B15949F9C09CB7EF_size5008_w812_h640.gif\"/></p><p><strong>編程智能體Codex CLI全開源</strong></p><p>接下來，OpenAI表示，將展示一些codex遺產的延續，發佈一系列應用程序，而它們，將定義編程的未來。</p><p>除了新模型之外，OpenAI還開源了一項新的實驗性工具：Codex CLI，一個可在終端運行的輕量級編程AI智能體。</p><p>它的作用，就是在需要的地方安全地部署代碼執行。</p><p>它直接在本地計算機上運行，旨在充分發揮o3和o4-mini這類模型的強大推理能力，並將很快支持GPT-4.1⁠等更多模型的API調用。</p><p>通過向模型傳遞屏幕截圖或低保真草圖，並結合訪問本地代碼的權限，就能在命令行中體驗到多模態推理的強大功能。</p><p>同時，他們也啓動一項100萬美元的資助計劃，用以支持使用Codex CLI 和 OpenAI 模型的項目。</p><p>GitHub項目一經發布，Codex CLI已斬獲3.3k星，可見響應度之高。</p><p><img src=\"https://x0.ifengimg.com/res/2025/06422EEA971352476DADCEC8BF761A8986E40400_size71_w1080_h240.png\"/></p><p>項目地址：https://github.com/openai/codex</p><p><img src=\"https://x0.ifengimg.com/res/2025/DA8560760DB16DB5128B55FF7B82F92AC140D25C_size7664_w961_h553.gif\"/></p><p>現場，OpenAI演示人員參考了網上的帖子，使用Codex和o4 Mini做了一個很酷的圖片轉ASCII生成器。</p><p>只需先截一張圖，拖進終端裏，接下來就可以把它交給Codex。</p><p><img src=\"https://x0.ifengimg.com/res/2025/A78F221A0B666C420F85312A8A3FB8AF4146ED38_size2418_w961_h533.gif\"/></p><p>令人驚歎的是，你可以實際看到它在思考，還可以直接運行工具。</p><p><img src=\"https://x0.ifengimg.com/res/2025/B7ACAA8A9B71C37D7AF9E91676BA5ECADB2E6FA6_size408_w1080_h592.png\"/></p><p>完成後，Codex創建了一個ASCII HTML文件，甚至還生成了一個可以控制分辨率的滑塊。</p><p>也就是說，從此電腦上的任何文件，以及你正在處理的代碼庫，都可以放進Codex了！</p><p>在現場，研究者們還成功添加了一個網絡攝像頭API。</p><p><img src=\"https://x0.ifengimg.com/res/2025/F9E31E530C2AF60B8DD35984E4E207F608FD3B02_size8168_w960_h540.gif\"/></p><p><strong>Scaling強化學習，依舊有效</strong></p><p>在OpenAI o3的整個研發過程中，研究者觀察到一個現象：大規模強化學習同樣遵循着GPT系列預訓練時顯現的規律——即“投入越多的計算資源，就能獲得越好的性能”。</p><p>他們循着這條Scaling路徑，這次將重點放在強化學習（RL）上，把訓練計算量和推理階段的思考量（或稱推理計算量）都提升了一個數量級，結果依然觀察到顯著的性能提升。</p><p><img src=\"https://x0.ifengimg.com/res/2025/1BEE0E829CEAB7C60FD7E3EF35A86EFC2E621114_size21_w1080_h382.png\"/></p><p>技術報告：https://cdn.openai.com/pdf/2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini-system-card.pdf</p><p>這驗證了只要給模型更多時間去“思考”，它的表現就會持續提高。</p><p>相較於前代o1，o3在相同延遲和成本下展現出更高的性能。更令人興奮地是，當允許思考更長時間，其性能還會繼續攀升。</p><p><img src=\"https://x0.ifengimg.com/res/2025/D7BD85D6EB5CA82B46F181BD8BC9C24D051F2E15_size316_w1080_h920.png\"/></p><p>此外，OpenAI通過強化學習訓練，讓o3和o4-mini掌握了工具使用的智慧——不僅學會“如何用”，更懂得“何時用”。</p><p>它們不僅能完全訪問ChatGPT內置的工具，還能通過API中的函數調用功能接入用戶自定義的工具。</p><p>這種能力讓模型在開放式場景時，更加遊刃有餘，尤其是在需要視覺推理和多步驟工作流的複雜任務中。</p><p>而且，從前面諸多案例中，我們已經對模型工具調用的能力，獲得了關鍵一撇。</p><p>那些提前拿到內測資格的大佬們，紛紛被o3震驚了。</p><p>尤其是在臨牀和醫學領域，它的表現堪稱現象級。無論是診斷分析還是治療建議，彷彿出自頂尖專家的手筆。</p><p><img src=\"https://x0.ifengimg.com/res/2025/3A2FAC5DEA5583553BA4832D2F3E5FA7232C2B47_size314_w1080_h649.png\"/></p><p><img src=\"https://x0.ifengimg.com/res/2025/942069CBB10F646C1FCD602624BFE0EDC84F2440_size1458_w1024_h1024.png\"/></p><p>不論是加速科學發現、優化臨牀決策，還是推理跨領域的創新，o3正成爲這場變革的主導者。</p><p>參考資料：</p><p>https://openai.com/index/thinking-with-images/</p><p>https://openai.com/index/introducing-o3-and-o4-mini/</p></body></html>\n<div class=\"bt-text\">\n\n\n<p> 來源：<a href=\"https://tech.ifeng.com/c/8ibR5HnhU16\">新智元</a></p>\n<p>為提升您的閱讀體驗，我們對本頁面進行了排版優化</p>\n\n\n</div>\n</article>\n</div>\n</body>\n</html>\n","isBrief":false,"type":0,"news_type":1,"symbol":null,"symbol_name":null,"start_time":0,"source_url":"https://tech.ifeng.com/c/8ibR5HnhU16","article_id":"2528048092","we_media_id":null,"thumbnails":[],"rights":null,"url":"https://stock-news.laohu8.com/highlight/detail?id=2528048092","pubTimestamp":1744841064,"columns":[],"sourceInfo":{"source_id":"fenghuang_stock","name":"凤凰网"},"weMediaInfo":null,"summary":"新智元報道編輯：編輯部 NZYH滿血版o3和o4-mini深夜登場，首次將圖像推理融入思維鏈，還會自主調用工具，60秒內破解複雜難題。此外，OpenAI還開源了編程神器Codex CLI，一夜爆火。剛剛，OpenAI聯創Greg Brockman和首席研究官Mark Chen帶隊，開啓了20分鐘線上直播。這次不僅有o3，還有下一代推理模型o4-mini。它們首次實現了“用圖像思考”，堪稱視覺推理的巔峯之作。其中包括，搜索網頁、用Python分析上傳的文件及數據、對視覺輸入進行深度推理，乃至生成圖像。","collect":0,"end_time":0,"defaultTopTitle":"ifeng.com","property":[],"viewcount":null,"language":"zh","relate_stocks":{},"translate_title":"OpenAI shockingly releases o3 and o4-mini, the first to use images to think, with ten times the computing power","themeId":null,"isJumpTheme":false,"ttsUrl":null,"symbols_score_info":{"RL":1},"content_text":"新智元報道編輯：編輯部 NZYH【新智元導讀】滿血版o3和o4-mini深夜登場，首次將圖像推理融入思維鏈，還會自主調用工具，60秒內破解複雜難題。尤其是，o3以十倍o1算力刷新編程、數學、視覺推理SOTA，接近“天才水平”。此外，OpenAI還開源了編程神器Codex CLI，一夜爆火。不出所料，滿血版o3真的來了。剛剛，OpenAI聯創Greg Brockman和首席研究官Mark Chen帶隊，開啓了20分鐘線上直播。這次不僅有o3，還有下一代推理模型o4-mini。它們首次實現了“用圖像思考”，堪稱視覺推理的巔峯之作。如同AI智能體，兩款模型在不到1分鐘內，自主判斷並組合運用ChatGPT內置工具，生成了詳盡周全的答案。其中包括，搜索網頁、用Python分析上傳的文件及數據、對視覺輸入進行深度推理，乃至生成圖像。在Codeforces、SWE-bench、MMMU等基準測試中，o3刷新SOTA，不論是在編程、數學、科學，還是在視覺感知領域都樹立了新標杆。尤其是，對於圖像、圖表、圖形分析，o3表現尤為突出，能夠深入挖掘視覺輸入的細節。\n\n\n\n\n\n\n在Codeforces中，新模型得分均超2700分，在全球參賽者中排名前200名用奧特曼的話來説，“接近或達到天才水平”。不過，這個智力的代價是，需要投入o1十倍以上的算力。相較於滿血版o3，o4-mini則以小巧高效、高性價比的特點脱穎而出。在AIME 2025測試中，o4-mini配合Python解釋器取得了99.5%高分，幾乎完美拿下了這項基準測試。而且，在數學、編程、視覺任務，以及非STEM領域，它的性能均優於o3-mini。此外，o4-mini支持遠超o3的使用額度，是高併發場景最優選。總而言之，o3和o4-mini都非常擅長編碼，由此OpenAI還開源了一個可在終端運行的輕量級編程 AI 智能體——Codex CLI。\n\n\n\n\n\n\n從今天起，ChatGPT Plus、Pro和Team用户將第一時間體驗到o3、o4‑mini和o4‑mini‑high，它們將取代o1、o3‑mini和o3‑mini‑high。同時，這兩款模型也將通過Chat Completions API和Responses API，向所有開發者提供。推理模型，首次會用工具了直播演示中，Greg先上了一個價值——有些模型就像是質的飛躍，GPT-4是其中之一，今天o3/o4-mini同樣是。他表示，o3讓他和OpenAI的同事見到了AI大模型能完成“從未見到的事”，比如，它自己就提出了一個很棒的系統架構想法。這兩款模型真正令人驚訝的地方，它們不僅僅是模型，更是一個“AI系統”。它們跟之前那些推理模型最大的區別，就是首次被用來訓練各種工具。它們會在CoT中使用這些工具來解決難題。人類最後考試中，o3模型足以媲美Deep Research表現，而且速率更快為了攻克了一個複雜難題，o3曾連續使用約600次工具調用。它們一次性生成的代碼片段，真正在代碼庫發揮效用。Greg表示，自己最珍視的一點，就是它們的軟件工程能力：它們不僅能編寫一次性的代碼，而且能真正在真實的代碼庫中工作！比如，它在瀏覽OpenAI代碼庫方面，就比Greg做得更好。這就是它極其有用的地方。而且，在指令跟隨、智能體工具使用評估中，與工具結合的o3和o4-mini準確性是最高的。外部專家評估顯示，o3在處理真實世界任務時，嚴重錯誤率比o1還降低了20%。之所以有如此大的進步，正是因為RL中持續的算法進步所驅動的。用Greg的話説，引擎蓋下最令人驚歎的是，目前它還仍然是預測一個token，然後加入一點RL的AI，就已經做到這個地步。那麼，在實操過程中，o3是如何結合使用工具解決複雜任務的呢？多模態團隊研究員Brandon McKinzie上傳了一張2015年完成的一個物理實習海報，讓ChatGPT估算質子同位標量電荷的數量。o3開始推理的同時，逐一分析圖片中內容，並確定Brandon提出問題的正確數量。實際上，海報截圖中並沒有覆蓋最終結果。於是，o3便開始聯網搜索查找最新的估算值，幾秒鐘內讀完數十篇論文，節省了大量時間。結果顯示，模型計算出了一個未經歸一化的值，並且乘以一個特定常數，又可以重新歸一化，最終結果與實際比較接近。後訓練團隊研究員Eric Mitchell為ChatGPT開啓了記憶功能， 然後讓o3去查找新聞，而且是與自己興趣有關的內容，同時還要足夠冷門。o3基於已有的瞭解——潛水和演奏音樂，主動思考並調用工具，找出了一些相關的有趣內容。比如，研究人員錄製了健康的珊瑚聲音，並用揚聲器播放錄音，加速了新珊瑚和魚類定居。同時，它還能繪製出可視化的數據，便於直接放入博客文章當中。也就是説，無論o3是用於前沿的科研領域，還是將模型集成到日常工作流中，都會非常有用。在解決AIME數學競賽問題時，o3被要求觀察2x2方格網格，並計算出滿足約束條件的顏色方案數量。它首先生成了一個暴力程序，然後用Python解釋器運行，並得到了正確答案，即82。即便如此，它的解題過程並不優雅簡潔，對此，o3自動識別後並嘗試簡化解決方案，找到更聰明辦法。它還會自動核查答案的可靠性，甚至最後給出了文字解決方案，方便向人類解釋。讓研究人員驚訝的是，訓練o3過程中並沒有使用類似策略，也沒有要求簡化，都是AI自主學習完成的。在編碼任務中，研究人員讓o3-high找出一個名為symbols軟件包的錯誤。首先，模型會主動檢查指令中，所説的問題是否存在，並嘗試瞭解代碼儲存庫的概況。然後，它發現一可以mro的解釋類繼承信息的Python結構，基於已有的世界知識，找到了問題所在。最後，o3通過瀏覽互聯網，找到了最優的解決方案——apply_patch。就推理成本來看，o3和o4-mini不僅是迄今為止最智能模型，相較於o1和o3‑mini，更在效率和成本控制方面樹立了新標杆。在2025年AIME數學競賽上，o3推理成本和性能全面優於 o1，同樣地，o4-mini成本-性能也全面優於o3‑mini。所以，如果你需要一個小而快的多模態推理模型，o4-mini將是極好的選擇。\n\n\n\n\n\n\no3和o4-mini能夠自主選擇工具、計劃方法解決問題，無論是數學、商業、科學、體育還是視覺推理都沒問題。比如，在解決體育問題時，o3能聯網獲取最新數據，考慮了最近一個賽季和2022-23年聯賽ERA略升後迴歸正常的情況。o1給出的數據是大概值，略有偏差，不夠精確，而且它錯誤地認為偷壘增加完全是因為投球計時器，忽略了基地墊擴大和限制牽制次數這些更直接的原因。左右滑動查看用圖像思考，視覺推理新巔峯更引人注目的是，o3和o4-mini在視覺推理上全面超越前代，成為o系列最新的視覺推理模型。它們通過在思維鏈（CoT）中用圖像進行推理，實現了視覺感知的重大突破。OpenAI首次實現了模型在其思維鏈中用圖像進行思考——而不僅僅只是看圖。與早期的OpenAI o1類似，o3和o4-mini能在回答前思考更久，在回答用户前內部會生成很長的思維鏈。不僅如此，o3和o4-mini可以在思考過程中“看”圖片。這種能力是通過工具處理用户上傳的圖像來實現的，比如進行裁剪、放大、旋轉等簡單的圖像處理。更厲害的是，這些功能都是原生的，不需要依賴額外的專業模型。在基準測試中，這種用圖像思考，無需依賴網絡瀏覽的能力，碾壓了前代多模態模型的性能。在STEM問答（MMMU、MathVista）、圖表閲讀與推理（CharXiv）、感知基元（VLMs are Blind）以及視覺搜索（V*）等領域，o3和o4-mini均創下了SOTA。特別是，在 V*基準測試上，兩款模型以96.3%準確率幾乎攻克了這項挑戰，標誌着視覺推理技術重大飛躍。ChatGPT增強的視覺智能，能更徹底、精準、可靠地分析圖片，幫你解決更棘手的問題。它能將高級推理與網頁搜索、圖像處理等工具無縫結合，自動放大、裁剪、翻轉或優化你的圖片，哪怕照片不完美也能挖掘出有用信息。比如，你可以上傳一張經濟學作業的照片，得到一步步的解答，或者分享一個程序報錯的截圖，快速找出問題根源。這種方法開啓了一種新的測試時計算擴展方式，完美的融合了視覺和文本推理。這體現在它們在多模態基準測試中的頂尖表現，標誌着多模態推理邁出了重要一步。視覺推理實戰用圖像思考可以與ChatGPT更加輕鬆的互動。你可以直接拍張照片提問，不用擔心物體擺放問題——不論文字是不是倒的，或者一張照片裏有多道物理題。即使東西乍一看不太清楚，視覺推理也能讓模型放大看清細節。比如，一個放在桌子上幾乎與視線平行的筆記本，上面有兩行模糊的字，人看上去也很難直接認出來。而ChatGPT可以將圖片放大查看，發現字是倒着的後，還將其旋轉過來，最終成功將其給認了出來。上下滑動查看上下滑動查看上下滑動查看上下滑動查看OpenAI最新的視覺推理模型能跟Python數據分析、網頁搜索、圖像生成等工具配合，創意又高效地解決更復雜的問題，為用户首次帶來了多模態智能體驗。編程智能體Codex CLI全開源接下來，OpenAI表示，將展示一些codex遺產的延續，發佈一系列應用程序，而它們，將定義編程的未來。除了新模型之外，OpenAI還開源了一項新的實驗性工具：Codex CLI，一個可在終端運行的輕量級編程AI智能體。它的作用，就是在需要的地方安全地部署代碼執行。它直接在本地計算機上運行，旨在充分發揮o3和o4-mini這類模型的強大推理能力，並將很快支持GPT-4.1⁠等更多模型的API調用。通過向模型傳遞屏幕截圖或低保真草圖，並結合訪問本地代碼的權限，就能在命令行中體驗到多模態推理的強大功能。同時，他們也啓動一項100萬美元的資助計劃，用以支持使用Codex CLI 和 OpenAI 模型的項目。GitHub項目一經發布，Codex CLI已斬獲3.3k星，可見響應度之高。項目地址：https://github.com/openai/codex現場，OpenAI演示人員參考了網上的帖子，使用Codex和o4 Mini做了一個很酷的圖片轉ASCII生成器。只需先截一張圖，拖進終端裏，接下來就可以把它交給Codex。令人驚歎的是，你可以實際看到它在思考，還可以直接運行工具。完成後，Codex創建了一個ASCII HTML文件，甚至還生成了一個可以控制分辨率的滑塊。也就是説，從此電腦上的任何文件，以及你正在處理的代碼庫，都可以放進Codex了！在現場，研究者們還成功添加了一個網絡攝像頭API。Scaling強化學習，依舊有效在OpenAI o3的整個研發過程中，研究者觀察到一個現象：大規模強化學習同樣遵循着GPT系列預訓練時顯現的規律——即“投入越多的計算資源，就能獲得越好的性能”。他們循着這條Scaling路徑，這次將重點放在強化學習（RL）上，把訓練計算量和推理階段的思考量（或稱推理計算量）都提升了一個數量級，結果依然觀察到顯著的性能提升。技術報告：https://cdn.openai.com/pdf/2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini-system-card.pdf這驗證了只要給模型更多時間去“思考”，它的表現就會持續提高。相較於前代o1，o3在相同延遲和成本下展現出更高的性能。更令人興奮地是，當允許思考更長時間，其性能還會繼續攀升。此外，OpenAI通過強化學習訓練，讓o3和o4-mini掌握了工具使用的智慧——不僅學會“如何用”，更懂得“何時用”。它們不僅能完全訪問ChatGPT內置的工具，還能通過API中的函數調用功能接入用户自定義的工具。這種能力讓模型在開放式場景時，更加遊刃有餘，尤其是在需要視覺推理和多步驟工作流的複雜任務中。而且，從前面諸多案例中，我們已經對模型工具調用的能力，獲得了關鍵一撇。那些提前拿到內測資格的大佬們，紛紛被o3震驚了。尤其是在臨牀和醫學領域，它的表現堪稱現象級。無論是診斷分析還是治療建議，彷彿出自頂尖專家的手筆。不論是加速科學發現、優化臨牀決策，還是推理跨領域的創新，o3正成為這場變革的主導者。參考資料：https://openai.com/index/thinking-with-images/https://openai.com/index/introducing-o3-and-o4-mini/","kind":"news","is_publish_news":true,"is_publish_highlight":false,"is_publish_live":false,"is_publish_wemedia":null,"editions":null,"column":"","sentiment":"1","news_tag":"productRelease","news_rank":0,"symbols":[],"gpt_button":1,"code":"91000000","status":"200"}}}