奧特曼率隊深夜血戰DeepSeek，o3-mini急上線！價格骨折免費用，ChatGPT被擠爆

　　新智元報道

　　【新智元導讀】眼看DeepSeek風頭盡顯，被逼急的OpenAI果然緊急發布了o3-mni。不光免費用戶都能用，每百萬輸入和輸出token價格更是瘋狂跳水打骨折價！

　　o3-mini，真的來了。

　　啱啱，OpenAI官宣o3-mini和o3-mini-high兩大版本正式在ChatGPT上線。

　　誠如奧特曼所言，免費用戶直接打開‘Reason’即可體驗，Plus用戶每天會有更多用量，具體來說：

　　- ChatGPT免費版：首次體驗推理模型

　　- ChatGPT Plus和團隊版：每天150次對話限制

　　- ChatGPT Pro：無限制訪問

　　- ChatGPT Enterprise和ChatGPT Edu：將在一周內可用

　　- API：向3-5級開發者開放（初期暫不支持圖像分析功能）

　　- 輸入1.10美元/百萬token、輸出4.40美元/百萬token

　　感謝DeepSeek，o3-mini的價格這次算是徹底給打下來了——比OpenAI o1-mini便宜63%，比滿血版o1便宜93%。（但仍是GPT-4o mini的7倍左右）

　　訂閱用戶已經在第一時間‘告別’了o1-mini，還沒來得及說再見

　　OpenAI表示，o3-mini的發布是在追求高效能智能技術道路上的又一重要里程碑。

　　通過優化科學（Science）、技術（Technology）、工程（Engineering）和數學（Mathematics）領域的推理能力，同時保持較低的成本，讓高質量AI技術變得更加平易近人。

　　值得一提的是，在ChatGPT中，o3-mini採用的是‘中等推理強度’，在速度和準確性之間取得平衡。所有付費用戶還可以在模型選擇器中選擇o3-mini-high——響應時間略長但智能水平更高的版本。

　　目前，由於太過火爆，ChatGPT的項目和自定義GPTs功能都已經被擠崩了。

　　集成搜索，兩種版本可選

　　去年12月，十二天直播最後一彈，o3系列首次亮相便驚豔了所有人。相較於上一代o1模型，o3在ARC-AGI等多項基準測試中刷新SOTA。

　　與o1-mini一樣，o3-mini是最具性價比的推理模型，可謂是突破性能邊界的‘小巨人’。

　　在STEM領域，尤其是科學、數學和編程等方面，o3-mini性能表現卓越超越o1，並繼承了上一代低成本和低延遲的優點。

　　對於開發者來說，o3-mini簡直就是一份‘大禮包’，它首次在小型推理模型中支持：包括函數調用、結構化輸出和開發者消息、流式傳輸功能。

　　開發者可以根據需求選擇低、中、高三種推理強度，讓o3-mini在處理複雜問題時進行‘深度思考’，靈活平衡速度和準確性。

　　遺憾地是，o3-mini暫不支持視覺功能。

　　如前所述，從今天起，o3-mini將通過Chat Completions API，Assistants API和Batch API向3-5級指定開發者開放。

　　同時，o3-mini還整合了搜索功能，能夠提供帶有相關網絡來源鏈接最新響應。

　　一起來看看這款‘小而美’的o3-mini有什麼過人之處。

　　快速、強大、專為STEM領域推理優化

　　與其前身OpenAI o1類似，OpenAI o3-mini專門針對STEM推理進行了優化。

　　採用了中等推理強度的o3-mini，在數學、編程和科學領域的表現與o1不相上下，且響應速度更快。

　　報告地址：https：//cdn.openai.com/o3-mini-system-card.pdf

　　專家測試評估顯示，o3-mini相比o1-mini能夠生成更準確、更清晰的答案，推理能力更強。

　　在測試中，o3-mini的響應結果獲得了56%的偏好度，在處理複雜現實問題時的重大錯誤率更是降低了39%。

　　在中等推理強度設定下，o3-mini在最具挑戰性的推理和智能評估項目（包括AIME和GPQA）中，均達到了與o1相當的水平。

　　數學競賽（AIME 2024）

　　在低推理強度下，o3-mini達到了與o1-mini相當的水平；在中等推理強度下，其表現可與o1媲美；而在高推理強度下，o3-mini的表現更是超越了o1-mini和o1。

　　博士級科學問題（GPQA Diamond）

　　研究級數學（FrontierMath）

　　在高推理強度模式下，o3-mini在FrontierMath中的表現優於前代產品。當配合Python工具使用時，高推理強度的o3-mini能夠一次性解決超過32%的測試題目，其中包括28%以上的T3級問題。

　　編程競賽（Codeforces）

　　隨着推理強度的提升，OpenAI o3-mini的Elo得分不斷提高，各層級表現均優於o1-mini。在中等推理強度下，其表現已能與o1相媲美。

　　軟件工程（SWE-bench Verified）

　　o3-mini在高推理強度模式下，使用開源Agentless框架能達到39%的成功率，使用內部工具框架則可達到61%的成功率。

　　LiveBench編碼

　　人類偏好評估

　　外部專家評測結果顯示，o3-mini較o1-mini表現出更強的推理能力，能夠生成更準確、更清晰的答案，尤其是在STEM領域中。在對比測試中，o3-mini獲得了56%的用戶偏好度，且在處理複雜現實問題時的重大錯誤率降低了39%。

　　在技術報告中，o3-mini編程性能超越了GPT-4o和o1-preview，與o1不相上下。

　　模型的速度與性能

　　o3-mini在保持與o1相當智能水平的同時，實現了更快的運行速度和更高的計算效率。

　　除前文提到的STEM評估外，在中等推理強度下，o3-mini在其他數學能力和事實準確性測試中均取得了顯著優勢。

　　對比測試（A/B Testing）結果顯示，o3-mini的平均響應時間為7.7秒，較o1-mini的10.16秒提升了24%。

　　o1-mini和o3-mini（medium）的延遲對比

　　安全評估

　　OpenAI在訓練o3-mini確保其安全響應，採用的關鍵技術之一是審慎對齊（deliberative alignment）。

　　這項技術使模型能夠在響應用戶提示詞前，對人工制定的安全規範進行全面推理。

　　與o1相似，o3-mini在高難度安全性測試和越獄評估中，明顯優於GPT-4o。

　　在正式部署前，研究人員採用與o1相同的準備方法，結合外部紅隊測試和安全性評估，對o3-mini的安全風險進行了全面評估。

　　禁止內容評估

　　越獄評估

　　OpenAI急了

　　去年年底放出o3和o3-mini的預覽時，CEO奧特曼就曾表示，o3-mini將會在1月份發布。

　　隨後，奧特曼又在1月17日預告稱，o3-mini會在幾周內發布。

　　現在，o3-mini果然如約而至（卡在ddl最後一天），但外面的世界已經是天差地別。

　　面對正在快速崛起的DeepSeek-R1，o3-mini存在着一個關鍵問題——‘不開源’。

　　這也就意味着，它無法離線使用、無法下載代碼，也無法以相同的程度進行自定義。對於很多應用過來說，它的吸引力相對於R1明顯大打折扣。

　　在上下文窗口方面，DeepSeek-R1約為128K/130K token，而o3-mini略勝一籌達到了200K token。其中，每個輸出最多100K token，跟滿血版o1相同。

　　在價格方面，相比於輸入/輸出token分別為0.14/0.55美元的DeepSeek-R1，o3-mini依然貴出了天際。

　　但作為一款美國模型，o3-mini在身份上無疑佔盡了好處：應該會是歐美很多企業的首選。

　　奧特曼親自率隊

　　這一次，最強最新的o3-mini模型訓練，奧特曼本尊下場親自率隊。研究項目主管分別是Carpus Chang和Kristen Ying。

　　接下來，如果說OpenAI還藏在什麼殺手鐧，那就是滿血版的o3了。根據12月時的說法，它將在‘此後不久’發布。

海量資訊、精準解讀，盡在新浪財經APP

責任編輯：韋子蓉

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

奧特曼率隊深夜血戰DeepSeek，o3-mini急上線！價格骨折免費用，ChatGPT被擠爆

熱議股票