週五,在“OpenAI 12天活動”的第12天,OpenAI首席執行官薩姆·奧特曼宣佈了其最新的人工智能“推理”模型o3和o3-mini,這兩款模型是在今年早些時候推出的o1模型的基礎上開發的。該公司尚未發佈這些模型,但今天將使這些模型可用於公共安全測試和研究。
這些模型使用OpenAI所稱的“私人思維鏈”,模型會暫停檢查其內部對話,並在響應之前提前計劃,你可以稱之爲“模擬推理”(SR),即一種超越基本大型語言模型(llm)的人工智能形式。
爲了避免與英國電信運營商o2發生潛在的商標衝突,該公司將其命名爲“o3”而不是“o2”。在週五的直播中,奧特曼承認了他的公司命名的缺點,他說:“按照OpenAI非常非常不擅長命名的偉大傳統,它將被命名爲o3。”
根據OpenAI的說法,o3模型在ARC-AGI基準上獲得了破紀錄的分數,ARC-AGI基準是一種視覺推理基準,自2019年創建以來一直保持不敗。在低計算場景中,o3得分爲75.7%,而在高計算測試中,它達到了87.5%,與人類在85%閾值下的表現相當。
OpenAI還報告說,o3在2024年美國數學邀請賽中得分爲96.7%,只缺了一道題。該模型在包含研究生水平的生物、物理和化學問題的GPQA Diamond上也達到了87.7%。在EpochAI的前沿數學基準上,o3解決了25.2%的問題,而其他模型都沒有超過2%。
同樣在週五發佈的o3-mini版本包括自適應思考時間功能,提供低、中、高處理速度。該公司表示,更高的計算設置可以產生更好的結果。OpenAI報告說,在Codeforces基準測試中,o3-mini的性能超過了它的前身o1。
模擬推理正在興起
在OpenAI宣佈這一消息之際,其他公司也在開發自己的SR模型,包括谷歌,谷歌週四宣佈了Gemini 2.0 Flash Thinking Experimental。去年11月,DeepSeek推出了DeepSeek- r1,而阿里巴巴的Qwen團隊則發佈了QwQ,他們稱QwQ是01的第一個“開放”替代品。
OpenAI將首先向安全研究人員提供新的SR模型進行測試。奧特曼說,公司計劃在1月底推出o3-mini,隨後不久推出o3。
責任編輯:李桐
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。