OpenAI發布了下一代模擬推理模型o3和o3-mini

環球市場播報
2024/12/21

  周五,在「OpenAI 12天活動」的第12天,OpenAI首席執行官薩姆·奧特曼宣佈了其最新的人工智能「推理」模型o3和o3-mini,這兩款模型是在今年早些時候推出的o1模型的基礎上開發的。該公司尚未發布這些模型,但今天將使這些模型可用於公共安全測試和研究。

  這些模型使用OpenAI所稱的「私人思維鏈」,模型會暫停檢查其內部對話,並在響應之前提前計劃,你可以稱之為「模擬推理」(SR),即一種超越基本大型語言模型(llm)的人工智能形式。

  為了避免與英國電信運營商o2發生潛在的商標衝突,該公司將其命名為「o3」而不是「o2」。在周五的直播中,奧特曼承認了他的公司命名的缺點,他說:「按照OpenAI非常非常不擅長命名的偉大傳統,它將被命名為o3。」

  根據OpenAI的說法,o3模型在ARC-AGI基準上獲得了破紀錄的分數,ARC-AGI基準是一種視覺推理基準,自2019年創建以來一直保持不敗。在低計算場景中,o3得分為75.7%,而在高計算測試中,它達到了87.5%,與人類在85%閾值下的表現相當。

  OpenAI還報告說,o3在2024年美國數學邀請賽中得分為96.7%,只缺了一道題。該模型在包含研究生水平的生物、物理和化學問題的GPQA Diamond上也達到了87.7%。在EpochAI的前沿數學基準上,o3解決了25.2%的問題,而其他模型都沒有超過2%。

  同樣在周五發布的o3-mini版本包括自適應思考時間功能,提供低、中、高處理速度。該公司表示,更高的計算設定可以產生更好的結果。OpenAI報告說,在Codeforces基準測試中,o3-mini的性能超過了它的前身o1。

  模擬推理正在興起

  在OpenAI宣佈這一消息之際,其他公司也在開發自己的SR模型,包括谷歌,谷歌周四宣佈了Gemini 2.0 Flash Thinking Experimental。去年11月,DeepSeek推出了DeepSeek- r1,而阿里巴巴的Qwen團隊則發布了QwQ,他們稱QwQ是01的第一個「開放」替代品。

  OpenAI將首先向安全研究人員提供新的SR模型進行測試。奧特曼說,公司計劃在1月底推出o3-mini,隨後不久推出o3。

海量資訊、精準解讀,盡在新浪財經APP

責任編輯:李桐

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10