免費用戶也可使用o3 mini推理模型了!
作者|甲子光年 趙健
北京時間2月1日凌晨,OpenAI正式發佈o3-mini,這是OpenAI推理系列中最新、最具成本效益的模型,已在ChatGPT和API中開放使用。
這可以看作OpenAI對過去一週多風靡美國市場的DeepSeek的回應。
在o3 mini發佈的同時,OpenAI高管團隊還在Reddit上舉辦了一場線上的AMA(ask me anything),回答有關o3 mini以及AI發展相關的一切問題。
在被問及是否會考慮發佈一些模型權重以及一些研究時,OpenAI首席執行官Sam Altman首次承認:“我個人認爲,我們在這裏站在了歷史的錯誤一邊,需要找出一個不同的開源策略。OpenAI中並非所有人都認同這一觀點,這也不是我們當前的最高優先事項。”
此外,OpenAI高管團隊還討論了o3 mini的功能、價格以及其他產品更新、算力等相關的話題。
可以說,如果沒有DeepSeek,OpenAI不會這麼快做出回應,無論是模型還是言論。
1.OpenAI首次將推理模型開放給免費用戶
本次發佈的o3-mini在2024年12月發佈了預覽版本,是OpenAI首個支持高度請求的開發者功能的小型推理模型,包括函數調用、結構化輸出和開發者消息。o3-mini將支持流式傳輸,開發者還可以在三種推理努力選項——低、中、高——之間進行選擇,以優化其特定用例。這種靈活性使得o3-mini在解決複雜挑戰時可以“更努力地思考”,或者在延遲是關鍵問題時優先考慮速度。但是o3-mini不支持視覺能力,因此開發者應繼續使用OpenAI o1進行視覺推理任務。
OpenAI表示o3-mini突破了小型模型所能實現的界限,提供了卓越的STEM(Science、Technology、Engineering、Mathematics)功能,尤其擅長科學、數學和編碼,同時保持了o1-mini的低成本和低延遲。專家測試人員的評估表明,與OpenAI o1-mini相比,o3-mini的答案更準確、更清晰,推理能力更強。
OpenAI表示,測試人員在56%的時間裏更喜歡o3-mini的回答,並觀察到在困難的現實問題上重大錯誤減少了 39%。在中等推理努力下,o3-mini在一些最具挑戰性的推理和智力評估(包括 AIME 和 GPQA)上的表現與o1相當。
o3 mini在數學競賽AIME 2024的成績表現,圖片來自OpenAI
價格層面,OpenAI提供了不同的套餐設置:Pro用戶將可以無限制訪問o3-mini,而Plus和Team用戶將擁有三倍的速率限制(與o1-mini相比);免費用戶可以通過選擇消息編寫器下方的“Reason”按鈕在ChatGPT中嘗試o3-mini。
這是OpenAI首次將推理模型開放給免費用戶,此前發佈的o1模型只有ChatGPT plus會員可以使用。而免費開放的原因其實也很顯然,那就是被DeepSeek免費且開源的R1給捲到了。
不過,ChatGPT plus會員會享有更高版本的模型“o3-mini-high”,它會思考得更深入,並給出更好的答案。
作爲此次升級的一部分,OpenAI將Plus和Team用戶的速率限制從每天50條消息(使用o1-mini)提高到每天150條消息(使用o3-mini)。此外,o3-mini現在可以與搜索功能配合使用,以查找最新的答案並鏈接到相關的網絡資源。這是OpenAI將搜索功能整合到推理模型中的早期原型。
在安全層面,OpenAI用來教o3-mini安全響應的關鍵技術之一是審慎對齊,即在回答用戶提示之前,訓練模型推理人類編寫的安全規範。與OpenAI o1類似,o3-mini在具有挑戰性的安全性和越獄評估方面明顯超越了GPT-4o。在部署之前,OpenAI表示仔細評估了o3-mini的安全風險,採用了與o1相同的準備、外部紅隊和安全評估方法。
2.OpenAI團隊回答一切
OpenAI高管團隊在Reddit上舉辦了一場線上的AMA(ask me anything),回答有關o3 mini以及AI發展相關的一切問題。
參與本次活動的共6人,包括首席執行官Sam Altman、首席研究官Mark Chen、首席產品官Kevin Weil、工程副總裁Srinivas Narayanan、API 研究主管Michelle Pokrass、研究主管Hongyu Ren。
首先是大家最關心的關於DeepSeek的焦點問題。
有用戶表示顯然這是一個非常令人印象深刻的模型,這會如何改變OpenAI對未來模型的計劃?
Sam Altman此前對於DeepSeek評價很高,這次也給出了類似的評價。他回覆稱:“這是一個非常好的模型!我們將生產出更好的模型,但領先優勢將比前幾年有所減弱。”
鑑於DeepSeek在開源領域取得的成功,有人問OpenAI是否考慮發佈一些模型權重並發表一些研究?
Sam Altman對此回應稱:“是的,我們正在討論。我個人認爲,我們在這裏站在了歷史的錯誤一邊,需要找出一個不同的開源策略;OpenAI中並非所有人都認同這一觀點,這也不是我們當前的最高優先事項。”
這似乎是Sam Altman首次正面承認OpenAI的閉源“是一個錯誤”。但OpenAI是否會真正開源?這恐怕將是一個艱難的選擇。
第二個集中話題是關於o3 mini的產品功能。
首先是價格問題。有人對比發現,o3 mini的價格與Deepseek和Gemini相比仍然沒有競爭力。比如,在百萬tokens規模下,Deepseek R1的API輸入價格(緩存命中)爲0.14美元,輸出價格爲2.19美元,而o3 mini的輸入價格爲0.55美元,輸出價格爲4.40美元。
DeepSeek API價格,deepseek-chat指的是DeepSeek-V3.,deepseek-reasoner指的是DeepSeek-R1,圖片來自DeepSeek官網
O系列推理模型價格,圖片來自OpenAI官網
OpenAI API研究主管Michelle Pokrass對此回應:“我們發現o3-mini與美國託管的Deepseek版本相比具有競爭力。我們認爲對於這種級別的智能來說,這是一個真正實惠的選擇。”
OpenAI會計劃提高plus會員的價格嗎?Sam Altman回應稱:“實際上我想隨着時間的推移減少它。”
大模型推理成本的下降是一個必然趨勢。OpenAI在發佈o3 mini時表示,該模型延續了其降低智能成本的記錄——自推出GPT-4以來,每個token的價格降低了95%——同時保持了頂級的推理能力。
針對o3 mini的價格,OpenAI制定了不同的套餐模式。有人問,爲什麼當plus用戶擁有大量o3-mini-high限額時,訂閱PRO版本仍然值得?
Sam Altman回應稱,如果你認爲o1 pro還算值得,那麼你應該認爲o3 pro超級值得。
工程副總裁Srinivas Narayanan進一步解釋:“我們現在有o1專業模式,還有操作員模式。我們可能會繼續有更多方法使用更多計算來解決專業級的難題。是的,專業用戶喜歡無速率限制。”
其次是思維鏈的展示問題。o3 mini並不像DeepSeek R1那樣給出非常詳細的思維鏈過程,而是非常簡潔。
o3 mini的思維鏈展示
DeepSeek R1的思維鏈展示
於是有用戶提問,我們能看看所有的思考標記嗎?
首席產品官Kevin Weil回覆稱:“我們正在努力展示比今天更多的內容——很快就會實現。所有內容都有待確定,展示所有CoT會導致競爭性提煉,但我們也知道人們(至少是高級用戶)想要它,所以我們會找到正確的方法來平衡它。”
關於o3 mini知識庫的時間更新問題,有用戶表示不理解。“在我支付了plus費用之前,GPT-4o擁有的知識截止到2024年6月,但是現在我支付了plus費用,知識截止時間又改回了2023年10月。爲什麼會這樣?”
Sam Altman對此回應稱:“現在我們已經啓用了搜索功能,這一點就不再那麼重要了——就我自己的使用而言,我再也沒有考慮過知識截止的問題了。”
OpenAI本次發佈的是o3 mini,於是有人問完整版本o3何時首次亮相?
Sam Altman一如既往開始畫餅:“我猜會是幾周以上,幾個月以下。”
第三個話題集中在其他產品更新,也就是OpenAI曾經發布的“期貨”產品何時兌現。
有用戶關心4o圖像生成器是否還會發布,這是大約一年前OpenAI發佈的功能。GPT-4o是一種多模態人工智能模型,可同時理解和生成文本、圖像和音頻內容,但目前爲止圖像生成功能還未更新。
圖片來自Reddit
首席產品官Kevin Weil對此回覆稱:“是的!我們正在努力。我認爲等待是值得的。”有人繼續追問有沒有大概的時間表,Kevin Weil先是開玩笑地說“你想給我找麻煩”,隨後又補充說“可能要幾個月”。
此外,關於圖像生成模型DALL-3的後續版本,Kevin Weil也是一模一樣的回覆:“是的!我們正在努力。我認爲等待是值得的。”
有用戶對此“千篇一律”的回覆表示不滿意,並調侃道“這是GPT-3在回應嗎?”
有用戶關注長上下文窗口的問題,詢問能否很快實現1M上下文。
對此,工程副總裁Srinivas Narayanan回覆“正在努力,但沒有明確的日期表”。
關於很多人都關心的GPT-5,Sam Altman表示還沒有時間表。
首席產品官Kevin Weil則回應稱,會在“o-17 micro和 GPT-(π+1) 之後不久”。換句話說,遙遙無期。
不過Sam Altman表示會有一些即將發佈的更新,比如高級語音模式。
有人問,有了語音、視頻、屏幕共享、任務和操作員,OpenAI現在已經發布了相當多的組件,這些組件共同構成了非常完整的自動化體驗。在我們可以說擁有完整的AI體驗之前,是否還缺少一些部分?如果是,那麼缺少哪些部分?
對此,工程副總裁Srinivas Narayanan回覆:“是的,很多部分正在整合在一起。繼續提高推理能力仍然是最關鍵的部分。連續的視頻輸入和視頻輸出真的很酷。在任何環境中實現自動化——不僅僅是瀏覽器,而是整個計算機或其他設備。以及輕鬆理解和使用不同應用程序(在工作和個人生活中)的能力。”
最後是關於算力以及AGI相關的問題。
有人問,假設現在是2030年,你剛剛創建了一個大多數人稱之爲AGI的系統。它在你提出的每一個基準測試中都表現出色,並且在速度和性能上都擊敗了你最好的工程師和研究人員。現在怎麼辦?除了“在網站上提供”之外,還有其他計劃嗎?
工程副總裁Srinivas Narayanan回覆:“我們與人工智能交互的界面將發生根本性的變化。事情將變得更加代理化。人工智能將在後臺爲我們持續工作,完成複雜的任務並實現我們的目標。它們會在有需要時向我們彙報。機器人技術也應該足夠先進,讓它們能夠在現實世界中爲我們完成有用的任務。”
Sam Altman認爲,最重要的影響是加速科學發現的速度,我相信這是對改善生活質量的最大貢獻。
有人提到了芯片,問OpenAI如何看待trillium、cerebers等更專用的芯片/TPU?OpenAI正在研究這些芯片嗎?
Sam Altman的回應很簡潔:GB200現在很難被擊敗!
不久之前,Sam Altman宣佈第一個完整的8機架GB200 NVL72現已在Azure中爲OpenAI運行。
有人問,Stargate(星際之門)的成功對 OpenAI 的未來有多重要?
首席產品官Kevin Weil回應稱:“非常重要。我們看到的一切都表明,我們擁有的計算能力越多,我們構建的模型就越好,我們製造的產品就越有價值。我們現在同時在兩個維度上擴展模型——更大的預訓練和更多的 RL/strawberry——兩者都需要計算。爲數億用戶提供產品也是如此!隨着轉向爲您持續工作的更多代理產品,這需要計算。所以把 Stargate 想象成我們的工廠,它將電力/GPU 轉化爲適合您的超棒產品。”
看起來,DeepSeek與OpenAI已經形成了兩種不同的技術路線。
DeepSeek代表了以更低的成本,尤其是計算成本,來實現更高的性能的路線。而OpenAI是Scaling Law的忠實信仰者,仍然堅持“大力出奇跡”——如果繼續擴展計算,就能繼續擴展性能。
這兩種不同路線的選擇就是實現AGI的分水嶺嗎?
(封面圖來源:OpenAI)
責任編輯:韋子蓉
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。