一覺醒來,AGI就實現了?!中國開源版o1,直接衝爆了整個AI圈。
繼DeepSeek V3之後,DeepSeek再次官宣了全新推理模型——DeepSeek-R1。
讓所有人爲之震驚的是,新模型直接與o1打平手,關鍵還是開源版的o1。
當人們扒開其22頁技術報告後發現,DeepSeek-R1在強化學習階段之前,沒有進行微調SFT,便在性能上刷新SOTA。
也就是說,R1自己就學會了推理,就像戰勝人類的AlphaZero/AlphaGo一樣。
還有一點,就是連研究人員都沒有預料到——R1竟出現了“啊哈”時刻!
研究人員稱,這一刻凸顯了強化學習的力量和美妙之處。
“我們沒直接教模型如何解決問題,只是給予它正確的激勵,模型就能自己琢磨出先進的解題辦法。”
這是首個驗證LLM推理能力的實現可以純粹通過RL,無需監督微調的開源研究
此次,R1震驚四座的表現,讓強化學習算法再次破局,甚至有網友表示,“2025年或許就是RL之年”。
英偉達高級科學家Jim Fan對此意有所指地幽默表示道:
“影響可以通過‘內部實現的ASI’或像‘草莓計劃’這樣神乎其神的名稱來完成。
影響也可以通過簡單地展示原始算法和matplotlib學習曲線來實現。”
毫無疑問,DeepSeek的大方開源,讓OpenAI顯得更加地相形見絀。
目前,官方研究論文已經發布,以供大家研究。
論文地址:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
推理媲美o1,代碼擊敗人類
DeepSeek-R1在後訓練時大量運用強化學習技術,在只有少量標註數據的情況下,就能大幅提升模型的推理能力。
在數學、代碼以及自然語言推理等任務中,DeepSeek-R1的性能與OpenAI o1正式版不相上下。
在AIME2024測試中,R1取得了79.8%的成績,略高於OpenAI-o1-1217。
在MATH-500測試裏,它更是獲得了97.3%的出色成績,表現與OpenAI-o1-1217相當,且明顯超越其他模型。
在編碼類任務方面,R1在代碼競賽中展現出專家級水平,在Codeforces平臺上獲得了2029的Elo評級,在競賽裏的表現超過了96.3%的人類參賽者。
在工程任務中,DeepSeek-R1的表現也稍勝OpenAI-o1-1217一籌。
DeepSeek-R1的基準測試對比
DeepSeek此次共推出了兩款推理模型:DeepSeek-R1-Zero和DeepSeek-R1。
DeepSeek-R1-Zero是通過大規模強化學習(RL)訓練而成,沒有經過監督微調(SFT)預處理,也展現出出色的推理能力。不過,該模型存在一些問題,比如推理內容可讀性欠佳,還會出現語言混雜的情況。
爲解決這些問題並進一步提升推理性能,研究團隊推出DeepSeek-R1。
DeepSeek-R1在RL前加入多階段訓練,並使用冷啓動數據。DeepSeek-R1在推理任務上的表現,與OpenAI-o1-1217相當。
爲支持研究社區發展,研究團隊開源了DeepSeek-R1-Zero、DeepSeek-R1,以及6個基於Qwen和Llama提煉的DeepSeek-R1模型,參數規模分別爲1.5B、7B、8B、14B、32B和70B。
藉助DeepSeek-R1的輸出,團隊提煉出6個小模型並開源。其中,32B和70B參數的模型,在多項能力上達到了與OpenAI o1-mini相當的水平。
從下表中可以看出,DeepSeek-R1-Distill-Qwen-32B在AIME 2024中的得分達到72.6%,在MATH-500中得分爲94.3%,在LiveCodeBench中得分爲57.2%。這些成績都遠超之前的開源模型,與o1-mini不相上下。
拋棄SFT,全靠強化學習
對於預訓練大模型而言,監督微調(SFT)是極爲關鍵甚至必不可少的訓練技巧。
SFT就是先用大量人工設定標準的數據進行訓練,之後再通過強化學習進一步自我優化。以往在提升模型性能時,依賴於大量的監督數據。
但本項研究證明,即使不借助監督微調(SFT)來啓動模型,僅依靠大規模強化學習,同樣能顯著提升模型的推理能力。不僅如此,若加入少量冷啓動數據,模型性能還能進一步提高。
DeepSeek-R1-Zero直接在基礎模型上應用RL,無需任何SFT數據。SFT曾是ChatGPT成功的關鍵,如今R1 Zero卻用RL替代了SFT。
圖中呈現了DeepSeek-R1-Zero在AIME 2024基準測試裏,RL訓練期間性能的變化。隨着RL訓練逐步推進,DeepSeek-R1-Zero的性能穩定且持續提升,證明了RL算法的有效性。
表格對比分析了DeepSeek-R1-Zero和OpenAI的o1-0912模型在多項推理基準測試中的表現。結果顯示,通過RL,即便沒有監督微調數據,DeepSeek-R1-Zero依然獲得了強大的推理能力。這一成果意義非凡,表明模型僅依靠RL就能學習並實現泛化。
DeepSeek-R1
DeepSeek-R1-Zero在從基礎模型開啓RL訓練時,早期的冷啓動階段不太穩定。爲避免這種情況,DeepSeek-R1中構建並收集了一小部分長推理鏈(CoT)數據。
研究者收集了成千上萬條冷啓動數據,用來微調DeepSeek-V3-Base,這一方法顯著提升了可讀性,有效處理了多語言混雜的情況。
用冷啓動數據對DeepSeek-V3-Base完成微調後,研究者採用與DeepSeek-R1-Zero一樣的大規模RL訓練流程。
訓練時發現,思維鏈(CoT)經常出現語言混合的情況,特別是當RL提示詞涉及多種語言的時候。
爲解決這個問題,研究者在RL訓練中加入語言一致性獎勵,通過計算CoT裏目標語言詞彙的比例來確定獎勵。雖然消融實驗顯示,這種調整會讓模型性能稍有下降,但它符合人類閱讀偏好,能讓輸出內容可讀性更強。
當以推理爲導向的RL達到收斂後,研究者藉助此時得到的檢查點,收集用於監督微調(SFT)的數據,用於後續的訓練。
與一開始主要聚焦推理的冷啓動數據不同,這個階段會引入其他領域的數據,從而提升模型在寫作、角色扮演以及其他通用任務方面的能力。
爲了讓模型更好地契合人類偏好,研究者運用獎勵信號,搭配多樣化的提示詞來訓練模型。通過整合獎勵信號和多樣化的數據分佈,成功訓練出一款模型。它不僅推理能力出色,還能將實用性和安全性放在首位。
團隊還分享了失敗的嘗試,包括過程獎勵模型和蒙特卡洛搜索。同時他們也強調了,這並不意味着這些方法無法開發出有效的推理模型。
未來,團隊打算從這幾個方向對DeepSeek-R1展開研究:
- 提升通用能力:目前,DeepSeek-R1在函數調用、多輪對話、複雜角色扮演和JSON輸出這些任務上,能力不如DeepSeek-V3。接下來,團隊計劃研究如何藉助長鏈推理(CoT),提升在這些領域的任務處理能力。
- 解決語言混合問題:DeepSeek-R1當前主要針對中文和英文做了優化,在處理其他語言的查詢時,可能會出現語言混合的情況。比如用戶用非中文和英文提問,DeepSeek-R1仍可能用英文推理並作答。計劃在後續更新中解決這個問題。
- 優化提示詞工程:評估DeepSeek-R1時,發現它對提示詞很敏感。少樣本提示詞常常會降低其性能。所以,建議用戶在零樣本設置下,直接描述問題並指定輸出格式,以獲取最佳效果。
- 改進軟件工程任務:因爲評估過程耗時太長,影響了RL訓練的效率,導致DeepSeek-R1在軟件工程基準測試上,未取得明顯進步。未來會通過對軟件工程數據採用拒絕採樣,或者在RL中引入異步評估的方式來提高效率。
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。