專題:DeepSeek爲何能震動全球AI圈
來源:硅谷科技評論
中國人工智能初創企業DeepSeek(深度求索)正在以驚人的速度改寫全球科技競爭格局。其最新推出的推理模型R1不僅性能卓越,與國際領先的OpenAI o1模型平分秋色,更以不到600萬美元的訓練成本震驚行業,這一數字僅爲Meta大模型訓練成本的十分之一。這一技術突破不僅在產業界掀起波瀾,甚至引發了政治層面的關注。2025年初,美國總統特朗普在一場集會上直言不諱地表示,DeepSeek的崛起爲美國產業界敲響了警鐘,成爲美國科技優勢地位面臨挑戰的最新註腳。
DeepSeek的成功並非偶然。過去一年中,該公司連續發佈了多篇具有劃時代意義的學術論文,奠定了其技術領先地位。硅谷科技評論(SVTR)結合內部訪談和專家反饋,認爲在DeepSeek的衆多論文中,以下幾篇被認爲是最重要的,主要因爲它們在技術創新和實際應用中有着重大突破:
DeepSeek-R1:通過強化學習提升大型語言模型的推理能力。2025年1月發佈,提出了一種使用強化學習而非監督學習的方法,顯著提升了語言模型在數學和邏輯推理任務中的表現,開闢了新的研究方向。
DeepSeek-V3:高效的混合專家模型。2024年12月發佈,設計了一種高效的混合專家模型,通過激活少量參數實現性能和計算成本的平衡,是大規模模型優化的重要突破。
DeepSeek-LLM:以長期主義擴展開源語言模型。2024年1月發佈,從長期主義視角提出開源語言模型發展策略,推動技術民主化。提出了社區驅動的開源治理框架和多任務優化方法。
文末閱讀原文或者聯繫凱瑞(pkcapital2023),獲取三篇論文原文。
一、DeepSeek-R1:通過強化學習提升大型語言模型的推理能力
《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》是一篇開創性的論文,專注於通過純強化學習方法(而非傳統的監督學習)來提升大型語言模型的推理能力。研究展示了模型在訓練過程中通過強化學習表現出的“頓悟”現象,並顯著提升了模型在數學和邏輯推理任務中的性能。以下是論文的詳細解讀:
背景與目標
近年來,大型語言模型(LLM)的推理能力成爲人工智能研究的重要方向。然而,當前的許多方法依賴監督微調(SFT),這需要大量標註數據。論文提出了 DeepSeek-R1-Zero 和 DeepSeek-R1 兩種新型模型,通過大規模強化學習(RL)方法提升推理能力,旨在減少對監督數據的依賴,探索純強化學習對推理能力的優化潛力。
方法
DeepSeek-R1-Zero:基於純強化學習的推理能力提升
強化學習算法: 使用 Group Relative Policy Optimization (GRPO),通過羣體獎勵優化策略模型。獎勵設計包括準確性獎勵(評估答案正確性)和格式獎勵(引導模型按照指定格式輸出推理過程)。
自我演化與“靈光一現”現象: 模型通過 RL 自動學習複雜的推理行爲,如自我驗證和反思。隨着訓練過程的深入,模型逐步提升了複雜任務的解答能力,並在推理任務上顯現突破性的性能提升。
DeepSeek-R1:結合冷啓動數據的多階段訓練
冷啓動數據的引入: 從零開始的 RL 容易導致初期性能不穩定,爲此設計了包含高質量推理鏈的冷啓動數據集。該數據提高了模型的可讀性和訓練初期的穩定性。
推理導向的強化學習: 通過多輪 RL,進一步優化模型在數學、編程等推理密集型任務中的表現。
監督微調與拒絕採樣: 使用 RL 檢查點生成額外的推理和非推理任務數據,進一步微調模型。
全場景強化學習: 在最終階段結合多種獎勵信號,提升模型的有用性和安全性。
蒸餾:將推理能力傳遞至小模型。
將 DeepSeek-R1 的推理能力通過蒸餾技術傳遞至 Qwen 和 Llama 系列小型模型。蒸餾後的模型在多個基準任務中超越了部分開源大模型。
性能評估
推理任務
在 AIME 2024、MATH-500 等數學任務中,DeepSeek-R1 達到 OpenAI-o1-1217 的性能水平。
在編程任務(如 Codeforces 和 LiveCodeBench)上,表現優於大多數對比模型。
知識任務
在 MMLU 和 GPQA Diamond 等多學科基準測試中,DeepSeek-R1 展現了卓越的知識推理能力。
其中文任務表現(如 C-Eval)顯著優於其他開源模型。
生成任務
在 AlpacaEval 和 ArenaHard 等開放式生成任務中,DeepSeek-R1 的勝率分別達到 87.6% 和 92.3%,展現了強大的文本生成能力。
結論與未來展望
關鍵發現
通過強化學習,LLM 的推理能力可顯著提升,即便無需監督數據。
將推理能力蒸餾到小型模型中可以有效地提高計算效率,同時保持較高的性能。
侷限性
語言混合問題:模型在處理多語言任務時可能輸出混合語言。
提示敏感性:模型對 few-shot 提示不夠魯棒。
未來方向
增強多語言支持,優化對中文以外語言的推理能力。
研究大規模 RL 在軟件工程任務中的應用。
二、DeepSeek-V3:高效的混合專家模型
《DeepSeek-V3: A Strong Mixture-of-Experts Language Model》 是一項關於混合專家(MoE)模型的研究,旨在通過激活少量專家網絡實現高效計算,平衡模型性能和算力成本。該模型在多個複雜任務中表現出卓越的能力,同時顯著降低了運行成本,爲大模型的實際應用提供了新的思路。以下是論文 的解讀:
背景與目標
隨着大語言模型(LLM)的發展,DeepSeek-AI 團隊提出了 DeepSeek-V3,一個擁有 6710 億參數的混合專家(MoE)模型,每個 token 激活 370 億參數。DeepSeek-V3 通過高效推理和經濟成本的訓練方法,旨在推動開源模型能力的極限,同時在性能上與閉源模型(如 GPT-4o 和 Claude-3.5)競爭。
核心技術與架構創新
多頭潛在注意力(MLA)
使用低秩聯合壓縮方法減少注意力計算的緩存需求,同時保持多頭注意力的性能。
引入旋轉位置嵌入(RoPE)提高推理精度。
混合專家架構(DeepSeekMoE)
採用輔助損失優化的專家負載平衡策略,避免因負載不均導致的計算效率降低。
引入“無輔助損失”的負載平衡新方法,通過動態調整路由偏差值,確保訓練過程中的負載均衡。
多 Token 預測目標(MTP)
擴展模型在每個位置預測多個未來 token 的能力,提高訓練數據效率。
在推理階段,MTP 模塊可被重新用於推測解碼,從而加速生成。
數據與訓練效率
數據與預訓練:
使用 14.8 萬億高質量多樣化 token 數據進行訓練。
預訓練過程非常穩定,未發生任何不可恢復的損失激增。
優化訓練框架:
設計了 DualPipe 算法,通過前向和反向計算的重疊,顯著減少通信開銷。
支持 FP8 混合精度訓練,結合細粒度量化策略,顯著降低內存使用和通信開銷。
訓練效率極高,每訓練萬億 token 僅需 18 萬 H800 GPU 小時,總成本約 557.6 萬美元。
長上下文擴展:
支持最大上下文長度從 32K 擴展至 128K,使模型更適用於長文檔處理。
後期優化與推理部署
監督微調(SFT)與強化學習(RL):
通過 SFT 對齊模型輸出與人類偏好。
引入自適應獎勵模型和 相對策略優化(GRPO),提升模型的推理能力。
推理與部署:
在 NVIDIA H800 GPU 集羣上部署,結合高效的專家路由和負載均衡策略,實現低延遲的實時服務。
使用冗餘專家策略進一步優化推理階段的負載平衡。
性能表現
知識任務:
在 MMLU 和 GPQA 等教育基準上,DeepSeek-V3 超越所有開源模型,並接近 GPT-4o 的性能。
在中文事實性任務中表現尤爲突出,領先大部分閉源模型。
代碼與數學任務:
在數學基準(如 MATH-500)上實現開源模型的最佳表現。
在編程任務(如 LiveCodeBench)中排名第一,展示了卓越的代碼生成能力。
開放式生成任務:
在開放式生成任務中,DeepSeek-V3 的勝率顯著高於其他開源模型,並接近閉源模型的水平。
結論與未來方向
DeepSeek-V3 是目前最強的開源基礎模型之一,特別是在代碼、數學和長上下文任務上表現突出。未來計劃包括:
優化模型在多語言和多領域的泛化能力。
探索更高效的硬件支持和訓練方法。
三、DeepSeek-LLM:以長期主義擴展開源語言模型
2024年1月,DeepSeek大語言模型團隊在《以長期主義擴展開源語言模型》 (LLM Scaling Open-Source Language Models with Longtermism)論文中提出從長期主義角度推動開源語言模型的發展,重點研究了大語言模型的規模效應。他們基於研究成果開發了DeepSeek Chat,並在此基礎上不斷升級迭代。以下是這篇論文解讀:
背景與目標
近年來,大型語言模型(LLM)通過自監督預訓練和指令微調,逐步成爲實現通用人工智能(AGI)的核心工具。然而,LLM 的規模化訓練存在挑戰,尤其是在計算資源和數據分配策略上的權衡問題。DeepSeek LLM 的研究旨在通過深入分析模型規模化規律,推動開源大模型的長期發展。該項目探索了模型規模和數據分配的最優策略,並開發了性能超越 LLaMA-2 70B 的開源模型,尤其在代碼、數學和推理領域表現卓越。
數據與預訓練
數據處理
處理了包含 2 萬億個 token 的雙語數據集(中文和英文)。
採取了去重、過濾和重新混合三階段策略,以提高數據多樣性和信息密度。
使用 Byte-level Byte-Pair Encoding(BBPE)分詞算法,詞表大小設置爲 102,400。
模型架構
微觀設計:借鑑 LLaMA 的架構,採用 RMSNorm 和 SwiGLU 激活函數,以及旋轉位置編碼。
宏觀設計:DeepSeek LLM 7B 具有 30 層,而 67B 增加至 95 層,並通過深度擴展優化性能。
超參數優化
引入多階段學習率調度器,優化訓練過程並支持持續訓練。
使用 AdamW 優化器,並對學習率、批次大小等關鍵超參數進行了規模化規律研究。
基礎設施
開發了高效輕量化的訓練框架 HAI-LLM,集成了數據並行、張量並行等技術,顯著提升硬件利用率。
模型規模化規律
超參數規模化規律
通過實驗發現,隨着計算預算增加,最佳批次大小隨之增大,而學習率則逐漸降低。
提出了經驗公式,以更準確地預測不同規模模型的超參數。
模型與數據規模分配策略
引入了非嵌入 FLOPs/token(MMM)作爲模型規模的度量方式,替代傳統的參數數量表示,顯著提高了計算預算分配的精確性。
實驗表明,高質量數據允許更多的預算分配到模型規模擴展上,從而提升性能。
對齊與微調
監督微調(SFT)
收集了 150 萬條指令數據,包括通用語言任務、數學問題和代碼練習。
在微調中,通過兩階段策略降低了模型的重複生成率,同時保持了基準性能。
直接偏好優化(DPO)
使用多語言提示生成偏好數據,通過優化模型對開放式問題的生成能力顯著增強。
性能評估
公共基準測試
數學和代碼:DeepSeek LLM 67B 在 HumanEval 和 GSM8K 上顯著優於 GPT-3.5 和 LLaMA-2 70B。
中文任務:在 C-Eval、CMath 等基準上,DeepSeek 表現出色,尤其在中文成語填空(CHID)等文化任務中遠超 LLaMA-2。
開放式生成能力:
在 AlignBench 中文測試中,DeepSeek 67B Chat 在邏輯推理和文本生成等任務上表現接近 GPT-4。
英文測試中,DeepSeek 67B Chat 在多輪對話生成能力上超越大多數開源模型。
安全評估
專業團隊設計了覆蓋多種安全問題的測試集,DeepSeek 在歧視偏見、合法權益和違法行爲等多方面均展現出高安全性。
結論與未來方向
論文總結了 DeepSeek LLM 在開源大模型規模化領域的突破,包括:
提出了更精確的模型規模與數據分配策略。
在多個領域的任務中實現性能領先,尤其在數學、代碼和中文任務上表現出色。 未來將繼續優化高質量數據的利用,並探索更廣泛的安全性和對齊技術。
責任編輯:何俊熹
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。