DeepSeek開源周第二彈!
上週五,DeepSeek宣佈連續五天開源五大軟件庫。今天DeepSeek選擇了先在GitHub上線,然後再在官推發佈上新通知。該公司今日宣佈將DeepEP向公衆開放。在宣佈後的約20分鐘內,DeepEP已在GitHub、微軟(MSFT.US)等平臺上獲得超過1000個Star收藏。
據悉,DeepEP是MoE模型訓練和推理的ExpertParallelism通信基礎,可實現高效優化的全到全通信,以支持包括FP8在內的低精度計算,適用於現代高性能計算。DeepEP還針對從NVLink到RDMA的非對稱帶寬轉發場景進行了深度優化,不僅提供高吞吐量,還支持流式多處理器數量控制,從而在訓練和推理任務中實現高吞吐量性能。
此外,券商中國記者在DeepSeek API開放平臺注意到,DeepSeek已重新開放API充值。DeepSeek-Chat模型優惠期結束,調用價格已變更爲每百萬輸入tokens 2元,每百萬輸出tokens 8元。此前因資源緊張,DeepSeek曾一度停止充值。
DeepEP向公衆開放
今天是DeepSeek開源第二天,他們一大早在官推上發佈消息,開源DeepEP。
DeepSeek在官推上介紹,很高興介紹DeepEP第一個用於MoE模型訓練和推理的開源EP通信庫。其特點包括:高效且優化的全對全通信,通過NVLink和RDMA支持節點內和節點間,用於訓練和推理預填充的高吞吐量內核,用於推理解碼的低延遲內核,原生FP8調度支持,靈活的GPU資源控制,用於計算通信重疊。
資料顯示,使用混合專家(MoE)架構的大型語言模型在計算量沒有相應增加的情況下,顯著提高了模型容量。然而,這種方法也帶來了挑戰——尤其是在GPU之間的通信方面。在MoE模型中,對於任何給定的令牌,只有一部分專家處於活動狀態,因此在設備之間高效交換數據至關重要。傳統的全對全通信方法可能會造成瓶頸,從而增加延遲並導致GPU資源利用不足。在對延遲敏感的設置中,例如實時推理,即使是很小的延遲也會影響整體性能。
專家認爲,DeepSeek推出的DeepEP,是一個專爲MoE模型和專家並行(EP)設計的通信庫。DeepEP解決了在GPU之間調度和聚合令牌所固有的低效率問題。該通信庫提供高吞吐量、低延遲的全對全GPU內核(通常稱爲MoE調度和組合內核),可簡化訓練和推理過程中的數據交換。值得注意的是,DeepEP支持低精度操作(包括FP8),與DeepSeek-V3論文中詳述的技術一致。此版本直接應對了在節點內和節點間環境中擴展MoE架構的挑戰。
DeepEP通過自適應配置進一步提高靈活性。用戶可以調整正在使用的SM數量等參數,或設置環境變量來管理流量隔離。低延遲內核目前支持的自適應路由有助於在高負載下均勻分配網絡流量,從而提高穩健性。
芯片需求大增
據路透社消息,中國企業推出低成本人工智能模型DeepSeek後,顯著推高了模型使用的英偉達人工智能芯片在中國市場的需求。路透社引述知情人士的消息說,多家互聯網巨頭對同款H20芯片的訂單激增。
與此同時,中國醫療保健、教育等領域規模較小的企業也開始採購備有DeepSeek人工智能模型和英偉達H20芯片的服務器。在這之前,只有財力較雄厚的金融和電信領域企業會採購人工智能計算系統。
報道說,雖然美國政府探討進一步收緊對華出口芯片的限制,可能導致芯片訂單激增,但知情人士認爲,DeepSeek纔是促使訂單增加的主要原因。
其實,除了DeepSeek之外,阿里Qwen團隊今日早間在社交媒體宣佈發佈新推理模型——深度思考(QwQ)。這是在QWQ-MAX-PREVIEW支持下,一個基於Qwen2.5-Max的推理模型。QwQ可同時支持深度思考和聯網搜索,並會展示完整的思維鏈。Qwen團隊稱,QWQ-MAX官方版本即將發佈,同步會發布Android和iOS應用程序,還會發布更小的可在本地設備部署的模型,如QWQ-32B等。
這些模型的推出,對於算力的需求也將是巨大的。今天,智算龍頭公司寒武紀一度大漲近5%,股價突破818元。GPU概念股也再度衝高,北京君正漲逾6%,龍芯中科漲逾3%。
責任編輯:何俊熹
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。