智通財經APP獲悉,國泰君安發佈研報稱,DeepSeek連續開源的FlashMLA和DeepEP技術顯著提升了現有GPU利用效率,降低了AI應用開發和部署成本。技術開源將使提供GPU雲服務的廠商將直接受益,其服務器利用率和單位算力產出有望提升;專注於AI應用開發的公司也將受益於開發成本降低和應用場景拓展;同時,國產大模型廠商有機會借鑑這些優化思路,加速自身技術迭代,縮小與國際領先水平的差距。
國泰君安主要觀點如下:
FlashMLA和DeepEP展現了對硬件資源的極致利用
FlashMLA針對Hopper架構深度優化,在H800 SXM5實現3000 GB/s內存帶寬和580 TFLOPS計算能力。DeepEP則是爲混合專家模型(MoE)和專家並行(EP)設計的通信庫,支持高吞吐量且低延遲的all-to-all GPU內核。軟件優先的思路在高端AI芯片供應受限環境下尤爲重要,通過算法和軟件優化提升現有硬件效能,爲國內AI基礎設施建設提供了可行的替代路徑,展示了資源約束下實現技術突破的可能性。
AI應用開發門檻降低,高效訓練和推理能力不再是大型機構的專利
FlashMLA優化解碼階段內核,專門針對可變長度序列進行了優化,直指大模型處理長序列效率低下的核心痛點。DeepEP則提供了針對非對稱域帶寬轉發的優化內核,並創新性地提出hook-based通信-計算重疊方法,不佔用任何SM資源,讓GPU在傳輸數據的同時能繼續計算。這些技術使開發者能夠在有限計算資源上構建更高效的AI系統,大幅降低了AI應用開發的技術和資源門檻。
開源策略體現了真正的技術共享精神,打破技術被少數機構壟斷的局面
DeepSeek將新技術完全開源,源代碼在GitHub上公開,任何開發者都可自由使用和改進,打破了前沿技術被大型科技公司壟斷的局面,爲整個行業注入新活力,也爲行業建立了更健康的技術共享機制,促進知識自由流動和技術迭代,因此產業變革有望加速。
風險提示:技術迭代不及硬件迭代速度、技術路線對其他GPU架構適配情況尚不明確,以及商業落地不及預期的風險。
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。