智通財經APP獲悉,國泰君安發布研報稱,DeepSeek連續開源的FlashMLA和DeepEP技術顯著提升了現有GPU利用效率,降低了AI應用開發和部署成本。技術開源將使提供GPU雲服務的廠商將直接受益,其服務器利用率和單位算力產出有望提升;專注於AI應用開發的公司也將受益於開發成本降低和應用場景拓展;同時,國產大模型廠商有機會借鑑這些優化思路,加速自身技術迭代,縮小與國際領先水平的差距。
國泰君安主要觀點如下:
FlashMLA和DeepEP展現了對硬件資源的極致利用
FlashMLA針對Hopper架構深度優化,在H800 SXM5實現3000 GB/s內存帶寬和580 TFLOPS計算能力。DeepEP則是為混合專家模型(MoE)和專家並行(EP)設計的通信庫,支持高吞吐量且低延遲的all-to-all GPU內核。軟件優先的思路在高端AI芯片供應受限環境下尤為重要,通過算法和軟件優化提升現有硬件效能,為國內AI基礎設施建設提供了可行的替代路徑,展示了資源約束下實現技術突破的可能性。
AI應用開發門檻降低,高效訓練和推理能力不再是大型機構的專利
FlashMLA優化解碼階段內核,專門針對可變長度序列進行了優化,直指大模型處理長序列效率低下的核心痛點。DeepEP則提供了針對非對稱域帶寬轉發的優化內核,並創新性地提出hook-based通信-計算重疊方法,不佔用任何SM資源,讓GPU在傳輸數據的同時能繼續計算。這些技術使開發者能夠在有限計算資源上構建更高效的AI系統,大幅降低了AI應用開發的技術和資源門檻。
開源策略體現了真正的技術共享精神,打破技術被少數機構壟斷的局面
DeepSeek將新技術完全開源,源代碼在GitHub上公開,任何開發者都可自由使用和改進,打破了前沿技術被大型科技公司壟斷的局面,為整個行業注入新活力,也為行業建立了更健康的技術共享機制,促進知識自由流動和技術迭代,因此產業變革有望加速。
風險提示:技術迭代不及硬件迭代速度、技術路線對其他GPU架構適配情況尚不明確,以及商業落地不及預期的風險。