智通財經APP獲悉,國泰君安發布研報稱,DeepSeek發布NSA(Native Sparse Attention)相關論文,突破長文本處理瓶頸,低成本模型訓練可行性推動AI大模型轉向算法效率競爭。通過降低AI應用開發門檻,有望激發新一輪創新浪潮,最終加速AI在各行業的滲透,帶動整個產業鏈升級,從基礎設施到應用層都將會迎來新的發展機遇。
國泰君安主要觀點如下:
NSA通過原生稀疏注意力機制在長上下文處理實現突破。
長上下文處理是大模型發展的關鍵瓶頸之一,softmax架構中注意力計算佔解碼64k上下文總延遲的70%-80%。NSA採用三條並行的注意力分支:壓縮注意力捕獲全局信息,選擇性注意力保留重要token,滑動窗口注意力處理局部上下文,在通用基準測試中不遜於全注意力模型,同時實現了長文本處理的效率提升。
算力門檻的降低將加速AI民主化進程。
NSA技術通過端到端的稀疏訓練顯著降低了預訓練所需的計算資源,減少了A100 GPU在預訓練過程中的使用時長,降低了企業開發大模型的資金與技術門檻,使更多中小企業有機會參與AI底層開發。算力門檻的顯著降低,將推動AI技術從少數科技巨頭向更廣泛市場普及。
長文本處理能力的提升將催生新的應用場景,驅動商業模式創新。
NSA技術使模型能夠直接處理整本書籍、代碼倉庫或千輪級別的客服對話。這種長序列處理能力的提升,將顯著擴展AI在文檔分析、代碼生成等領域的應用邊界。特別是在邊緣計算等低延遲場景中,NSA的高效推理特性或催生出全新的商業模式,從而也給硬件廠商、解決方案商等帶來新的市場機遇。
風險提示:技術競爭加劇、商業化進程不及預期的風險。