智通財經APP獲悉,國泰君安發佈研報稱,DeepSeek發佈NSA(Native Sparse Attention)相關論文,突破長文本處理瓶頸,低成本模型訓練可行性推動AI大模型轉向算法效率競爭。通過降低AI應用開發門檻,有望激發新一輪創新浪潮,最終加速AI在各行業的滲透,帶動整個產業鏈升級,從基礎設施到應用層都將會迎來新的發展機遇。
國泰君安主要觀點如下:
NSA通過原生稀疏注意力機制在長上下文處理實現突破。
長上下文處理是大模型發展的關鍵瓶頸之一,softmax架構中注意力計算佔解碼64k上下文總延遲的70%-80%。NSA採用三條並行的注意力分支:壓縮注意力捕獲全局信息,選擇性注意力保留重要token,滑動窗口注意力處理局部上下文,在通用基準測試中不遜於全注意力模型,同時實現了長文本處理的效率提升。
算力門檻的降低將加速AI民主化進程。
NSA技術通過端到端的稀疏訓練顯著降低了預訓練所需的計算資源,減少了A100 GPU在預訓練過程中的使用時長,降低了企業開發大模型的資金與技術門檻,使更多中小企業有機會參與AI底層開發。算力門檻的顯著降低,將推動AI技術從少數科技巨頭向更廣泛市場普及。
長文本處理能力的提升將催生新的應用場景,驅動商業模式創新。
NSA技術使模型能夠直接處理整本書籍、代碼倉庫或千輪級別的客服對話。這種長序列處理能力的提升,將顯著擴展AI在文檔分析、代碼生成等領域的應用邊界。特別是在邊緣計算等低延遲場景中,NSA的高效推理特性或催生出全新的商業模式,從而也給硬件廠商、解決方案商等帶來新的市場機遇。
風險提示:技術競爭加劇、商業化進程不及預期的風險。
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。