国泰君安:DeepSeek NSA架构引领AI效率革新 从基础设施到应用层都将会迎来新的发展机遇

智通财经
02-21

智通财经APP获悉,国泰君安发布研报称,DeepSeek发布NSA(Native Sparse Attention)相关论文,突破长文本处理瓶颈,低成本模型训练可行性推动AI大模型转向算法效率竞争。通过降低AI应用开发门槛,有望激发新一轮创新浪潮,最终加速AI在各行业的渗透,带动整个产业链升级,从基础设施到应用层都将会迎来新的发展机遇。

国泰君安主要观点如下:

NSA通过原生稀疏注意力机制在长上下文处理实现突破。

长上下文处理是大模型发展的关键瓶颈之一,softmax架构中注意力计算占解码64k上下文总延迟的70%-80%。NSA采用三条并行的注意力分支:压缩注意力捕获全局信息,选择性注意力保留重要token,滑动窗口注意力处理局部上下文,在通用基准测试中不逊于全注意力模型,同时实现了长文本处理的效率提升。

算力门槛的降低将加速AI民主化进程。

NSA技术通过端到端的稀疏训练显著降低了预训练所需的计算资源,减少了A100 GPU在预训练过程中的使用时长,降低了企业开发大模型的资金与技术门槛,使更多中小企业有机会参与AI底层开发。算力门槛的显著降低,将推动AI技术从少数科技巨头向更广泛市场普及。

长文本处理能力的提升将催生新的应用场景,驱动商业模式创新。

NSA技术使模型能够直接处理整本书籍、代码仓库或千轮级别的客服对话。这种长序列处理能力的提升,将显著扩展AI在文档分析、代码生成等领域的应用边界。特别是在边缘计算等低延迟场景中,NSA的高效推理特性或催生出全新的商业模式,从而也给硬件厂商、解决方案商等带来新的市场机遇。

风险提示:技术竞争加剧、商业化进程不及预期的风险。

免责声明:投资有风险,本文并非投资建议,以上内容不应被视为任何金融产品的购买或出售要约、建议或邀请,作者或其他用户的任何相关讨论、评论或帖子也不应被视为此类内容。本文仅供一般参考,不考虑您的个人投资目标、财务状况或需求。TTM对信息的准确性和完整性不承担任何责任或保证,投资者应自行研究并在投资前寻求专业建议。

热议股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10