交银国际发表报告表示,1月22日前后,杭州深度求索公司DeepSeek发布两款开源人工智能大模型(DeepSeek-R1/DeepSeek-R1-zero)并取得与海外领先模型相似或者更好的性能。两款模型基于之前发布的DeepSeek-V3, 其训练仅用280万小时的英伟达H800GPU算力(约560万美元)。该行认为,国产高效开源模型的兴起意味着大模型的训练和推理成本或有大幅度降低。
总结DeepSeek-V3和DeepSeek-R1在算法架构、预训练、后训练和蒸馏提炼阶段的创新,该行发现DeepSeek结合硬件、算法和系统,使用定制化的PTX等底层算法达到流水线并行,同时优化了储储,减少了通信的报头开销。因为直接调用硬件,该行认为这些创新或不能通过高级语言实现,这或意味着英伟达(NVDA.US) CUDA的竞争壁垒有所松动。
交银国际指,美国政府之前对华的芯片限制非但没能起到作用,反而进一步促进了中国人工智能领域的发展。DeepSeek-V3训练过程仅用了不到280万小时英伟达H800芯片算力,按照每小时2美元计算,总体训练成本小于560万美元。该行认为,决定中国人工智能发展的因素将会是国产自主创新,这包括AI大模型算法的发展和半导体硬件的国产替代。国产AI行业都会积极需求国产硬件支持,从而长期利好半导体行业的国产替代进程。
从硬件性能上看,包括华为升腾(Ascend系列)在内的国产算力芯片已经接近或者达到英伟达Hopper系列的算力芯片产品,事实证明英伟达最高阶的Blackwell系列芯片不一定会是阻碍国产大模型建设的关键。更重要的是,英伟达最重要的CUDA护城河似乎亦有松动的迹象。根据DeepSeek-V3的技术文档, 该行发现训练模型(1)使用了定制的PTX(Parallel Thread Execution)等底层算法达到流水线并行(pipeline parallelism)和(2)优化了储储方式和减少通信过程中的报头开销等技术技巧。这些算法或通过低级语言(机器码、汇编语言 等)实现。通过绕开英伟达CUDA(通过高级语言调用),这些算法或从一定程度上规避了英伟达CUDA这一核心竞争力。因此该行认为,国产大模型或加速国产芯片的使用。
交银国际认为,模型门槛降低在利好国产算力芯片的同时,或对整个国产半导体产业链的业务产生积极影响,包括利好国产晶圆代工公司中芯国际(00981.HK) (“买入”评级)和华虹半导体(01347.HK) (“买入”评级)的产能利用率等业务指标,以及利好国产半导体设备,包括北方华创(002371.SZ) 及中微公司(688012.SH) 等的设备需求。
相关内容《大行》浦银国际:AI大模型成本大幅下降 国产化全方位加速
此外,该行对于端侧部署AI的前景较此前更为乐观,虽然对于具体需求增长的数量和消费者大规模换机的时机尚不确定。该行建议投资者关注AMD(AMD.US) (“买入”评级)、英伟达(NVDA.US) (“买入”评级)和英特尔(INTC.US) 端侧计算芯片业务,同时关注兆易创新(603986.SH) 、联发科(02454.TW)等对端侧敞口较大的半导体标的,以及苹果(AAPL.US) 、小米(01810.HK) 、联想(00992.HK) 等智能手机和个人电脑OEM。相对于苹果等海外厂商在人工智能模型(特别是中文模型)上的执行能力,该行更看好国产智能手机OEM。(wl/k)(港股报价延迟最少十五分钟。沽空资料截至 2025-02-06 12:25。) (A股报价延迟最少十五分钟。) (美股为即时串流报价; OTC市场股票除外,资料延迟最少15分钟。)
免责声明:投资有风险,本文并非投资建议,以上内容不应被视为任何金融产品的购买或出售要约、建议或邀请,作者或其他用户的任何相关讨论、评论或帖子也不应被视为此类内容。本文仅供一般参考,不考虑您的个人投资目标、财务状况或需求。TTM对信息的准确性和完整性不承担任何责任或保证,投资者应自行研究并在投资前寻求专业建议。