海通证券：DeepSeek理论利润率达545% 2025年有望成为大模型及其应用爆发之年

智通财经

03-04

智通财经APP获悉，海通证券发布研报称，整个2月，我国的国产大模型仍然没有停下快速迭代的脚步，行业仍在持续且高速的发展过程中，OpenAI 4.5的发布，也印证了海外AI业界同样未曾停滞，仍在积极探索。而DeepSeek开源周的发布，则是毫无保留的向AI业界展示了其先进模型背后的许多AIInfra和基础技术方面的创新，这对行业内其他的研发者起到了宝贵的启发作用，从而有望进一步推动整个AI业界的更快速的发展和创新，而DeepSeek高达545%的理论利润率，更是说明AI目前商业化的基础已成，AI大模型已经真正成为一个“能赚钱”且“能赚大钱”的商业模式。该行判断，2025年有望真正成为国产大模型和国产应用的爆发之年。

海通证券主要观点如下：

混元新一代快思考模型TurboS正式发布

2月27日，腾讯混元新一代快思考模型TurboS正式发布。区别于Deepseek R1等需要“想一下再回答”的慢思考模型，混元TurboS能够实现“秒回”，更快速输出答案，吐字速度提升一倍，首字时延降低44%。在知识、数理、创作等方面，TurboS也有不错表现。慢思考更像理性思维，通过拆解逻辑提供解决问题的思路;快思考正如人的“直觉”，为大模型提供了通用场景下的快速响应能力。快思考和慢思考的结合和补充，可以让大模型更智能、更高效地解决问题。通过长短思维链融合，混元TurboS在保持文科类问题快思考体验的同时，基于自研混元T1慢思考模型合成的长思维链数据，显著改进了理科推理能力，实现模型整体性能明显提升。混元TurboS在知识、数学、推理等多个领域，展现出对标DeepSeek V3、GPT 4o、Claude等一系列业界领先模型的效果表现。

Turbo S全新升级架构体系，同步推出深度思考推理模型T1

架构方面，混元TurboS创新采用Hybrid-Mamba-Transformer融合模式，有效降低了传统Transformer结构的计算复杂度，减少了KV-Cache缓存占用，实现训练和推理成本的下降。新的融合模式突破了传统纯Transformer结构大模型面临的长文训练和推理成本高的难题。一方面，发挥了Mamba高效处理长序列的能力;另一方面，也保留Transformer擅于捕捉复杂上下文的优势，最终构建了显存与计算效率双优的混合架构。这也是工业界首次成功将Mamba架构无损地应用在超大型MoE模型上。作为旗舰模型，混元TurboS未来将成为腾讯混元系列衍生模型的核心基座，为推理、长文、代码等衍生模型提供基础能力。基于TurboS，通过引入长思维链、检索增强和强化学习等技术，混元也推出了具备深度思考的推理模型T1，其能理解问题的多重维度和潜在逻辑关系，特别适合完成复杂任务。

阿里视频生成大模型Wan2.1正式开源，大幅领先了Sora等竞品

2月25日，阿里通义旗下视频生成大模型Wan2.1正式开源，14B/1.3B双版本上线。专业版14B拥有高性能，提供业界顶尖的表现力，满足对视频质量有极高要求的场景;极速版1.3B适合消费级显卡，8.2GB显存即可生成480P高质量视频，适用于二次模型开发和学术研究。本次开源的Wan2.1在处理复杂运动、还原真实物理规律、提升影视质感以及优化指令遵循方面具有显著的优势，无论是创作者、开发者还是企业用户，都可以根据自己的需求选择合适的模型和功能，轻松实现高质量的视频生成。同时，万相还支持业内领先的中英文文字特效生成，满足广告、短视频等领域的创意需求。在权威评测集VBench中，万相以总分86.22%的成绩登上榜首位置，大幅领先了Sora、Minimax、Luma、Gen3、Pika等国内外视频生成模型。

GPT-4.5发布，拥有更高的“情商”

OpenAI正式发布GPT-4.5，这是OpenAI迄今为止最大且最优的聊天模型。GPT-4.5在扩大预训练和后训练规模方面迈出了重要一步。通过扩展无监督学习，GPT-4.5提升了其识别模式、建立联系以及在不依赖推理的情况下生成创造性见解的能力。早期测试表明，与GPT-4.5的互动感觉更加自然。其更广泛的知识基础、改进的理解用户意图的能力以及更高的“情商”使其在提升写作、编程和解决实际问题等任务中表现出色。OpenAI还预计它的“幻觉”现象会减少。GPT-4.5在回应前不会进行思考，这使得它的优势与推理模型(如OpenAI o1)截然不同。与OpenAI o1和OpenAI o3-mini相比，GPT-4.5是一个更通用、内在更智能的模型。OpenAI相信推理能力将是未来模型的核心能力，并且两种扩展方式——预训练和推理——将相辅相成。随着GPT-4.5这样的模型通过预训练变得更加智能和知识渊博，它们将为推理和工具类Agents提供更坚实的基础。

DeepSeek开源周第一日

开源专为英伟达HopperGPU优化的高效MLA解码内核。根据界面新闻官方微博，2月24日，DeepSeek “开源周”正式启动，计划开源多个代码库，旨在以完全透明的方式与全球开发者社区分享其在通用人工智能(AGI)领域的研究进展。回顾这五日，其最先开源的是FlashMLA，这是专为英伟达HopperGPU优化的高效MLA解码内核，专为处理可变长度序列设计。在自然语言处理等任务里，数据序列长度不一，传统处理方式会造成算力浪费。而FlashMLA如同智能交通调度员，能依据序列长度动态调配计算资源。例如在同时处理长文本和短文本时，它可以精准地为不同长度的文本分配恰当的算力，避免“大马拉小车”或资源不足的情况。发布6小时内，GitHub上收藏量突破5000次，被认为对国产GPU性能提升意义重大。

DeepSeek开源周第二日

开源用于MoE训练和推理的开源EP通信库。第二日开源的是DeepEP。DeepEP是首个用于MoE(混合专家模型)训练和推理的开源EP通信库。MoE模型训练和推理中，不同专家模型需高效协作，这对通信效率要求极高。DeepEP支持优化的全对全通信模式，就像构建了一条顺畅的高速公路，让数据在各个节点间高效传输。它还原生支持FP8低精度运算调度，降低计算资源消耗，并且在节点内和节点间都支持NVLink和RDMA，拥有用于训练和推理预填充的高吞吐量内核以及用于推理解码的低延迟内核。简单来说，它让MoE模型各部分间沟通更快、消耗更少，提升了整体运行效率。

DeepSeek开源周第三日

开源矩阵乘法加速库DeepGEMM。第三日开源的是DeepGEMM，矩阵乘法加速库，为V3/R1的训练和推理提供支持。通用矩阵乘法是众多高性能计算任务的核心，其性能优化是大模型降本增效的关键。DeepGEMM采用了DeepSeek-V3中提出的细粒度scaling技术，仅用300行代码就实现了简洁高效的FP8通用矩阵乘法。它支持普通GEMM以及专家混合(MoE)分组GEMM，在HopperGPU上最高可达到1350+FP8 TFLOPS(每秒万亿次浮点运算)的计算性能，在各种矩阵形状上的性能与专家调优的库相当，甚至在某些情况下更优，且安装时无需编译，通过轻量级JIT模块在运行时编译所有内核。

DeepSeek开源周第四日

开源了开源优化并行策略(DualPipe和EPLB)。DualPipe是一种用于V3/R1训练中计算与通信重叠的双向管道并行算法。以往的管道并行存在“气泡”问题，即计算和通信阶段存在等待时间，造成资源浪费。DualPipe通过实现“向前”与“向后”计算通信阶段的双向重叠，将硬件资源利用率提升超30%。EPLB则是一种针对V3/R1的专家并行负载均衡器。基于混合专家(MoE)架构，它通过冗余专家策略复制高负载专家，并结合启发式分配算法优化GPU间的负载分布，减少GPU闲置现象。

DeepSeek开源周第五日

开源并行文件系统3FS，提升AI模型训练和推理的效率。在第五日，DeepSeep开源了面向全数据访问的推进器3FS，也就是Fire-Flyer文件系统。它是一个专门为了充分利用现代SSD和RDMA网络带宽而设计的并行文件系统，能实现高速数据访问，提升AI模型训练和推理的效率。此外，DeepSeek还开源了基于3FS的数据处理框架Smallpond，它可以进一步优化3FS的数据管理能力，让数据处理更加方便、快捷。全球开发者可基于上述开源项目进行二次开发与改进，有望推动AI技术在更多领域的应用。

DeepSeek开源周第六日

介绍DeepSeek-V3/R1的推理系统，(理论)成本利润率高达545%。根据机器之心官方微信公众号，3月1日，DeepSeek官方X帐号再次更新，宣告“开源周”还在继续。不过这第六天DeepSeek并没有开源新的软件库，而是介绍了DeepSeek-V3/R1的推理系统。DeepSeek-V3/R1的推理系统采用了跨节点EP驱动的批量扩展、计算-通信重叠、负载平衡来实现对吞吐量和延迟的优化。同时，DeepSeek还给出了其在线服务的统计数据：每个H800节点实现了73.7k/14.8k个每秒输入/输出token;(理论)成本利润率高达545%。在统计了包括来自网页、APP和API的所有用户请求后。如果所有token都按照DeepSeek-R1的定价(0.14美元/百万输入token(缓存命中)，0.55美元/百万输入token(缓存未命中)，2.19美元/百万输出token)计费，每日总收入将为562027美元，成本利润率为545%。不过，DeepSeek表示实际收入大幅低于此数字，原因如下：DeepSeek-V3的定价显著低于R1，只有部分服务实现货币化(网页和APP访问仍然免费)，在非高峰时段自动应用夜间折扣。

风险提示：技术发展不及预期，公司业务拓展不及预期。

免责声明：投资有风险，本文并非投资建议，以上内容不应被视为任何金融产品的购买或出售要约、建议或邀请，作者或其他用户的任何相关讨论、评论或帖子也不应被视为此类内容。本文仅供一般参考，不考虑您的个人投资目标、财务状况或需求。TTM对信息的准确性和完整性不承担任何责任或保证，投资者应自行研究并在投资前寻求专业建议。

老虎证券

海通证券：DeepSeek理论利润率达545% 2025年有望成为大模型及其应用爆发之年

热议股票