华为的一场信心之战

钛媒体
14 Apr

“信心,比黄金和货币更重要。”

2008年经济危机之时,金融风暴席卷全球,来势很猛、速度很快,使西方各大国无不疲于奔命,虽然采取了多种措施救市,提振本国经济,无奈效果不佳。

“在经济困难面前,信心比黄金和货币更重要。”中国发声并挺身而出,站在了应对金融危机的最前沿。

此时此刻,恰如彼时彼刻。无论是宏观经济环境的封锁,还是世界产业链的逆全球化,企业像是时代海洋里的一叶扁舟,努力地找寻方向,努力地让自己不至于顷刻翻覆。

华为可能是最有感触的一家,一方面,本次华为被置于战场前线,受到了最为猛烈的炮火轰击;另一方面,华为上一次严重危机,正是2008年经济危机所造就。

经历过危机的老华为人有些熟悉,同样是在公司保持连年增长的势头上,然后突然发生黑天鹅事件,华为的应对也有一些相似,大致的三部曲可以理解为,先聚焦主业,强调利润和现金流;再激活组织活力,让能打粮食的人到一线;最后也是最关键的一步,创新致胜,确保自己的创新跟上时代。

2022年,华为创始人任正非在内部讲话中提到,如果按计划在2025年我们会有一点点希望,那么我们要先想办法度过这三年艰难时期,生存基点要调整到以现金流和真实利润为中心,不能再仅以销售收入为目标。

到了2024年,华为实现全球销售收入8621亿元,同比增长22.4%,创下2021年之后的新高,净利润626亿元,经营收入开始恢复。

至此为止,华为还不能说完成度过危机的三部曲。任正非曾提到,“中国99%的公司可以与美国合作,他们没有受到制裁,他们的芯片算力比我们的高,他们能买到的东西比我们好。在这样的条件下,未来几年我们能不能为生存活下去?我们还在挣扎中,内部还在讲怎么克服很多困难。”

自2019年5月16日开始,华为连续几年遭遇制裁,烈度不断升级,耗费了大量的人力、物力、财力恢复业务连续性,不止是为了确保基本的经营,更是要在美国封禁最严苛的领域蹚出一条路。

华为依旧处于危机之中,如果不能在AI算力领域成为世界第二极,那么华为逃不过这场慢性衰落,可能在国内有足够的生存空间,但在国际市场失去竞争力,对于中国AI产业来说,大概也是如此。

华为以及中国AI算力产业都需要信心,远比当下的现金流和利润还重要得多,这也是为何当华为云计算CEO张平安拿出了AI基础设施架构突破性进展——CloudMatrix 384超节点之后,迅速吸引了中国AI产业的集中关注。

历史上多数企业由危转机的拐点,往往都是用颠覆性创新开启新一轮增长周期。

“天下苦英伟达久矣”

英伟达攫取了大模型行业发展至今的绝大部分利润,几乎垄断了AI算力,全世界不少聪明的头脑都在思考同一个问题,如何突破英伟达的“封锁”,不仅仅是国内AI产业,国外的诉求同样迫切。

如果用一个关键词来形容AI算力产业,“冰山之下”大概最为合适。微软谷歌亚马逊等云计算巨头加速自研AI芯片,削弱对英伟达的依赖,国内厂商受限于宏观环境,更难获得最新的AI算力产品,不得不在产业链缺失的条件下自研。

所有人都能看到水面之上的英伟达,“挤牙膏式”更新迭代着自己的产品,更大的算力、带宽,更强的生态绑定,榨干AI产业的每一分资本支出,但是国内和国外厂商的诸多AI算力研究还潜藏在水面之下,等待合适的时机。

一个时代有一个时代的计算架构,英伟达取代英特尔如此,其他厂商要对标甚至取代英伟达,也需要以年为周期的持久投入,以及一点幸运,毕竟谁能想到做游戏显卡,能成AI算力巨擘。

没有一家厂商,比华为更想在水面之上自由呼吸,海外巨头在自研和采购英伟达之间尚有妥协空间,华为以及对AI算力有需求的所有中国企业别无他法。

在介绍CloudMatrix 384超节点之前,有必要引入英伟达的NVL72,2024年英伟达GTC大会上,最大的亮点不是Grace Blackwell架构,不是NVLink domain,不是精度软件优化液冷等等,这些单点技术突破都足够优异且常规。

但是NVL72这个极致压缩又极致耦合的架构,为万亿级大模型训练和推理层面提供了前所未有的性能。

在训练方面,与上一代产品相比,通过32k GB200 NVL72 训练1.8万亿参数的GPT-MoE 模型性能可提升4倍。推理方面,GB200 NVL72加上FP4 精度和第五代 NVLink 等诸多技术,与上一代产品相比整体效率提升了30倍。

简单理解,大模型的Scaling Law意味着算力越大,模型越智能,而随着模型规模的增大,每增加相同数量的参数或计算资源,获得的性能提升逐渐减少,但是NVL72这种架构提供了更强的算力,且实现了平均token成本更低的Scale-up。

中国AI算力产业在单点层面还追不上英伟达产品,专为万亿大模型优化的AI算力集群,似乎又把战局拉得越来越远,此时,CloudMatrix 384超节点出现了。

被DeepSeek送上风口

面向AI时代的海量算力需求,华为云基于“一切可池化、一切皆对等、一切可组合”的新型高速互联总线架构推出CloudMatrix 384超节点,实现从服务器级到矩阵级的资源供给模式转变。

CloudMatrix 384超节点

CloudMatrix 384具备“高密”“高速”“高效”的特点,通过全面的架构创新,在算力、互联带宽、内存带宽等方面实现全面领先。

寥寥数语不足以显示CloudMatrix 384超节点的价值,先上结论,CloudMatrix 384超节点是在芯片制程、模型精度、HBM带宽等基础条件均受限的情况下,在实际业务场景中击败了英伟达同等对标产品的创新,走出国内突破AI算力封锁的跨越性一步。

譬如其中的高速互联总线,能够将GPU、CPU等各种不同的计算设备,都可以实现直接互联,不需要经过CPU中转通信,这是大参数模型仍然能取得高性能的前提。

少有人知道,CloudMatrix 384超节点的诞生,背负着怎样的压力。在基础算力不如英伟达的情况下,内部也有不少人持怀疑态度,技术是理性的,但创新需要一些感性思维。

升腾和英伟达先天存在差异,英伟达的路线不能照搬,这是一条必须自己蹚出来的路。有NVL72在先,国内AI算力厂商自然会尝试同等规模的算力集群,但是要不要做到384节点这么大,这意味着更大的不确定性。

成本直线上升不说,而且结果预期并不明确,不是堆节点就能堆出来大算力集群,国内其他厂商如果处理不好网络等一系列相关问题,更多的节点只会意味着更多的浪费,产品也没有竞争力。

彼时大模型的发展脉络还不清晰,384节点的大胆预研可能会造成浪费,错失一些关键机会,华为云承受着巨大的压力,创新的同义词就是风险,但是如果不做,跟在英伟达后面永远不可能超过英伟达。

新技术的发展,总是有一些不约而同的“巧合”,当DeepSeek的出现改变了大模型行业的走向,华为云惊喜地发现,此前有些模糊的预判得到了证实,上层大模型驱动底层AI基础设施朝着超节点的方向演进。

DeepSeek的模型训练采用MoE架构,MoE模型通过门控网络动态选择激活的专家,如DeepSeek-V3每层包含257个专家,每次仅激活8个专家,这导致不同GPU节点间需要频繁交换数据,在训练过程中会因All-to-All通信导致GPU闲置等问题。

此外,MoE模型里专家可能“冷热不均”,有的专家被频繁调用,有的闲置,同时传统单机8卡架构无法满足MoE模型对专家数量的扩展需求。

DeepSeek开源大模型不仅是算法的胜利,其突出价值表现在从底层优化AI模型的可能性,起初DeepSeek在英伟达H100的基础上做训练,但是外部团队很难复现DeepSeek模型的效果的效率,即便用同样的H100也不行。

随后DeepSeek公布了一系列软件仓库,相当于把自己的调优过程做成了教程,但是行业发现,若采用单机部署方案,最终的性能远不如 DeepSeek 官方公布的部署方案,且至少有数倍成本差距。更具挑战的是,虽然 DeepSeek 公开了大 EP 并行方案,但技术难度较大,业内还没有其他团队快速复现这一部署方法。

回过头看,DeepSeek在AI基础设施层面做大量的工程创新是无奈之举,英伟达巴不得大模型训练用更多的卡,DeepSeek用更少的卡实现了更优的计算效果,一定程度上影响了英伟达GPU的销量。

在DeepSeek之后,英伟达才优化了自己的GPU,使其适合MoE架构的训练,这更像是一种被动式的响应客户需求。但是华为云CloudMatrix 384超节点不同,在DeepSeek之前,华为云其实并不完全确定CloudMatrix 384超节点是否能让客户愿意买单。

市场会奖励押中未来的创新者,华为云目前是业界唯一采用对等架构超节点技术提供算力服务的云厂商,数据显示:CloudMatrix 384超节点的算力提升幅度高达50倍,达300Pflops,相比NVL72提升67%;网络带宽提升了1倍;超节点的内存(HBM)带宽则提升了1.13倍。

这不是PPT数据,而是实际业务场景中的效果。硅基流动联合华为云基于CloudMatrix 384 超节点升腾云服务和高性能推理框架SiliconLLM,用大规模专家并行最佳实践正式上线DeepSeek-R1。

该服务在保证单用户 20TPS 水平前提下,单卡Decode吞吐突破1920Tokens/s,可比肩H100部署性能。同时,经过主流测试集验证及大规模线上盲测,在升腾算力部署DeepSeek-R1的模型精度与DeepSeek官方保持一致。

以往对标英伟达同等产品的国内算力卡,在实际业务场景可能要打个五折,甚至低至两折,基于华为对标H100的算力卡,华为云实现了在单芯片性能略逊的情况下,通过一系列优化措施超过H100的业务效果。

华为云是如何做到的?

坦诚而言,在AI算力层面,包括华为在内的国内算力,距离英伟达还有不小的差距,但是华为云另辟蹊径,在前方没有路标的情况下,找到了一条突破英伟达封锁的路线。

华为的解决方案是“用非摩尔定律的方法解决摩尔定律的问题”,单个芯片算力不足,就用Chiplet来封装,同样的芯片数量依然不足达到NVL72的水平,那就上升一层做系统级创新,结合华为在联接领域的老本行,以及其他系统级优化能力,实现了比NVL72更高的集群算力利用率。

华为公司副总裁张修征也指出:“应以空间换算力、带宽换算力、能源换算力,应把算力、存力、运力、电力作为一个复合要素考虑,这一系统性思维在刚刚发布的CloudMatrix 384超节点上体现得尤为明显。”

不同于业界此前的方案,CloudMatrix 384超节点技术跳出单点技术限制走向系统性、工程性的创新,从“堆芯片”走向“拼架构”,走出突破AI算力封锁的跨越性一步,让许多AI应用落地难题有了迎刃而解的契机。

张修征强调:“伴随架构创新的突破,升腾 AI 云服务在推理效率、模型精度上已经持平于业界领先水平,在某些领域如智驾等已经领先于业界,这或将彻底终结大家的算力焦虑。”

48台384卡的紧耦合互联,打造成一个超级云服务器,实现算力规模50倍提升,值得一提的是,英伟达用了72个GPU,华为云用了384个NPU,在性能实现赶超的情况下,功耗只是小幅提升,而不是等比例提升。

但这也不得不带来另一个烦恼,当大模型算力集群变得愈发复杂,数千根光纤的物理交互、高密的算力和网络设备,液冷支撑体系等,一般企业难以维护CloudMatrix 384 超节点这样的基础设施,华为云也提前考虑到了难题,给出了解决方案。

传统云服务以单台服务器为交付单元,超节点通过“云的方式”来提供服务,对用户来说性价比是远远大于自建数据中心。

一是超节点建设成本高,自建费时费力,芯片更新换代快,采用自建IDC方式,将会大大增加客户的建设成本。

二是超节点运维难度高,因其架构复杂,涉及到的运维工具更多。支持大模型的智算中心故障率要远高于普通数据中心,华为云独有的系统能力,可以帮助超节点长稳智能地运维,能更好地帮助客户解决问题。

张平安表示,面向智能世界,华为云致力于做好行业数字化的“云底座”和“使能器”,加速千行万业智能化。依托AI全栈能力,华为云将坚定打造“自主创新、安全可信”的AI算力底座,依托升腾AI云服务推动各行各业AI快速开发落地。

《孙子兵法·谋攻篇》写道:故上兵伐谋,其次伐交,其次伐兵,其下攻城。攻城之法,为不得已。英伟达的存在让很多人感到无力,怀疑中国算力产业能不能、需要多久才实现算力第二极的目标。

某种意义上AI产业之争就是信心之争,中国算力产业需要更多诸如CloudMatrix 384超节点之类的创新,乌云依旧在,也可能长时间笼罩在头顶,但至少我们看到了一道裂缝,信心比什么都重要,这才是华为云之于中国AI产业更重要的意义。

责任编辑:栎树

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10