“信心,比黃金和貨幣更重要。”
2008年經濟危機之時,金融風暴席捲全球,來勢很猛、速度很快,使西方各大國無不疲於奔命,雖然採取了多種措施救市,提振本國經濟,無奈效果不佳。
“在經濟困難面前,信心比黃金和貨幣更重要。”中國發聲並挺身而出,站在了應對金融危機的最前沿。
此時此刻,恰如彼時彼刻。無論是宏觀經濟環境的封鎖,還是世界產業鏈的逆全球化,企業像是時代海洋裏的一葉扁舟,努力地找尋方向,努力地讓自己不至於頃刻翻覆。
華爲可能是最有感觸的一家,一方面,本次華爲被置於戰場前線,受到了最爲猛烈的炮火轟擊;另一方面,華爲上一次嚴重危機,正是2008年經濟危機所造就。
經歷過危機的老華爲人有些熟悉,同樣是在公司保持連年增長的勢頭上,然後突然發生黑天鵝事件,華爲的應對也有一些相似,大致的三部曲可以理解爲,先聚焦主業,強調利潤和現金流;再激活組織活力,讓能打糧食的人到一線;最後也是最關鍵的一步,創新致勝,確保自己的創新跟上時代。
2022年,華爲創始人任正非在內部講話中提到,如果按計劃在2025年我們會有一點點希望,那麼我們要先想辦法度過這三年艱難時期,生存基點要調整到以現金流和真實利潤爲中心,不能再僅以銷售收入爲目標。
到了2024年,華爲實現全球銷售收入8621億元,同比增長22.4%,創下2021年之後的新高,淨利潤626億元,經營收入開始恢復。
至此爲止,華爲還不能說完成度過危機的三部曲。任正非曾提到,“中國99%的公司可以與美國合作,他們沒有受到制裁,他們的芯片算力比我們的高,他們能買到的東西比我們好。在這樣的條件下,未來幾年我們能不能爲生存活下去?我們還在掙扎中,內部還在講怎麼克服很多困難。”
自2019年5月16日開始,華爲連續幾年遭遇制裁,烈度不斷升級,耗費了大量的人力、物力、財力恢復業務連續性,不止是爲了確保基本的經營,更是要在美國封禁最嚴苛的領域蹚出一條路。
華爲依舊處於危機之中,如果不能在AI算力領域成爲世界第二極,那麼華爲逃不過這場慢性衰落,可能在國內有足夠的生存空間,但在國際市場失去競爭力,對於中國AI產業來說,大概也是如此。
華爲以及中國AI算力產業都需要信心,遠比當下的現金流和利潤還重要得多,這也是爲何當華爲雲計算CEO張平安拿出了AI基礎設施架構突破性進展——CloudMatrix 384超節點之後,迅速吸引了中國AI產業的集中關注。
歷史上多數企業由危轉機的拐點,往往都是用顛覆性創新開啓新一輪增長週期。
“天下苦英偉達久矣”
英偉達攫取了大模型行業發展至今的絕大部分利潤,幾乎壟斷了AI算力,全世界不少聰明的頭腦都在思考同一個問題,如何突破英偉達的“封鎖”,不僅僅是國內AI產業,國外的訴求同樣迫切。
如果用一個關鍵詞來形容AI算力產業,“冰山之下”大概最爲合適。微軟、谷歌、亞馬遜等雲計算巨頭加速自研AI芯片,削弱對英偉達的依賴,國內廠商受限於宏觀環境,更難獲得最新的AI算力產品,不得不在產業鏈缺失的條件下自研。
所有人都能看到水面之上的英偉達,“擠牙膏式”更新迭代着自己的產品,更大的算力、帶寬,更強的生態綁定,榨乾AI產業的每一分資本支出,但是國內和國外廠商的諸多AI算力研究還潛藏在水面之下,等待合適的時機。
一個時代有一個時代的計算架構,英偉達取代英特爾如此,其他廠商要對標甚至取代英偉達,也需要以年爲週期的持久投入,以及一點幸運,畢竟誰能想到做遊戲顯卡,能成AI算力巨擘。
沒有一家廠商,比華爲更想在水面之上自由呼吸,海外巨頭在自研和採購英偉達之間尚有妥協空間,華爲以及對AI算力有需求的所有中國企業別無他法。
在介紹CloudMatrix 384超節點之前,有必要引入英偉達的NVL72,2024年英偉達GTC大會上,最大的亮點不是Grace Blackwell架構,不是NVLink domain,不是精度軟件優化液冷等等,這些單點技術突破都足夠優異且常規。
但是NVL72這個極致壓縮又極致耦合的架構,爲萬億級大模型訓練和推理層面提供了前所未有的性能。
在訓練方面,與上一代產品相比,通過32k GB200 NVL72 訓練1.8萬億參數的GPT-MoE 模型性能可提升4倍。推理方面,GB200 NVL72加上FP4 精度和第五代 NVLink 等諸多技術,與上一代產品相比整體效率提升了30倍。
簡單理解,大模型的Scaling Law意味着算力越大,模型越智能,而隨着模型規模的增大,每增加相同數量的參數或計算資源,獲得的性能提升逐漸減少,但是NVL72這種架構提供了更強的算力,且實現了平均token成本更低的Scale-up。
中國AI算力產業在單點層面還追不上英偉達產品,專爲萬億大模型優化的AI算力集羣,似乎又把戰局拉得越來越遠,此時,CloudMatrix 384超節點出現了。
被DeepSeek送上風口
面向AI時代的海量算力需求,華爲雲基於“一切可池化、一切皆對等、一切可組合”的新型高速互聯總線架構推出CloudMatrix 384超節點,實現從服務器級到矩陣級的資源供給模式轉變。
CloudMatrix 384超節點
CloudMatrix 384具備“高密”“高速”“高效”的特點,通過全面的架構創新,在算力、互聯帶寬、內存帶寬等方面實現全面領先。
寥寥數語不足以顯示CloudMatrix 384超節點的價值,先上結論,CloudMatrix 384超節點是在芯片製程、模型精度、HBM帶寬等基礎條件均受限的情況下,在實際業務場景中擊敗了英偉達同等對標產品的創新,走出國內突破AI算力封鎖的跨越性一步。
譬如其中的高速互聯總線,能夠將GPU、CPU等各種不同的計算設備,都可以實現直接互聯,不需要經過CPU中轉通信,這是大參數模型仍然能取得高性能的前提。
少有人知道,CloudMatrix 384超節點的誕生,揹負着怎樣的壓力。在基礎算力不如英偉達的情況下,內部也有不少人持懷疑態度,技術是理性的,但創新需要一些感性思維。
升騰和英偉達先天存在差異,英偉達的路線不能照搬,這是一條必須自己蹚出來的路。有NVL72在先,國內AI算力廠商自然會嘗試同等規模的算力集羣,但是要不要做到384節點這麼大,這意味着更大的不確定性。
成本直線上升不說,而且結果預期並不明確,不是堆節點就能堆出來大算力集羣,國內其他廠商如果處理不好網絡等一系列相關問題,更多的節點只會意味着更多的浪費,產品也沒有競爭力。
彼時大模型的發展脈絡還不清晰,384節點的大膽預研可能會造成浪費,錯失一些關鍵機會,華爲雲承受着巨大的壓力,創新的同義詞就是風險,但是如果不做,跟在英偉達後面永遠不可能超過英偉達。
新技術的發展,總是有一些不約而同的“巧合”,當DeepSeek的出現改變了大模型行業的走向,華爲雲驚喜地發現,此前有些模糊的預判得到了證實,上層大模型驅動底層AI基礎設施朝着超節點的方向演進。
DeepSeek的模型訓練採用MoE架構,MoE模型通過門控網絡動態選擇激活的專家,如DeepSeek-V3每層包含257個專家,每次僅激活8個專家,這導致不同GPU節點間需要頻繁交換數據,在訓練過程中會因All-to-All通信導致GPU閒置等問題。
此外,MoE模型裏專家可能“冷熱不均”,有的專家被頻繁調用,有的閒置,同時傳統單機8卡架構無法滿足MoE模型對專家數量的擴展需求。
DeepSeek開源大模型不僅是算法的勝利,其突出價值表現在從底層優化AI模型的可能性,起初DeepSeek在英偉達H100的基礎上做訓練,但是外部團隊很難復現DeepSeek模型的效果的效率,即便用同樣的H100也不行。
隨後DeepSeek公佈了一系列軟件倉庫,相當於把自己的調優過程做成了教程,但是行業發現,若採用單機部署方案,最終的性能遠不如 DeepSeek 官方公佈的部署方案,且至少有數倍成本差距。更具挑戰的是,雖然 DeepSeek 公開了大 EP 並行方案,但技術難度較大,業內還沒有其他團隊快速復現這一部署方法。
回過頭看,DeepSeek在AI基礎設施層面做大量的工程創新是無奈之舉,英偉達巴不得大模型訓練用更多的卡,DeepSeek用更少的卡實現了更優的計算效果,一定程度上影響了英偉達GPU的銷量。
在DeepSeek之後,英偉達才優化了自己的GPU,使其適合MoE架構的訓練,這更像是一種被動式的響應客戶需求。但是華爲雲CloudMatrix 384超節點不同,在DeepSeek之前,華爲雲其實並不完全確定CloudMatrix 384超節點是否能讓客戶願意買單。
市場會獎勵押中未來的創新者,華爲雲目前是業界唯一採用對等架構超節點技術提供算力服務的雲廠商,數據顯示:CloudMatrix 384超節點的算力提升幅度高達50倍,達300Pflops,相比NVL72提升67%;網絡帶寬提升了1倍;超節點的內存(HBM)帶寬則提升了1.13倍。
這不是PPT數據,而是實際業務場景中的效果。硅基流動聯合華爲雲基於CloudMatrix 384 超節點升騰雲服務和高性能推理框架SiliconLLM,用大規模專家並行最佳實踐正式上線DeepSeek-R1。
該服務在保證單用戶 20TPS 水平前提下,單卡Decode吞吐突破1920Tokens/s,可比肩H100部署性能。同時,經過主流測試集驗證及大規模線上盲測,在升騰算力部署DeepSeek-R1的模型精度與DeepSeek官方保持一致。
以往對標英偉達同等產品的國內算力卡,在實際業務場景可能要打個五折,甚至低至兩折,基於華爲對標H100的算力卡,華爲雲實現了在單芯片性能略遜的情況下,通過一系列優化措施超過H100的業務效果。
華爲雲是如何做到的?
坦誠而言,在AI算力層面,包括華爲在內的國內算力,距離英偉達還有不小的差距,但是華爲雲另闢蹊徑,在前方沒有路標的情況下,找到了一條突破英偉達封鎖的路線。
華爲的解決方案是“用非摩爾定律的方法解決摩爾定律的問題”,單個芯片算力不足,就用Chiplet來封裝,同樣的芯片數量依然不足達到NVL72的水平,那就上升一層做系統級創新,結合華爲在聯接領域的老本行,以及其他系統級優化能力,實現了比NVL72更高的集羣算力利用率。
華爲公司副總裁張修徵也指出:“應以空間換算力、帶寬換算力、能源換算力,應把算力、存力、運力、電力作爲一個複合要素考慮,這一系統性思維在剛剛發佈的CloudMatrix 384超節點上體現得尤爲明顯。”
不同於業界此前的方案,CloudMatrix 384超節點技術跳出單點技術限制走向系統性、工程性的創新,從“堆芯片”走向“拼架構”,走出突破AI算力封鎖的跨越性一步,讓許多AI應用落地難題有了迎刃而解的契機。
張修徵強調:“伴隨架構創新的突破,升騰 AI 雲服務在推理效率、模型精度上已經持平於業界領先水平,在某些領域如智駕等已經領先於業界,這或將徹底終結大家的算力焦慮。”
48臺384卡的緊耦合互聯,打造成一個超級雲服務器,實現算力規模50倍提升,值得一提的是,英偉達用了72個GPU,華爲雲用了384個NPU,在性能實現趕超的情況下,功耗只是小幅提升,而不是等比例提升。
但這也不得不帶來另一個煩惱,當大模型算力集羣變得愈發複雜,數千根光纖的物理交互、高密的算力和網絡設備,液冷支撐體系等,一般企業難以維護CloudMatrix 384 超節點這樣的基礎設施,華爲雲也提前考慮到了難題,給出瞭解決方案。
傳統雲服務以單臺服務器爲交付單元,超節點通過“雲的方式”來提供服務,對用戶來說性價比是遠遠大於自建數據中心。
一是超節點建設成本高,自建費時費力,芯片更新換代快,採用自建IDC方式,將會大大增加客戶的建設成本。
二是超節點運維難度高,因其架構複雜,涉及到的運維工具更多。支持大模型的智算中心故障率要遠高於普通數據中心,華爲雲獨有的系統能力,可以幫助超節點長穩智能地運維,能更好地幫助客戶解決問題。
張平安表示,面向智能世界,華爲雲致力於做好行業數字化的“雲底座”和“使能器”,加速千行萬業智能化。依託AI全棧能力,華爲雲將堅定打造“自主創新、安全可信”的AI算力底座,依託升騰AI雲服務推動各行各業AI快速開發落地。
《孫子兵法·謀攻篇》寫道:故上兵伐謀,其次伐交,其次伐兵,其下攻城。攻城之法,爲不得已。英偉達的存在讓很多人感到無力,懷疑中國算力產業能不能、需要多久才實現算力第二極的目標。
某種意義上AI產業之爭就是信心之爭,中國算力產業需要更多諸如CloudMatrix 384超節點之類的創新,烏雲依舊在,也可能長時間籠罩在頭頂,但至少我們看到了一道裂縫,信心比什麼都重要,這纔是華爲雲之於中國AI產業更重要的意義。
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。