文|數據猿
當聚光燈都照在英偉達、AMD上的時候,有一家公司已經悄然崛起了。
2024年,博通(Broadcom)股價在上漲超60%。2024年12月13日,博通的股價更是在一天內狂飆24%,市值突破1萬億美元,成爲僅次於英偉達和臺積電的全球第三大半導體公司。如今,其市值已經超過1.1萬億美元。
點燃資本市場對博通熱情的,是一個關鍵詞——ASIC。
另一方面,英偉達也在ASIC領域有大動作。據悉,自2024年中起,英偉達開始在臺灣的半導體企業積極招聘ASIC設計工程師,涉及前段設計驗證、IP整合和PHY設計等關鍵領域,計劃在臺灣開設研發中心,擬招聘1000多人。
這一切,都指向一個懸而未決的問題:GPU的時代是否已經接近尾聲?是否有一種新的、更適合AI大模型計算的硬件架構正在悄然崛起?
在這場即將上演的“GPU vs. ASIC”的硬件之戰中,英偉達的GPU能否繼續保持其技術優勢?ASIC是否能真正挑戰GPU,甚至取而代之,成爲下一代AI計算的主流架構?如果這一假設成立,那對於中國玩家又意味着什麼?
英偉達一路走來不容易
英偉達的故事始於1993年,當時,隨着個人電腦遊戲市場的興起,對圖形性能的需求急劇增加。英偉達迅速瞄準這一市場,推出了圖形處理單元,專注於圖形渲染和計算。這個領域在當時有着明確的市場需求,英偉達憑藉其高效能顯卡逐步在市場上站穩了腳跟。
然而,英偉達的眼光並不侷限於遊戲市場。2006年,英偉達發佈了CUDA(Compute Unified Device Architecture),爲GPU開闢了新的領域——通用計算。CUDA的出現讓GPU不僅僅處理圖形渲染任務,而是能夠廣泛應用於需要大量並行計算的領域。
通過這項技術,英偉達成功地將GPU從單純的圖形渲染工具轉型爲可以進行復雜科學計算、數據處理和機器學習的通用計算平臺。CUDA的發佈,爲後來的深度學習和AI應用奠定了技術基礎,標誌着英偉達邁入了新的增長軌道。
隨着深度學習的崛起,尤其是卷積神經網絡(CNN)的廣泛應用,GPU的優勢得到了進一步釋放。CNN的計算需求主要集中在大量的矩陣乘法和並行計算,這正是GPU最擅長的領域。2012年,隨着深度學習的廣泛興起,英偉達將其CUDA平臺進一步優化,專門針對深度學習中的計算任務進行了加速。正是深度學習對大規模數據處理的高效需求,使得GPU成爲了AI計算中不可替代的工具。
尤其在2016年,英偉達發佈了Volta架構,搭載了專爲深度學習設計的Tensor Cores。Tensor Cores優化了深度學習中必不可少的矩陣運算(如卷積層的矩陣乘法),大幅提升了計算效率。相比傳統GPU,Volta架構的推出讓英偉達的顯卡在訓練AI模型時的性能得到了飛躍性的提升。英偉達的GPU不再只是遊戲和圖形渲染的代名詞,而是成爲了大規模AI訓練和推理的核心硬件。
到了2020年,AI訓練任務的規模已經發生了質變,特別是像GPT-3這樣的語言模型,其訓練時所需的計算量遠超此前任何AI模型。英偉達發佈了A100 Tensor Core GPU,進一步升級了其硬件架構,針對深度學習、數據科學和推理任務進行了專門優化。
A100不僅在處理大規模AI訓練時顯示出優越的性能,而且具有更強的多任務處理能力,支持更廣泛的應用場景。其內嵌的Tensor Cores在支持不同精度計算的同時,提升了AI大模型所需的吞吐量和效率,使得A100成爲當時業內公認的AI訓練“黃金標準”。
與此同時,英偉達還推出了DGX A100,這是一個集成了多個A100 GPU的計算平臺。DGX A100不僅提供單GPU的強大性能,還通過多GPU的協同工作,提升了超大規模AI模型訓練的效率。與傳統的分佈式計算平臺相比,DGX A100在硬件層面的優化與軟件層面的協同,使得其計算能力呈指數級提升,能夠處理更大規模的模型和數據集。
儘管英偉達的GPU在AI領域的表現無可挑剔,但AI大模型的計算需求不斷升級,英偉達依然面臨着挑戰。2021年,英偉達宣佈了即將推出的Hopper架構,該架構將進一步優化AI訓練中的稀疏計算能力。在AI大模型的計算過程中,很多神經網絡並不是滿連接的,這就形成了稀疏計算的需求。Hopper架構將在這一點上做出突破,進一步提升AI訓練的計算密度,使得GPU能夠更高效地利用計算資源,處理更加龐大的模型。
然而,即使在不斷推出新架構的同時,英偉達也意識到,AI計算面臨的不僅僅是單一硬件的挑戰。2022年,英偉達推出了Grace架構,這是一款專爲高性能計算(HPC)和AI任務設計的CPU架構,能夠與英偉達的GPU平臺無縫協作,提升數據吞吐量和帶寬,爲超大規模AI模型的訓練提供更加有力的支持。
Grace的推出意味着英偉達不僅僅依賴GPU的單一優勢,而是通過跨硬件架構的協同工作,進一步提升其在AI大模型計算中的競爭力。
GPU並不是爲AI而生的
英偉達的GPU無疑在過去幾年中通過其強大的並行計算能力,主導了深度學習和大規模AI模型的訓練與推理。但隨着AI模型,特別是像GPT-4這樣的超大規模神經網絡的不斷發展,GPU面臨的侷限性愈加明顯。從技術本質上來講,GPU是否能夠繼續滿足未來AI計算的需求,甚至是否能夠繼續維持其在AI領域的統治地位,已經開始受到質疑。
在深入分析GPU的侷限性之前,首先我們需要理解AI大模型的計算需求,尤其是這些模型如何進行工作。以GPT-4爲代表的現代AI大模型,核心依賴的是深度神經網絡,尤其是Transformer架構中的矩陣運算。這些矩陣運算在大規模神經網絡的訓練中至關重要,正是這些計算要求對硬件提出了巨大的挑戰。
在一個像GPT-4這樣的自然語言處理模型中,當用戶提出問題時,模型背後所做的工作是通過多層的神經網絡對輸入文本進行處理,逐步生成回答。這個過程本質上是通過多個數學操作,尤其是矩陣乘法和加法,來執行以下幾步:
1. 輸入嵌入(Embedding):每個輸入詞語(token)被轉化爲一個高維的向量,這個向量會在網絡中傳遞,代表輸入信息的特徵。
2. 自注意力機制(Self-Attention):在Transformer架構中,每一層神經網絡首先通過自注意力機制來評估每個token與其他token之間的相關性。這一過程需要進行大量的矩陣計算,以便將各個詞之間的關係融合起來。
3. 前饋神經網絡(Feed-Forward Neural Network):自注意力機制處理完之後,數據會傳入前饋網絡進行進一步的處理。這一過程中,模型對輸入數據進行非線性變換,並使用激活函數來提高表達能力。
4. 反向傳播與梯度更新:神經網絡的學習過程通過反向傳播算法進行。這個過程依賴於計算每一層的梯度,並通過矩陣運算調整網絡權重。反向傳播中的梯度計算同樣依賴於大量的矩陣乘法和加法運算。
可以看到,神經網絡的工作原理中,最爲基礎和高頻的操作就是矩陣運算,特別是大規模矩陣的乘法。在這類計算中,GPU的並行計算能力能夠起到至關重要的作用。然而,這種計算本身的特點,決定了GPU架構與AI大模型需求之間的一些契合點,同時也暴露出一些顯著的侷限性。
GPU特別擅長執行並行計算,而神經網絡中的矩陣運算正是高度並行的操作。英偉達的GPU通過其大量的CUDA核心和專門優化的Tensor Cores來加速這些計算任務。具體來說,Tensor Cores是英偉達爲深度學習設計的硬件單元,它們優化了矩陣乘法和加法運算,特別適合執行深度神經網絡中常見的浮點數計算。
但是,儘管GPU在執行這些計算時非常高效,它的架構也存在與AI大模型計算需求之間的差距。尤其是在面對超大規模模型時,GPU的架構開始顯示出一些侷限性。
GPU的性能瓶頸之一就是內存帶寬,雖然GPU具有強大的計算能力,但它的內存和處理器之間的連接,尤其是內存訪問速度,始終是一個限制因素。在大規模AI模型的計算中,模型的參數量和訓練數據量越來越大,這就意味着需要頻繁從內存中讀取大量數據,並將計算結果寫回內存。
以GPT-4爲例,模型參數量達到數百億,這導致了每次數據訪問的帶寬需求極其高。雖然HBM2(高帶寬內存)在英偉達的A100、H100中得到了應用,但即便如此,GPU的內存帶寬還是無法完全滿足超大規模AI計算的要求。隨着模型規模的擴大,內存訪問的瓶頸問題日益嚴重,極大地影響了整體計算效率。
GPU的另一個瓶頸是功耗,隨着GPU核心數和計算頻率的增加,功耗呈現出指數級的上升。比如,英偉達的H100顯卡的功耗已接近500瓦特,這對於數據中心的能效管理提出了更高的要求。特別是在AI大模型訓練過程中,隨着計算負載的增加,GPU的功耗和熱量也隨之增加,進一步加劇了散熱問題。
此外,GPU的功耗問題也限制了其在大規模計算環境中的擴展性。當需要大量GPU集羣時,如何有效地管理能源和散熱,成了一個不容忽視的問題。在全球推動綠色計算的背景下,GPU的功耗問題顯然是其持續擴展的一個潛在制約因素。
當然,最關鍵的還是GPU的性能提升已經進入了一個瓶頸期,尤其是在面對大規模神經網絡時。雖然英偉達每一代GPU在性能上都有所提升,但其提升的幅度逐年放緩。
例如,Ampere A100的浮點計算能力爲19.5 TFLOPS,而其前代Volta V100爲15.7 TFLOPS,提升幅度爲24%。然而,從Ampere到Ada Lovelace(即H100到RTX 4090),每一代的性能提升幅度已經趨於平緩,尤其在超大規模AI計算的背景下,這種提升的速度無法滿足未來AI發展的需求。
從技術本質上看,GPU的通用計算架構並不完全契合AI大模型的需求。AI大模型,尤其是像GPT-4這樣的超大規模網絡,往往對某些特定操作(如矩陣乘法、前饋網絡的線性變換等)有非常高效的需求,而GPU的通用性架構需要在多個計算任務之間做出平衡,導致其在某些特定操作上難以做到精細化優化。
這也就意味着,未來爲了應對AI大模型不斷增長的計算需求,我們可能需要尋找一種能夠專門針對AI計算優化的硬件架構。這正是ASIC(專用集成電路)所能解決的問題,它能夠專門爲AI大模型計算設計,更好地契合這些模型的需求。
如果這個假設成立,那ASIC就像是射向英偉達的一顆子彈,會對其帝國產生不小的威脅。
GPU vs ASIC,勝算幾何?
在AI大模型的訓練和推理中,GPU和ASIC都展示出了強大的計算能力。然而,它們的計算架構和優化方法有着深刻的區別,這種區別不僅影響到計算性能,還直接關係到它們能否滿足超大規模神經網絡的需求。爲了深入理解這些差異,我們需要從底層原理、硬件架構和計算方式上進行詳細分析。
● 通用性與專用性:架構設計的根本差異
GPU和ASIC的核心區別首先體現在它們的架構設計上,GPU的設計初衷是爲圖形渲染而生,其結構更側重於並行計算。
然而,儘管GPU在這些任務上表現出色,它的本質仍然是一個“通用計算平臺”。換句話說,GPU的設計是爲了處理廣泛的計算任務,包括但不限於圖形渲染、視頻處理和科學計算等。這種通用性使得GPU在處理深度學習任務時,雖然有專門的加速單元(如Tensor Cores),但依然面臨着一定的資源浪費和計算冗餘。
相比之下,ASIC的設計是爲特定任務量身定製的。ASIC(專用集成電路)是針對特定應用設計的硬件,其所有計算資源和邏輯單元都圍繞一個核心任務來優化。比如,Google的TPU就是爲深度學習任務定製的ASIC芯片,它專門優化了矩陣乘法、卷積操作等神經網絡中的關鍵計算步驟。因此,ASIC不僅在計算能力上能做到“精準匹配”,還能夠消除不必要的冗餘計算。
● 矩陣運算優化:GPU與ASIC的差異
矩陣運算是神經網絡計算中最基礎的組成部分,尤其在深度學習中,矩陣乘法的計算量龐大,精度要求高。因此,如何高效地處理這些矩陣運算,直接決定了AI計算的效率。
在GPU中,英偉達通過Tensor Cores優化了矩陣乘法操作。Tensor Cores是專門設計的硬件單元,能夠在一個時鐘週期內執行多個浮點運算,從而加速神經網絡中的矩陣計算。雖然這種優化對於大多數深度學習任務已經足夠有效,但它仍然是“軟件優化與硬件加速結合”的結果。
雖然,通過CUDA編程模型,開發者可以靈活地將計算任務分配到GPU的多個核心上,但這種靈活性也意味着GPU在深度學習任務中的優化並非盡善盡美。每一代英偉達GPU都通過增加更多的CUDA核心、提高時鐘頻率來提升性能,但它們依舊是在一個通用計算框架內進行優化,這就帶來了功耗和計算冗餘的問題。
反觀在ASIC,其矩陣運算優化則直接體現在硬件級別。Google的TPU就是一個很好的例子。TPU專門爲深度學習任務設計,它的計算單元通過硬件級別的設計深度優化了矩陣乘法、卷積和其它基礎神經網絡操作。與GPU不同,TPU的硬件資源和計算通路是專門爲處理神經網絡而定製的,這種專用化的設計使得TPU能夠在執行這些特定任務時,消除任何不必要的計算步驟和資源浪費,從而在效率和能效上遠超GPU。
這種硬件級優化,使得ASIC可以在特定的計算任務中達到極致的性能。例如,TPU通過數以千計的處理單元來並行處理矩陣計算,而每個處理單元都能夠直接執行神經網絡中的矩陣乘法任務。這樣的設計可以大大減少數據傳輸的延遲,並優化計算資源的使用效率。
● 性能、功耗與效率:硬件定製化的優勢
另一個顯著的差異在於能效,雖然英偉達的GPU通過硬件優化(如Tensor Cores)和軟件優化(如CUDA框架)有效提升了深度學習任務的性能,但其整體架構依然是爲多種任務服務的,計算過程中的能效無法與ASIC相提並論。
GPU在處理深度學習任務時,雖然性能強勁,但它的功耗通常較高,尤其是在超大規模模型計算中,功耗和散熱成爲限制其擴展性的瓶頸。
與之相比,ASIC的設計從根本上考慮到了高效的功耗管理。由於其專用化設計,ASIC能夠根據任務的特點優化計算流程,減少冗餘計算,最大限度地提升計算效率,大幅度降低功耗。
● 靈活性與效率的抉擇:GPU與ASIC的應用場景
儘管ASIC在效率和能效上無可比擬,但GPU的優勢在於它的靈活性。GPU可以適應各種不同的計算任務,尤其是在多個計算任務並行執行的場景中,GPU仍然是一個強大的計算平臺。GPU能夠通過CUDA等軟件框架靈活地調度資源,滿足各種複雜計算的需求。它非常適合在不斷變化的AI任務中發揮作用,尤其是在需要調試和開發的早期階段。
然而,當AI任務變得越來越專業和規模化時,ASIC的專用性開始展現出不可替代的優勢。尤其是在超大規模AI模型訓練、推理的場景下,ASIC能夠通過精細化的硬件設計,爲每個計算步驟提供最優化的支持,從而提高計算效率,降低能耗,實現更快速、更經濟的計算。
ASIC玩家已成爲一股不可忽視的力量
在現階段,GPU仍然是AI計算的主流硬件,而ASIC則作爲特定任務的加速器,彌補GPU的不足。未來的AI計算格局,很可能會是在GPU與ASIC的結合使用下展開。
在目前的ASIC玩家中,博通和谷歌是兩個最典型的代表。
尤其是博通,在ASIC領域的發展呈現出強勁的態勢。據悉,在2024財年,博通的AI業務(網絡芯片+ASIC定製芯片)營收達122億美元,同比增長220%。這一增長勢頭在未來預計將持續,預計2027年可服務潛在市場規模爲600-900億美元。
博通收支拆解 數據來源:同花順
博通的核心技術產品,是基於對XPU的定製化設計和高性能互聯技術。通過定製化的ASIC芯片,滿足不同客戶在特定任務上的高效計算需求。例如在與谷歌合作的TPU項目中,博通爲TPU提供了關鍵的芯片間互聯通信知識產權,助力谷歌的TPU在深度學習推理和訓練中優化矩陣乘法等關鍵計算操作,提升了AI計算效能。
另一方面,谷歌在ASIC領域的發展也取得了顯著成果。谷歌早在2013年就開始自研芯片,2016年推出TPU v1,2024年發佈第六代TPU Trillium並向谷歌雲客戶開放。其核心技術產品TPU系列採用了脈動陣列等專爲AI設計的芯片架構,在執行矩陣計算時具有存儲消耗少、功耗低等優勢。而且,其TPU還與谷歌的TensorFlow XLA生態緊密結合,能夠更好地發揮其在深度學習中的作用。
博通和谷歌在ASIC領域的發展,呈現出緊密的合作關係。博通爲谷歌提供關鍵的芯片技術支持,助力谷歌的TPU發展。谷歌則通過不斷優化TPU的性能和應用,推動整個ASIC市場的發展。
先不要妄談超越,還有幾道難關要過
需要指出的是,儘管ASIC芯片在AI計算中蘊含着巨大的潛力,尤其是在超大規模AI模型的計算需求中,但它要想真正超越GPU,面臨的技術挑戰和生態瓶頸卻遠比想象中的複雜。
● 靈活性與適應性:ASIC的“硬傷”
ASIC的最大優勢在於它的專用性,而正是這種“爲一項任務量身定製”的特性,使得它在特定應用上具備無可比擬的效率優勢。然而,這種專用性也讓它在面對AI領域的多樣化需求時顯得捉襟見肘。
AI的核心動力之一就是其無窮變化的需求——從自然語言處理到計算機視覺,再到強化學習,每一個AI任務的計算方式都可能截然不同。爲了應對這些變化,GPU展現出驚人的靈活性,它的架構雖然是通用的,但卻能夠快速通過軟件框架(如CUDA、TensorRT等)進行調整,適配各種計算需求。
然而,ASIC的設計一旦固定下來,就難以快速變更。想象一下,若AI領域出現一個突破性的算法(如自我監督學習、量子計算),ASIC是否能夠快速適應?很顯然,答案是否定的。GPU通過不斷的軟件更新和架構優化,已經進入了“自我進化”的循環,而ASIC依賴的是硬件本身的精確優化,其適應新需求的速度遠遠慢於GPU。這種靈活性的匱乏,註定了ASIC在面對不斷變化的AI場景時的短板。
● 開發成本與週期:在迅速發展的技術面前,ASIC的慢性病
硬件的開發,尤其是ASIC的設計,不僅僅是技術上的挑戰,更是時間和資金的考驗。與GPU相比,ASIC的設計週期長、成本高,且無法像GPU那樣依賴現有的廣泛的開發工具和生態。在GPU的世界裏,英偉達的CUDA平臺已成爲所有開發者的“標配”,無數深度學習框架和應用都在此基礎上進行優化和開發。這使得英偉達能夠在每一次技術迭代中,通過軟件加速架構的優化來提升性能,而ASIC則沒有這麼便利的“捷徑”。
例如,谷歌的TPU系列從發佈至今,經歷了多個迭代,每次改進都需要極其精細的硬件優化。而這種優化,往往是在有限的資源和時間窗口內進行的。ASIC的這種“硬件驅動”的進步方式,意味着它在面對市場對算力日益增長的需求時,反應速度遠不如GPU。更重要的是,AI技術的迭代速度極快,每一代的新模型、新算法都要求計算硬件能夠提供迅速而精準的適配,而ASIC的開發週期和高成本,無疑使它在競爭中處於劣勢。
● 生態挑戰:沒有“CUDA”的ASIC,如何超越GPU?
當我們討論GPU的成功時,不可忽視的一個關鍵因素是英偉達在全球開發者心中所建立的深厚情感和技術“粘性”。CUDA作爲一個面向AI、深度學習的並行計算框架,幾乎成爲了AI應用的默認標準。
它不僅是一組API,更是一個巨大而深遠的生態系統。從開源框架(如TensorFlow、PyTorch)到商業應用,再到雲計算平臺,所有主流AI工作負載都在CUDA的支持下迅速發展。英偉達不僅打造了強大的硬件,還通過生態建設,爲AI開發者提供了一個高效、便捷的開發環境。
但對於ASIC而言,如何打造一個類似的開發者生態?沒有類似CUDA的生態平臺支持,ASIC的性能優勢將難以廣泛推廣。就像過去的GPU能在深度學習領域異軍突起,不僅是因爲它的硬件能力,更因爲有了一個全世界開發者都願意參與的生態系統。ASIC如果沒有強大的平臺和開發者支持,註定只能是一個“孤島”,無法與GPU一爭高下。
從根本上來說,任何想要挑戰GPU主導地位的ASIC,必須擁有一個能夠跨越硬件與軟件之間鴻溝的生態支持平臺。這不僅僅是一個技術問題,更是一個商業模式、開發者生態與產業合作的問題。單靠硬件的提升,顯然無法撼動GPU的江山。
中國AI芯片企業的新機會?
對於中國企業而言,英偉達在GPU上的壁壘太深厚了,要突破幾乎沒什麼可能。而ASIC的出現,則給了中國企業另外的選擇。相對於被英偉達稱霸的GPU,ASIC還是一塊“處女地”。
當然,中國的AI芯片企業,想要實現“彎道超車”,同樣需要付出巨大的努力。那麼,可以怎麼做呢?
在硬件層面,可以借鑑Google TPU的定製化思路,追求芯片的高度專業化,針對AI大模型訓練、推理等核心任務進行深度優化。這意味着,AI芯片不僅需要在算力和能效上突破現有瓶頸,還要在AI的多樣化場景中實現精準適配。
與GPU的“通用”架構不同,ASIC芯片的優勢正是源於其“專用”特性。中國的AI芯片企業可以在推理加速、低延遲計算、低功耗優化等方面,進行極致定製化設計。以智能醫療、自動駕駛、智慧城市爲代表的垂直行業,正是ASIC芯片的“藍海”。如果能夠在這些領域實現“技術壁壘”,就能爲後續的市場擴展提供強有力的支撐。
硬件產品只是第一步,未來AI芯片的競爭,決定性因素往往在於“生態”。中國的AI芯片公司,必須加速構建軟硬結合的開發者生態。例如,寒武紀、壁仞科技、華爲等的AI芯片,除了硬件技術的突破外,必須要有與之匹配的軟件開發工具和平臺。從深度學習框架到開發者工具,再到雲端服務的集成,只有構建起從硬件到軟件、從平臺到應用的完整生態,才能真正與全球巨頭抗衡。
可以說,中國AI芯片產業正站在一個重要的歷史節點上。
以前,我們經常問“誰是中國版英偉達”。現在,更合適的問題,也許是“誰是中國版博通”。
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。