前言:
預計至2025年,AI領域將經歷一次重大轉型,生成式AI的應用將不再侷限於回答簡單問題,而是通過智能系統解決更爲複雜的問題。
AI的未來發展不僅侷限於更大規模的模型構建,更在於模型能夠對問題進行分解、執行多步驟推理,並模擬人類思維過程。
作者| 方文三
圖片來源|網 絡
谷歌第七代TPUIronwood正式發佈
在本週三,谷歌公司正式推出了其第七代張量處理單元(TPU)——Ironwood。該公司宣稱,在大規模部署的條件下,該AI加速器的計算性能可達到全球最快超級計算機性能的24倍以上。
這款在Google Cloud Next 25大會上亮相的新芯片,標誌着谷歌在AI芯片研發領域十年戰略的關鍵轉折點。
此前谷歌自行研發的幾代TPU主要針對AI的訓練和推理任務,而Ironwood則是首款專爲推理任務設計的芯片。
Ironwood芯片旨在滿足生成式AI下一發展階段的巨大計算和通信需求。
Ironwood芯片具備卓越的技術規格,當每個pod擴展至9216塊芯片時,它能提供42.5 exaflops的AI計算能力。
這一數值遠超目前全球最快的超級計算機El Capitan的1.7 exaflops。每塊Ironwood芯片的峯值計算能力可達4614 TFLOPs。
在單芯片規格方面,Ironwood顯著提升了內存和帶寬性能,每塊芯片配備192GB高帶寬內存(HBM),是去年推出的上一代TPU Trillium的六倍。
每塊芯片的內存帶寬達到7.2 terabits/s,是Trillium的4.5倍。
該芯片專爲AI推理任務而設計,象徵着AI從[響應式]模型向[主動式]模型的演進。
換言之,它標誌着從僅提供實時信息的模型向能夠主動生成洞察和解讀的模型的轉變。
其目標在於賦予智能體(Agent)主動檢索、數據生成及協作推理的能力,而不僅僅是被動地響應查詢。
此外,Ironwood芯片首次支持FP8計算格式,並在張量核和矩陣數學單元中實現了這一功能,從而在處理大規模推理任務時顯著提升了效率。
儘管英偉達的B200芯片在某些性能指標上略佔優勢(例如內存帶寬達到8 Tbps,略高於Ironwood的7.2 Tbps),但Ironwood的整體性能依然非常接近,甚至在某些方面超越了B200。
在對谷歌Ironwood與英偉達B200進行對比分析時,從競爭格局的角度來看,谷歌通過TPU與Google Cloud、Pathways軟件棧的深度集成,吸引了OpenAI創始團隊等客戶,從而加強了其在生成式AI市場的地位。

AI超級計算架構不斷完善和升級
生產力的革新始於谷歌在基礎設施層面的全面AI化。
預計到2025年,谷歌將投資約750億美元用於服務器和數據中心的建設。
此外,爲了進一步協助客戶擁抱AI,Google Cloud 宣佈將提供接近零延遲的雲廣域網(Cloud WAN)服務,向全球數十億用戶提供。
與其它託管及開源Kubernetes 產品相比,Cloud WAN 能夠將網絡性能提升40%,同時將總擁有成本(TOC)降低40%。
自去年與英偉達建立戰略合作伙伴關係以來,谷歌提供了基於英偉達GPU的廣泛產品線,使得用戶能夠在 Google Cloud 上使用英偉達最新硬件訓練生成式AI模型。
今年,谷歌進一步推出了搭載英偉達B200 和 GB200 Blackwell GPU 的 A4 和 A4X 虛擬機,顯著增強了其GPU產品組合。
據透露,Google Cloud 將成爲首批提供英偉達下一代 Vera Rubin GPU 的公司之一,該 GPU 每個機架可提供高達 15 exaflops 的 FP4 推理性能。
除了芯片技術之外,谷歌認爲存儲是減少訓練和推理瓶頸的關鍵因素。
爲了實現更高的數據吞吐量和更低的延遲,谷歌此次對存儲層面也進行了更新。
特別是,Ironwood的設計目標是在執行大規模張量運算時,儘可能地減少芯片上的數據傳輸和延遲。
谷歌爲Ironwood TPU量身打造了低延遲、高帶寬的ICI網絡,以支持在全TPU集羣規模下的協調與同步通信。
Ironwood 芯片搭載了第三代 SparseCore 加速器,該加速器首次應用於 TPU v5p,並在去年的 Trillium 芯片中得到了進一步的優化。
SparseCore 芯片最初旨在加速推薦模型的運行,這些模型通過使用嵌入技術來實現跨用戶類別的推薦功能。
推理優化將成爲AI模型發展新趨勢
Ironwood芯片,作爲谷歌推出的首款專爲推理運算設計的TPU,承擔着將經過訓練的AI模型應用於實際場景,進而產生預測或響應的任務。
推理運算相較於訓練過程,每日在全球範圍內發生數十億次,其成本與效率對於AI技術的經濟性具有決定性影響。
長期以來,業界致力於構建規模日益龐大的基礎模型,各大公司主要在模型參數量級和訓練能力上展開競爭。
然而,當前階段,部署效率和推理能力的重要性日益凸顯。
谷歌的這一戰略轉變,不僅標誌着AI領域的一個關鍵轉折點,也預示着我們正邁入一個以部署效率和推理能力爲核心的全新發展階段。
Ironwood芯片的推出,降低了運行復雜AI模型的經濟負擔和操作難度,使得更廣泛的商業實體能夠承受並部署先進的AI系統。
此外,Ironwood芯片的高能效特性有助於減少數據中心的能源消耗,這對於推動AI技術的可持續發展具有積極意義。
谷歌還提出了多智能體系統的構想,通過Agent開發套件(ADK)和Agent間互操作性協議(A2A),旨在實現不同框架和供應商構建的AI代理之間的通信。
這種互操作性預期將打破AI系統的孤立狀態,促進AI技術在企業中的更廣泛運用。
谷歌正與Salesforce、ServiceNow、SAP等超過五十家行業領先企業合作,共同推進這一AI互操作性標準的實施。

結尾:
顯而易見,經過多年的尖端技術革新,谷歌在AI領域的探索邊界正不斷擴展。
其發展路徑從單一工具演進至端到端的AI平臺,從通用領域深入至垂直行業,從封閉系統轉向開放生態的構建,以及從AI的初步嘗試到規模化部署。
目前,谷歌所展現的模型、平臺與芯片三位一體的差異化優勢正逐步顯現。
部分資料參考:機器之心:《42.5 Exaflops:谷歌新TPU性能超越最強超算24倍,智能體協作協議A2A出爐》,信創芯球:《谷歌推出第七代TPUIronwood AI芯片,將重塑AI推理新格局》,Infoc:《TPU 性能提升10倍,開源 A2A 顛覆智能體交互》
原文標題 : AI芯天下丨熱點丨谷歌第七代TPU來了,號稱迄今爲止最強大的AI處理器