亞馬遜 押下巨資,挑戰英偉達,這是這家電子商務巨頭今年以來最大的一筆投資,而對於初創公司 Anthropic 來說,這也是一次賭注。
就其本身而言,亞馬遜的 5 納米 Trainium 2 微處理器並不像 英偉達 的最新 AI 芯片那麼強大,後者因其訓練下一代強大 AI 模型的能力而受到 OpenAI 和 xAI 等公司的青睞。
但亞馬遜希望其自制硅片能用於打造世界上最強大的計算機——被稱爲“Rainier 項目”。該項目由以色列芯片初創公司 Annapurna Labs 設計,亞馬遜於 2015 年以 3.5 億美元收購了這家公司。
亞馬遜的成敗並不取決於每個芯片的原始性能,而是取決於精心策劃的垂直整合。整個數據中心,甚至是每個螺絲、銅線和冷卻風扇,都經過精心設計,以從數十萬個 Trainium 2 芯片中榨取每一分計算能力。
“我們將垂直整合發揮到了極致,”安納普爾納工程總監拉米·辛諾 (Rami Sinno) 在參觀芯片製造工廠時表示。“這種功率和功率效率的概念滲透到了我們所做的每一件事中。”
如果該計劃成功,那麼亞馬遜和 Claude AI 聊天機器人背後的人工智能公司 Anthropic 都將大獲全勝。Claude AI 聊天機器人已成爲專業軟件開發人員和“氛圍編碼員”的最愛,他們對該工具的唯一不滿是其速率限制,爲了控制成本,它會切斷用戶的使用。
Anthropic 是亞馬遜最重要的客戶,並已同意使用 Rainier 來訓練下一版本的 Claude,使其性能更佳、成本效益更高,併爲 Claude 的用戶提供更多令人垂涎的“token”。
在亞馬遜 80 億美元投資的推動下,Anthropic 的估值已達到 600 億美元,該公司使用 Google Tensor 處理器和 英偉達 GPU 來訓練 Claude 模型的早期版本。
兩位知情人士告訴 Semafor,該公司同意使用亞馬遜定製芯片與亞馬遜投資該公司的決定是無關的。
無論 Anthropic 做出了什麼決定,對於亞馬遜來說這都是一次勝利;從 英偉達 手中挖走一家領先的基礎模型公司並不容易。
自 2006 年以來,英偉達 一直在改進和添加 Cuda 的功能,Cuda 是一個功能強大的軟件程序,允許 AI 研究人員和其他程序員在 英偉達 GPU 上運行幾乎任何機器學習算法或 AI 模型。
由於 Cuda 的領先優勢,與 英偉達 的競爭極其困難。
Anthropic 也可能從擺脫 英偉達 的多元化中受益,英偉達 面臨短缺問題,令 OpenAI 和微軟等公司感到沮喪。計算效率在人工智能行業變得越來越重要,因爲公司難以滿足對該技術不斷增長的需求。
人工智能模型需要世界上最大的計算機進行訓練——但公司已經找到了在推理階段提高模型能力的方法,當模型響應單個提示時。這種趨勢被稱爲“測試時間計算”,它大大增加了對數據中心的需求。
即便如此,亞馬遜仍面臨批評者的質疑,即它是否能夠吸引人工智能世界使用其定製芯片。
亞馬遜表示,其 Trainium 芯片已經找到了市場。“我們製造和交付的每一款芯片都有客戶在等待它,”Sinno 說道。
Annapurna 產品和客戶工程總監 Gadi Hutt 表示,兩家公司的合作在亞馬遜投資 Anthropic 之前就已經開始。
在奧斯汀設計和測試中心接受採訪時,赫特回憶了他與 Anthropic 最早的一次互動,當時這家舊金山研究公司於 2021 年成立後不久。
Annapurna 向 Anthropic 的研究人員提供了第一代 Trainium 芯片,以便他們在週末“試用”。週末結束前,一名 Anthropic 員工發現芯片編譯器(將人工智能算法轉換爲微處理器指令的軟件)存在缺陷,這損害了芯片的性能。
“那只是一個週末的工作就向我們證明了這是一支非常強大的團隊,我們非常渴望繼續與他們合作,”赫特說。“在業務方面花了一些時間。”
人工智能研究人員雖然才華橫溢,但通常並不熟悉用於完成其工作所需的數萬億次計算的實際硅片的來龍去脈。
Anthropic 聯合創始人兼首席計算官湯姆·布朗 (Tom Brown) 告訴 Semafor,他的職業生涯都在改變世界上最強大的計算機的意志,儘管他從未近距離見過它們。
他說道:“令我感到十分慚愧的是,我已經訓練大型模型大約 10 年了,但我從未去過任何一家物理數據中心。”
但這並沒有阻止布朗和他的同事剖析強大的人工智能芯片的內部工作原理,直至控制它們的核心軟件。
布朗表示,Anthropic 已聘請了技術嫺熟的工程師,他們知道如何對 英偉達 GPU 進行逆向工程,從而獲取其指令集架構,即直接控制晶體管運行的軟件。它是芯片工作的核心,因此 英偉達 試圖隱藏這些信息,以防止競爭對手看到它。
通過獲取這些信息,Anthropic 可以更好地優化其模型,使其運行或訓練效率更高。“但當他們試圖混淆這些信息時,這樣做真的很煩人,”布朗說。
他說,轉向 Trainium 2 的一個主要好處是亞馬遜同意開放其指令集,消除痛點並實現更好的優化。
布朗表示,使用 Trainium 芯片需要一定的學習曲線。“我們是唯一一家設計多款芯片的實驗室,因爲這樣做成本很高,但一旦你這樣做了,就意味着你現在支付了這筆大筆前期費用,就可以獲得收益了,”他說。
儘管只有少數公司擁有足夠的人才和資源來利用該級別的代碼,但 Anthropic 和少數其他公司可以利用這種訪問權限來幫助改進芯片。
如果 Anthropic 繼續使用 Trainium 芯片訓練其模型,那麼一個附帶好處就是這些模型很可能使用亞馬遜的架構以最高效的方式運行,從而使 Anthropic 的許多客戶成爲亞馬遜網絡服務的實際客戶。
當計算集羣變得像 Rainier 一樣大時,數十萬個芯片(未公開數量)聯網在一起,通常不會產生影響的微小優化突然被放大到有意義的水平。
在參觀安納普爾納實驗室芯片測試區時,辛諾解釋瞭如何通過微小的移動元件來提高電氣效率。
這項工作就像是工程天才們的俄羅斯方塊。目標是將所有東西儘可能地靠近,儘可能減少每個電子必須移動的距離,同時找到創造性的方法將熱量從芯片中帶走,以防止芯片過熱。
一架 Trainium 2 芯片本質上就是一個熔爐,熱空氣從中高速噴湧而出。
在對大量基礎模型進行訓練的過程中,大量數據在 GPU 之間來回傳輸,因此提高它們之間連接速度的潛力催生了整個公司的誕生。
儘可能減少延遲的目標使得 Rainier 項目的一個獨特特點令人費解:它計劃將單個計算集羣劃分爲多棟建築,並通過亞馬遜稱爲“彈性光纖”的高速數據連接將它們連接起來。
“我們不會透露確切的架構,但你可以想象它非常龐大,需要多棟建築,”Hutt 說道。他說,這些多棟建築將充當一臺計算機,讓模型訓練運行起來就像整個計算集羣都在一個屋檐下一樣,而不必將訓練分成幾個部分。
他說:“該架構將允許 Anthropic 等客戶在整個集羣中進行訓練。”
無論出於何種原因,Anthropic 加入 Trainium 生態系統都是一個互惠互利的安排。
Anthropic 的 Claude 雖然不如 ChatGPT 那麼出名,但在人工智能領域卻頗有名氣。其旗艦型號因其能夠生成高質量的計算機代碼而成爲軟件開發人員的最愛。
與其他基礎模型公司競爭激烈的 Anthropic 不太可能同意在低於標準的芯片上訓練 Claude。即使有投資資金,它的決定也值得認可。如果 Claude 的下一個版本仍然處於領先地位,亞馬遜將慶祝勝利。
英偉達 無人能敵,AWS 的 英偉達 產品無疑仍將受到歡迎。但亞馬遜不需要擊敗 英偉達。它只需要 Trainium 獲得足夠的成功,以吸引一些客戶,並減少對 英偉達 芯片的依賴,因爲 英偉達 芯片非常搶手,很容易出現短缺。
《商業內幕》援引內部文件稱,亞馬遜一直在努力尋找其芯片的客戶。
“根據一份內部文件顯示,去年,AWS 最大客戶對 Trainium 芯片的採用率僅爲 英偉達 GPU 的 0.5%。這項評估是在 2024 年 4 月制定的,它通過 AWS 的雲服務衡量了不同 AI 芯片的使用水平。另一款專爲一種稱爲推理的 AI 任務而設計的 AWS 芯片 Inferentia 僅略勝一籌,爲 英偉達 使用率的 2.7%。”
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。