12月2日,Marvell宣佈同AWS達成一份爲期5年的協議,向AWS提供定製AEC、DSP、PCIe retimer等產品;3日,AWS發佈Trainium2-Ultra Server,採用AEC實現3D環狀連接;博通4QFY24業績會對AI ASIC未來市場空間指引積極,我們認爲CSP客戶自研ASIC趨勢明確,ASIC+以太網靈活開放的組網生態下,配套的短距銅連接AEC產品的滲透率有望提升。
摘要
AEC通過集成Retimer改善信號質量實現服務器間7m內高速數據傳輸。AEC(有源電纜)在銅纜兩端集成Retimer芯片,不單能夠放大和均衡Tx和Rx端,還可以在Rx端重新進行信號整形,實現信號還原,主要應用於數據中心中短距離連接,如機櫃內或相鄰機櫃、服務器到ToR、葉脊交換機/路由器機架等。相較於DAC,AEC能夠實現更長距離的傳輸,400G速率產品最大傳輸距離可實現7m,且能實現芯線的輕薄化和線徑小型化,降低數據中心服務器散熱難度;相較於AOC,AEC在功耗及成本方面具備優勢,是介於DAC和AOC之間性價比較高的中間方案。
需求端:CSP積極自研AI ASIC,組網中引入AEC用於短距連接。博通4QFY24業績會對AI ASIC市場空間增速預期積極,我們觀察到海外CSP廠商及科技企業如亞馬遜、微軟等以及xAI在自建AI算力集羣內部組網中已開始部署AEC方案。根據我們測算,AWS採用4*4*4 3D Torus拓撲網絡的Trainium2-Ultra服務器架構中,機櫃內Trn2芯片和400G AEC之間的數量配比關係爲1:1;若網卡到ToR交換機也採用AEC連接,則Trn2芯片和400G AEC數量配置比例約爲1:1.5。我們認爲隨着CSP廠商自研ASIC、自建網絡比例提升,AEC硬件需求有望進一步提振,並逐漸從400G向800G/1.6T速率迭代。
供給端:Retimer和銅纜爲核心物料,部分光模塊廠商切入供應鏈。AEC由Retimer芯片、銅纜和連接組件構成,我們估測800G AEC BOM成本中,Retimer和銅纜分別佔50%、20%。
風險
AI產業需求不及預期;AEC高速銅連接需求不及預期。
在數據中心內部,按照傳輸介質不同,存在光纖連接和銅纜連接兩大類網絡線纜連接方式,常見的光纖連接包括光模塊+光纖、AOC,銅纜連接則主要包含DAC/ACC/AEC。
► 光模塊+光纖:光模塊搭配光纖是目前應用最爲廣泛的網絡佈線方案,光模塊和光纖相互獨立,用戶在使用時將兩者連接組裝,光模塊負責光電轉換功能,光纖用於傳輸光信號,傳輸距離靈活可控。
► AOC(Active Optical Cables,有源光纜):光模塊和光纖集成化,形成一整條線纜,無需用戶側組裝。AOC通過光纖傳輸高速信號,可用於100m內的中短距離互聯場景,其支持的傳輸速率和傳輸距離均比銅纜更好,且較銅纜重量輕、佈線方便,缺點是相較於銅纜成本和功耗較高。
圖表1:光模塊+光纖和AOC連接對比
資料來源:Fibermall,中金公司研究部
按是否內置電子元件以增強信號,銅纜連接可分爲無源銅纜(DAC,Direct Attach Cable)和有源銅纜(Active Copper Cable)。
► DAC(Direct Attach Cable,無源銅纜):不需要外部電源,不內置電子元件增強信號,僅通過兩根導線絞合在一起形成雙軸電纜。由於不使用電子器件,其功耗幾乎爲零,在高速線纜解決方案中有着延遲和插入損耗最低、同時成本最低的優點。但同時也因爲無源電纜傳輸僅依賴銅線介質,無法放大信號以提升長距離信號傳輸下的信號質量,其傳輸距離受到限制,適用於超短距離連接。
► ACC(Active Copper Cable,有源銅纜):在電纜端部增加信號增強芯片,使得在較長距離的信號傳輸不出現較大衰減,從而提升信號質量,ACC使用Redriver芯片架構在接收端通過CTLE均衡調整增益、放大信號。AEC(Active Electrical Cable,有源電纜)是有源銅纜的細分種類,在銅纜兩端集成Retimer芯片,通過Rx端CTLE/DFE(連續時間線性均衡/判斷反饋均衡)、CDR(時鐘數據恢復)及Tx端EQ(均衡)實現接收端信號整形,重新還原信號。
圖表2:高速銅連接DAC、ACC、AEC連接對比
資料來源:Fibermall,中金公司研究部
Retimer較Redriver有更好的減少信號損耗的能力、信號還原度更高。1)Retimer:Retimer是一種數模混合器件,其工作原理是通過內部嵌有的CDR電路提取輸入信號中的嵌入式時鐘,再使用未經衰減變形的時鐘信號重新傳輸數據,從而提升信號完整性並消除信號抖動影響;2)Redriver:Redriver是一種模擬信號器件,通過發射端的驅動器和接收端的濾波器放大受損信號,實現對信號損耗的補償。對比來看,由於含有SerDes PHY的核心部件CDR,Retimer能夠實現比Redriver更優的降低信道損耗效果,但由於增加了數據處理過程時延有所拉長。因此,相較於ACC,AEC對信號損耗的補償能力更強,且可有效阻隔抖動的傳遞,能夠支持更長距離、更高穩定性的數據傳輸。
圖表3:Redriver和Retimer工作原理對比
資料來源:TI官網,中金公司研究部
DAC信號傳輸覆蓋距離隨通信速率提升而下降,AEC通過集成Retimer改善信號質量實現服務器間7m內高速數據傳輸。隨着SerDes技術升級、通信總線傳輸速率提升,單通道SerDes速率從28G NRZ向56G、112G PAM-4以及最新的224G PAM-4演進,DAC覆蓋距離從5m(對應28G SerDes)縮短至2-3m(對應112G SerDes)甚至0.5m(對應224G SerDes)。而AEC通過兩端配置Retimer芯片修復數據信號、消除噪聲,400G和800G速率產品的最大傳輸距離可分別實現7m、2.5m,2024年10月Credo發佈線纜長度爲7m的HiWire AEC 800G新品,800G速率產品的最大傳輸距離進一步拉長,可實現主機到交換機的跨櫃連接。
AEC在體積及功耗方面具備優勢,能夠降低服務器散熱難度。AEC內置信號增強集成電路,所以相比DAC更能實現芯線的輕薄化和線徑小型化,根據Credo官網,AEC體積相較於DAC降低75%。根據華爲官網,在服務器機架之間,數據中心需要在電纜管道或者電纜槽內維持25-50個線束,AEC相比DAC的線纜直徑小很多,較大線徑的DAC部署會受到空間限制的影響。此外,線束較大同樣會阻塞氣流,使得數據中心的散熱更加困難,因此AEC更適用於大規模、高密度集羣的組網連接。而相比AOC,AEC在功耗及成本方面具備優勢,根據Precisionot官網,AEC功耗相比AOC降低50%,AEC成本則是AOC成本的1/3左右。
圖表4:DAC & AEC & AOC參數性能對比
資料來源:Credo官網,Precisionot官網,中金公司研究部
需求端:CSP積極自研AI ASIC,組網中引入AEC用於短距連接
AI數據中心內部短距連接高景氣。不同的服務器架構、交換網絡組網架構對應着不同的連接器、銅纜和光模塊組成方案。1)在阿里雲數據中心三層CLOS網絡架構下,Spine和Leaf之間互聯的鏈路長度在2km以內,Leaf到TOR的互聯長度通常在100m內,主要使用光模塊+光纖連接,鏈路數量佔整個集羣內總物理鏈路數量的1/3;服務器網卡到TOR的鏈路長度通常在10m內,鏈路數量佔總物理鏈路數的2/3,這一環節通常使用DAC/AEC/AOC來連接。2)在英偉達GB200機櫃服務器架構下,多機櫃間互聯(ToR交換機之間)主要採用光模塊+光纖方案;兩個NVL36機櫃間的互聯通過NVSwitch tray上的OSFP cage及ACC銅纜實現;NVL36/72機櫃內Compute Tray與ToR交換機之間通過AOC(也可選擇光模塊+光纖)進行連接,Compute Tray與Switch Tray之間互聯則通過背板連接器+DAC。
圖表5:阿里雲數據中心典型三層CLOS網絡架構圖示
資料來源:阿里雲基礎設施公衆號,中金公司研究部
圖表6:GB200 NVL36*2架構及線纜連接方案
資料來源:SemiAnalysis,中金公司研究部
圖表7:Credo數據中心高速互聯解決方案一覽
資料來源:《爲AI網絡提供更優的光互連方案》(Credo,2023),中金公司研究部
CSP客戶自研ASIC比例提升,組網中AEC用量有望增加。據博通4QFY24業績會,基於其目前深度覆蓋的三家頭部CSP客戶,公司預計AI網絡和AI ASIC的SAM(可服務目標市場空間)將從 FY24 150-200億美元增長至FY27 600-900億美元。我們測算其中ASIC SAM將有望從FY24約160億美元增長至FY27約600億美元,3年CAGR約55%。我們認爲,對於CSP廠商而言,自研AI ASIC方案具備能效比和單位成本算力的優勢,頭部ASIC廠商對於市場增速預期判斷的提升反映出產業潛在機會擴大。結合產業鏈調研,我們觀察到海外CSP以及科技企業如亞馬遜、微軟、xAI等自建AI算力集羣內部組網已開始部署AEC方案,目前400G AEC爲主流產品,我們預期25年有望向800G甚至1.6T AEC迭代。
不同架構下,AI芯片與AEC的數量對應關係存在差異。參考SemiAnalysis,以AWS自研Trainium2-Ultra服務器架構爲例,Trainium2-Ultra聚合了4臺16卡Trn2服務器,採用4*4*4 3D Torus拓撲架構實現64顆Trn2芯片的互聯。Trainium2-Ultra機櫃中涉及不同的互聯方案,一個Compute Tray上的兩顆Trn2芯片之間通過PCB連接;同一臺Trn2服務器中Compute Tray之間的互聯通過背板連接器+DAC;爲了沿Z軸形成一個環面,每顆芯片通過2條NeuronLinkv3 OSFP-XD AEC銅纜與其他Trn2服務器中兩顆芯片相連,如此芯片就能在Z軸(Trn2 Server A -> Trn2 Server B -> Trn2 Server C -> Trn2 Server D -> Trn2 Server A)上形成一個3D環繞連接的鏈,實現4臺Trn2服務器的3D聚合。
因此,Trainium2-Ultra服務器機櫃中需配套64*2/2=64條400G AEC,Trn2芯片和400G AEC的數量配比關係爲1:1。此外,網卡到ToR交換機之間也可採用AEC連接,一個Compute Tray上2顆芯片配套2個200G 網卡,可等效爲通過0.5條400G AEC連接到ToR交換機上。綜上,Trainium2-Ultra 64卡機櫃方案下,Trn2芯片和400G AEC的數量配比關係約爲1:1.5。
圖表8:2臺Trainium 2-Ultra Rack之間互聯
注:一臺Trainium 2-Ultra Rack中包含2臺Trn2服務器,每臺Trn2服務器中包含8個Compute Tray,每個Compute Tray含2顆芯片。
資料來源:SemiAnalysis,中金公司研究部
圖表9:Trainium 2-Ultra Server通過NeuronLinkv3實現64顆芯片間互聯
資料來源:亞馬遜官網,Ofweek,中金公司研究部
圖表10:Trainium2-Ultra SKU中不同線纜連接圖解
注:Z軸的點對點帶寬爲64GByte/s,X軸和Y軸的點對點帶寬爲128GByte/s,後者帶寬爲前者的兩倍 資料來源:SemiAnalysis,中金公司研究部
根據LightCounting數據(2024年12月報告),2024年AEC市場規模預計約2.18億美元,2029年AEC市場規模有望達到13.12億美元,2024-2029年CAGR爲43%。DAC/AEC/AOC各有優劣勢,我們預計隨着通信傳輸速率不斷提升,服務器內部及外部DAC/AEC/AOC線纜有望並存,適配不同互聯場景需求。
得益於銅纜應用場景增加、以及AEC作爲AOC和DAC中間方案性價比較高,在2.5-7m短距傳輸中優勢突出,AEC市場規模增速最快,根據LightCounting數據,AOC/DAC/AEC+ACC市場規模佔比有望從2024年的51%/36%/13%轉變至2029年的53%/22%/25%,較2023年12月報告AEC市場規模大幅上修。
結合前文測算,我們預計2025年AWS Trainium2出貨量有望達到150萬顆,假設80%採用3D Torus拓撲架構連接方案,對應400G AEC的需求量約180萬條,結合150美元單價(參考LightCounting),2025年僅AWS一家CSP對應的400G AEC市場規模約2.7億美元(LightCounting預測2025年400G AEC全球市場規模爲1.1億美元、整體市場規模約5.25億美元)。
我們認爲,隨着CSP自研ASIC比例和自行組網比例逐步提升、以及越來越多的廠商升級銅連接方案,AEC硬件需求有望進一步提振,市場規模在LightCounting預測數值的基礎上仍有較大上修空間。
圖表11:2024及2029E全球服務器互聯市場中AOC/DAC/AEC+ACC佔比情況
資料來源:LightCounting,中金公司研究部
圖表12:2024-2029E AEC市場規模及預測
資料來源:LightCounting,中金公司研究部
供給端:Retimer和銅纜爲核心物料,部分光模塊廠商切入供應鏈
AEC由Retimer芯片、銅纜和連接組件構成。Retimer芯片和銅纜爲AEC核心部件,我們估測Retimer芯片和銅纜佔800G AEC BOM成本比重分別爲50%、20%,生產組裝成本約佔AEC營業成本的20%。
銅纜製作工藝複雜,產業鏈廠商主要包括芯線供應商、成品線材供應商及線束供應商:1)鍍銀銅線製造:將合金銅線進行拉絲工序,即通過拉絲機和模具,逐漸減小合金銅線直徑並形成所需的線徑。拉絲工序是製造中的基礎工序之一,其精度和質量直接影響最終產品的性能;再通過電鍍/化學鍍銀的方式製成鍍銀銅線;2)芯線製造:通過實心押出/物理發泡壓出、編織、擠塑護套形成芯線(多爲線材供應商內部完成);3)成品線材製造:芯線通過絞線成纜、高速編織屏蔽層、擠塑護套等工藝流程形成成品線材;4)線束組裝:成品線材加上兩端的連接器形成線束。
光模塊廠商參與到銅纜產業鏈,其組裝能力、客戶渠道或可複用至AEC。在傳統光模塊的內部結構中,價值量佔比較高的主要是光芯片(激光器芯片和探測器芯片)、和電芯片(DSP、TIA、Driver等),這部分核心光電芯片基本由光模塊廠商外採。這些光電芯片和無源光器件以分立式器件的形態爲主,光器件之間由光纖或自由空間元件連接,經過貼片、打線、粘接耦合、焊接等工序實現模塊化組裝。我們認爲AEC在數據中心的應用場景與光模塊存在交叉和互補,且AEC銅纜的生產組裝過程和光模塊較爲類似,核心有源芯片(Retimer)也需外採。部分國內光模塊廠商切入到AEC產業鏈,配合下游CSP客戶進行產品設計和生產,優先卡位AEC銅連接市場。
風險提示
AI產業需求不及預期。隨着社會數字化及智能化轉型的持續,AI大模型場景落地加速賦能百行百業。我們認爲,人工智能的蓬勃發展驅動算力需求持續提升,推升服務器、光模塊、交換機等AI硬件需求。若AI大模型或應用落地不及預期、或商業化變現之路受阻,或影響以頭部雲廠商爲代表的AI產業參與方對AI相關基礎設施的投資力度和決心,可能會對上游AI硬件設備的市場增速、產品迭代速度產生不利影響。
AEC高速銅連接需求不及預期。數據中心互聯的光、銅路線之爭持續進行,光、銅用量主要取決於下游CSP及算力廠商的連接方案選擇,以及技術路徑的變化。AEC是DAC與AOC的中間方案,主要適用於2.5-7m的數據傳輸場景,若下游CSP客戶轉而選擇採用更多光模塊或者DAC互聯方案,或者CPO/OIO技術演進超預期,可能影響未來AEC硬件需求。
本文摘自中金公司2024年12月27日已經發布的《智算未來系列十三:AEC,數據中心內部高速短距連接的性價比之選》,分析師:
鄭欣怡 分析員 SAC 執證編號:S0080524070006
李詩雯 分析員 SAC 執證編號:S0080521070008 SFC CE Ref:BRG963
查玉潔 分析員 SAC 執證編號:S0080524110001
陳昊 分析員 SAC 執證編號:S0080520120009 SFC CE Ref:BQS925
彭虎 分析員 SAC 執證編號:S0080521020001 SFC CE Ref:BRE806
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。