中金:AEC,数据中心内部高速短距连接的性价比之选

格隆汇
31 Dec 2024

12月2日,Marvell宣布同AWS达成一份为期5年的协议,向AWS提供定制AEC、DSP、PCIe retimer等产品;3日,AWS发布Trainium2-Ultra Server,采用AEC实现3D环状连接;博通4QFY24业绩会对AI ASIC未来市场空间指引积极,我们认为CSP客户自研ASIC趋势明确,ASIC+以太网灵活开放的组网生态下,配套的短距铜连接AEC产品的渗透率有望提升。

摘要

AEC通过集成Retimer改善信号质量实现服务器间7m内高速数据传输。AEC(有源电缆)在铜缆两端集成Retimer芯片,不单能够放大和均衡Tx和Rx端,还可以在Rx端重新进行信号整形,实现信号还原,主要应用于数据中心中短距离连接,如机柜内或相邻机柜、服务器到ToR、叶脊交换机/路由器机架等。相较于DAC,AEC能够实现更长距离的传输,400G速率产品最大传输距离可实现7m,且能实现芯线的轻薄化和线径小型化,降低数据中心服务器散热难度;相较于AOC,AEC在功耗及成本方面具备优势,是介于DAC和AOC之间性价比较高的中间方案。

需求端:CSP积极自研AI ASIC,组网中引入AEC用于短距连接。博通4QFY24业绩会对AI ASIC市场空间增速预期积极,我们观察到海外CSP厂商及科技企业如亚马逊微软等以及xAI在自建AI算力集群内部组网中已开始部署AEC方案。根据我们测算,AWS采用4*4*4 3D Torus拓扑网络的Trainium2-Ultra服务器架构中,机柜内Trn2芯片和400G AEC之间的数量配比关系为1:1;若网卡到ToR交换机也采用AEC连接,则Trn2芯片和400G AEC数量配置比例约为1:1.5。我们认为随着CSP厂商自研ASIC、自建网络比例提升,AEC硬件需求有望进一步提振,并逐渐从400G向800G/1.6T速率迭代。

供给端:Retimer和铜缆为核心物料,部分光模块厂商切入供应链。AEC由Retimer芯片、铜缆和连接组件构成,我们估测800G AEC BOM成本中,Retimer和铜缆分别占50%、20%。

风险

AI产业需求不及预期;AEC高速铜连接需求不及预期。

AEC:数据中心内部高速短距连接的性价比之选


在数据中心内部,按照传输介质不同,存在光纤连接和铜缆连接两大类网络线缆连接方式,常见的光纤连接包括光模块+光纤、AOC,铜缆连接则主要包含DAC/ACC/AEC。

► 光模块+光纤:光模块搭配光纤是目前应用最为广泛的网络布线方案,光模块和光纤相互独立,用户在使用时将两者连接组装,光模块负责光电转换功能,光纤用于传输光信号,传输距离灵活可控。

► AOC(Active Optical Cables,有源光缆):光模块和光纤集成化,形成一整条线缆,无需用户侧组装。AOC通过光纤传输高速信号,可用于100m内的中短距离互联场景,其支持的传输速率和传输距离均比铜缆更好,且较铜缆重量轻、布线方便,缺点是相较于铜缆成本和功耗较高。

图表1:光模块+光纤和AOC连接对比

资料来源:Fibermall,中金公司研究部

按是否内置电子元件以增强信号,铜缆连接可分为无源铜缆(DAC,Direct Attach Cable)和有源铜缆(Active Copper Cable)。

► DAC(Direct Attach Cable,无源铜缆):不需要外部电源,不内置电子元件增强信号,仅通过两根导线绞合在一起形成双轴电缆。由于不使用电子器件,其功耗几乎为零,在高速线缆解决方案中有着延迟和插入损耗最低、同时成本最低的优点。但同时也因为无源电缆传输仅依赖铜线介质,无法放大信号以提升长距离信号传输下的信号质量,其传输距离受到限制,适用于超短距离连接。

► ACC(Active Copper Cable,有源铜缆):在电缆端部增加信号增强芯片,使得在较长距离的信号传输不出现较大衰减,从而提升信号质量,ACC使用Redriver芯片架构在接收端通过CTLE均衡调整增益、放大信号。AEC(Active Electrical Cable,有源电缆)是有源铜缆的细分种类,在铜缆两端集成Retimer芯片,通过Rx端CTLE/DFE(连续时间线性均衡/判断反馈均衡)、CDR(时钟数据恢复)及Tx端EQ(均衡)实现接收端信号整形,重新还原信号。

图表2:高速铜连接DAC、ACC、AEC连接对比

资料来源:Fibermall,中金公司研究部

Retimer较Redriver有更好的减少信号损耗的能力、信号还原度更高。1)Retimer:Retimer是一种数模混合器件,其工作原理是通过内部嵌有的CDR电路提取输入信号中的嵌入式时钟,再使用未经衰减变形的时钟信号重新传输数据,从而提升信号完整性并消除信号抖动影响;2)Redriver:Redriver是一种模拟信号器件,通过发射端的驱动器和接收端的滤波器放大受损信号,实现对信号损耗的补偿。对比来看,由于含有SerDes PHY的核心部件CDR,Retimer能够实现比Redriver更优的降低信道损耗效果,但由于增加了数据处理过程时延有所拉长。因此,相较于ACC,AEC对信号损耗的补偿能力更强,且可有效阻隔抖动的传递,能够支持更长距离、更高稳定性的数据传输。

图表3:Redriver和Retimer工作原理对比

资料来源:TI官网,中金公司研究部

DAC信号传输覆盖距离随通信速率提升而下降,AEC通过集成Retimer改善信号质量实现服务器间7m内高速数据传输。随着SerDes技术升级、通信总线传输速率提升,单通道SerDes速率从28G NRZ向56G、112G PAM-4以及最新的224G PAM-4演进,DAC覆盖距离从5m(对应28G SerDes)缩短至2-3m(对应112G SerDes)甚至0.5m(对应224G SerDes)。而AEC通过两端配置Retimer芯片修复数据信号、消除噪声,400G和800G速率产品的最大传输距离可分别实现7m、2.5m,2024年10月Credo发布线缆长度为7m的HiWire AEC 800G新品,800G速率产品的最大传输距离进一步拉长,可实现主机到交换机的跨柜连接。

AEC在体积及功耗方面具备优势,能够降低服务器散热难度。AEC内置信号增强集成电路,所以相比DAC更能实现芯线的轻薄化和线径小型化,根据Credo官网,AEC体积相较于DAC降低75%。根据华为官网,在服务器机架之间,数据中心需要在电缆管道或者电缆槽内维持25-50个线束,AEC相比DAC的线缆直径小很多,较大线径的DAC部署会受到空间限制的影响。此外,线束较大同样会阻塞气流,使得数据中心的散热更加困难,因此AEC更适用于大规模、高密度集群的组网连接。而相比AOC,AEC在功耗及成本方面具备优势,根据Precisionot官网,AEC功耗相比AOC降低50%,AEC成本则是AOC成本的1/3左右。

图表4:DAC & AEC & AOC参数性能对比

资料来源:Credo官网,Precisionot官网,中金公司研究部

需求端:CSP积极自研AI ASIC,组网中引入AEC用于短距连接

AI数据中心内部短距连接高景气。不同的服务器架构、交换网络组网架构对应着不同的连接器、铜缆和光模块组成方案。1)在阿里云数据中心三层CLOS网络架构下,Spine和Leaf之间互联的链路长度在2km以内,Leaf到TOR的互联长度通常在100m内,主要使用光模块+光纤连接,链路数量占整个集群内总物理链路数量的1/3;服务器网卡到TOR的链路长度通常在10m内,链路数量占总物理链路数的2/3,这一环节通常使用DAC/AEC/AOC来连接。2)在英伟达GB200机柜服务器架构下,多机柜间互联(ToR交换机之间)主要采用光模块+光纤方案;两个NVL36机柜间的互联通过NVSwitch tray上的OSFP cage及ACC铜缆实现;NVL36/72机柜内Compute Tray与ToR交换机之间通过AOC(也可选择光模块+光纤)进行连接,Compute Tray与Switch Tray之间互联则通过背板连接器+DAC。

图表5:阿里云数据中心典型三层CLOS网络架构图示

资料来源:阿里云基础设施公众号,中金公司研究部

图表6:GB200 NVL36*2架构及线缆连接方案

资料来源:SemiAnalysis,中金公司研究部

图表7:Credo数据中心高速互联解决方案一览

资料来源:《为AI网络提供更优的光互连方案》(Credo,2023),中金公司研究部

CSP客户自研ASIC比例提升,组网中AEC用量有望增加。据博通4QFY24业绩会,基于其目前深度覆盖的三家头部CSP客户,公司预计AI网络和AI ASIC的SAM(可服务目标市场空间)将从 FY24 150-200亿美元增长至FY27 600-900亿美元。我们测算其中ASIC SAM将有望从FY24约160亿美元增长至FY27约600亿美元,3年CAGR约55%。我们认为,对于CSP厂商而言,自研AI ASIC方案具备能效比和单位成本算力的优势,头部ASIC厂商对于市场增速预期判断的提升反映出产业潜在机会扩大。结合产业链调研,我们观察到海外CSP以及科技企业如亚马逊、微软、xAI等自建AI算力集群内部组网已开始部署AEC方案,目前400G AEC为主流产品,我们预期25年有望向800G甚至1.6T AEC迭代。

不同架构下,AI芯片与AEC的数量对应关系存在差异。参考SemiAnalysis,以AWS自研Trainium2-Ultra服务器架构为例,Trainium2-Ultra聚合了4台16卡Trn2服务器,采用4*4*4 3D Torus拓扑架构实现64颗Trn2芯片的互联。Trainium2-Ultra机柜中涉及不同的互联方案,一个Compute Tray上的两颗Trn2芯片之间通过PCB连接;同一台Trn2服务器中Compute Tray之间的互联通过背板连接器+DAC;为了沿Z轴形成一个环面,每颗芯片通过2条NeuronLinkv3 OSFP-XD AEC铜缆与其他Trn2服务器中两颗芯片相连,如此芯片就能在Z轴(Trn2 Server A -> Trn2 Server B -> Trn2 Server C -> Trn2 Server D -> Trn2 Server A)上形成一个3D环绕连接的链,实现4台Trn2服务器的3D聚合。

因此,Trainium2-Ultra服务器机柜中需配套64*2/2=64条400G AEC,Trn2芯片和400G AEC的数量配比关系为1:1。此外,网卡到ToR交换机之间也可采用AEC连接,一个Compute Tray上2颗芯片配套2个200G 网卡,可等效为通过0.5条400G AEC连接到ToR交换机上。综上,Trainium2-Ultra 64卡机柜方案下,Trn2芯片和400G AEC的数量配比关系约为1:1.5。

图表8:2台Trainium 2-Ultra Rack之间互联

注:一台Trainium 2-Ultra Rack中包含2台Trn2服务器,每台Trn2服务器中包含8个Compute Tray,每个Compute Tray含2颗芯片。

资料来源:SemiAnalysis,中金公司研究部

图表9:Trainium 2-Ultra Server通过NeuronLinkv3实现64颗芯片间互联

资料来源:亚马逊官网,Ofweek,中金公司研究部

图表10:Trainium2-Ultra SKU中不同线缆连接图解

注:Z轴的点对点带宽为64GByte/s,X轴和Y轴的点对点带宽为128GByte/s,后者带宽为前者的两倍 资料来源:SemiAnalysis,中金公司研究部

根据LightCounting数据(2024年12月报告),2024年AEC市场规模预计约2.18亿美元,2029年AEC市场规模有望达到13.12亿美元,2024-2029年CAGR为43%。DAC/AEC/AOC各有优劣势,我们预计随着通信传输速率不断提升,服务器内部及外部DAC/AEC/AOC线缆有望并存,适配不同互联场景需求。

得益于铜缆应用场景增加、以及AEC作为AOC和DAC中间方案性价比较高,在2.5-7m短距传输中优势突出,AEC市场规模增速最快,根据LightCounting数据,AOC/DAC/AEC+ACC市场规模占比有望从2024年的51%/36%/13%转变至2029年的53%/22%/25%,较2023年12月报告AEC市场规模大幅上修。

结合前文测算,我们预计2025年AWS Trainium2出货量有望达到150万颗,假设80%采用3D Torus拓扑架构连接方案,对应400G AEC的需求量约180万条,结合150美元单价(参考LightCounting),2025年仅AWS一家CSP对应的400G AEC市场规模约2.7亿美元(LightCounting预测2025年400G AEC全球市场规模为1.1亿美元、整体市场规模约5.25亿美元)。

我们认为,随着CSP自研ASIC比例和自行组网比例逐步提升、以及越来越多的厂商升级铜连接方案,AEC硬件需求有望进一步提振,市场规模在LightCounting预测数值的基础上仍有较大上修空间。

图表11:2024及2029E全球服务器互联市场中AOC/DAC/AEC+ACC占比情况

资料来源:LightCounting,中金公司研究部

图表12:2024-2029E AEC市场规模及预测

资料来源:LightCounting,中金公司研究部

供给端:Retimer和铜缆为核心物料,部分光模块厂商切入供应链

AEC由Retimer芯片、铜缆和连接组件构成。Retimer芯片和铜缆为AEC核心部件,我们估测Retimer芯片和铜缆占800G AEC BOM成本比重分别为50%、20%,生产组装成本约占AEC营业成本的20%。

铜缆制作工艺复杂,产业链厂商主要包括芯线供应商、成品线材供应商及线束供应商:1)镀银铜线制造:将合金铜线进行拉丝工序,即通过拉丝机和模具,逐渐减小合金铜线直径并形成所需的线径。拉丝工序是制造中的基础工序之一,其精度和质量直接影响最终产品的性能;再通过电镀/化学镀银的方式制成镀银铜线;2)芯线制造:通过实心押出/物理发泡压出、编织、挤塑护套形成芯线(多为线材供应商内部完成);3)成品线材制造:芯线通过绞线成缆、高速编织屏蔽层、挤塑护套等工艺流程形成成品线材;4)线束组装:成品线材加上两端的连接器形成线束。

光模块厂商参与到铜缆产业链,其组装能力、客户渠道或可复用至AEC。在传统光模块的内部结构中,价值量占比较高的主要是光芯片(激光器芯片和探测器芯片)、和电芯片(DSP、TIA、Driver等),这部分核心光电芯片基本由光模块厂商外采。这些光电芯片和无源光器件以分立式器件的形态为主,光器件之间由光纤或自由空间元件连接,经过贴片、打线、粘接耦合、焊接等工序实现模块化组装。我们认为AEC在数据中心的应用场景与光模块存在交叉和互补,且AEC铜缆的生产组装过程和光模块较为类似,核心有源芯片(Retimer)也需外采。部分国内光模块厂商切入到AEC产业链,配合下游CSP客户进行产品设计和生产,优先卡位AEC铜连接市场。

风险提示

AI产业需求不及预期。随着社会数字化及智能化转型的持续,AI大模型场景落地加速赋能百行百业。我们认为,人工智能的蓬勃发展驱动算力需求持续提升,推升服务器、光模块、交换机等AI硬件需求。若AI大模型或应用落地不及预期、或商业化变现之路受阻,或影响以头部云厂商为代表的AI产业参与方对AI相关基础设施的投资力度和决心,可能会对上游AI硬件设备的市场增速、产品迭代速度产生不利影响。

AEC高速铜连接需求不及预期。数据中心互联的光、铜路线之争持续进行,光、铜用量主要取决于下游CSP及算力厂商的连接方案选择,以及技术路径的变化。AEC是DAC与AOC的中间方案,主要适用于2.5-7m的数据传输场景,若下游CSP客户转而选择采用更多光模块或者DAC互联方案,或者CPO/OIO技术演进超预期,可能影响未来AEC硬件需求。

本文摘自中金公司2024年12月27日已经发布的《智算未来系列十三:AEC,数据中心内部高速短距连接的性价比之选》,分析师:

郑欣怡 分析员 SAC 执证编号:S0080524070006

李诗雯 分析员 SAC 执证编号:S0080521070008 SFC CE Ref:BRG963

查玉洁 分析员 SAC 执证编号:S0080524110001

陈昊 分析员 SAC 执证编号:S0080520120009 SFC CE Ref:BQS925

彭虎 分析员 SAC 执证编号:S0080521020001 SFC CE Ref:BRE806

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10