智通财经APP获悉,英伟达在AI芯片与PC芯片领域最强竞争对手AMD(AMD.US)的数据中心业务部门业绩未达到市场预期,意味着其在人工智能算力基础设施市场上未能缩小与有着“AI芯片霸主”称号的英伟达(NVDA.US)的巨大市场份额差距。尽管AMD的整体营收超出市场预期,并为当前季度提供了稳健的业绩预测,但对标英伟达数据中心业务(该业务部门涵盖H100/H200以及Blackwell系列高性能AI GPU的销售额)的AMD数据中心业务部门被视为薄弱环节。财报发布后,这家芯片巨头的股价在美股盘后交易中一度下跌超过10%。
值得注意的是,在一些看涨AMD基本面与股价前景的华尔街分析师看来,DeepSeek所主导并引领的这股史无前例的“低成本AI算力风暴”,或将是推动AMD未来蚕食英伟达在AI芯片市场高达90%“垄断性市场份额”的核心助燃剂。
这股低成本风暴不仅指的是DeepSeek引领的AI训练与推理端成本大幅下降的新AI算力范式,还指代DeepSeek引领的“精细化的PTX优化浪潮”,打破英伟达最强护城河——“CUDA生态”的独占地位,DeepSeek的底层PTX优化技术提升了对AI基础硬件性能的利用。通过这种方式,微软与亚马逊等云巨头可以更容易地在不同的硬件架构之间切换,PTX允许开发者进行更精细的控制,从而提供比传统CUDA编程更精确的性能优化。
随着开源AI大模型DeepSeek横空出世且在极短时间内火爆全球,DeepSeek本身所掀起的“低成本AI大模型算力范式”,有望持续推动人工智能训练与推理端成本大幅下行,以及PTX能够针对特定的硬件体系进行专属模式的优化,以“极高性价比”著称的AMD MI300X以及新推出的MI325X,以及后续MI350系列AI加速器产品,有望斩获更庞大的AI芯片市场份额。
在华尔街,知名投资机构Rosenblatt Securities看涨AMD股价未来12个月内冲高至250美元,Loop Capital与花旗集团均看涨至175美元。截至周二美股收盘,AMD股价收于119.500美元。
虽然展望乐观,但AMD数据中心销售额未达市场预期! 在PC市场的表现亮眼
具体的财报数据显示,第四季度,AMD数据中心业务部门的营收规模约为38.6亿美元,同比增长69%,但华尔街分析师此前的普遍预计约为40.9亿美元。该芯片巨头周二在业绩展望部分表示,预计当前季度数据中心业务部门的营收将在68亿至74亿美元之间,分析师普遍预期约为70.4亿美元,其预测区间的中值仅仅略高于分析师预期,相比于其AI芯片最强竞争对手英伟达过去两年数据中心业务营收指数级增长而言,这还不足以让投资者印象深刻。平均而言,分析师们预测该部门将在2025年创造184亿美元营收,意味着有望相比于2024年增长约46%。
AMD首席执行官苏姿丰(Lisa Su)在业绩会议上表示,与AI芯片相关的营收规模将在“未来几年”达到“数百亿美元”级别,并且还预计AMD的数据中心业务部门的营收增长将在2025年下半年将比上半年强劲得多,展望新产品线,苏姿丰表示MI350系列产品的客户需求非常强劲,整体数据中心业务部门在今年有望实现“强劲的两位数增长”。对此,有华尔街分析师表示,AMD已观察到DeepSeek等低成本AI大模型带来的更大规模算力需求,并且AMD的算力产品在AI芯片性价比方面远强于英伟达。
AMD 管理层在与分析师的电话会议上对2025年全年业绩展望持乐观态度,称其所有产品类别的需求都将大幅改善。首席执行官苏姿丰在电话会议上表示,总体而言,该公司预计“整体营收和每股收益都将同比实现两位数级别的强劲增长幅度”。
毫无疑问,Q4业绩报告再次引发了对AMD在AI基础设施领域推进势头减弱的担忧情绪,证实了一些分析师和投资者的疑虑——即当前难以撼动英伟达在AI芯片领域的垄断份额。
最近几周,中国初创公司DeepSeek所推出的DeepSeek-R1大模型,以极低成本的方式进入AI大模型市场,虽然有分析师表示AMD未来AI芯片销售额将受益于低成本AI算力范式,但AMD在短期内难以避免因训练成本大幅下降带来的“杀估值效应”,跟随英伟达、博通以及阿斯麦等芯片巨头股价暴跌。截至周二收盘,AMD股价今年已下跌1.1%,上周AMD股价的周跌幅巨大,主要因DeepSeek带来的情绪面打击而大跌近6%。
中国初创公司DeepSeek上个月表示,它能够以远低于OpenAI等美国AI科技领军者的成本开发出具有竞争力的开元AI大模型。这一声明引发了与AI相关股票,尤其是与AI密切相关的芯片股的剧烈抛售,主要包括AMD和英伟达,因为市场担心,开发新硬件所需的巨额预计支出将不再是必需的。
截至上周一美股收盘,由于投资者们担忧DeepSeek引领的“低成本AI大模型算力范式”推动科技巨头们在短中期内大幅削减AI GPU订单,因此“AI芯片霸主”英伟达(NVDA.US)股价大跌近17%,收报118.42美元,单日的市值蒸发规模达到5890亿美元,为美国股市历史上最大规模市值损失,打破此前纪录。
好消息则在于,AMD上季度在个人电脑和服务器CPU市场上从最强竞争对手英特尔(INTC.US)手中夺得高于市场预期的基础份额,但这一领域的增长动力因越来越多企业转向GPU等AI加速器而不是CPU体系而愈发疲弱。在上季度,PC芯片业务为AMD带来了高达23亿美元的营收,超过了19.9亿美元的华尔街分析师普遍预期。
AMD正试图说服一些全球最大规模的云计算公司在其数据中心扩展计划中采用其AI芯片产品。在这项扩展努力中,AMD仍在竭尽全力追赶英伟达。尽管AMD现在每年从帮助开发人工智能大模型以及满足推理端算力需求的AI芯片市场中获得超过50亿美元的营收,但其最强竞争对手英伟达在这一类别的营收每年超过1000亿美元。
整体营收方面,AMD第四季度总营收增长约24%,达到76.6亿美元,超过了75.4亿美元的华尔街分析师普遍预期。扣除某些项目后的每股利润为1.09美元,符合华尔街预期。
此外,AMD还为微软(MSFT.US)以及索尼集团(SONY.US)的游戏机提供定制处理器。由于当前一代游戏主机接近其生命周期尾声,该业务部门的销售情况疲软。第四季度,AMD游戏业务部门营收大幅下降59%,至5.63亿美元。
DeepSeek引领的“低成本AI算力风暴”,将助攻AMD彻底打破英伟达垄断AI芯片市场的局面?
近期,来自中国DeepSeek的AI工程师团队所开创的DeepSeek R1大模型可谓霸榜美国热搜,并且DeepSeek应用持续登顶苹果中国地区和美国地区应用商店免费APP下载排行榜,在美区下载榜上超越ChatGPT。DeepSeek团队证明,他们能够在没有世界最顶级的英伟达高性能AI GPU提供强大AI算力的情况下,以极低成本加上性能普通的AI加速器训练出推理能力一流的突破式开源AI大模型。
在不到600万美元的极低投入成本和2048块性能远低于H100与Blackwell的H800芯片条件下,DeepSeek团队打造出性能堪比OpenAI o1的开源AI模型,相比之下Anthropic与OpenAI训练成本高达10亿美元,DeepSeek的推理输入与输出token定价相比于OpenAI定价则可谓“骨折级”促销。
随着这股来自东方的“DeepSeek低成本AI算力风暴”席卷全球,投资者们开始强烈质疑美国科技巨头们对于人工智能堪称“非理性”的狂热AI烧钱计划是否合理,毕竟动辄千亿美元的支出,相比于DeepSeek仅仅百万美元级别成本令这些美国科技股投资者无比震惊的同时也无比愤怒。
DeepSeek 的低成本+超高效+不输于o1的大模型综合性能,源于对大模型训练流程的每个环节都施加了“极致工程”与“精细微调”,幅降低大模型训练/推理成本。比如,以极致工程为导向的高效训练与数据压缩策略,通过多层注意力(MLA)——尤其对Query端进行低秩化,将连续的Key/Value矩阵进行合并和压缩,大幅减少内存占用,从而在训练时减少激活内存负担,还包括FP8 混合精度训练、DualPipe 并行通信、专家门控(MoE)负载均衡等手段,让 DeepSeek 在训练阶段将硬件资源利用率最大化,减少“不必要的算力浪费”,以及“强化学习(即RL)+蒸馏+专业数据优化”的创新型AI训练举措,无需依赖监督微调(SFT)或人工标注数据。
硬件端的算力优化乃AI领域核心聚焦点,DeepSeek通过对英伟达H800 GPU的PTX层级优化,超越了CUDA提供的标准编程接口,使得GPU的计算能力得到了最大化利用。这一方法显著提高了硬件利用效率,大幅减少了计算和通信的瓶颈。通过减少GPU使用的时间和计算资源,DeepSeek能够以更低的成本完成同样的训练任务。
总之,PTX允许开发者进行更精细的硬件资源控制,比如优化寄存器分配和线程调度,从而提供比传统CUDA编程更精确的性能优化,还能在某些情况下绕过CUDA加速库生态,提供对硬件的极致优化。这也意味着随人工智能训练与推理端的成本下行浪潮开启,云巨头们未来将更容易转向采购成本相比于英伟达Hopper与Blackwell低得多的AMD AI加速器体系。
DeepSeek通过直接操作PTX,进行极限级的硬件优化,包括细粒度的线程/线程束调整和通信优化,这种基于PTX级别的优化允许DeepSeek在H800 GPU上实现更高效的AI算力资源使用。这也是为什么在DeepSeek问世后,AMD第一时间宣布将DeepSeek开源大模型集成到 Instinct MI300X GPU 体系上。这一集成旨在与 SGLang 配合使用,以实现最佳性能。AMD还透露,SGLang与DeepSeek团队通力合作,使 DeepSeek V3 FP8从首发当天就能在英伟达和AMD GPU体系上顺利运行。
DeepSeek所引领的低成本AI算力范式,尤其是专注于PTX语言的算子优化,为云厂们提供了更多的硬件选择,并有可能促使这些云厂转向AMD、谷歌TPU,或者自研的AI ASIC。DeepSeek的底层PTX优化技术提升了对硬件性能的利用,云厂们可以更容易地在不同的硬件架构之间切换,尤其是当英伟达AI GPU资源紧张或受到政府出口限制时。
苏妈预测:数据中心部门今年将实现强劲增幅,下半年的情况将好于上半年
被AMD粉丝们亲切称为“苏妈”的苏姿丰在业绩电话会议上对于2025年持乐观态度,称其所有产品类别的需求都将改善,并且预计AMD的数据中心业务部门的营收增长将在2025年下半年将比上半年强劲得多,数据中心业务部门在今年有望实现“强劲的两位数增长”。
AMD重磅打造的 MI300X这一款AI加速器在内存带宽和容量方面相比于英伟达Hopper架构AI GPU具有强大优势,尤其适用于对于AI并行化算力负载要求较高的生成式AI模型训练和推理任务。甲骨文与AMD合作建设AI超算中心表明,AMD在硬件设计和AI相关的软件生态支持上,特别是高性能计算和AI工作负载所需的软硬件协同体系方面,已经具备强大的竞争力。
应用于数据中心AI服务器的AMD M300X 升级版本——MI325X于第四季度开始量产以及上市销售,AMD更加先进的MI350系列则将在2025年推出,而MI400系列计划在一年后推出。苏姿丰表示,公司将在本季度向主要客户提供MI350系列样品,并计划在年中开始出货,并且表示MI350系列产品的客户需求非常强劲。MI400系列按计划将于2026年推出。
AMD全新推出的MI325X性能指标方面,基于台积电3nm制造工艺的MI325X将延续AMD强大的CDNA3构架,同时与英伟达H200一样采用第四代HBM存储系统——HBM3E,内存容量大幅提升至288GB,带宽也将提升至6TB/s,整体的性能将进一步提升,其他方面的基准规格与兼容性则基本与MI300X一致,方便AMD客户升级过渡。MI325X AI性能提升幅度为AMD史上最大幅度,相较竞品英伟达H200将有1.3倍以上提升;AMD MI325X峰值理论FP16是H200的1.3倍左右,1.3 倍于H200的内存带宽,基于每台服务器的模型大小是H200的2倍。
Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.