自从苹果在10月份发布了搭载M4 Pro和M4 Max的MacBook Pro后,M4系列芯片的性能表现就引起了很多关注。但是,了解苹果产品线的朋友都知道,M4系列还有一个隐藏BOSS——M4 Ultra尚未发布。
虽然Ultra型号缺席了前代M3系列,但是M2 Ultra的性能却给大家留下了深刻印象,加上很早之前就曝光M4 Ultra已经流片,无疑让人们对这颗苹果的真·旗舰芯片性能有了很大期待。
在海外媒体的推算中,如果M4 Ultra采用与M2 Ultra相似的架构设计,也就是将两个Max版芯片通过UltraFusion封装技术连接在一起,那么M4 Ultra的GPU性能应该会是M4 Max的1.7倍左右。
再结合M4 Max在Geekbench 6的GPU测试中得到的197754分,M4 Ultra的GPU测试得分大概率会在330000左右,作为对比,目前消费级的最强显卡RTX 4090得分也只有310000-320000。
图源:Max Tech
M4 Ultra爆杀RTX 4090?这个消息恐怕老黄看了都要做噩梦,不过也有人提出疑问:M4 Ultra的GPU真的能有这么高的性能吗?在实际使用场景中真的能媲美RTX 4090吗?
M4 Ultra跑分曝光,到底有多强?
M4 Ultra虽然还未发布,但是我们可以从已经发布的M4 Pro和M4 Max上一窥这个系列芯片的性能表现。如果单看Geekbench 6的测试结果,你会发现M4 Pro的得分属实恐怖,在单核测试中以3925的成绩超越了AMD和英特尔的最新桌面端旗舰处理器,而在多核测试里,也明显领先Ryzen 9 9950X,仅略输于酷睿Ultra 9 285K。
图源:Max Tech
至于性能定位更高的M4 Max,则是在单核、多核测试中均碾压了Ryzen 9 9950X和酷睿Ultra 9 285K,让整个PC市场感受到了苹果的强大。而且,在测试中M4系列芯片的核心主频及核心数都明显低于两个对手,只有4.5GHz,但是却展现了更高的单核及多核性能。
图源:Max Tech
可怕吗?很可怕。要知道酷睿Ultra 9 285K和Ryzen 9 9950X都是桌面端处理器,满载功耗均超过200W,而M4 Pro和M4 Max却是MacBook Pro的移动端芯片,足见其能效比之高。
以目前M4 Max的性能推算,采用两颗M4 Max芯片组合而成的M4 Ultra在多核性能上或将达到45000分,是酷睿Ultra 9 285K的两倍。单核性能则一般不会有太大提升,不过仍然会高于M4 Max,成为目前消费级市场的最强处理器。
M4 Ultra GPU一举超越英伟达RTX 4090
再来看看GPU性能,曝光称其跑分会超过RTX 4090,而依据则是Geekbench 6的GPU测试,这个测试涉及GPU的图像处理、计算摄像、机器学习、物理模拟和计算金融五个模块,并不单单测试游戏性能,这就给了M4 Ultra更多的得分空间。
所以,结合目前实测的M4 Max GPU性能数据,这个推测是有一定道理的,在极客湾的实测中,M4 Max的AI大模型计算性能已经达到RTX 4090的60%。甚至可以在RTX 4090因为爆显存而性能暴跌的情况下, 借助128G统一内存的优势继续流畅运行更大参数量的AI模型。
图源:极客湾
这也意味着,只要M4 Ultra的架构不发生根本性变化,至少在AI计算等方面的性能是可以超越RTX 4090,成为消费级最强的AI GPU。
那么游戏方面呢?从目前的实测结果来看,M4 Ultra的游戏性能肯定无法与RTX 4090相比的,因为即使是运行原生Mac游戏《博德之门3》,高分辨率下帧数也只是比RTX 4070移动版略高30%,尚未达到RTX 4080移动版的水平。
而在3DMark的测试中,RTX 4090桌面端的性能约为RTX 4080移动端的两倍,这也意味着M4 Ultra在最理想状态下,游戏性能也只能达到RTX 4090的75%左右。不过若是对比移动端的RTX 4090,那么倒是有机会反超,毕竟移动端RTX 4090本质上就是RTX 4080桌面端,差距还是非常明显的。
另外,如果是非原生游戏,那么GPU的性能还会受到明显的削弱,实测中帧数直接从领先RTX 4070移动版30%变成落后30%甚至50%,这时候别说挑战RTX 4090了,可以直接考虑和RTX 4060坐一桌。
对于想用M4 Ultra打游戏的朋友来说,个人建议是不如拿一万装台游戏电脑,体验会比M4 Ultra好很多。但是如果你的需求是用来跑本地AI大模型、视频剪辑、模型渲染等,那么M4 Ultra的表现或许会超过目前最强的消费级PC也说不定,对于英伟达和AMD的消费级GPU市场部门来说,这并不是一个好消息。
“苹果芯”跑分屡创新高,Arm是关键
苹果的自研M系列芯片跑分屡创新高,着实让英特尔、AMD等传统半导体厂商冷汗直冒,甚至不得不联手成立x86架构生态小组,共同探讨x86架构的未来,能让两个曾经的死对头联手,可想而知Arm带来的压力有多大。
实际上很多人也好奇,为什么Arm架构芯片的能效比可以如此惊人?其实关键就在于指令集上,Arm的指令集相较于x86要精简很多。
你可以将x86看作是一台复杂的多功能卡车,它可以一次性处理大量的数据和任务,但是在面对简单任务时,复杂且庞大的指令集也让其难以降低自己的资源占用率。而Arm则是摩托车,虽然每次只能执行单个任务和少量数据,但是可以通过灵活的车辆调度,分配执行任务的最佳车辆数,让Arm芯片在运行时有着更好地能效。
基于Arm架构的特性,苹果等企业很快就意识到通过增加核心数(准备更多的摩托)和优化指令集(专车专用提升效率),就可以让Arm芯片在性能上取得突破,Arm指令集的高能效比也让Arm芯片可以轻松堆砌大量核心,而不用过多的考虑功耗问题。
此外,Arm架构的灵活性,让苹果可以根据需求定制化设计专门的模块负责对应的任务,使得芯片效率进一步提升,加上统一内存架构带来的低延迟特性,让M系列芯片的整体执行效率远程传统芯片。
图源:苹果
得益于多项优化,量变最终引起了质变,让Arm芯片成功在单核及多核性能上都超越了传统x86芯片,成为PC市场的新兴势力,而不再是固守在移动设备市场。而且,苹果很快就发现这个套路在GPU上也同样可行,通过堆砌核心数的方式让GPU性能同样进入爆发式增长。
以M4 Pro和M4 Max为例,前者的GPU核心数为20个,后者则是40个,而在实际测试中,后者的各项性能基本上就是前者的两倍。理论上,只要苹果愿意,在达到芯片内部延迟的上限之前可以无限堆叠核心,打造更强的GPU。
图源:苹果
不过苹果本身并非半导体企业,其芯片设计更多的是为产品服务,所以并不会像英伟达、AMD那样为了销售芯片而设计出功耗、性能都“爆炸”的产品。但是苹果不这么做,不代表其他企业也这么想,比如高通就一直在关注Arm GPU和CPU,除了消费端,服务器和数据中心同样是高通的目标市场。
在2024年,高通就宣布重回服务器芯片市场,推出基于Nuvia内核设计的服务器芯片,截止目前为止,相关机构预估服务器市场的Arm芯片占比已经达到10%。其中不少AI算力中心都有增加Arm GPU算力服务器的计划,因为Arm的高能效可以显著降低AI推理时的电力成本,进而降低单位算力的成本。
正是因为Arm架构所带来的巨大威胁,前段时间英特尔与AMD签署合作协议时,英伟达也同样到场,并且同为生态小组的合作企业之一。目前,对于英伟达等企业来说,最好的消息是苹果无意参与到半导体芯片市场中,而坏消息则是,高通的Nuvia内核表现不错,恐怕会成为GPU市场的一匹黑马。
可以预见的是,在未来的PC市场中,Arm必然会有一席之地,并且有望彻底挑战x86架构和英伟达的市场地位。
Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.