
还记得几个月一年前发的8490H的测试吗

当时提到了Max系列,现在它的数据终于来了(,咕咕了起码半年导致的,实在是懒得码字

本文数据还是搬运自phoronix,原文地址https://www.phoronix.com/review/xeon-max-9468-9480-hbm2e,感兴趣的大佬还是去支持下原作者

OK,说归正题,来简单介绍下Max系列处理器,四代可拓展至强不同以往,额外有了Max系列,从头图就可以看出来,就是把普通的4th Xeon里面塞进去四颗HBM2e,还加了两个小尾巴,号称首款搭载HBM内存的x86处理器(笑,提供了一共64G的HBM内存,核心数量从32核到56核心不等,与4th Xeon一样,也提供了AMX,AVX512,CXL1.1,PCIe5.0等等特性,似乎也带有这代重点宣传的加速器(但是只有DSA,不过那不重要,Max系列的重点是能够利用高带宽内存的工作负载。另外简单提下命名规则,9代表Max系列,4代表4th Xeon,后面俩数字越大核心越多

不仅里面被塞满了,还额外长出来两个小尾巴

Intel祖传CPU和散热器贴贴

四代可拓展至强完整规格
Max系列CPU支持三种运行模式:HBM Only,HBM Flat, HBM Cache;在HBM Only即纯HBM模式下,服务器仅使用64G(双路的话是128G)HBM2e内存运行,这种模式下服务器会在不插入任何DDR5内存的情况下启动。HBM Cache模式顾名思义,此模式下HBM内存将会被作为DDR5的透明缓存,不需要进行任何软件上的更改。最后是HBM Flat模式呃...这怎么翻译?扁平HBM模式?,若服务器同时安装了DDR5内存,则可以在BIOS中启动该模式,在此模式下,系统会建立一个包含HBM内存和DDR5内存的扁平区域,从而提高软件利用HBM内存的灵活性,但对于此模式可能需要对软件做出更改。
纯HBM模式对于能塞进64G的内存里面的负载非常合适,比如9480的56个核心,每个核心能拿到的内存略高于1GB,核心最少的9462的话每个核心可以拿到2GB内存,更加令人满意,如果未来Max系列能做到96G甚至128G想必会非常强而有力(错乱
本文提到的测试将会在HBM Only模式和HBM Cache模式以及是否开启HBM内存下进行,各种软件可以运行在128G HBM2e和512G DDR5-4800下进行性能对比

本次测试用到了Max9468和Max9480,其中Max9468拥有48个核心,基准频率2.1GHz,全核睿频最高2.6Ghz,单核睿频最高3.5GHz,除了64G的HBM内存外,9468还有105MB的缓存,Max9480则为本代Max系列旗舰,拥有56个核心,基准频率1.9GHz,全核睿频最高2.6Ghz,单核睿频最高3.5GHz,同时还有112.5MB缓存,这两颗CPU的TDP均为350W,更多详细参数可以查看Intel官网的产品规范
Max9468的建议客户价格为9900美元,Max9480则为12980美元,相比8490H莫名其妙的17000美元便宜了不少,另外如果你的工作负载使用纯HBM模式还能省下DDR5的费用,Intel难得的良心(?
至于测试用到的服务器,是来自超微的Hyper SuperServer SYS-221H-TNRSupermicro的笑容,都没你的甜


完整测试环境
本次测试全程在Ubuntu23.04下使用Linux6.2内核和GCC12.2编译器在Intel CPUFreq性能模式下进行,服务器采用SNC4模式
另外值得一提的是,本次所有测试都是在风冷下进行的,按道理Intel鼓励所有Max系列CPU采用水冷来满足指定外壳温度(TCase),但是看起来超微的风扇还蛮结实的(
有点可惜的是原作者的测评只对比了9468和9480,本来还挺期待和9684X的对比的(小声


drivaerFastback大尺寸网格,秒,越低越好
使用OpenFOAM计算流体力学,HBM Only模式节约了大量时间,看起来在x86CPU中集成HBM内存确实有巨大的潜力

系统功耗,瓦,越低越好
通过IPMI查看功耗,似乎不同模式下并没有非常大的区别

drivaerFastback中尺寸网格,秒,越低越好

drivaerFastback中尺寸网格,秒,越低越好
看起来对于OpenFOAM来说,Max系列带来的好处是非常巨大的,对比了上篇专栏中8490H的数据发现9468速度更快,想想售价,这个性能就很带劲了


SP.C,总Mop每秒每瓦,越高越好
由于采用了HBM2e内存,Xeon Max CPU的每瓦性能也取得了巨大提升

BT.C,总Mop每秒,越高越好

LU.C,总Mop每秒,越高越好

MG.C,总Mop每秒,越高越好

SP.C,总Mop每秒,越高越好
在运行NASA的NPB并行基准测试时,HBM2e始终能带来可观的性能提升,yysy提升这么大是我没想到的,怪不得Aurora用的是Max9470不是8490H


懒得翻了,反正越高越好

越高越好


FLOP/s,越高越好
在这些常见的HPC负载中,HBM2e内存总能带来明显的性能优势

系统功耗,瓦,越低越好
不仅性能有提升,同时因为不需要为DDR5DIMM供电,整机的功耗还能降低一点

CPU功耗,瓦,越低越好
不过在纯HBM模式下CPU功耗略有增加,所以降低的功耗并不是直接减去内存的功耗


反正就是越高越好
在纯HBM模式下的提升令人印象深刻,都快翻番了...

秒,越低越好


秒,越低越好

秒,越低越好
看起来在运行OpenRadioss时HBM内存也能带来提升,虽然不如之前那么离谱


秒,越低越好
写到这发现许多负载都是9468比9480更快,太奇怪了,可能是9480每核心分配到的HBM内存更少,这下大家知道该买什么型号了吧(雾


秒,越低越好

秒,越低越好
虽然对于大多数负载纯HBM模式都能带来提升,但是每颗CPU只有64G容量是个重要的限制,对于需要更多内存的应用来说很可能面临资源争用甚至内存不足的问题,9480干不过9468可能也有这方面因素


z/s,越高越好

CPU功耗,越低越好

系统功耗,越低越好
和nekRS的结果类似,整机功耗在纯hbm模式下略微下降,CPU功耗略微上涨


MP/s,越高越好

每分钟迭代数,越高越好

MIPS,越高越好

byte/s,越高越好


每秒采样,越高越好

每秒每百万网格点,越高越好

每秒每百万网格点,越高越好

越高越好

越高越好

纳秒每天,越高越好

每分钟测试案例数,越高越好

秒,越低越好
了解Xeon Max在一系列负载中的表现,并量化纯HBM模式和HBM缓存模式的区别,非常有趣


FPS,越高越好

毫秒,越低越好

FPS,越高越好

毫秒,越低越好

FPS,越高越好

毫秒,越低越好

FPS,越高越好

FPS,越高越好

FPS,越高越好
作为Intel自家工具包,OpenVINO一向都是Xeon的强项,Xeon Max的表现非常出色,AMX搭配HBM更是如虎添翼


MB/s,越高越好

Bogo Ops/s,越高越好

flops/rank,越高越好
看起来在使用HBM内存后PETSc库的Streams性能有大幅度的提升


瓦

瓦
在各种测试中,只有在纯HBM模式下功耗略高,在使用到HBM内存时候记录到的功耗峰值明显较高,不过这很可能是由软件或者平台的怪异问题导致的,当从IPMI查看功耗时候(图二),可以发现他们的结果不一致
通过超微的IPMI获取的AC功耗数据显示,纯HBM模式下的功耗是最低的,因为省去了内存条的电量,因此,如果你要跑的负载可以在纯HBM模式下运行,能够节省一部分功耗,同时还能省去买内存条的开支


结果汇总,越高越好
对所有结果进行几何平均计算,HBM缓存模式能够将性能提高10~11%,纯HBM模式下又能提高大约8%。如果将不使用HBM内存的Xeon Max 9468/9480的性能与使用128GB(双路)HBM内存的性能进行对比,则总体性能提升了18~20%
但是提升幅度很大程度上取决于工作负载,对于OpenFOAM CFD、OpenVINO AI和许多其他工作负载。纯HBM模式都有明显的提升,如果能够使用64GB或是128GB的HBM2e,还能省去DDR5内存的开支,外加Max9480的售价远低于Platinum 8490H(12K和17K),Xeon Max在整个蓝宝石激流系列中还是很有趣的,尤其是对于有AMX需求的情况,Xeon Max是AMX和HBM的双赢
总体来看,9468和9480的性能差距不大,虽然9468频率高,但是9480框框还多啊,这很可能是因为相比9480,9468少了几个核心对HBM内存的争夺情况缓解了很多这不是更凸显了9468的性价比(
另外需要注意,Xeon Max系列虽然支持AMX和DSA加速器,但是不支持其他蓝宝石激流SKU的QAT/DLB/IAA加速器,不过围绕Intel这些加速器的生态还没有完全建成,目前看来Xeon Max系列没什么大的瑕疵
主要限制Xeon Max发挥的还是仅有64GB的HBM2e内存,对于顶级型号Max9480的56核来说每个核心只有1G多一点点点点点(,另外如果使用纯HBM模式还得保证负载能够塞进64G或者128G的内存空间中以免爆内存,希望将来的Xeon Max CPU可以实现更多核心数的同时获得更大的HBM内存容量。另外Max9480只有56核有点遗憾,大哥Platinum 8490H有60核心,更不用说隔壁zen4的96核和zen4c的128核,框框要是能更多至少达到完整的60核说不定会更强但是那样HBM不就更不够用了,虽然对于内存要求高的负载Max系列表现优秀,但是与非Max的SPR CPU或是隔壁竞争对手相比的话还是需要更多框框
不过不管怎么说Max系列还是很有趣的,不愧是第一款搭载HBM的x86CPU(笑