专栏/Intel Xeon Platinum 8490H "Sapphire Rapids" 性能测试

Intel Xeon Platinum 8490H "Sapphire Rapids" 性能测试

2023年02月10日 03:30--浏览 · --点赞 · --评论
粉丝:2169文章:10

注:

  • 本文搬运自phoronix,非原创,原文地址https://www.phoronix.com/review/intel-xeon-platinum-8490h

  • UP只是搬运文章,不能100%熟悉甚至很不熟悉原文中的各种测试项目,如有错误请各位大佬谅解指正

  • 下文使用SPR代指Sapphire Rapids

先来简单回顾下Intel Xeon Platinum 8490H(以下简称8490H)的规格,这款旗舰SKU拥有60个核心120个线程intel果然还是不敢在服务器上用大小核的,基本频率1.9GHz,全核心加速频率2.9GHz,最大加速频率3.5GHz,8通道DDR5-4800内存。缓存共112.5MB,TDP350W。intel给这一代可拓展至强里面塞进去几种加速器,8490H配有DSA、QAT、DLB、IAA各四个,本次测试中全部启动。8490H的建议客户价格为17,000美元(约合人民币115,260元)。详细规格大家可以去intel官网查看,这里不再详细介绍

Xeon典中典的CPU粘在散热器上(雾

8490H的对手应当是AMD Genoa阵容中的旗舰产品EPYC 9654(以下简称9654)。9654的规格就十分暴力了:96核心192线程,2.4GHz基本频率,全核心加速频率3.55GHz,最大加速频率3.7GHz,TDP360W,12通道DDR5-4800,一千片批发价格却仅为11,805美元,明显低于8490H。不过9654缺乏8490H上的专用加速器,也没有AMX指令集的支持,不过这一代EPYC终于开始支持avx512用魔法战胜魔法(错乱

8490H和9654

测试平台均为广达电脑生产的参考服务器

本次测试包括的CPU有:

  • AMD EPYC 7713

  • AMD EPYC 7763

  • AMD EPYC 7773X

  • AMD EPYC 9374F

  • AMD EPYC 9554

  • AMD EPYC 9654

  • Intel Xeon Platinum 8362

  • Intel Xeon Platinum 8380

  • Intel Xeon Platinum 8390H

所有处理器都在其最大额定频率和最大内存通道配置下进行测试,存储使用镁光9300系列NVMe硬盘,详细硬件细节见下图

测试进行在Ubuntu 22.10和Linux 6.0内核下,GCC 12.2使用默认编译器,所有处理器都使用Linux 6.0的"performance"模式进行测试,测试过程中使用暴露的RAPL接口监测和记录CPU封装的功耗,"每美元性能"项目中IceLake和Milan(X)使用NewEgg定价为参考,SPR和Genoa使用官方建议零售价作为参考

OpenVINO测试

因为Intel最近对AI负载越来越重视,业界也对AI表达出越来越多的兴趣,所以说让咱们从Intel自己的OpenVINO开始测试,SPR应该已经充分兼容了这个软件毕竟都是自家的东西,可以充分发挥它的潜力

人脸识别FP16,帧率,越高越好
人脸识别FP16-INT8,帧率,越高越好

原作者的话:从AMD EPYC Milan(X)到Genoa,我在11月时就对OpenVINO的性能感到震惊,因为EPYC有AVX-512和Zen 4。但是在SPR上的OpenVINO结果让我对其性能感到兴奋不已。诚然,OpenVINO是英特尔开发的开源软件,并且已经针对英特尔处理器进行了优化。由于AMX的存在,Xeon Platinum 8490H的性能比Ice Lake和AMD EPYC都要惊人。OpenVINO在SPR上的表现完全是主导性的。

人脸识别FP16,帧率每美元,越高越好

虽然与EPYC 9004系列的定价相比,8490H 17,000刀的定价非常离谱,但如果是能利用到AMX指令集的AI负载或是其他的能够利用SPR新功能的工作负载,这个价格还算合理

人脸识别FP16延迟,毫秒(ms),越低越好

8490H不只是吞吐量远超其他处理器,延迟也低得多

CPU功耗,瓦特,越低越好

9654和8490H的平均功耗都在325W左右,但是8490H峰值功耗377W,9654峰值功耗360W

退休人员年龄及性别识别 0013 FP16,帧率,越高越好

OpenVINO测试中的最坏情况下,双路8490H只能提供双路9554到双路9654之间的性能,甚至偶尔9554比9654更有优势

退休人员年龄及性别识别 0013 FP16延迟,毫秒(ms),越低越好
人身检测FP16,帧率,越高越好


人身检测FP16延迟,毫秒(ms),越低越好

人身检测FP32,帧率,越高越好
焊缝孔隙率缺陷检测FP16-INT8,帧率,越高越好
焊缝孔隙率缺陷检测FP16,帧率,越高越好
焊缝孔隙率缺陷检测FP16延迟,毫秒(ms),越低越好
人-车-自行车检测FP16,帧率,越高越好
机器翻译英语到德语FP16,帧率,越高越好
机器翻译英语到德语FP16延迟,毫秒(ms),越低越好

原作者的话:这些基准测试是用OpenVINO 2022.2.dev完成的,因为那是我开始第四轮服务器CPU基准测试时的最新版本,而我后来加入了OpenVINO 2022.3,它有进一步的优化,将在后续的SPR CPU基准测试中出现。

总的来说8490H在Intel OpenVINO AI工具包中表现不错,接下来让我们康康其他的一些工作负载,毕竟不是所有服务器都在算AI

HPC测试

GROMACS测试

MPI CPU - lnput: water GMX50 bare,纳秒每天,越高越好

GROMACS仍然是HPC领域中一个有趣的CPU基准。GROMACS有一个oneAPI + SYCL后端,可以从更大的缓存中获益。可以看到7773X比7763有明显的提升,因此intel的Max系列的CPU和GPU应该能取得更高的性能。在这项测试中8490H性能比上一代8380好得多,单路8490H性能与双路8380差不多,但是还是被9554和9654暴揍

CPU功耗,瓦特,越低越好

在这项测试中,不管是单路还是双路,8490H的功耗表现都是最差的。8490H平均功耗315W,峰值376W,而9654平均功耗为267W,峰值为344瓦

小声BB:按道理HPC还算是intel的强项,结果不论性能还是能效比都表现稀烂,属实丢人,非常失望

MPI CPU - lnput: water GMX50 bare,纳秒每天每秒,越高越好

当计算每瓦性能时,8490H仅能稍微领先于Milan系列,完全落后于EPYC 9004系列,但至少比8380提高了35%

MPI CPU - lnput: water GMX50 bare,纳秒每美金,越高越好

每美元性能的话,17,000美元一颗的东西理所当然的排在了最后...丢人


Graph500测试

规模:26,sssp TEPS中位数,越高越好

在Graph500 HPC基准测试中,8490H相比8380有非常巨大的提升,单路8490H就能达到双路8380 1.13倍的性能,但是显而易见还是被9654暴揍

规模:26,sssp 最高TEPS,越高越好

如果看最高TEPS结果还能稍微好点,勉强超过9374F


HPCG测试

GFLOP每秒,越高越好

在HPCG基准测试中,8490H相比8380大致提升了50%左右,但是相比EPYC 9004系列就更丢人了(


WRF测试

conus 2.5km模型,秒,越低越好

在WRF天气预报基准测试中,老样子,虽然相对于8380有明显的提升,但是8490H还是被EPYC 9004系列摁着打,连9374F都打不过。有意思的是WRF也可以从大带宽的内存中获益,因此EPYC 9004系列的12通道内存会带来一些优势,Milan-X的巨大缓存也能带来增益,由此来看intel的Max系列或许能取得高一些的性能

CPU功耗,瓦特,越低越好

在跑WRF的时候8490H平均功耗348W,峰值376W倒数,懂?

RELION测试

秒,越低越好

Xcompact3d Incompact3d测试

秒,越低越好

ACES DGEMM测试

持续浮点率,GFLOP每秒,越高越好

没什么好说的,全程被EPYC 9004系列按在地上摩擦,唯一好看一点的也就是至少相比IceLake有很大提升,一颗8490H差不多可以和两颗8380相当


NAS Parallel Benchmarks测试

BT.C,总Mop每秒,越高越好

可以看到在这项测试中7773X靠着超大缓存的表现很好,反过来暴揍8490H一转攻势,或许intel的Max系列能取得更好的表现

EP.D,总Mop每秒,越高越好

CPU功耗,瓦特,越低越好
EP.D,总Mop每秒每瓦,越高越好

8490H在每瓦性能和原始性能方面只能相比IceLake有明显提升,和EPYC 9004相比还是落后很多


Rodinia测试

OpenMP LavaMP,秒,越低越好

AI性能测试

LeelaChessZero测试

Nodes每秒,越高越好

在国际象棋基准测试中,8490H表现还不错,单路就能打败双路9654和9554,不过9374F居然拿了第一名,很怪(

CPU功耗,瓦特,越低越好
Nodes每秒每瓦,越高越好

虽然原始性能方面8490H还算优秀,但是每瓦性能还是9654和9554更强,只能说是至少比IceLake有明显提升


oneDNN测试

卷积形状自动批处理 数据类型f32,毫秒,越低越好

在跑intel自家oneDNN神经网络库的时候8490H表现出出色的性能,这或许要归功于SPR搭载的AMX指令集

卷积形状自动批处理 数据类型u8s8f32,毫秒,越低越好

intel的oneDNN库被NNX、OpenVINO、PaddlePaddle、PyTorch、TensorFlow、Apache MXNet等AI软件使用,这些软件在SPR上跑应该可以取得不错的性能

反卷积3D图形批处理 数据类型f32,毫秒,越低越哈

不论相比上代IceLake还是相比EPYC 9004系列,8490H在运行AI负载时的表现都不错

CPU功耗,瓦特,越低越好

不过抛开性能不说,8490H的功耗远超其他处理器你性能差!你功耗高!

编译性能测试

构建系统:Ninja,秒,越低越好
编译时间,秒,越低越好
构建:默认设置,秒,越低越好

在编译任务无法调用SPR的加速器的时候,8490H明显落后于9654和9554,甚至连9374F都打不过,这可能是因为9374F有比较高的频率

构建:allmod配置,秒,越低越好

这下被上代产品揍了

CPU功耗,瓦特,越低越好

对于代码编译负载,8490H的功耗仍然显著高于其他处理器

编译时间,秒,越低越好

带有HBM2e的Max系列CPU跑代码编译可能会有点意思,它可能在CI环境中取得不错的成绩,直接把HBM2e当作系统内存用

java测试:jython,毫秒,越低越好

虽然没有利用到所有核心,但是8490H在运行OpenJDK java工作负载时表现不错,不过intel一向在这项测试中发挥都算可以

渲染性能测试

Blender测试

教室场景,秒,越低越好

理发店场景,秒,越低越好

对于基于CPU的3D渲染,EPYC 9004系列依靠海量的核心/线程数轻松获胜,8490H甚至连Milan(X)都打不过,不过至少对于8490H的核心数来讲它的性能还不错


Embree测试

模式:亚洲龙,帧每秒,越高越好

跑光追时候8490H直接给大家表演个双路打不过人家单路,双路8490H落后于单路9654


Intel Open Image Denoise测试

图像每秒,越高越好

图像每秒,越高越好
图像每秒,越高越好

当运行intel自家的oneAPI的一部分的开放图像降噪库时,8490H取得了不错的性能但是我记得Embree也是i家的啊

CPU功耗,瓦特,越低越好

图像每秒每瓦特,越高越好

虽然8490H性能还行,但是在功耗和每瓦性能方面还是9654更胜一筹


OSPRay测试

项目每秒,越高越好

intel的OSPRay光追引擎可以有效利用到avx512,60核心的8490H几乎可以和64核心的9554相当,并且相对于8380性能提高了大约75%,不过还是喜闻乐见的被9654暴揍96核心的绝对力量

CPU功耗,瓦特,越低越好

项目每秒每瓦特,越高越好

能耗方面就很难看了,典中典国家电网战略合作伙伴

项目每秒,越高越好
毫秒,越低越好
毫秒,越低越好
毫秒,越低越好

在运行OSPRay Studio的时候,8490H只能说是比上一代有巨大提升,和9654甚至9554比还是没啥希望


GraphicsMagick测试

选项:增强,迭代每分钟,越高越好

选项:锐化,迭代每分钟,越高越好


ASTC Encoder测试

预设:详细,MT每秒,越高越好

好不容易遇到自家软件,EPYC 9004系列发挥一如既往的优秀,8490H还是被64核和96核的绝对力量摩擦


网页性能测试

Node.js HTTP负载测试

每秒请求,越高越好

就Node.js性能来讲8490H表现不错,远远超过IceLake,还能领先EPYC 9004系列,不过很反常的是单路8490H性能要比双路更好,可能是这个负载更要求单核性能。另外虽然在单线程脚本执行方面落后,但是EPYC 9004系列可以凭借它超多的核心提供更密集的Node.js环境


simdjson测试

GB每秒,越高越好
GB每秒,越高越好
GB每秒,越高越好

SIMDjson的结果就很有意思了,因为它可以吃到avx512的优化;zen4因为支持了avx512所以跑出了非常不错的性能,不过很怪的是9374F超过了自家的9654和9554


Python测试

总平均测试时间,毫秒,越低越好
测试项目:crypto_pyaes,毫秒,越低越好
测试项目:django_template,毫秒,越低越好
测试项目:regex_compile,毫秒,越低越好


PHP测试

分数,越高越好

PHP和python的成绩中规中矩,虽然超过了9654但是被9374F摁着打,不过9374F能碾压自家大哥还挺奇怪的


OpenSSL测试

算法:RSA4096,每秒签名,越高越好

理所当然的被64核和96核暴揍

工业软件测试

BRL-CAD测试

VGR性能统计,越高越好

在多线程的开源CAD软件BRL-CAD中,8490H至少可以领先64核的9554,但还是落后9654非常多


Liquid-DSP测试

线程数:128-缓冲长度:256-迭代长度:57,采样每秒,越高越好

线程数:256-缓冲长度:256-迭代长度:57,采样每秒,越高越好

在测试Liquid-DSP开源数字信号处理库时,8490H表现非常差,但是至少超过了Milan(X),相比8380提高了两倍以上


Coremark测试

尺寸666,每秒迭代次数,越高越好

我不好说.jpg


OpenFOAM测试

秒,越低越好

在OpenFOAM测试中,8490H虽然远超8380,但是甚至连9374F和7773X都打不过,不过7773X的大缓存在这里表现很好,也许Max系列CPU可以取得好一点的成绩

CPU功耗,瓦特,越低越好

8490H的功耗远超其他处理器,intel老传统了属于是

总结

因为每个专栏只能插入100张图片,所以这个部分的图片塞进另外一个专栏,点下面传送门查看

文章加载失败

在创作工作负载中,双路8490H的性能大概是双路8380的2.16倍,但是还是落后于9654,虽然可以领先9554,但是要知道9554仅售9k多美元,还有64个核心

注:创作工作负载包括OSPRay、OSPRay Studio、C-Ray、Tachyon、POV-Ray、Blender、GraphicsMagick、Embree、oneDNN、OIDN、OpenVINO、ASTC Encoder


在高性能计算(HPC)中,8490H甚至无法战胜9554,不过至少双路8490H达到了双路8380 2.27倍的性能,但是考虑到售价和能耗,相比EPYC 9004系列还是没什么竞争力

注:HPC负载包括NPB、Rodinia、HPCG、MT-DGEMM、AMG、NAMD、GROMACS、LULESH、Pennant、Incompact3D、OpenFOAM、RELION、oneDNN、OpenVINO、LCzero、WRF、Graph500


在机器学习测试中,Xeon占有较大优势,8490H可以轻松达到8380三倍以上的性能,也可以轻松超过9654和9554,这可能是由AMX和AVX-512造成的


至于oneAPI,毕竟是自家软件,取得优秀成绩也是意料之中


但是想代码编译或是3D渲染这样的工作,对核心和内存的要求更加紧迫,EPYC 9004系列凭借超多核心数和12通道内存轻松取胜


在Python执行性能方面,结果和其他常见的脚本语言测试性能类似


根据原作者发布这篇文章时已经进行过的100多个测试结果进行几何平均,双路8490H总体上略微领先双路9374F和双路9554,可以达到上代8380性能的1.79-1.83倍,9654比8490H快大概16%,9554则快9%


至于功耗,8490H功耗明显高于8380,也高于EPYC 9004系列的每一款处理器,单路时就能达到最高380瓦的功耗


总的来说,四代可拓展在人工智能方面优势较大,像oneDNN,DeepSparse和OpenVINO可以充分利用到SPR的新增功能,类似AMX,还有AI加速模块;同时四代可拓展在运行Open Image Denoise图像降噪、OSPRay、GraphicsMagick、PHP、OpenJDK等方面也还算差强人意。但是涉及到HPC或渲染等工作负载时,四代可拓展的性能就会受到影响,这些工作负载可以很好的从超多线程数或是高速的内存中获益,双路9654可是能达到384线程。另外在有些内存密集型工作负载中四代可拓展的表现甚至不如7773X,但是这些任务也许更适合Max系列CPU

至于价格,8490H定价17000美元,而9654每一千颗批发价格仅11805美元,8490H的定价可以说是很高了,除非你的工作负载可以充分利用四代可拓展的各种新增特性如加速模块或是AMX指令集,否则性价比不高,不过在这里原作者有句话我不太认同,放在这里大家评价

考虑到每个9654使用12个DIMMs而不是8个DIMMs的成本,如果想要填充所有可用的内存通道,仍然会比8940H的定价高。

不过如果完全不计成本,四代可拓展的计算密度还能略占优势,毕竟支持最高8路,单机性能可以靠纯粹的砸钱战胜9654,我记得超聚变已经推出的FusionServer X6000 V7可以在2U的空间里塞进8颗8490H,还是比较惊喜的

另外如果不需要用到加速器的话,Max系列或许是不错的选择,每颗Max9480拥有56个核心,和8490H相同的112.5MB缓存,同样的350W TDP,8通道DDR5-4800,四个DSA加速器,虽然没有QAT/DLB/IAA,但是9480还拥有64GB的HBM2e作为系统内存,价格为12980美元,这或许在某些HPC负载中能取得超过8490H的性能,取得不错的性价比

也可以把视线从8490H上挪开纵观全局,四代可拓展还有些优势正如其名——拓展性;EPYC产品线简洁清晰,但是着实细分性不强,无法准确匹配每一种需求。而Xeon系列更注重多CPU互联,采用UPI总线不占用PCIE,多路损耗也低于EPYC系列,例如需要超多PCIE插槽的时候,6416H就是不错的选择,虽然单路仅支持80条PCIE不及EPYC 9004系列的128条,但是双路就能达到和EPYC一致的160条,甚至还可以四路达到320条,整机成本却还能控制在可以接受的范围内(一颗6416H的建议零售价仅为1444美金)。总之如果对拓展性有较高要求,四代可拓展也算是一个不错的选择


个人来讲对这代至强比较失望,性价比和能耗比奇差,除了AI负载几乎就是没眼看,印象中HPC一向是Intel的强项也完全败给9654,再期待一波Max系列的表现。最后感谢各位的阅读,码字不易求点赞求点赞求点赞(错乱

投诉或建议