前言
9月初英伟达发布了基于全新的安培游戏卡架构的GeForce RTX30系列产品,首发包括RTX3090、RTX3080、RTX3070三款终端显卡。之前RTX3080的测试GeForce RTX 3080首发评测①:架构、游戏性能、温度与功耗相信大家都已经看过了,抛开相对来说不那么亮眼的功耗发热以及首发货源短缺造成的一些不愉快之外,RTX3080在高端显卡这一块竞争力十足,附近价位的卡不管是新老可以说没有一个能打的。

不过在规格表当中我们也可以看到,RTX3080可以算是近年来相对于同系列满配大核阉割幅度最多的一张高端游戏卡,阉割幅度跟GTX780和满配GK110(GTX Titan Black)相当,达到了20%。而相比之下GTX980Ti跟GTX Titan X相比只阉割了8.4%,GTX1080Ti跟Titan Xp相比则只有6.7%的阉割幅度。RTX2080Ti相比Titan RTX则更小只有5.6%,这也很让人好奇补齐了绝大部分规格只象征性阉割2组SM的RTX3090究竟能不能在RTX3080的基础上百尺竿头更进一步,达成更好的游戏表现和体验——虽然这张卡英伟达官方的定位是生产力,但是你有没有生产力你自己还不清楚吗,游戏性能显然才是更多玩家关心的焦点。同时对于少部分尝鲜8K的玩家来说,满配24GB的显存究竟能不能帮我们敲开8K游戏时代的大门也是一个非常值得关心的事情。
所以带着这些问题,我们一起来看一下GeForce RTX 3090的游戏性能究竟如何吧。
安培游戏卡架构解析
这一章算是炒冷饭顺便修复一下上一篇里的一些bug,之前没有了解过安培游戏卡架构的同学可以看一下。RTX3090和RTX3080在架构方面完全一致,只是规模有所不同。

说到GeForce RTX 3080就不得不提这一次的安培游戏卡架构,虽然名字都叫安培,但是跟之前纯计算卡NVIDIA A100上的安培架构并不是一回事,但也不像帕斯卡那代一样,GP100重新设计,GP102=Maxwell with 16nm FinFET Plus附魔强化版,而是针对游戏应用做了更适合的架构设计。

上图是英伟达计算卡Ampere A100的架构图,相比前面GA102 Ampere游戏卡架构来看,最明显的地方当然是计算卡没有RT Cores,当然还有个区别就是计算卡也不会做Rops,只不过这两张图上没有画出来。再比较明显的区别就是,A100计算卡有FP64(双精度)、FP32(单精度)和INT32(整数)三种计算单元,而GA102游戏卡的架构当中去掉了对游戏完全无用的FP64,然后INT32和FP32共享使用部分单元,实现在额外晶体管开销不大的同时拥有翻倍的FP32算力。当然由于共用了一部分单元,实际游戏遇到混合精度计算的时候性能提升不可能像纯FP32算力提升那么大——从这个方面来看,这个设计思路倒是比较类似之前AMD的农机系列CPU,每2个浮点单元搭配1个整数单元,然后用浮点单元的数量作为核心数。
不过这个架构设计也带来了一个问题,就是安培架构游戏卡的CUDA Cores数量应该怎么算。之前有两种方案,一个是以可以计算FP32的单元作为一个CUDA,这样算的话RTX3080拥有8704个FP32(CUDA Cores)。还有一种算法就是将能实现完整(INT32+FP32+FP16)混合精度计算的最小单元作为一个CUDA,这样算的话RTX3080是4352 CUDA,跟RTX2080Ti相同。不过看英伟达官方的展示PPT之类的,采用的都是第一种算法,所以我们也以此为准。
以上是在传统光栅化游戏方面安培架构的改进和进步,既然老黄现在这么强力的推光追和DLSS,怎么能忘记RT Cores和Tensor Cores的提升。



RT Cores在提升效率的同时扩展了规模,架构上也尤其提升了对于含时类运动光追问题的求解能力。官方表示在处理这类问题时,最多可以达到8倍的效率。从这个说明上来看,应该可以有效缓解某些游戏在光追特效开启时一转头就掉帧的问题。

Tensor Core方面的改进,也是强化了对验证和推理比较有效的稀疏矩阵计算能力,毕竟对于绝大多数游戏玩家来说在自己电脑上跑训练的机会少之又少,DLSS之类的功能靠的全是推理能力。

指望GA102能在这方面打A100那肯定是不可能的啦,不要怀疑老黄的刀法。不过相比上一代的RTX2080Super,提升还是不小的。

通过以上的设计,英伟达宣称安培架构实现了相比图灵架构1.9倍的能效比,还顺便标了一下温度和噪音,大概也是对这次FE版的新散热结构颇有信心。

核心架构改良颇多,显存的决定权也是很重要的。不知道偶数代GDDR都是短命鬼(用GDDR2、GDDR4的卡一只手就能数过来)这个魔咒是不是继续生效了,看起来表现还不错的GDDR6也迅速被GDDR6X替代。初代GDDR6X的频率从19Gbps起跳,相比末代GDDR6的16Gbps提升并不算大,不过这代RTX3080采用了102大核,位宽也增加到了320bit,在带宽方面依然是非常明显的提升。
七彩虹RTX3090 AD OC图赏与拆解
这回的RTX 3090可能是因为时间或者什么别的因素,并没有Founders Edition可供测试,只能是与AIC厂商铍盐交易获取测试用卡。这次我们拿到的是来自七彩虹的非公版产品RTX3090 Advenced OC,正好之前也有一块RTX3080 AD OC,可以对比一下两者之间的差异。


外观设计方面七彩虹RTX3090和3080 AD OC跟上一代产品基本相同,只不过散热片又有加厚,20系AD OC是2.5插槽的设计,在30系产品上被加厚到了3插槽。

背面外观也是几乎一模一样。


唯一的区别在于RTX3090提供了新的SLI NVLink Bridge接口,而RTX3080没有。

散热器方面仍然采用了AD OC特色的真空腔均热板+热管。

非公版的卡拆起来不像FE那么复杂,拆解只需要一把普通十字螺丝刀即可,非常人性化(要是背面螺丝没有防拆贴纸可以随便拆不影响质保就更好了)

拆下散热器即可看到PCB板全貌。

两张AD OC(3080和3090)的PCB设计完全一致,但是3080空焊了两颗显存,具体用料方面也有微小不同。
RTX3090的GPU核心是GA102-300-A1,按道理说一般英伟达最高一档的GPU会给400编号,难道这意味着上面还有更高阶的产品?

背面,最明显的区别就是RTX3090背面也有12颗镁光GDDR6X显存,而RTX3080的背面显存位则是空焊的。

3090 AD OC有三个8pin外接供电,每个供电接口都有一相滤波/检流回路。GPU/显存共计20相供电,采用50A饱和电流的整合式MOS,总计可以为核心提供880W的供电功率,后续有高功耗版BIOS也完全足够了。
理论性能测试
首先还是介绍一下测试平台,Intel的10代Comet Lake发售之后我们也跟着更换了测试平台,保证不会受其它因素限制影响显卡性能发挥。(确实Intel现在只有PCIe3.0支持是个问题,后续我们会做下这方面测试看看到底影响能有多大)
CPU:Intel Core i9 10900K
主板:微星MEG Z490 Godlike
内存:芝奇皇家戟双通道DDR4-4000MHz@18-22-22-42
电源:海韵Focus 850W



其它配件对于显卡性能测试无影响,略。

在FP32单精度算力方面RTX3090创下了目前单GPU的新高,达到了恐怖的34TFlops。整数INT32方面也突破了20GIOPS。
接下来是大家喜闻乐见的3DMark系列测试。


2K分辨率的两个测试Time Spy和Fire Strike Extreme当中RTX3090相对于RTX3080的性能提升约9.8%,而4K分辨率的两个测试TSE和FSU的话,性能提升幅度达到了12%。跟之前RTX3080相对于2080Super的提升类似,新旗舰在更高的压力下发挥会更好一些。
4K分辨率游戏性能测试
介于RTX3090本身的定位,和刚才的3DMark测试结果,我认为对于这张卡来说去测2K甚至1080p分辨率已经完全没有任何必要了,直接4K起跳甚至都有点担心压力不足,不过考虑到5K是小众分辨率,8K更是只落了个影子,4K游戏仍然是本代旗舰最重要的任务之一,我们的重点也自然就在于此。

即使在4K分辨率下实际游戏性能表现RTX3090相对于3080依然没有能领先太多,领先幅度最大的也差不多就是打平跑分差距的12%,最小的甚至基本都在误差范围之内。这么看的话,如果只是玩4K分辨率甚至更低的游戏,RTX3090相比RTX3080性价比还是要低不少。
8K分辨率游戏性能测试
目前市面上能买到的8K显示器应该只有一款就是戴尔的UP3218K,8K电视倒是多一些但是门槛仍然很高。所以现在体验8K甚至说测试8K性能一般都是通过英伟达驱动面板里的4K+4x DSR或者游戏设置200%超级采样来完成。不知道是什么原因我这边在双屏输出(显示器+记录仪)的时候无法正常使用DSR,进游戏会自动跳出,所以这里采用几个可以设置200%超级采样的游戏配合4K原生分辨率来做8K性能测试。

在8K分辨率下RTX3090和RTX3080的体验确实区别非常明显,测试的8个游戏当中有4个无法使用RTX3080在8K分辨率下正常运行(刺客信条奥德赛、无主之地3实际运行帧率不足1帧,应该是爆显存爆到生活不能自理;大镖客2直接花屏,幽灵行动断点的7帧等于不能玩),而这四个游戏在RTX3090上面差不多都可以有8K 30fps的最基础体验(无主之地3需要降一下特效)。在剩下四个两张卡都可以跑8K的游戏上面RTX3090相比RTX3080的性能领先幅度接近15%,虽然还是没达到规模上的差距但是相比4K已经好很多了,猜测还是跟功耗限制卡得过低导致3090无法火力全开释放性能有关。
功耗
RTX3090 AD OC有两档BIOS,默认BIOS默认功耗350W,超频BIOS默认功耗370W,实际运行的平均功耗基本也被限制在BIOS功率上限之内。当然了对电源选择更加重要的瞬时功耗我这边暂时没有办法测试,不过在目前比较严格的功耗限制下跟3080应该不会相差太多。

不过虽然RTX3090整卡功耗相比RTX3080高了30W,但是可以看到分给核心的功耗仍然是180W不变,多出来的这些功率全部都是给那14颗GDDR6X显存的——但是RTX3090的核心规模相比3080增大了20%,同样的功率限制对于RTX3090来说明显是不够的,于是RTX3090基本上跑3D负载的时候都会疯狂降频,即使是3DMark Time Spy窗口模式这种负载不算高的情况下都无法跑满标定的Boost上限1950MHz,而是会降频到1800~1860这个范围。一些功率压力比较大的游戏降到1755~1785都是常态。

这个看似已经不低的功率限制在某种程度上还是挺影响RTX3090性能发挥的,毕竟1785MHz相比1950MHz降频幅度达到了8.5%,或许这也直接导致了其游戏性能无法与RTX3080拉开明显差距。更麻烦的是这个跟以往公版卡过热降频的问题还不一样,现阶段简单靠改水冷这种办法无法解决这个问题,只能是看看谁家先出高功率的鸡血BIOS了。如果能哪怕维持住1950MHz完全不降频,性能应该也可以再提升个8%左右,高负载下相比3080提升20%,达到规模差异所应该提供的水平。
总结
如果你只是为了玩游戏的话,现阶段哪怕买加价到7000的RTX3080,也比买原价11999的RTX3090更有性价比——在测试之前我就有这么个猜想,测完之后更是验证了我的猜测。追求这10%不到的性能提升却要付出70~120%的价格,这对于一个普通游戏玩家来说确实是代价过高。
RTX3090的定位应该还是生产力,而且是需要大显存对GPU负载压力没那么高的生产力环境,这才是最适合它发挥的舞台。
RTX3080/90的生产力性能专题我们会在后续发布,敬请期待。