RTX 4070 SUPER显卡首测:加量不加价 比4070提升20%

在此之前,桌面端RTX 40系显卡已上市的有RTX 4090/4080/4070Ti/4070/4060Ti/4060共6个型号,已经覆盖了从旗舰到主流的所有定位。另一方面,竞争对手AMD无论性能还是技术生态已落后半代以上,难以对NVIDIA形成系统性的竞争,按照以往的经验,RTX 40系似乎已经全员到齐了。

然而不久前,NVIDIA透露还将在RTX 40系列中增设三款后缀SUPER的型号,分别是RTX 4070 SUPER、4070Ti SUPER和4080 SUPER。自RTX 20系之后SUPER显卡重现江湖,它势必代表比原版型号更激进的性能,但始发售价却不一定会高多少。

以今晚正式解禁发售的RTX 4070 SUPER为例,官方标准定价为4899元,只比RTX 4070首发时官方定价4799贵100元,几乎可以说是一样的,但是性能上前者比后者强多少呢?游民评测室提前收到了RTX 4070 SUPER送测显卡,现在即为大家奉上评测报告。

SUPER是NVIDIA产品序列中较年轻的后缀型号,首先出现在GeForce RTX 20系显卡上,当时它们的出现填补RTX 20系原有型号定位中的缝隙,精确狙击了竞争对手AMD的一些性价比优势产品。

自基于Volta架构的TITAN V开始,NVIDIA就算正式开始了在AI计算领域的布局,具体表现在首次集成在GPU内核中的张量计算单元——Tensor。专用于半精度、乃至四分之一精度海量并行计算能力的Tensor Core就是为AI量身打造的机器,而它表现在游戏应用领域的功效就是支撑了DLSS的运行。

游戏玩家想必对此很熟悉了,DLSS作为超分辨率技术,功能上覆盖了原有的抗锯齿,它通过更复杂的AI算法以较小的原生像素渲染量,生成高分辨率高质量的帧画面,画面得到优化的同时还能提升性能,这就是以往那些靠牺牲性能提升画面的抗锯齿以及各种后期处理所不可同日而语的了。

鱼和熊掌兼得的好事谁不喜爱?游戏开发者通过DLSS可以保证游戏质量还能降低配置需求,于是NVIDIA迅速建立起围绕DLSS的游戏生态,越来越多的新老游戏加入了阵营。

另一方面,既然Tensor core可以即时优化处理游戏里的每一帧画面,那么给它更多时间,更多资源,它就可以生成更复杂的图像。如今以Stable Diffusion为代表的AI绘图技术正得到广泛应用,NVIDIA专为生成式AI在GPU上的高性能推理、训练而推出了TensorRT For Windows的SDK,让广大普通用户可以轻易使用GeForce RTX显卡为AI加速。调用NVIDIA GPU中的Tensor core,在数秒钟内生成想要的图像,亦可通过优化模型进度,提高推理吞吐量极大提高创作者的效率。

本次评测除了例行的游戏测试之外,也还将为用户展示RTX 40系显卡在AI创作领域的一些典型应用。

弄清RTX 4070 SUPER来龙去脉

RTX 4070 SUPER的GPU型号为AD104-350,它是AD104原生芯片架构衍生出的第三款产品,前有RTX 4070 Ti的AD104-400,后有RTX 4070的AD104-250,它的规格鉴于两者之间。通常一款原生芯片至多衍生出三个型号,几乎可以肯定RTX 4070 SUPER是AD104的最后一个产品。

RTX 4070 Ti的AD104-400核心有五个完整的GPC,一共有60个SM流式多处理器,共7680个SP32单元;RTX 4070的AD104-250只有46个SM流式多处理器,5888个SP32单元。显而易见,两者之间有较大的规格间隔,其实早已预示了RTX 4070 SUPER的存在。


AD104-400核心架构示意图(RTX 4070 Ti)

于是RTX 4070 SUPER来了,它的AD104-350核心相比RTX 4070 Ti只少了4组SM流式多处理器,包含在SM簇中的纹理单元、Tensor以及RT单元随着SM流式多处理器也有略微减少,但SP32单元数量仍保持在7000个以上,ROPs和显存端口的配置也完全不变,意味着RTX 4070 SUPER在面对重负载任务时的表现也能十分趋近于RTX 4070 Ti。


AD104-350核心架构示意图(RTX 4070 SUPER)

多出力当然要多吃饭,RTX 4070 SUPER的功耗也比RTX 4070略有增加,多了20W,跟RTX 3070一样,比RTX 4070 Ti的280W要低了不少。

其余细微参数不再文字赘述,可在规格对比表中自行查阅:

RTX 4070 SUPER FE版实物赏析

本次我们收到的RTX 4070 SUPER显卡是NVIDIA官方的FE版,设计上依然沿用从RTX 30系开始推出的最新构型,采用散热片-整流罩一体式,风扇正反双置通透式设计。除了多出“SUPER”的字样以外,外形颜色与RTX 4070的FE版完全一致。

凭借艺术层面的上的精心打磨设计,自泰坦皮开始NVIDIA Founder’s Edition版显卡(即俗称的公版)便不断收货拥趸,现在有相当于一部分死忠粉非FE版不买,而却不知去哪里购买。

哪里才有FE版正规靠谱的购买渠道?这里不妨给大家一个提示:去京东DIY SUPER超能年货节上可选购GeForce RTX 4070 SUPER/80 SUPER的公版以及各品牌合作伙伴显卡。

测试平台软硬件介绍

本次测试选用8款游戏充分全面考察其性能,并且与它近邻的RTX 4070以及上一代接近型号RTX 3070显卡做对比。其中2款游戏支持最新的DLSS3.5,也就是光线重构,另外4款支持DLSS3,最后两款则分别支持DLSS2和不支持DLSS,尽可能覆盖各种玩家的各种应用范围。

测试平台软硬件配置如下:

值得一提的是,鉴于AMD最近发布的Ryzen 7000系列X3D处理器在游戏方面的优异表现(大部分超过了Intel i9 13900K),本次首测采用目前游戏测试中最为亮眼的Ryzen 7 7800X3D作为测试平台。

为确保Ryzen 7 7800X3D处理器性能稳定发挥,测试平台选用微星MEG X670E ACE主板,这是该芯片组产品中的准旗舰型号,仅次于GODLIKE。这款主板的BIOS还针对X3D处理器做了优化,为CPU和内存都提供了一些高性能预设参数,期待参加测试的这些显卡都能发挥出不同以往的表现。

3DMARK基准测试

总体来说RTX 4070 SUPER的跑分总体而言比RTX 4070多18%左右,领先幅度最大的超过20%。相比RTX 3070更是拥有DLSS3插帧的跨代优势。

DLSS 3.5游戏《2077》、《心灵杀手2》实测

由于RTX 40系列显卡最具价值的优势就是新增了对DLSS3的支持,因此游戏测试环节我们选择6款支持DLSS3,并且其中两款还支持最新DLSS 3.5的游戏大作来进行游戏性能对比测试。

我们通过分别测试显卡开启DLSS3(RTX 40系列)、DLSS2(RTX 30系列),与关闭DLSS后的游戏性能,来看看RTX 4070 SUPER显卡比RTX 4070显卡能领先多少,与RTX 4070 Ti显卡有多少差距,DLSS3加持下的RTX 4070 SUPER能领先开启DLSS2的RTX 3070多少。

DLSS3.5的光线重构的功效并不仅是提升一些帧率性能,它还能优化光影效果,解决以往光追机制下出现的一些失真现象,令整体视觉效果进一步贴近现实逻辑。

下面为《赛博朋克2077》和《心灵杀手2》开和关DLSS3.5的画质对比:


《赛博朋克2077》


《赛博朋克2077》


《赛博朋克2077》


《心灵杀手2》


《心灵杀手2》


《心灵杀手2》

通过开启DLSS光线重建(DLSS 3.5)与关闭DLSS光线重建(DLSS 3)的画面效果对比不难看出,在开启光线重建之后,总体来说游戏的图像变得更加清晰,细节更为丰富,同时重影更少,并且在光线条件发生剧烈变化时响应更快,整体游戏体验变得更加逼真,代入感更强。

《消逝的光芒2》、《F1 22》游戏实测

《光明记忆》、《瘟疫传说》《霍格沃茨之遗》游戏实测

游戏测试小结:

通过测试我们可以发现,与RTX 4070相比,RTX 4070 SUPER整体拥有近20%的性能优势,加量不加价实锤了。

与上代对位的RTX 3070显卡相比,RTX 4070 SUPER的游戏性能优势明显,整体性能优势为75.6%,其中开启DLSS3后的实际游戏帧数提升高达88.6%,即便是不开启DLSS,也有54.8%的性能提升。

与定位略高的RTX 4070 Ti相比,在开启DLSS3情况下,RTX 4070 SUPER显卡的实际游戏性能仅低7.2%,虽然RTX 4070 SUPER是RTX 4070与RTX 4070 Ti中间的一张卡,但是它的性能要离RTX 4070 Ti更近一些。

在实际游戏体验方面,2K分辨率最高画质与光追效果前提下,开启DLSS3质量后,RTX 4070 SUPER显卡表现得游刃有余,在当下唯二支持全景光线追踪的高画质游戏《赛博朋克2077》与《心灵杀手2》游戏中也能保证100+FPS的平均游戏帧数,可以为玩家带来丝般顺滑的游戏体验。

AI制图——Stable Diffusion测试

除了拥有出色的游戏性能之外,GeForce RTX 40系列GPU还逐渐成为了创作者的法宝,其中AI就是工作效率的倍增器。

Stable Diffusion是一款热门的AI绘画生成工具,只需要输入一句话、或者特定的关键词,即可轻松生成一幅想要的图像。该软件基于AI计算,可广泛应用于平面和3D设计,通过借助扩散模型生成海量的图片,从而大幅缩短作图时间,显著提升效率。该软件由NVIDIA RTX GPU加速,显存容量越大,支持生成图像的分辨率越高,GPU级别越高,渲染速度越快。

AI绘图工具Stable Diffusion支持TensorRT,TensorRT是NVIDIA推出的一款高性能深度学习推理SDK,可优化推理性能、加速各种工作负载,并支持大型语言模型推理。

在下载并引用相关插件后,即可在Stable Diffusion中增添“TensorRT”标签,之后再经过一系列设定,就能通过TensorRT来加速AI绘画。


Stable Diffusion常规绘图,总计用时229秒,平均每分钟可生成2.62张图像

测试显卡为NVIDIA GeForce RTX 4070 SUPER,测试中所选择的采样方法是Eular a,采样步数为50,图片宽度和高度为1024×1024,提示词相关系数为7,总批次数为10,单批数量为1,随机数种子为13(确保中可以生成相同的图像)。


经过TensorRT加速的Stable Diffusion绘图,总计用时116.9秒,平均每分钟可生成5.13张图像

可以看到在经过TensorRT优化加速后用户能够获得2倍的AI生成速度,就如同游戏中开启DLSS一样达到事半功倍的效果。

无需价格昂贵的A100、H100等专业Tensor core计算卡,售价5000元以内RTX 4070 SUPER显卡能进入千家万户,再凭借适用于家用PC的TensorRT For Windows,让大多数人都有机会体验创作的乐趣,也给予个体绘图工作者在经济能力范围内的极大助力。

除了RTX 4070 SUPER显卡之外,这里我们还尝试使用RTX 3070显卡进行测试。然而在实际测试过程中,RTX 3070显卡生成第二张图像的估计耗时就高达39分钟,由于时间有限,所以最后没有进行完整的RTX 3070 AI制图测试。但这已能说明RTX 4070 SUPER相比它的上一代在AI加速效率上有了可观的提升。

3D光追渲染器——D5 Render测试

D5 Render(D5渲染器)是一款免费的实时光线追踪渲染器,主打从事大型建筑或景观项目的3D设计师和专业人士。凭借先进的实时光线追踪技术、D5 GI全局照明解决方案、以及众多即用型资源,让D5 Render可以在更短时间内完成项目的同时,还具备高真实感。

在最新一代的D5 Render中,加入了为实现逼真的光线追踪视觉效果而开发的NVIDIA DLSS 3.5,此次集成包含由AI神经网络提供支持的DLSS超分辨率、帧生成和光线重建功能。

其中光线重建是一种新的神经渲染AI模型,它可以通过为各种内容提供快捷的智能降噪解决方案,进一步增强光线追踪的视觉质量;而NVIDIA DLSS帧生成功能增强了光线追踪性能并提高了实时视窗帧速率,可带来更流畅的编辑体验,进而实现直观的交互式 3D 创建。

本次我们通过使用NVIDIA GeForce RTX 4070 SUPER显卡来进行测试,来看看最新加入的DLSS 3.5对于D5 Render渲染有着怎样的增幅。


D5 Render测试,开启DLSS3.5中的超分辨率采样+光线重建+实时高帧率,平均帧数为68FPS


D5 Render测试,关闭DLSS3.5中的超分辨率采样+光线重建+实时高帧率,平均帧数为18FPS

可以看到在开启DLSS 3.5之后,使用D5 Render渲染场景可以获得高达2.8倍的性能增幅,可以给予用户更加流畅的创作体验。

除了RTX 4070 SUPER显卡之外,这里我们本还准备使用RTX 3070显卡进行对比测试,不幸的是使用RTX 3070尝试多次都未能成功打开该测试场景。

网页视频用户福利——RTX VSR技术

相信大家在线看视频时,经常会遇到由于画面清晰度较低导致难以获得满意观影体验的情况。在以前,遇到这种情况的用户是束手无策的。然而随着RTX VSR技术的出现,上述问题已经可以得到妥善解决——使用GeForce RTX 40、RTX 30系显卡的用户可以借助RTX VSR技术对流媒体视频进行实时画面增强,从而显著提升观影体验。

RTX VSR全称是RTX Video SUPER Resolution,它通过利用RTX GPU中Tensor核心做AI计算去对各个浏览器中经过压缩算法的视频移除块状压缩伪影,以达到提升分辨率和清晰度的目的。这项功能目前支持谷歌Chrome、微软的Edge等主流浏览器(要升级到最新版本),无论你是在B站、斗鱼还是其它什么平台上观看视频,它让视频质量最高能去匹配你的4K显示器。

VSR的功能开关集成在了NVIDIA控制面板中,可以在“视频”下拉栏“调整视频图像设置”的界面中看到它——RTX 视频增强。勾选这个选项并点击应用,就可以开启RTX VSR了,它还支持优化级别的设置,默认为1,最高为4。

通过逐级增加VSR算法的复杂性,最大可以将360p的视频优化到1440p的视觉效果,GPU的占用率也会随之提高,它与VSR的质量级别成正比。1~2级的GPU占用率较小,已经能明显改善视频质量,它对较低端的GPU也是十分友好的。

视频分割线左侧为原视频画面,右侧为开启RTX VSR的画面,可以看出清晰度明显增强,几乎接近渲染CG的效果。

我们在网络上看到的视频绝大部分都是经过重新编码压缩的,降低容量的同时也会损失一部分质量。之前已有的视频锐化处理在提高清晰度的同时往往会失真,而RTX VSR则通过将NVIDIA Tensor Core与最先进的Al图像处理技术相结合,在智能锐化和强化特征与边缘的同时,还能消除恼人的压缩伪影,从而呈现出可媲美视频所标原生分辨率的优秀画质。

热门相关:墨桑   墨桑   陆爷的小祖宗又撩又飒   随身英雄杀   拳罡