英伟达RTX40系显卡解析：出色工艺带来出色性能，DLSS3是杀手锏

wlza

作者

英伟达在9月20日半夜举办主题演说，正式推出RTX 40系显示卡，主要包括T5250RTX 4090和RTX 4080 16GB和RTX 4080 12GB，它们基于崭新设计的Ada Lovelace GPU构架，除了全面性提高的显示卡技术标准之外，英伟达也为40系显示卡增添了崭捷伊DLSS 3与光追排序模块，两个关键图形发动机，让图形操控性更为出色。

但紧接著而来的即是全面性提高的产品价格，特别是80显示卡，相比较30系显示卡产品价格提高十分地显著，那么40系显示卡究竟为我们增添了怎样捷伊特性，这些功能值得消费者为其埋单吗？

Ada Lovelace晶片：崭捷伊工艺技术，激增的操控性

首先我们而言一下这颗由首位女性开发人员Ada Lovelace命名的构架。作为T5250，RTX 4090显示卡的核心理念即是这颗AD102核心理念，管吻核心理念的占地面积为604.2平方英寸，相比较RTX 30系显示卡还有所增大，但电晶体数目却急剧提高，来到了763亿个。

在整体的构架上，Ada Lovelace似乎与欧姆相差不大，一个排序模块内主要包括FP32排序模块，FP32与INT32共享资源的排序模块和第二代Tensor Core，同时也主要包括第二代的RT排序模块，让广度自学和光追更为高效率。

整体规模上，Ada

Lovelace与欧姆相比就有飞速发展的提高，比如图像处理软件产业从7个提高至12个，从而使得排序模块从84个脱胎换骨至144个，也就是说一颗完整的Ada核心理念，它能提供最高18432颗流CPU，远超GA102的10752颗。此外光追模块也从84个提高至144个，广度自学模块着实从336个提高至576个，频率也从1.9GHz提高至2.5GHz。Ada晶片能有这般大的参数提高，最主要的原因即是晶片的进步。在欧姆晶片上，英伟达选用的是HTC8nm晶片，而到了Ada时代，则选用订制版的HTC电子4nm晶片，电晶体密度的提高极其显著，也让晶片占地面积在有所增大的情况下电晶体数目还能增长这般凶悍。

除此以外，英伟达还表示在Ada GPU的能源消耗比为欧姆的2倍，Direct3D图形能力达至了83TFLOPS，同样是前代的三倍，并且光追算力激增至191TFLOPS，着实前代2.8倍。而与广度自学有关的FP8标量排序着实达至了恐怖的1.32PFLOPS，已经是前代核心理念的5倍。在游戏方面，英伟达也称Ada在点阵操控性上是欧姆的2倍，而光追操控性着实后者的三倍。

对玩者而言，RTX 40系显示卡也急剧改善了运转时候的耗电表现，运转更为平稳，不会出现大规模的脉动耗电提高，这对想要购置高功率的玩者而言特别关键。毕竟高端电源，多1W的供电系统，可能需要花费1.2甚至1.5元的预算。也正因为有了这般强大的排序操控性，可以让Ada GPU实现更多的工作，比如DLSS 3这一被从小到大认为颠覆性的AI帧生成技术。

DLSS 3：让AI生成帧，帧率急剧提高

DLSS是英伟达的广度自学抗锯齿技术，借助英伟达的AI神经网络减少GPU的画面图形，从而提高游戏的画面，自从图灵构架开始，DLSS开始被消费者所认知。而这样提高画质的黑科技也经过了三代的更迭，初代DLSS借助显示卡本身的AI驱动和神经网络进行画面的图形，但由于算力的限制，实际效果并不理想，尽管帧率有所提高，但画面却异常模糊，特别是在一些动态画面中着实这般。

第二代也就是目前最主流的DLSS 2.0时代，英伟达则选用了类似于DSR一样的技术，先让显示卡以较低的分辨率进行图形，随后再借助AI算力让画面变成高分辨率进行输出，当然相比较第一代DLSS，第二代DLSS无论是效果还是厂商接受度，都有着质的提高，并且消费者也越来越接受这项技术，此外友商也借助FSR和XeSS实现与DLSS类似的效果。而到了DLSS

3的时代，已经不满足传统图形图形的英伟达开始借助AI来自己创建图形图像，通过插入到两个图形图像之中，进一步降低GPU的图形压力。

首先英伟达在Ada GPU中加入一个叫光流加速器的硬件，而它也是实现DLSS 3的核心理念。首先借助光流加速器，GPU分析画面之中运动物体的矢量数据，再根据卷积神经网络让AI自动图形出游戏画面并插入到正常的游戏画面之中，这样便可以有效地提高游戏帧率，此外这种图形方式也是游戏图形领域的首次应用，前提自然是40系庞大的Tensor Core排序软件产业。

英伟达表示，DLSS 3可以借助AI最高图形出7/8的显示像素，在帧率上与不选用DLSS的游戏相比，整整提高4倍。对开启光追特效的游戏而言特别有效。

比如在发布会上公布的《赛博朋克2077》便从22帧左右脱胎换骨至90余帧，甚至由于所有的图像帧均在GPU上进行，并不经过CPU，因此即使你没有一颗操控性强劲的CPU，同样可以让游戏帧率有着显著的提高。

但有人会担心，由于选用的是AI图形帧，并且插入到两张正常的图形帧之间，会不会造成画面延迟上升，对3A大作的玩者而言，延迟或许不是什么问题，但对FPS玩者而言，延迟却显得更为关键。对此英伟达表示游戏开发者和游戏玩者可以借助NVIDIA Reflex，有效地降低游戏的传输延迟，从而让即使开启DLSS 3特效的玩者也能享受理想的延迟。

当然DLSS 3并非所有的RTX显示卡都可以享受，由于缺少光流加速器，RTX 20和RTX 30系显示卡直接和它说再见，此外英伟达也提供了一张关于DLSS的特效表格，其中AI图形与插帧技术为RTX 40系显示卡独享，而RTX 40/30/20系显示卡都支持原来的画面缩放功能，至于NVIDIA Reflex，从GTX 900系显示卡就可以支持这项特效。目前已经有超过35款游戏支持DLSS

3，将于10月份陆续和大家见面。

崭新图形发动机：图形图形更高效率

伴随着RTX显示卡的操控性提高，特别是拥有24GB庞大显存的RTX 4090显示卡的出现和NVIDIA Studio驱动的到来，越来越多的工作室开始购买GeForce游戏显示卡作为图像图形卡，而英伟达也不断地往游戏显示卡中塞入崭捷伊图形发动机，让这些专业工作者能拥有更为高效率的图形与画面图形。

这一次加入的发动机分别是Opacity Micromask发动机和Micro-Mesh发动机，前者用于光追图形，借助这个发动机，光追中的Alpha-Test几何操控性最高提高2倍。而后者则是在不损耗存储资源，并且选用简易BVH的前提下，提高图形画面的丰富度，相比较过去，图像的建模速度也有着巨大的提高，而这样功能也获得了Adobe等专业应用厂商的认可。

此外从小到大还在RTX 40系显示卡中支持了Direct3D重排序，与CPU的乱序执行一样，图形任务队列可以根据实际需求进行更换，从而急剧提高图像的图形效率和GPU的利用率，换算到游戏中，就是提高25%左右的游戏操控性，光追操控性提高着实最高达至3倍。

目前伴随着Nvidia Studio等驱动的应用，游戏卡与专业卡之间的界限越来越模糊，而借助最捷伊技术，专业用户也能享受新一代GPU增添的出色工作效率，毕竟RTX 4090不仅仅是玩者独享的显示卡。

集成八代NVIDIA编码器：视频与直播用户的最爱

目前直播和视频制作的兴起也让GPU应该有更多的编解码操控性，而英伟达这一次则在RTX 40系显示卡中加入了双NVIDIA编码器，使得视频的输出时间可以减少最多50%，同时也支持AV1编解码，而像OBS、Blackmagic Design DaVinci Resolve等设计与直播软件也加入了NVENC AV1编码器，可以让RTX 40系显示卡有着发挥的空间。

NVIDIA Broadcast软件开发工具包增加了面部表情预估，眼神追踪，和虚拟绿幕质量改进三项功能，让直播UP主直播起来更具沉浸感，当然对会议用户也是大有所益。

T5250最具性价比

最后还是绕不开本次RTX 40系显示卡的核心理念争议点那就是产品价格。由于更高的晶圆制造成本和汇率，英伟达RTX 40系显示卡的建议零售价相比较RTX 30系有所提高也是在预料之内，但出乎意料的是，没想到这一次显示卡的产品价格提高幅度实在是让消费者难以接受，RTX 4080 12GB售价为7199元，而RTX 4080 16GB售价为9499元，相比较RTX 3080

5499元的建议零售价而言实在是过于凶悍。而作为T5250的RTX 4090反而是三款显示卡中最具性价比的一款，原因是12999元的建议零售价比前代提高了1000元，当然提高的操控性幅度显然对得起T5250的售价。

而另外两款就不一定了，RTX 4080 16GB选用9728个CUDA核心理念，搭载16GB GDDR6X显存，操控性相当于三倍的RTX 3080 Ti，而RTX 4080 12GB则选用7680个CUDA核心理念，搭载的是12GB的GDDR6X显存，操控性也超过了RTX 3090Ti。在官方给出的游戏表现中，在点阵游戏下，RTX 4080 12GB与RTX 3090

Ti不相上下，部分游戏略输，而RTX 4080 16GB则比RTX 3090 Ti提高20%左右。

对英伟达而言，显然需要RTX 4080系列显示卡拥有一个强有力的表现，来让消费者接纳这两款显示卡，毕竟经过了2年的矿潮，现在消费者的热情已经来到了底谷，再想恢复并不是一件容易的事情。

阅读全文

发布于 2022-09-24 10:09:00

喜欢 0