神之飞跃！RTX 40架构、技术、产品深度解析：价格大有玄机--快科技--科技改变未来

正文内容 评论（0）

神之飞跃！RTX 40架构、技术、产品深度解析：价格大有玄机

2022-10-04 19:06:35 出处：快科技作者：上方文Q 编辑：上方文Q 评论(0)

#NVIDIA #显卡

盼星星盼月亮，NVIDIA GeForce RTX 40系列显卡终于来了。随着以太坊的转型、“矿潮”的退去，游戏玩家们终于有希望回归本源、体验新一代游戏生活。

RTX 40系列在架构、技术上有哪些革新？光追、DLSS 3真的有那么神奇吗？首发价格为什么定那么高？

今天，我们就来好好谈一谈。

【Ada架构初探：结构基本不变规模暴涨】

NVIDIA近些年的GPU架构代号，都来自历史上如雷贯耳的著名物理学家，比如Tesla特斯拉、Fermi费米、Kepler开普勒、Maxwell麦克斯韦、Volta伏特、Pascal帕斯卡、Turing图灵、Ampere安培……

GPU核心编号前缀一般都是字母“G”(代表Graphics)和代号首字母的组合，比如GT、GF、GK、GM、GP、GA。

当然，Turing系列有些特殊，因为GT已经用过了，所以改成了TU。

神之飞跃！RTX 40架构、技术、产品深度解析：价格大有玄机

RTX 40系列的架构代号、编号则都有些不同。

“Ada Lovelace”(以下简称Ada)，即阿达·洛夫莱斯，原名奥古斯塔·阿达·拜伦(Augusta Ada Byron)，著名英国诗人拜伦之女，数学家，计算机程序创始人，为计算程序拟定了“算法”，建立了循环和子程序的概念，写作的第一份“程序设计流程图”被珍视为“第一位给计算机写程序的人”，本人也被称为“程序员之母”。

为表纪念，美国国防部将耗费巨资、历时近20年研制成功的高级程序语言命名为Ada语言，被公认为是第四代计算机语言的主要代表。

GA的编号方式也刚刚用过，所以这一代都是AD系列。

Ada AD10x系列核心采用NVIDIA单独定制的TSMC 4N工艺制造，其中旗舰核心AD102集成最多763亿个晶体管。

这是三星8nm工艺GA102 283亿个的足足2.7倍，但核心面积反而从628平方毫米缩小到608平方毫米，晶体管密度高达1.255亿个/平方毫米，提升了超过1.7倍。

仅仅四年前的Turing RTX 20，台积电12nm工艺，也才186亿个晶体管，每平方毫米还不到2500万个，实在令人感慨技术进步之快。这部分会在后边详谈。

新的Ada架构全面升级了SM流式多处理器、RT光追核心、Tensor张量核心、视频编解码引擎，还带来了真正强大实用的光流处理器(OFA)，但这一次彻底去掉了NVLink总线模块，永别了SLI。

AD102核心共有18432个CUDA核心(分为12组GPC/72组TPC/144组SM)、576个第四代Tensor Core张量核心、144个第三代RT Core光追核心、576个纹理单元、192个ROP单元、18MB一级缓存、96MB二级缓存、36MB寄存器文件。

其中，一级缓存增大了71％，二级缓存不但是Ampere架构的多达16倍，而且经过彻底重构，对于任何应用都能带来明显提升，尤其是光追中的路径追踪等复杂操作会获益匪浅。

或许，这就是NVIDIA敢于把产品显存位宽使劲往下砍的原因，大容量、高带宽的二级缓存可以有效弥补带宽，就像AMD Infinity Cache无限缓存，只是后者需要大容量才能提现优势，Ada这边做到96MB也不算太大，显然带宽高得多(暂无具体数据)。

值得一提的是，AD102核心有288个FP64双精度浮点核心(每组SM 2个)，浮点性能是FP32的1/64，专门用于处理FP64代码，包括FP64张量核心代码。

GPC依然是NVIDIA GPU的顶层组成单元，所有的关键图形单元都在这里，结构组成上整体而言Ampere架构没啥不同。

每个GPC包括一个独立光栅引擎、两个ROP分区(每个包含8个ROP单元)、六组TPC，而每个TPC又包括一个多边形引擎、两组SM。

SM单元的内部组成也和Ampere如出一辙，可以分为四个部分(分区)，以及128KB一级数据缓存/共享内存、一个第三代RT光追核心。

每个分区内又有64KB寄存器文件、零级指令缓存、一个Warp调度器、一个分配单元、16个FP32单精度浮点CUDA核心、16个FP32/INT32单精度浮点和整数混合CUDA核心、一个第四代Tensor张量核心、四个载入存储单元、一个特殊功能单元(SFU)用于执行图形差值指令。

RTX 40系列采用了与台积电定制优化的4N工艺，得以集成比GA102核心多70％的CUDA核心，成就了史上最复杂的GPU芯片，还大大提升了运行频率，RTX 4090可以加速到2.52GHz，是N卡史上最高的。

与此同时，能效也大大提升，RTX 4090功耗和RTX 3090 Ti完全持平，能效因此达到了其2倍之多。

【RTX 40核心技术：光追再造巅峰、DLSS3革命性跨越】

一、光线追踪：两大新引擎加速

光线追踪，无疑是GPU历史上的一大变革，而引导这一变革的，正是NVIDIA，Ada上已经发展到了第三代，有效光追算力达到191TFlops(每秒191万亿次运算)，是上一代产品的2.8倍。

Ampere架构的第二代RT核心里，BVH加速的包围盒碰撞引擎(上图中左侧方框)，执行光线-三角形碰撞(求交)检测加速的是三角形碰撞引擎(上图中右侧三角形部分)。

Ada架构的第三代光追核心，又增加了两个新的引擎。

一是Opacity Micromap Engine，上图左下角的带树叶三角形部分。

它会评估不透明微遮盖，加速Alpha遍历，大大减轻着色器的工作量，号称光线-三角形碰撞吞吐性能、Alpha遍历性能都提升2倍。

它可以让开发人员为物体、环境加入更多细节，更方便描述不规则形状或半透明物体，比如叶子、火焰、篱笆等。

比如面对一片叶子，以前需要对整个区域的所有三角形区域，进行同样的光线遍历操作，但不同区域是不一样的，有的整个三角形区域内都是叶子，有的完全没有，有的占一部分。

Ada架构可以对这些不同区域进行分别处理，避免重复和浪费工作量。

在游戏中，以专门开发的《Portal RTX》为例，应用该技术后，G-Buffer缓冲填充速度可加快30％，帧率可提升30％。

二是Micro-Mesh Engine，上图右下角的复合三角形部分。

它可以动态生成微网格，以产生额外的几何图形，在处理复杂几何物体、环境光线时，提升几何图形的丰富度，并大大降低BVH的创建时间和存储成本。

你可以把它想象成一个立体版的曲面细分(Tessellation)。

NVIDIA举了三个例子：创建11:1的珠宝盒，需要15.3万个微网格、1100万个微三角形，BVH创建速度可加快8.5倍，存储空间缩小6.5倍。

创建14:1的珊瑚蟹，需要1.7万个微网格、160万个微三角形，BVH创建速度可加快7.6倍，存储空间缩小8.1倍。

创建28:1的陶鼎，需要17.5万个微网格、5700万个微三角形，BVH创建速度可加快超过15倍，存储空间缩小20倍。

不止是游戏，微网格位移在内容创作中也可以大大加速，目前已经得到了Adobe、Simplygon两家企业的支持。

说了半天，来感受下第三代光追的惊人效果，分别来自首批优化到位的《赛博朋克2077》、光追重制版《Portal RTX》、《Racer RTX》。

其中，《赛博朋克2077》可对每个像素执行635次的光追计算来确定光照，比四年前的首批光追游戏，比如39次的《战地5》，增加了多达16倍。

二、着色器执行重排序(SER)：化凌乱为整齐

NVIDIA宣称，着色器执行重排序(SER)技术在GPU中的引入，堪比乱序执行技术在CPU中的引入，是GPU历史上的又一伟大创新。

这是不是吹嘘？还真不是。

简单的说，光追需要光线面对不同物体、环境的多次反射、折射，处理强度不同的负载，着色器面对的工作量是复杂多变的，往往有的已经完成了，有的还在执行，需要等待。

SER就是通过即时重新安排着色器的负载，使之恢复均衡，从而提高执行效率，更好地利用GPU资源。

还不明白？来看个直观的例子。

假设一组平行光线照射舞台、木墩、狗狗、墙面、天花板，第一次形成的光追负载是非常规律有顺序的，可以轻松处理。

但是光线遇到物体后向不同方向反射，第二次与物体相交，形成的光追负载就更多、更复杂、更凌乱。

SER这时候介入，按照不同类别进行二次排序，着色器就可以像第一次那样有序地处理负载了。

按照NVIDIA的说法，SER可以为光追带来最高3倍的性能提升，整体游戏性能提升也可达25％。

还是以《赛博朋克2077》、《Portal RTX》、《Racer RTX》为例，性能可以分别提升44％、29％、20％。

三、光流处理器(FOA)和DLSS 3：4倍性能就是这么来的

DLSS 3部分是NVIDIA着墨最多、宣传最到位的，毕竟带来的性能提升最直观、最明显，我们也多絮叨絮叨。

DLSS技术的初衷很简单，就是弥补光追带来的性能损失，毕竟这东西太耗资源了，二十多的帧率下，再好看的画面也是白费。

DLSS技术前两代的原理是超分辨率，也就是低分辨率渲染、AI增强、高分辨率输出，性能可以轻松提升2倍之多，光追游戏也能流畅玩儿。

AMD FSR、Intel XeSS也都是同样的原理，可以说NVIDIA一直走在友商之前。

DLSS 3几乎是推倒重来，尤其是基于强大的光流加速器(OFA)，可以通过AI生成帧画面，插入常规渲染帧之间。

优化到位的游戏性能可提升多达4倍，普通游戏也有2倍，相当恐怖的。

同步开启Reflex技术，可以将响应速度提升最多2倍，电竞类游戏延迟低于10ms。

另外，由于DLSS 3生成帧在GPU上是作为后处理执行的，因此即使游戏受到CPU性能限制，前期渲染能力跟不上，也不会遇到瓶颈，依然能从中获得显著的性能提升，尤其是物理计算密集型游戏或大型场景游戏。

当然，DLSS 3不是单一技术，而是软硬件结合的一整套方案，包括硬件端的光流加速器(算力305Tops)、第四代Tensor张量核心(1.4PFlops算力)、NVIDIA超级计算机平台(AI算力1EFlops)，包括软件端的AI帧生成(提升帧率)、AI超分辨率(提升帧率)、NVIDIA Reflex(提高响应降低延迟)，是共同协作的成果。

需要注意的是，DLSS 3并不会取代DLSS 2.x，而是将其作为一个子集(超分辨率部分)，可以一起工作，联合提升性能。

具体来说，DLSS 2.x是生成单个像素点来提升画质，DLSS 3的革命性之处则在于，它直接生成全新的完整帧画面，插入渲染帧画面之间，可以说就是“插帧”。

再详细一点，它使用光流加速器分析两帧连续的游戏图像，计算帧到帧之间物体、元素的运动矢量数据，综合游戏中的一对超级分辨率帧，以及引擎和光流运动矢量，并将其输入至卷积神经网络，就能计算生成出新的一帧，这在实时游戏渲染中是首次实现。

其实没有光流加速器，传统游戏引擎一样可以通过运动矢量进行建模，实现帧生成，但最大问题在于面对粒子、反射、阴影、光照等元素时，容易出现渲染不精确、视觉异常，尤其是在光追下。

将运动矢量与光流处理结合起来，就可以得到精确的运动模拟，正确处理阴影等画面效果。

结合帧生成、超分辨率缩放技术，DLSS 3可以在传统渲染器渲染的画面之外，“凭空”再造出7份画面，也就是它能让你看到的7/8的画面像素，都是额外生成的！

这就是AI的力量，或许正是未来的趋势。

刚才说了性能大幅提升，那么这种AI帧生成，会不会画面上的错位、模糊等问题？上边是NVIDIA举的两个例子。

黄仁勋也曾表示，DLSS 3生成的像素比GroundTruth(真实值)还要好看，也比过去计算的像素更好看，因为DLSS 3生成的像素不是凭空捏造，而是客观的，其训练学习的基础是16K分辨率的超清图像，所以得出的像素非常美丽，近乎原生，也能添加更好看的色彩。

至于实际效果如何，后续看评测吧。

硬件支持方面，DLSS 3帧生成必须RTX 40系列才能支持(RTX 30/20系列理论上也行但性能很弱)，DLSS 2超分辨率则在RTX 40/30/20系列上都可以，另外Reflex支持GTX 900系列以来的所有型号。

显然，想要最佳体验，还得最新的RTX 40系列。

游戏支持适配方面，NVIDIA也提供了极大的便利。DLSS 3/2的大部分引擎数据是相通的，前者只是多了一个Reflex Maker，另外整个框架体系也是一体的。

DLSS 3首发就已经/即将支持36款游戏、3款游戏引擎、2款应用，其中包括《黑神话：悟空》、《逆水寒》、《永劫无间》、《仙剑奇侠传7》等国产游戏，引擎分别是寒霜、Unity、虚幻4/5。

四、AV1编码：8K60视频完美了

视频编解码一直是GPU的重要工作，可以大大减轻CPU负担，提升编解码速度。

GeForce RTX 40系列GPU升级到了第八代NVENC编码器，首次加入对AV1格式的支持，12GB或更大显存型号还是双编码器的豪华配置，可以处理单条8K/60视频，或者四条4K/60视频。

AV1格式正在桌面端、移动端得到快速普及，Intel Arc A系列显卡此前就已经在桌面端首发支持AV1编解码，但现在还谈不上影响力。

GeForce RTX 40系列GPU则带来了完整的AV1生态方案，编码API支持NVIDIA、Chrome、FFmepg、Windows，App编辑器支持DaVinci Resolve、Discord、OBS、voukoder、剪影，视频平台支持Discord、YouTube(B站/爱奇艺们加油)，播放器支持Chrome、Discord、VideoLAN、Windows。

NVIDIA宣称，AV1的编码效率相比流行的H.264高出多达40％，同样画质下码率更低，同样码率下画质更好。

双编码器的产品上，NVIDIA会让二者分别负责画面的上下部分，各自处理完毕后再综合，编码效率可以提升2倍甚至更多。

同时，GeForce RTX 40系列GPU还首发了第五代NVDEC解码器，支持MPEG-2、VC-1、H.264、H.265、VP8、VP9、AV1格式的解码硬件加速，完整支持8K/60视频解码。

【首发产品规格与性能：价格大有玄机】

接下来，我们看看RTX 40系列的首发阵容，包括初步的规格参数、公版设计、官方性能、价格定位。

RTX 40系列首发三款型号分别是RTX 4090、RTX 4080 16GB、RTX 4080 12GB，分别基于AD102、AD103、AD104 GPU核心。

没记错的话，这是NVIDIA历史上第一次首发就有不同显存版本的型号，当然不一样的不只是显存。

RTX 4090自然是旗舰，但未来肯定还会有RTX 3090 Ti级别的真卡皇，因为它并没有使用满血的AD102核心。

对比上边两张内核布局图就可以发现，RTX 4090不但去掉了一组完整的GPC单元(内含6组TPC或者说12组SM)，还将另外两组GPC单元各去掉了1组TPC单元或者说2组SM，也就是总共砍掉了8组TPC或者说16组SM。

总的来说，RTX 4090隐藏了多达11％的核心单元，只开启了16384个CUDA核心、512个张量核心、128个光追核心、512个纹理单元、176个ROP单元，即便如此也比RTX 3090多了足足一半还多。

核心频率2230-2520MHz，这一代大大提升(RTX 3090只有1395-1695MHz)，而且实际运行中完全可以达到更高，2.8GHz左右都没问题。

显存还是384-bit 24GB GDDR6X，等效频率提高到21GHz，带宽达到1TB/s。

整卡功耗为450W，达到了RTX 3090 Ti的档次，相比于RTX 3090增加了整整100W。

RTX 4080 16GB基于AD103核心，459亿个晶体管，378.6平方毫米面积，集成度也超过1.2亿个/平方毫米。

9728个CUDA核心，对比RTX 3080 12GB/10GB只增加了10％左右，核心频率提升到2210-2510MHz。

16GB GDDR6X显存更是创纪录的23GHz，只是因为位宽从384/320-bit缩水到256-bit，带宽仅为736GB/s，略低于RTX 3080 10GB。

整卡功耗320W，和RTX 3080 10GB持平，比RTX 3080 12GB还低了30W。

最后是RTX 4080 10GB，也是最具争议的，据说原本计划叫做RTX 4070 Ti，临时拉高了档次，而过低的位宽让很多玩家认为它其实应该是xx60级别。

它基于AD104核心，358亿个晶体管，比上代旗舰GA102核心还要多，294.5平方毫米的面积却小了一半还多，集成密度同样超过1.2亿个/平方毫米！

7680个CUDA核心，对比RTX 3070 Ti多了25％，但是不如RTX 3080 12GB，核心频率为2310-2610MHz，这也是N卡迄今为止最高的频率。

最关键的是，位宽缩减到了只有192-bit，这在x80系列历史上还是第一次，甚至是x70系列都没有，搭配21GHz的12GB GDDR6X显存，带宽只有区区504GB/s，只比RTX 3070、RTX 3060 Ti高一点点。

另外，整卡功耗285W，和RTX 3070 Ti 290W差不多。

以RTX 4090为例欣赏一下公版设计，整体造型和前两代一致，正反双风扇，但更加厚重，3.5插槽体积，一体化设计更加坚固，同时风扇也增大了，风量因此增加20％。

值得一提的是，针对此前显存容易过热的问题，NVIDIA这次特别加强了显存散热，不但本身功耗更低，而且改进了风流、温度感应。

非公版应该会有更多强化，不用担心显存过热导致花屏之类的问题了。

PCB依然是尾部V形开口的独特造型，整体紧凑得不像话，没有一丝一毫的空间浪费，居然塞进去了23相供电电路，其中核心20、显存3。

NVIDIA强调，RTX 4090的供电做了优化，不会再有剧烈的电压、电流波动，尤其是高负载下的供电曲线很稳。

另外，它延续了RTX 3090 Ti上首发的PCIe 5.0 16针供电接口，理论最高供电能力600W。

建议最好搭配原生支持新标准的ATX 3.0电源，以及新的16针电源线，因为虽然厂商普遍会附赠三8针转16针的电源线，但插拔次数有限制，三四十次之后就有大概率会烧融。

性能方面，10月12日我们会给大家带来GeForce RTX 4090的首发评测，这里看看官方宣传。

传统游戏，RTX 4080 12GB都可以持平或者超越RTX 3090 Ti，RTX 4090更是可以带来少则50％、多则成倍的提升。

Portal RTX、Racer RTX、赛博朋克2077 Overdrive模式等针对RTX 40系列设计和优化的场景中，性能更是可以上天，这里也就是所谓4倍性能提升的来源。

网游就更不在话下了，2K分辨率下帧率可以轻松跑出300-600FPS，延迟普遍不超过10ms，配合高刷电竞显示器可以杀个痛快。

价格和发布时间大家都很熟悉了：

RTX 4090 10月12日，12999元起，取代RTX 3090 Ti、RTX 3090。

RTX 4080 16GB 11月，9499元起，取代RTX 3080 Ti。

RTX 4080 12GB 11月，7199元起，取代RTX 3080 12GB。

争议最大的就是RTX 4080 12GB的低规格(192-bit)、高价格，但是从产品布局来看，NVIDIA的用意也很明显，就是RTX 40系列先占领高端市场，RTX 30系列继续在主流市场打拼，二者相辅相成，RTX 3080 10GB及之下型号短期内不会退市。

不出意外的话，只有RTX 30系列的库存清理完毕后，RTX 40系列的价格才会慢慢降下来。

面对创新范围如此之光、力度如此之深的GeForce RTX 40系列GPU系列，你能忍住诱惑吗？

【本文结束】如需转载请务必注明出处：快科技

责任编辑：上方文Q

文章价值打分

当前文章打分0 分，共有0人打分

0
0
0
打赏
|

分享好友:
分享至QQ
分享至微博
分享至QQ空间
|

生成海报

本文收录在

#NVIDIA #显卡 #RTX 4090 #RTX 4080 16GB #RTX 4080 12GB #Ada Lovelace

好物推荐

换一波

关注我们

微博：快科技官方
快科技官方微博
今日头条：快科技
带来硬件软件、手机数码最快资讯！
抖音：kkjcn
科技快讯、手机开箱、产品体验、应用推荐...

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章

换一波

好物推荐

换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章 换一波

好物推荐 换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容评论（0）

热门文章

换一波

好物推荐

换一波