正文内容 评论(0)
在今年1月8日的CES上,NVIDIA共发布了RTX 4070 SUPER、RTX 4070 Ti SUPER以及RTX 4080 SUPER三款显卡,今天先为大家带来NVIDIA GeForce RTX 4070 SUPER显卡的评测。
NVIDIA GeForce RTX 4070 SUPER国内建议售价为4899元起,相比RTX 4070贵了100元。不过官方的建议售价,这两款显卡都是599美元,这100元的差价来自汇率。
提到SUPER系列显卡,最近的只有RTX 20系,两个SUPER系列在性能上都有大幅提升。所以趁着这次SUPER系列的发布,也能够拉通一下性能,让整体RTX 40系更划算。
本次MSRP版RTX 4070 SUPER在1月16日晚22:00解禁,而各OC版显卡则在1月17日晚22:00解禁,也请大家留意后续的评测。
英伟达GeForce RTX 40 Super系列现已上市,请到京东DIY Super超能年货节上选购GeForce RTX 4070 Super/80 Super 公版和合作伙伴显卡
NVIDIA GeForce RTX 4070 SUPER FE概览
首先还是来看下外观,本次NVIDIA GeForce RTX 4070 SUPER显卡的外包装依旧采用了黑色掀盖的礼盒式包装,不过连同字体和logo全部变为了黑色,只有在不同光线下才能看到字体。
打开后显卡周围的装饰纹路自带“震惊”效果,卡身半镶嵌在包装盒内,更利于收藏和展示,而且与最早RTX 40系FE版不同的是,这张RTX 4070 SUPER的金属边框以及字体同样为黑色,看上去更神秘。
本次RTX 4070 SUPER包装内附赠的是一根16pin转双8pin的转接线。
NVIDIA GeForce RTX 4070 SUPER显卡的整体尺寸约为267 x 112×42mm(不含挡板),占用2槽空间。
NVIDIA GeForce RTX 4070 SUPER显卡整体来说外观变化不大,但通过上面两张图对比可以看到,FE版主要在金属框架及字体上有所区别。
NVIDIA GeForce RTX 4070 SUPER风扇尺寸相比RTX 30系增大,基本已经达到了显卡整体框架的直径,而在散热风扇增大的基础上,最大气流动态增加20%,同噪音等级的气流动态增加15%。
NVIDIA GeForce RTX 4070 SUPER同样采用了正反亮面双风扇的设计,背部全部为裸露的散热鳍片,而且在金属框架上还能够看到“RTX 4070 SUPER”的字样。
虽然整体设计没有变,但本次SUPER系列改用的黑色金属框架,依然如艺术品一样精致美观。
视频输出接口上,依旧采用了HDMI 2.1 + DP 1.4a*3的四接口设计。
另外由于公版采用的双轴流散热系统,所以在视频输出接口部位能够看到大量的散热鳍片,这一点与上一代相同。
本次NVIDIA GeForce RTX 4070 SUPER FE版的整卡功耗为220W,采用单16pin的辅助供电,推荐电源650W及以上。
NVIDIA GeForce RTX 4070 SUPER架构浅析
本次发布的GeForce RTX 40系显卡由全新的NVIDIA Ada Lovelace架构打造,采用TSMC 4N NVIDIA定制工艺,旗舰核心AD102达到了的760亿个晶体管,而在RTX 30系显卡中为280亿个。
与上一代NVIDIA Ampere相比,NVIDIA Ada Lovelace在相同功率下,具有2倍以上的性能提升,最高可达到90-TFLOPS的着色器数据吞吐量。
本次发布的RTX 4070 SUPER共有7168个CUDA核心,提供了35.5-TFLOPS算力;56个第三代Ada RT Core拥有82.1 RT-TFLOPS;224个第四代Tensor Core可提供568 Tensor-TFLOPS(AI TOPS)。
RTX 4070 SUPER的L2 Cache容量为48MB,带宽为504 GB/s。NVIDIA官方也特别表明了L2 Cache的重要性,我们以两张图来简单说明L2缓存的作用。
在真正的GPU中,内核是所有计算发生的地方,而这就是L1数据缓存的作用所在。每个SM都有一个超低延迟的L1数据缓存,紧挨其处理内核,使L1成为GPU寻找信息的首选。然而由于L1缓存需要离内核非常近,不可能非常大。
如果在L1缓存中找不到内核计算所需的数据,GPU将在L2数据缓存中寻找。这个显存系统位于GPU芯片上,并通过一个非常高速的横梁系统连接到所有的GPC(图形处理集群),每个GPC包括多个SM。如果在L2缓存中找到了信息,那么GPU就挑出这些数据并将其放入内核。
如果在L2缓存中找不到信息(被称为缓存缺失),那么GPU将通过显存接口在VRAM中寻找。这在整个GPU存储子系统中产生了很多额外的工作量,并降低了性能和功耗效率。
更多详细的参数,我们为大家总结出了一张表格,可以看到从各方面的规格来说,这张RTX 4070 SUPER更接近于RTX 4070 Ti,但功耗相比RTX 4070只提升了20W。
另外最主要的价格方面,相比RTX 4070的建议售价只贵了100元,下面我们直接看测试成绩。
测试平台简介
首先介绍一下测试平台,为了保障NVIDIA GeForce RTX 4070 SUPER的性能发挥,我们的平台也进行了全面更新。
虽然RTX 4070 SUPER推荐电源仅为650W,但考虑为显卡和CPU满载,以及方便后续硬件升级,电源的选购建议留出20%-30%的冗余。鑫谷昆仑MU-850G电源采用ATX3.0规范打造,拥有850W额定功率并通过80PLUS金牌认证,配备原生12VHPWR显卡供电接口,无需转接安全稳定。同时,这款电源采用高品质全日系电容和LLC Pro+DC-DC纯血架构,带来强大的动态超载性能,防止大功率PC因为过载导致蓝屏、重启等情况。
有了高性能CPU和显卡,机箱散热也要跟上,同时还要兼顾美观和耐用。鑫谷无界1机箱,正面和侧面采用4mm高透钢化玻璃,270°广角营造出真正的“海景房”效果,不仅能实时监测硬件的运行情况,搭配RGB灯效配件“光污染”效果一流;
散热方面,配备9个风扇位,并支持240/360mm水冷散热器,同时还配备手办专属展台,让你的机箱每天都赏心悦目。值得一提的是,这款机箱采用コ型力学支撑结构搭配高强度五金配件,带来强大承重性,即使无立柱也稳固不变形。
目前最新的GPU-Z为2.56版本,能够识别到显卡的一些基础规格,但芯片本身还没识别到。
NVIDIA GeForce RTX 4070 SUPER拥有7168个CUDA,Boost频率为2475MHz,与RTX 4070相同,但基础频率稍高。
采用12GB GDDR6X显存,位宽为192bit,显存带宽504 GB/s,光栅单元和纹理单元为80和224。
理论性能测试
本次测试NVIDIA GeForce RTX 4070 SUPER主要对比它的上下型号,RTX 4070 Ti、RTX 4070以及上一代RTX 3070。
下面先进行的是用来衡量显卡DX11理论性能的3DMARKFS套装:FS,FSE,FSU三者分别对应显卡在1080P、2K、4K的理论性能,取显卡分数实际测试结果如下:
在FS测试中,NVIDIA GeForce RTX 4070 SUPER相比RTX 4070,其中FS提升18%;FSE提升19%;FUS提升25%,综合提升21%。对比RTX 4070 Ti,综合成绩相差3%左右。
而在针对DX12环境下的Time Spy和Time Spy Extreme测试中,NVIDIA GeForce RTX 4070 SUPER相较RTX 4070的提升分别为:TS提升18%;TSE提升18%,综合约为18%。对比RTX 4070 Ti,综合成绩相差5%左右。
PortRoyal是3DMARK中专门针对光追性能的测试项,NVIDIA GeForce RTX 4070 SUPER相较RTX 4070的提升约为17%。对比RTX 4070 Ti,相差4%左右。
下面我们再来看看3DMARK中新增的一些具体应用场景的测试。
Speed Way这项测试结合了实时光线追踪和传统渲染技术来测量显卡性能。场景含有光线追踪反射、实时全局光照、网格着色器、体积照明、粒子和后处理效果。所以SW的测试基本可以看做次世代3A游戏基准。
NVIDIA GeForce RTX 4070 SUPER对比RTX 4070,从1080p分辨率到4K提升依次为:18%/17%/17%。
而对比RTX 4070 Ti的成绩几乎持平,差距不超过1%,甚至在1080p分辨率中反超。虽然差距不大,可以看做误差,但整体来看,这张RTX 4070 SUPER基本有着媲美RTX 4070 Ti的性能。
另外我们使用3DMARK刚刚更新的DLSS 3进行了相关性能测试。
NVIDIA GeForce RTX 4070 SUPER在2K分辨率下DLSS开关相比RTX 4070的提升为15%/20%;4K分辨率,提升约为16%/22%。
从整体的理论测试成绩来看,传统的FS/TS/PR三项测试,NVIDIA GeForce RTX 4070 SUPER相比RTX 4070综合提升约为19%左右;相比RTX 4070 Ti的差距在3%左右,而最新的SW综合测试也基本呈现相同的结果。
而对比RTX 3070来看,综合传统的FS/TS/PR以及次世代场景SW的测试,综合提升在50-55%左右。
虽然我们的测试平台经过更新,从13900K升级到14900K,但看过CPU测试的朋友一定都知道14代酷睿的拉胯,而且我们的理论测试仅选择显卡本身的分数,物理分数没有计算在内。
《燕云十六声》游戏测试
本次我们还测试了网易最新的《燕云十六声》,不过目前该游戏尚未公测,所有测试数据仅供参考。
《燕云十六声》是一款具有中国独特武侠情怀的开放世界RPG游戏,会划分单人模式和多人模式,全平台发布。
游戏提供了丰富的捏脸系统,不过目前内测阶段尚无女性角色。
另外游戏内融入了大量中国风元素,玩家可以根据游戏内发现的要素解锁对应的历史文献,做到真正的寓教于乐。
不仅如此,除了游戏环境中的古风元素,在BOSS设定上颇为考究,新手村外的皮影师堪称我们国产游戏的“大树守卫”,在简单尝试了几次后还是败下阵来。
而令人惊艳的还有《燕云十六声》出彩的画面,在同一地方不同时间拍下来的照片,不仅仅是环境光简单的变化,各种氛围的渲染也会随着时间不同而风格迥异。
目前《燕云十六声》已经在内测版本中支持DLSS 3技术,下面来看看使用NVIDIA GeForce RTX 4070 SUPER的实际帧数测试。
从表中不难看出,DLSS 3对于遇到CPU瓶颈的低分辨率提升明显,其中1080p分辨率下提升达到73%,而2K和4K分别为43%/21%。
另外游戏在CPU瓶颈当中,DLSS 2的加成作用则较为受限,但相比DLSS关,依然能有不错的帧数。
在DLSS 3的详细测试中,我们选择RTX 4070 SUPER的主要游戏场景2K分辨率。其中DLSS 2相比DLSS关的提升为25%;而DLSS 3相比DLSS关的提升达到了93%,非常惊人。
常规游戏 性能测试
由于本次RTX 40系加入了DLSS 3新技术,所以后面会进行单独测试,这里依然选择主流的几款3A大作进行游戏性能对比。
在《极限竞速:地平线5》中,其中NVIDIA GeForce RTX 4070 SUPER相比RTX 4070在1080p分辨率下提升明显,达到13%,2K分辨率提升14%;4K分辨率提升18%,综合提升15%。
在《刺客信条:幻景》中,NVIDIA GeForce RTX 4070 SUPER相比RTX 4070的提升分别为:1080p提升8%;2K提升9%;4K提升12%,综合提升10%。
在《无主之地3》中,NVIDIA GeForce RTX 4070 SUPER相比RTX 4070的提升分别为:1080p提升19%;2K提升17%;4K分辨率提升16%,综合提升17%。
《光明记忆:无限》的光追测试软件是独立于游戏的测试工具,比游戏中用到的光线追踪技术更多,测试条件为“RTX最高/DLSS质量”。
性能方面,NVIDIA GeForce RTX 4070 SUPER相比RTX 4070的提升分别为:1080p提升19%;2K提升22%;4K提升23%,综合提升21%。
在另外一款国产游戏《边境》的跑分软件中,情况基本与《光明记忆:无限》相同,测试条件均在“RTX最高/DLSS质量”下进行。
在《边境》中,NVIDIA GeForce RTX 4070 SUPER相比RTX 4070的提升分别为:1080p提升17%;2K提升18%;4K提升19%,综合提升18%。
最后的测试中我们在《赛博朋克2077》体会一下不同的光影模式。
从上至下依次为超级画质/光追超级/光线追踪:超速模式。可以看到光线追踪:超速模式相比光追超级更贴近于真实效果。它模拟了真实的光线路径,其实相比之前的光线追踪模拟了更多光线在不同表面的反射,完整的计算出了场景的真实光照,避免了上一代光追中出现“死黑”的情况。
另外《赛博朋克2077》更新了DLSS 3.5,支持光线重建技术。如上图中的石桥,在光追关闭的情况下,石桥上的斑驳痕迹几乎不可见,而打开光线追踪后,虽然反射出了其表面状态,但表现细节却全都没有了。在开启了DLSS 3.5后,表面纹理更细致,将画质整体提升了一个档次。
DLSS 3性能测试
截止目前,超过 530 款游戏和应用已支持 RTX 技术。
其中《龙之信条 2》、《灰区战争》、《半条命 2》RTX 版、《地平线:西之绝境》、《层层恐惧》、《人中之龙7外传:无名之龙》、《人中之龙8》、《纳克园:最后的乐园》、《Pax Dei》、《星际矿工》和《王权与自由》均将支持 DLSS 3 技术,其中有些游戏将在今年发布,有些游戏则将在今年更新对 DLSS 3 的支持,为配备 GeForce RTX 40 系列显卡的游戏玩家带来前所未有的性能和更高的图像质量。
本次DLSS 3的测试图表比较繁琐,并且增加了1% Low FPS和延迟的测试,1% Low FPS则是将一段时间内的帧数从大到小排列,取最小的1%出来,再对这1%的数求平均值。
《星空》经历了首发后的低迷和差评,近期反响还不错,在1.8.86大版本更新后,加入了DLSS 3,这也让手持N卡的用户终于不用再开启FSR了,整体来看效果非常好。
其中1080p分辨率下DLSS 3相比DLSS 2提升达到64%;2K分辨率提升51%;4K分辨率提升39%。不难看出在越低的分辨率,也就是CPU瓶颈下,DLSS 3的帧生成加成越大。
虽然目前《星空》饱受批评的频繁读图依然没有修改,但至少使用N卡的用户,画面流畅度能够大幅提升了。
《地平线5》也是显卡测试的老朋友了,其出色的优化让很多入门级产品都能跑出较高的帧率。在NVIDIA GeForce RTX 4070 SUPER也有较明显的体现。在3种分辨率中,开启DLSS 3相比DLSS 2的提升分别为39%/27%/9%。
最后我们也测试了《巫师3:狂猎》,这款游戏在加入了光线追踪后,对于配置的要求直线上升,几乎达到了不开DLSS无法流畅游戏的地步。其中NVIDIA GeForce RTX 4070 SUPER开启DLSS 3相比关闭DLSS,提升达到了125%;相比DLSS 2的提升也达到了51%。
生产力工具测试
V-Ray
在生产力工具上,我们测试了最新版本的V-Ray渲染器,选择使用GPU渲染的CUDA测试和RTX测试,成绩如图。
Blender
Blender是一款专业的三维渲染软件,目前推出了固定的benchmark跑分软件,省去了安装软件下载素材的麻烦。软件会自动渲染测试monster/junkshop/classroom共三个场景。
上图为NVIDIA GeForce RTX 4070 SUPER显卡得分,分别为3281/1548/1645分,平均2158分。
D5渲染器
D5是一款国内实时光线追踪渲染器,支持多种建模软件直读,包括SketchUp、3Ds MAX、Rhino、Revit、Archicad、Blender、C4D等。目前也已经支持DLSS 3,下面我们分别看看帧数和功耗的情况。
选择软件自带的默认场景【简约客厅】
在实时帧数表现上,由于D5采用实时GPU渲染,所以压力全在显卡。可以看到在4K分辨率下,即便是NVIDIA GeForce RTX 4070 SUPER也是PPT的状态,而开启DLSS 3后,帧数提升可达到470%左右,非常暴力。
功耗方面,NVIDIA GeForce RTX 4070 SUPER的TDP为220W。关闭DLSS的情况下,实际平均使用功耗为205W,而在开启DLSS 3后,功耗仅有173W。更低的功耗,更高的帧数,可以说DLSS 3不仅对于游戏玩家有非常大的帮助,对于内容创作者来说,也是1+1>2的效果。
AIGC测试
AI时代不知何时已经离人们的生活越来越近,小到文本改写,大到各种生成式AI。此前我们已经测试过Stable Diffusion的AI绘图能力,不过目前NVIDIA推出了全新的TensorRT插件,可以充分调用Tensor算力,下面我们来测试一下NVIDIA GeForce RTX 4070 SUPER在这方面的性能表现。
【注:所有测试默认开启xformers优化方案】
首先是较为基础的SD1.5模型测试,在SD1.5中模型的输出分辨率为512×512和768×768。我们将导出【TRT】引擎,并记录使用默认模型渲染,以及【TRT】模型渲染的批次时间。
根据NVIDIA提供的统一参数进行输出,以便记录结果。其中采样方式为:Euler a;采样步骤:50;Batch Count:10
【默认SD1.5模型】RTX 4070 SUPER 运算时间 41.3s 约合 4.13秒一张图
【TRT SD1.5模型】RTX 4070 SUPER 运算时间 31.5s 约合 3.15秒一张图
第二次测试为的SDXL模型测试,SDXL模型将在1024×1024分辨率进行训练,相比SD1.5来说图像大了2倍,它可以提供更准确的关键字匹配,从而获得更真实的结果。但由于更高的原生分辨率和模型复杂性,SDXL模型的计算强度明显更高。
我们按照相同的参数进行设置,但尺寸规定为1024×1024,下面看看NVIDIA GeForce RTX 4070 SUPER的表现如何。
【默认SDXL模型】RTX 4070 SUPER 运算时间 2m49.7s 约合 16.97秒一张图
【TRT SDXL模型】RTX 4070 SUPER 运算时间 1m47.7s 约合 10.77秒一张图
在更复杂的模型中,TensorRT引擎的优势愈发明显,单张图片的出图速度能够提高6秒左右。并且显存利用达到了100%,跑满12GB显存。
生成式AI距离我们的生活越来越近,帮助最大的就是内容创作者,AI天马行空的思路往往比人们更具拓展性,借助AI能够激发更多灵感来源。而对于普通用户来说,他也可以让没有绘画功底的人,独立创作出一幅不亚于艺术家的作品,让每个人都成为自己生活中的艺术家。
目前生成式AI也仅在初步发展阶段,后续对于个性化教育、医疗保健、语言处理,甚至金融分析等等场景,相信都有AI的用武之地。
RTX 视频超分辨率(RTX Video Super Resolution)测试
目前RTX 视频超分辨率(RTX Video Super Resolution)已经在部分浏览器中进行测试,首先玩家需要更新到NVIDIA最新驱动,在NVIDIA控制面板中的【调整视频图像设置】可以看到最新的RTX 视频增强超分辨率。
RTX 视频超分辨率是 AI 图像处理的突破,它超越了传统的边缘检测和特征锐化技术,极大地提升直播视频内容的质量。
开启RTX 视频超分辨率不仅需要最新版驱动,还需要使用RTX 40或30系列GPU,并且几乎适用于Google Chrome和Microsoft Edge浏览器中的所有视频内容(浏览器也需要更新到最新版本)。
开启后,目前已知的打开YouTube或者B站,都可以享受到RTX VSR效果的加成。
如果不确定,在全屏播放视频时,可以打开任务管理器,看到GPU负载增加,即为开启成功。
我们打开YouTube随意观看视频,在打开RTX VSR后,可以清晰明显的看到水下珊瑚的质量明显提高,边缘更为清晰,并且极大减少了失真现象。
(点击放大查看原图)
在下面这幅图的对比中,可以明显看到开启RTX 视频超分辨率后,胡须明显更顺滑,已经看不出马赛克。
不过需要注意的是,RTX 视频超分辨率在低分辨率下效果会更明显,如果本身观看的视频为1080p或2K以上,则基本很难看出区别。
这对于一些网速不够快,只能看低分辨率视频的用户,或者视频片源本身不够清晰的情况,帮助非常大。
11温度及功耗测试
功耗测试中,我们选择FurMark软件进行拷机测试,并采用GPU-Z检测温度,功耗仅计算显卡自身。
可以看到NVIDIA GeForce RTX 4070 SUPER这张显卡但通过40分钟左右的拷机测试,温度在71℃左右,热点温度在83℃左右。
游戏动态功耗测试
本次我们在拷机测试中最大板载功耗为220W左右。但在实际游戏测试中要低很多。
由于不同游戏负载不同,GPU的实际功耗是动态变化的,类似于FPS随时间的变化,RTX 40系列很难触及功耗墙。
NVIDIA GeForce RTX 4070 SUPER 3A游戏平均功耗
RTX 3070 Ti 3A游戏平均功耗
在实际的游戏功耗测试中,我们选择《光明记忆:无限》自带benchmark,光追最高、DLSS质量、2K分辨率,来拉满显卡的性能极限,检测我们实际应用场景的功耗。
可以看到NVIDIA GeForce RTX 4070 SUPER平均功耗只有197W,而RTX 3070 Ti甚至达到了288W,低了90W,这的确是一个惊人的成绩。
游戏平均不到200W的功耗,对于长时间使用电脑,或者像我这种不爱关机的用户来说,确实能够有效降低电费,尤其是在南方,这种电费奇高的地区。
或者在一些相对极端的使用环境中,如网咖,电脑基本都是24小时满载运转。RTX 40系的超低功耗,对于网咖老板确实是极大地利好消息。
性能逼近RTX 4070 Ti
通篇测试下来,相信大家已经大概清楚这张NVIDIA GeForce RTX 4070 SUPER的性能,虽然相比RTX 4070只贵了100元,但性能却大幅提升。
具体一点,这张RTX 4070 SUPER相比RTX 4070的综合性能提升在15-20%左右,与RTX 4070 Ti的差距在5%左右。
作为一张70级别产品,虽然它定位2K分辨率的高帧光追游戏,但不管是日常网游、独立游戏,或是传统3A游戏,在4K分辨率下都能够达到流畅甚至电竞级水准,并且价格依然在5000元以内,这次的SUPER系列当真可喜可贺。
如果我们抛开70、80这种系列观念,它与RTX 30系的性价比之王RTX 3080,甚至能够争一争“性价比之王”的桂冠。
此前我们说过,从RTX 4090的性能来看,整体RTX 40系的性能提升其实相当炸裂,但从整个70级别开始,性能断档严重,这也导致了60级产品难以和RTX 30系拉开差距,而让人诟病。
此番SUPER系列的升级,可以说将RTX 40系整体的性能水平,拉回到了正常区间,形成一个较为规则的等差数列。
但从游戏实际表现来看,这张卡除了2K分辨率能够达到电竞级帧率,在4K分辨率下同样有着出色的表现,其中《地平线5》为110帧;《刺客信条:幻景》为79帧;《无主之地》为67帧。而在开启DLSS 3的情况下,《星空》能够达到85帧;《燕云十六声》能够达到105帧。
所以尽管这依然是一张70级显卡,但大可以摸到4K流畅的标准,并且游戏画面每年也都在进步,如果用老的标准来衡量这张NVIDIA GeForce RTX 4070 SUPER,它确实有些贵。如果把它当做上一代的RTX 3080,还能便宜不少钱。
这张RTX 4070 SUPER搭配了12GB显存,所以它除了是一张游戏卡外,在内容创作和AI性能方面,也都有着不错的表现。尤其在搭配了TensroRT插件后,SDXL这种大模型的单张图片,较原先生成速度快了38%左右。批量处理多张的速度提升更是按照分钟来算的。
当然图片只是生成式AI的基础玩法,相信未来不管是语音、视频还是复杂场景的集合体——游戏,都离不开生成式AI,所以一张高投资高回报的显卡还是十分划算的。
另外说到涨价,近几年更离谱的应该是游戏,一些标准的罐头3A,涨幅达到2倍甚至3倍,直叫人玩不起。
以上就是这张NVIDIA GeForce RTX 4070 SUPER的全部内容,不知道你对这次SUPER的升级如何看呢?