正文内容 评论(0)

在竞争对手的GeForce 7800GTX 512MB从Radeon X1800XT手中夺走性能之冠后,大家都在关切ATi R580会以什么样的规格、效能与之抗衡,未发布前各方猜测不断,也成为不少玩家在茶余饭后讨论的话题,现在随着ATi R580的发布我们才得以解开它神秘的面纱。
ATi代号为R580的芯片正式的命名为Radeon X1900,与R520一样基于90纳米的工艺制造,内建的晶体管数量创纪录的高达3亿8千万个,比R520的3亿2千万高出6千万个晶体管。运行频率650MHz,虽然频率并不等同效能,但这也是一大突破。

Radeon X1900将分为两个版本,分别是Radeon X1900XTX、Radeon X1900XT,两者只有核心及显存频率上的不同,按往时的惯例ATi最高级别的产品都以PE结尾,如Radeon X850XT PE,因为那些产品良品率不高,已经给玩家形成一个有价无货的印象,但这次的由于成功的采用了90纳米的工艺,Radeon X1900XTX良品率会相当高,货源也会非常充裕。为了避免玩家把Radeon X850XT PE的映像带给R580,ATi特意使用了一个新的后缀XTX,带有货源充足之意。
这次的Radeon X1900图形处理器,从官方提供的资料上可知,拥有16条像素渲染管线及8个顶点着色引擎,与前一代的Radeon X1800拥有16条像素渲染管线及8个顶点着色引擎在规格上一致,也许各位会觉得没太大进步,但内部构架已经有了相当多的提升,主要原因是Radeon X1K系列图形处理器的技术出发点——不仅是在单纯的增加硬件上的管线或提高核心频率,而是着眼于如何提升影像的处理效率,因此不论是在核心的3D Engine还是显存控制器的架构上都有着非常大的改变。

若想了解ATi如何在效率方面改进了构架,就必须先知道在图像处理中渲染处理的发展趋势。上面是一个渲染指令在游戏中使用频率及指令负责程度的调查表格,在上面我们可以看到自2001年以来游戏中渲染指令采用的越来越频繁,并且所采用的指令的负责情况也在逐年增加。

渲染指令目前大致分为两类,一是完成数学变换的算术处理操作;二是需要从显存中拾取数据的纹理操作。早期的渲染处理是对等的使用这两部分的渲染指令,但随着渲染复杂程度的增高,近来算术处理操作所占用的比例越来越大,到了2005年这个比例已经上升到5:1,并且在未来还有增大的趋势。并且在算术处理与纹理操作间的一个重大的差异在于:纹理操作过多的依赖显存容量及显存带宽这些外界的因素,而在显存容量或带宽不够的情况下再去增加纹理单元对性能的提升并无帮助;而算术处理操作则不同,它的处理能力并不依靠这些外界因素,仅取决于GPU中集成的算术处理单元的数量。

因此,ATi的技术人员在保持Radeon X1900大致规格与Radeon X1800相同的情况下,把像素渲染处理其从Radeon X1800的16个提升到48个,并且配套的独立流量控制单元同样增加到48个,这是Radeon X1900注重效能的改进之一。
在微软的Shader Model3.0规范中,除了提供给游戏设计人员更大范围的编程空间外,还提供了一些新的性能提升机制。很多早期Shader Model3.0中没有被实现的设计思想现在在Shader Model3.0中已经可以利用硬件去加速了。ATi对Shader Model3.0的理解体现在DFC上面(Dynamic Flow Control),则动态流控制。ATi认为DFC是Shader Model3.0最重要的部分,并确信自己已经正确理解了DFC设计者的原意。

Radeon X1900像素渲染引擎
因此ATi的3D Engine也是按照这个理解来设计,GPU中新的Ultra-Threading设计通过一个庞大的联合线程控制器、小线程单元、专门的分歧执行单元以及一个巨大的、高效的任务堆栈列表来实现DFC中所提倡的使用专用的执行单元来执行对应的指令,借此来获得与高频率相等的性能。

Radeon X1900像素渲染处理器细节
从图片可以看出,Radeon X1900与Radeon X1800的像素渲染处理单元内部结构是一样的,所不同的是Radeon X1900集成了48个这样的单元,和48个配套的独立流量控制单元,而Radeon X1800则只有16个,在晶体管数量只增加20%的前提下,算术处理能力却增加了3倍左右。而算术处理单元及纹理操作单元的比例为3:1,ATi认为这是兼顾现有游戏及未来游戏考虑的完美比例。
Fatch4阴影加速技术

在介绍Fetch4阴影加速技术前,我们先来了解一下3D程序设计中阴影的呈现过程。在设计人员使用光影投射的模具来建立一个3D场景时,其初步生成的阴影边缘将会是一条直线,这样整个阴影区域将显得轮廓鲜明,毫无真实性可言。现实生活中的阴影是会根据阻碍物生成边缘柔和的软边阴影,程序设计中要达到这种效果就必须对阴影区域的点进行采样,通过使用多个样本进行比较后修正每个像素的位置。但是要进行如此大量的纹理对照,对GPU的纹理处理单元来说是一个相当大负担。
ATi在阴影加速方面的改善就在于:利用DFC(Dynamic Flow Control)分歧处理机制只扫描阴影边缘的点,渲染时只要把主要资源使用在对阴影边缘点的对照上,其他点按照光影投射的模具来对比生产,如该点位于边缘点之内还是之外,如果位于边缘点外则按当时场景的正常光效处理,如果位于边缘点之内描黑该点。因为阴影特效主要表现在边缘的描绘上,因此该方法可以在提高阴影质量的同时大大提高渲染的速度。Fetch4则是用于扫描边缘点时的一个纹理样本对照的过滤器,用于生成边缘点具体位置。这样结合DFC中的分歧处理机制再配合上高效的Fetch4过滤器,Radeon X1900就可以以接近传统生成硬边性阴影的速度来生成更贴近真实的软边阴影。

使用ATi阴影加速技术生成的帕台农神庙软边阴影
比Radeon X1800增强50%的Hierachical Z特性
玩家在运行最近的游戏时经常可以看见1920x1200(WUXGA)、2048x1536(QXGA)甚至2560x1600(WQXGA)等分辨率设置,而开启这些分辨率设置对显卡的像素渲染、填充速度都会造成沉重的负担。因此所有的Radeon GPU都会支持一个名为Hierachical Z的特性,该特性预先存储了显卡在各分辨率下的设置,并会检测出不会再最终成像画面出现的像素点,并在要对那些像素点进行渲染处理前丢弃它们。不过Hierachical Z技术需要在GPU中集成一定容量的高速存储器,用于记录各分辨率下的设置及缓存像素点位置。若当前分辨率要求的缓存容量高于GPU中集成的缓存容量时,Hierachical Z只能降低当前渲染的画质来保证流畅。因此在Radeon GPU中集成的Hierachical Z缓存容量越大,显卡在高分辨率下就能保持住画面品质和流畅度。
Radeon X1900集成了比Radeon X1800大50%的Hierachical Z缓存容量,这确保Radeon X1900在高分辨率下性能不会急剧下降,Hierachical Z与512bit Ring bus内存控制器相结合,加上Avivo引擎中两个完整的DVI接口,可以为玩家提供最好的高分辨率游戏解决方案。
在该话题进行前我们先来回顾一个问题,为什么GeForce显卡要使用Forceware驱动,而Radeon显卡需要使用Catalyst驱动呢?这是一个非常容易回答的问题,因为GeForce显卡的低层硬件工作方式与Radeon显卡不一样。如果Forceware驱动能成功的安装在Radeon显卡上面,并使Radeon显卡正常工作,那会导致什么结果呢?结果就是Radeon显卡执行效率的降低,原有设计的优势不能发挥出来。而Futuremark公司最新的的3DMark06册是软件就相当于那么一款安装在Radeon显卡上的Forceware驱动。

首先,有关于DFC(Dynamic Flow Control)
DFC是ATi对SM3.0的理解,其Ultra-Theading 3D引擎就是依照该理解而设计,联合线程控制器、分歧处理单元等体现着ATi对DFC执著的同时,也耗费了数量庞大的晶体管。但可惜的是这项为大多数游戏设计者所使用的特性在3DMark06中却少有被采用,等于把ATi大量的晶体管浪费掉了。这对于ATi而言是不公平的。
其次,不可思议的跨平台代码
Futuremark公司也明白到游戏开发者会为不同厂商的显卡而使用不同的代码,但其在Benchmark软件设计中却没有为不同厂商的显卡而使用不同的代码。 软件的开发者不可能把为一个平台写的渲染程序原封不动的搬到另一套平台上,因为这是不可能运行的。正确的方法应该是为不同厂商的显卡使用不同的代码以求最好的工作效益。一个例子是顶点纹理拾取(VTF)功能和使用顶点缓存去做VTF。这都是对同一个问题提供的很好的解决方案,只是工作在不同的方式下而已。两者都不是SM3.0核心规范的一部分。如果把只针对一种方法而写程序包简单的加上一些代码封装就让它工作在另一套平台,这是非常不明智的。即使能运行,那性能也必然大打折扣。在3DMark06有几个地方就是的使用该方式渲染(例如,阴影的运算部分),这有可能是因为3DMark06的开发周期很紧导致的偷工减料。
最后,难以平衡的16b Surfaces及24b depth-stencil
在阴影演算方面,nVIDIA及ATi各自采用不同的算法,ATi方面是16 surfaces,nVIDIA方面是24b depth-stencil,客观来说其算法各有优缺点,但从做Benchmark软件角度来说不管采用哪种对另一家的产品都是不公平的,这次Futuremark选择了nVIDIA的24b depth-stencil,那么对ATi的产品而言是不公平的。
因为有着以上种种的争论,天极评测室决定在这次重要Radeon X1900XTX测试中取消对3DMark06的测试,只考核3DMark03、05两款Benchmark软件。

图片中上面为Radeon X1800XT 512MB,下面为Radeon X1900XTX,我们可以看到两款产品在外观上并不太大的不同,所采用的PCB板也一样。

同样的图片中上面为Radeon X1800XT 512MB,下面为Radeon X1900XTX,我们可以看到同样采用90纳米工艺下,Radeon X1900XTX由于集成了3亿8千万个晶体管超成核心面积比Radeon X1800XT要大。

Radeon X1900XTX供电部分线路

Radeon X1800XT供电部分线路
从上面两幅图片的对比中可以看到,Radeon X1900XT的供电部分要稍比Radeon X1800XT复杂,这也是从外观上辨别这两款卡最直接的途径。

我们这次的测试平台更换了最新的华硕P5WDG2-WS工作站级别的975X主板,以及带有HT超线程技术的双核心处理器PentiumXE 840。而这次参与对比评测的卡有GeForce 7800GTX 512MB、GeForce 7800GTX、GeForce 7800GT以及Radeon X1800XT 512MB。

从CCC中我们可以很清楚的看到Radeon X1900XTX的核心频率650MHz,显存频率1550MHz,显存容量及位宽分别为512MB/256bit。大体上的规格与Radeon X1800相差无几。


现在就让我们开始看一下这款备受瞩目的Radeon X1900在3DMark03中的表现,在没开特效的情况下Radeon X1900XTX性能略逊于GeForce 7800GTX 512MB,但要高于Radeon X1800XT 512MB及GeForce 7800GTX;打开4xAA 8xAF后,在1024x768的分辨率下Radeon X1900XTX得分仍然低于GeForce 7800GTX 512MB,不过我们看到在打开特效后两者间的差距已经开始缩小,分辨率上升到1600x1200后,Radeon X1900XTX的潜力终于得以在高负荷的情况下发挥,得分一举超越了GeForce 7800GTX 512MB成为第一,看来Radeon X1900XTX讲究效率的内部设计需要高负荷的使用状况才能发挥,可以预想到在更复杂的第二项测试——3DMark05中,Radeon X1900XTX潜力会得到更大的发挥。


3DMark05中的测试结果与我们原先的猜测一致,早在4xAA 8xAF 1600x1200测试中就已经显露苗头的Radeon X1900XTX,在运算场景更复杂的3DMark05中一路领先,性能完全压过GeForce 7800GTX 512MB,并且随着运算负荷的加大(打开4xAA 8xAF;1600x1200),领先的幅度愈加明显,看来ATi在核心内部的改进导致的效果还是相当明显。


ATi宣扬Radeon X1900XTX的内部构架是真正符合SM3.0游戏开发标准,并与效率为技术出发点去设计3D引擎,那么我们就进入1.33版本的FarCry游戏,用事实来证明ATi到底是对是错。测试结果非常明显,Radeon X1900XTX各项测试的得分都超过GeForce 7800GTX 512MB,而且负荷越大领先幅度也越大。


Quake4采用的是DOOM3一样的OpenGL图像引擎,因此ATi的产品在该项测试中表现普遍不佳,在没打开特效前连GeForce 7800GTX都高于Radeon X1900XTX,不过在打开特效后系统负荷加大,Radeon X1900XTX凭借着高频率才将得分反超了GeForce 7800GTX,看来ATi产品在该类游戏中执行效能还是比不过nVIDIA。


就如同nVIDIA的产品在DOOM3、Quake4等游戏中占有较大优势一样,ATi的产品在Half Life2中也有着传统的优势,在各项的测试中就连Radeon X1800XT 512MB都能轻松超越GeForce 7800GTX 512MB,更不用提效率还远在Radeon X1800XT之上的Radeon X1900XTX。


在F.E.A.R这款游戏的测试中,Radeon X1900XTX同样领先于GeForce 7800GTX 512MB,不过F.E.A.R实际游戏画面并不是太绚丽,而4款显卡的得分普遍都不高,看来ATi、nVIDIA两家显卡在该游戏中效率都不是太高,驱动程序上的优化明显不足。
数字会说话,看完上面的介绍与测试数据后,相信将现今效能最强的头衔冠在Radeon X1900XTX身上,应该没有人会反对吧!当然除了效能之外,透过本文您应该能够了解ATi全新的3D引擎设计思路。至此ATi Radeon X1K系列全部成员都已经登场——Radeon X1300、Radeon X1600、Radeon X1800、Radeon X1900,这4个不同价位段的产品虽然在规格上有所不同,但仍然维持着相同的基本构架与技术特色,若您想要享受绝佳性能的同时体验完美的画质,ATi Radeon X1K系列图形处理器应该能很大程度上满足您的需求。
前面我们说过,ATi把Radeon X1900加上XTX的后缀有着货源充足的原意,现在蓝宝科技的Radeon X1900XTX已经在市场上开卖,定价为5999元,下面一起来欣赏一下。





