正文内容 评论(0)
[挑战极限 X1950XTX技术分析]
从规格分析上我们知道X1950XTX采用了革新后的R580核心,也就是所谓的R580+,从技术上来看,它与R580所支持的技术基本相同,并没有开创出任何新的内容。R580+也使用了90nm制造工艺,48个像素着色处理器,8个顶点着色处理器,支持PCI Express x16,动态工作电压和工作频率控制,双DVI输出支持,R580+的晶体管数目依然是3.84亿个。
作为R580的近亲,R580+继承了R580的全部能力,包括Ultra-Threaded Shader Architecure(超线程渲染结构)、Shader Model 3.0、改良的显存控制器Ring Bus Memory Controller、用于屏蔽不可见渲染的Hyper-Z、HDR+AA(高动态渲染加上全屏抗锯齿,这是ATi引以为傲的技术)、128位的浮点指令渲染、自适应的抗锯齿、AVIVO等。
ATi的研究工作表明,自从微软2001年在DX8中导入可编程的渲染引擎后,渲染处理在游戏中变得非常普遍,而渲染指令的复杂度也在以每年1.8倍的速度增长。渲染指令大致可以分为两类:纹理操作和算术处理操作,随着游戏的进步,算术处理操作的比重正在不断加大,最近的游戏研究表明算术操作:纹理操作=5:1,下一代游戏的比重还在加大。算术操作和纹理操作最大的不同在于,纹理操作依赖于显存容量和带宽等外部因素,当外部条件不足时增加纹理处理单元对性能没有帮助,而算术操作能力不取决于外部因素,是由GPU内集成的算术操作单元的能力和数量决定的。这两者之间相互还有关系,通过像素渲染程序可以生成纹理,通过渲染调整还可以减少纹理模板的数量,这两种办法都可以用来降低存储纹理所必需的显存和带宽。
在微软提出的SM3.0规范中,最重要的新特性就是像素渲染的动态分支控制。在早期的SM中所有的指令和纹理拾取都要在每个像素上面施加一次,不管他们是否需要,而流控制则可以根据实际情况在需要的像素上执行渲染。ATi的设计正确理解了流控制的愿意,认为动态流控制提倡的是让不同数据块执行不同的操作,为实现此目的,X1000系列引进了新的超线程技术,它通过一个庞大的联合线程计数器、小线程单元、专门的分支执行单元和一个巨大的、高性能的任务堆栈列表,在高速动态流控制和扩展并行处理之间取得最佳平衡。
[R580+之Ultra-Threads Shader Engine]
为了更加有效的同时运行多线程运算,X1950XTX加入了智能化的线程分配处理器——Ultra-Threading Dispatch Processor(超线程分配处理器)。
Ultra-Threaded Pixel Shader Engine能把一个较大的Pixel Shader的运算分拆为大量较小的执行序,然后平均的分给各个Pixel Shader Core Unit,在同样的Shader程序下其执行序被分割成细少的Pixel Blocks,排除了部份Unit需要等待其它Unit完成的结果而造成闲置,减少了不必要的延迟并提供更快的执行效率。
这个Ultra-Threading分配引擎也可以在某些像素着色引擎空闲时重新分配新的任务。这样的情况多数发生shader在等待数据或者完成了任务的时候,比如在纹理存储进缓存或显存的过程中。
而ATi X1950XTX在运算分支程序的时候,能够把每个线程的分成很多个4X4像素的小块来分别处理,在这样的一个像素块里碰到两条不同分支的机会就非常小,降低了出现SI2D的机会,这可以使动态分支拥在更高的运算效率。
ATi的Ultra-Threading设计还能够提高Pixel Shader 3.0动态分支的性能。动态分支被认为是Pixel Shader 3.0的重要新特性,可以让Pixel Shader根据计算出来的数值来跑不同的分支或者循环。如果正确使用的话,动态分支能显著的提高显卡3D性能。例如在使用shadow map的时候,如果要对阴影作边缘柔和取样,使用动态分支可以在遇到不需要作取样像素的时候就跳过去,以节省大量的pixel shader计算资源。但是需要注意的是,目前显示核心的Pixel Shader都是采用传统的SIMD架构,动态分支的运作往往会破坏掉程序的并行性,使得动态分支带来的益处被浪费掉。
[R580+之Ring Bus Memory Controller]
除了加强了Pixel Shader引擎的效率外,X1950XTX沿用了显存控制器技术,称为“Ring Bus Memory Controller”。传统显卡技术,为了提高显存的传输效率,通常都会用直接提高内存的带宽,不过提高带宽只能为提高突发传送时带来便利,但如果程序并不需要太高的带宽,则更高的带宽也是枉然,相反有效地运用显存宽带才是最重要。X1950XTX不仅使用了Ring Bus Memory Controller技术,而且由于使用了GDDR4显存,所以显存带宽也得到了大幅度提升,为Ring Bus Memory Controller又增加了新的亮点。
在Ring Bus的架构下,Client Interface会向显存控制器作出读取要求,而控制器同样会安排数据由显存颗粒中读取,但却不会回传至显存控制器,而只是把东西放在Ring Bus,然后Client Interface自行由Ring Bus取回所需要的数据封包,因此显存减少回传的工作,达到减少延迟而令效率提高的目的。
如图所示,X1950XTX显卡内置两个256位的总线环,环路总线围绕在内核心的周围,这样可以简化线路设计及使连接处于最优化状态。这意味着任何时候内核各部件都能处于最短的连接线路状态,这样在显存进行数据写入操作过程中有效降低延迟及降低信号品质。正是因此,X1950XTX可以支持象GDDR4这样的高频率显存,而传统的显存架构之所以不能支持高频GDDR4显存,很大原因就是核心内部线路之间的串扰等原因所造成的。
本文收录在
#快讯
- 热门文章
- 换一波
- 好物推荐
- 换一波
- 关注我们
-
微博:快科技官方
快科技官方微博 -
今日头条:快科技
带来硬件软件、手机数码最快资讯! -
抖音:kkjcn
科技快讯、手机开箱、产品体验、应用推荐...