正文内容 评论(0

从GPU诞生说起:AMD统一渲染架构回顾及展望
2011-06-28 17:40:18  出处:快科技 作者:朝晖 编辑:朝晖     评论(0)点击可以复制本篇文章的标题和链接
AMD变革开端:超标量架构的R600

直到G80架构出现半年之后的2007年5月15日,AMD(此时已不叫ATI)才正式发布了基于统一渲染架构R600的Radeon HD 2900 XT(以及其它低端型号的HD 2000系列)。发布的数月之前AMD就表示R600将会比Xenos快不止一个档次。但是面对对手G80呢?

相比G80激进地架构变革,R600显得相对保守一些,因为它的身上还能看到传统GPU采用SIMD架构的影子,不过其中的改变还是相对传统的GPU架构已经算是脱胎换骨了。不同于G80的全标量设计,R600是将原有的4D矢量ALU扩展设计为5D ALU,准确一点应该叫作5个1D ALU,因为每个ALU可以执行任意的1D+1D+1D+1D+1D或1D+4D或2D+3D指令运算,(而以往的GPU往往只能是1D+3D或2D+2D),Co-isuue(矢量和标量并行执行)技术在这里更加灵活多变,所以这种架构也叫做5D Superscalar超标量架构。

从GPU诞生说起:AMD统一渲染架构回顾及展望
R600采用的5D Superscalar超标量架构

AMD称这些5D ALU为统一流处理器单元(Stream Processing Units,SPU,区别于SP),每一个SPU中都有5个ALU(也就解释了为何A卡和N卡中的流处理器数目差距如此大),其中4个ALU可以进行MADD(Multiply-Add,乘加)操作,而另外一个(也可叫做SFU,特殊函数运算单元)可以执行函数运算、浮点运算以及运算Multiply运算(不能进行ADD运算)。由于每个流处理器单元每个周期只能执行一条指令(这也是传统SIMD架构的弊端),但是每个每个流处理器中却拥有5个ALU,如果遇到类似1D标量类似的短指令,执行效率只有1/5,其余4个ALU都将闲置。

从GPU诞生说起:AMD统一渲染架构回顾及展望
R600核心架构图

为了尽可能的提高效率,AMD引入了VLIW5体系(Very Long Instruction Word,超长指令集)的设计,可以将多个短指令合并为一组长的指令交给流处理器单元去执行,比如5条1D指令或者1条3D指令和两条1D指令可以合并为一组5D VLIW指令。这部分的操作由流处理器单元中的Branch Execution Unit(分歧执行单元)来执行。分之执行单元就是指令发射和控制器,它获得指令包后将会安排至它管辖下5个ALU,进行流控制和条件运算。General Purpose Registers(通用寄存器)存储输入数据、临时数值和输出数据,并不存放具体的指令。

整体规格方面,R600设计了320个流处理器(64个流处理器单元X5),分为四个SIMD阵列,每个SIMD阵列分为两组,每组包含40个流处理器(16个流处理器单元X5)。纹理单元为4组,每组包括4个纹理过滤单元和8个纹理寻址单元以及20个纹理采样单元,共计16个纹理过滤单元和32个纹理寻址单元以及80个纹理采样单元。

从GPU诞生说起:AMD统一渲染架构回顾及展望
R600中引入的Tessellation是现在曲面细分的雏形

在R600架构中还有两项技术值得一提,第一个则是Hardware Tessellation,也就是目前DX11中火热的硬件曲面细分技术,AMD在HD 2000显卡中引入了这一技术,不过当时的硬件环境远不成熟,Hardware Tessellation不具有实用性,只在HD 2000显卡上昙花一现,到了HD 3000系列就去掉了。

从GPU诞生说起:AMD统一渲染架构回顾及展望
R600中的环形总线技术

另外一个则是1024-bit环形总线技术,R600本身就拥有512bit显存位宽,已经是当时位宽最大的,G80最大位宽也不过384-bit。AMD在此基础上又引入了Ring bus环形总线,可以等效1024-bit位宽,如果使用高速的GDDR4显存,那么显存带宽可以轻易突破130GB/s,普通的GDDR3显存带宽也有100GB/s以上的带宽。可惜的是当时的生产工艺还是80nm,512-bit的显存位宽要占据相当大的晶体管规模,AMD的环形总线技术也没有普及开来,到HD 3000系列上甚至精简为256-bit,但是搭配高速GDDR3显存来弥补。

总得来说,得益于SIMD架构,R600可以用少于G80的晶体管堆积出远远大于后者的ALU规模,但是在指令执行效率方面,R600相比G80并没有什么优势。因为非常依赖于将短指令重新打包组合成长指令的算法,对编译器要求比较高,而G80则不存在这样的问题。虽然ALU规模、显存带宽等一系列数据都要领先,但执行效能的劣势还是让R600输给了G80,这一点也深刻地反映到当时的实际测试中。

作为AMD第一款桌面统一渲染架构GPU的R600虽然在新特性上亮点不少,但绝对性能面对G80没有任何优势,再加上发布时间上的落后,相关产品在市场上的反映很是惨淡,也宣告了AMD统一渲染架构在桌面GPU的第一次试水以落寞而告终。

责任编辑:

  • 支持打赏
  • 支持0

  • 反对

  • 打赏

文章价值打分

当前文章打分0 分,共有0人打分
  • 分享好友:
  • |
本文收录在
#快讯

  • 热门文章
  • 换一波

  • 好物推荐
  • 换一波

  • 关注我们

  • 微博

    微博:快科技官方

    快科技官方微博
  • 今日头条

    今日头条:快科技

    带来硬件软件、手机数码最快资讯!
  • 抖音

    抖音:kkjcn

    科技快讯、手机开箱、产品体验、应用推荐...