斯坦福大学：ATI GPU具有最好通用计算性能--快科技--科技改变未来

正文内容 评论（0）

斯坦福大学：ATI GPU具有最好通用计算性能

2006-09-30 08:28:00 出处：快科技作者：且听枫吟/Rookie 编辑：且听枫吟/Rookie 评论(0)

Beyond3d采访了Stanford大学的Mike Houston，讨论了ATi刚刚宣布的Folding@Home项目。Houston表示目前ATI芯片具有最好的GPGPU架构，同时他还透漏NVIDIA GPU进行通用运算的劣势所在。

Beyond3D:是不是X1K系列GPU的动态分支性能可以让你们真正挖掘R580(和R520)的GPGPU功能，特别是BrookGPU的GROMACS(分子动力学软件)。那么这种方式是否可以在当前其他的硬件上实现？除此之外，X1K还有哪些功能是GROMACS性能的关键？是否在fragment硬件中接近峰值性能？内存带宽如何？GROMACS的什么功能让芯片工作负荷严重？你们是如何挖掘芯片在该应用中的潜力的？

Mike Houston:所有的GPU都是SIMD，所以分支肯定会有相应的性能结果。我们仔细设计了代码，具有很高的分支统一性。代码严重依赖于shader中巨大的循环数目。对于ATi而言，循环和分支运算可以通过数学来处理。我们有很多数学计算。我们所运行的fragment shader非常接近所使用的指令顺序峰值。但是，我不能说分支就是该应用实现的关键。我认为是X1K令人难以置信的内存系统和线程设计使得它成为了最适合GPGPU的架构。这允许我们以接近峰值的速度运行fragment引擎。

ATi所能实现而NVIDIA却无法做到的原因是因为运行Folding代码需要在每个fragment中动态执行许多指令。而对于NVIDIA来说，在指令大于64K后，shader终止并在Color[0]->Color[3]中以R0->3退出。所以，对于NVIDIA显卡，我们必须执行多通道运算，这可能导致缓存崩溃并增加芯片外部带宽要求。

另外一个对我们很重要的是ATi硬件中纹理延迟隐藏的方式。通过数学计算，我们可以消除所有纹理读取的成本。我们可以在很宽范围内进行海量计算，我们可以在同一内存系统中驱动更多ALU。NVIDIA则无法隐藏纹理延迟率，更重要的是，即使发出一个float4取回命令也要花费4个周期。所以NVIDIA的成本=ALU+纹理+分支，而ATi则可以将GPGPU性能发挥到最好。

在当前NVIDIA硬件上运行代码还不可能，我们必须对代码做出巨大变化，即便如此，性能还是不理想。我们将关注NVIDIA的下一代架构并作出评估。ATi和NVIDIA的下一代芯片都引人注目。

斯坦福科研项目Folding@home先驱者Vijay Pande表示，他的团队还优化了GPU中心软件的运算法则，将让现有GPU速度再提高“10至15倍”。

另外Rage3d刊登了一些ATi显卡GPGPU性能信息:

●是常规GPU峰值性能的100倍。

●X1900XT运算性能为500 GFlops，相比而言Cell处理器只有220 GFlops，Core 2 Duo处理器更是只有25 GFlops。

●10000台配备X1900XT显卡的客户机性能相当于一台PetaFlop的超级计算机。

●目前支持X1900、X1950等级显卡，不久后就支持X1800。

●X1900XT folding时功耗为80W，比3D运算时还少。

如果你有一款X1900显卡，有多余的处理资源，为什么不加入Folding@Home，为人类健康事业做出自己的贡献呢？

目前Folding@home进行中的研究：

阿兹海默症

癌症