• 快科技
  • 中文科技资讯专业发布平台
斯坦福大学:ATI GPU具有最好通用计算性能
2006-09-30 08:28:00  出处:快科技 作者:且听枫吟/Rookie 编辑:且听枫吟/Rookie   点击可以复制本篇文章的标题和链接
猜你想看:默认

Beyond3d采访了Stanford大学的Mike Houston,讨论了ATi刚刚宣布的Folding@Home项目。Houston表示目前ATI芯片具有最好的GPGPU架构,同时他还透漏NVIDIA GPU进行通用运算的劣势所在。

Beyond3D:是不是X1K系列GPU的动态分支性能可以让你们真正挖掘R580(和R520)的GPGPU功能,特别是BrookGPU的GROMACS(分子动力学软件)。那么这种方式是否可以在当前其他的硬件上实现?除此之外,X1K还有哪些功能是GROMACS性能的关键?是否在fragment硬件中接近峰值性能?内存带宽如何?GROMACS的什么功能让芯片工作负荷严重?你们是如何挖掘芯片在该应用中的潜力的?

Mike Houston:所有的GPU都是SIMD,所以分支肯定会有相应的性能结果。我们仔细设计了代码,具有很高的分支统一性。代码严重依赖于shader中巨大的循环数目。对于ATi而言,循环和分支运算可以通过数学来处理。我们有很多数学计算。我们所运行的fragment shader非常接近所使用的指令顺序峰值。但是,我不能说分支就是该应用实现的关键。我认为是X1K令人难以置信的内存系统和线程设计使得它成为了最适合GPGPU的架构。这允许我们以接近峰值的速度运行fragment引擎。

ATi所能实现而NVIDIA却无法做到的原因是因为运行Folding代码需要在每个fragment中动态执行许多指令。而对于NVIDIA来说,在指令大于64K后,shader终止并在Color[0]->Color[3]中以R0->3退出。所以,对于NVIDIA显卡,我们必须执行多通道运算,这可能导致缓存崩溃并增加芯片外部带宽要求。

另外一个对我们很重要的是ATi硬件中纹理延迟隐藏的方式。通过数学计算,我们可以消除所有纹理读取的成本。我们可以在很宽范围内进行海量计算,我们可以在同一内存系统中驱动更多ALU。NVIDIA则无法隐藏纹理延迟率,更重要的是,即使发出一个float4取回命令也要花费4个周期。所以NVIDIA的成本=ALU+纹理+分支,而ATi则可以将GPGPU性能发挥到最好。

在当前NVIDIA硬件上运行代码还不可能,我们必须对代码做出巨大变化,即便如此,性能还是不理想。我们将关注NVIDIA的下一代架构并作出评估。ATi和NVIDIA的下一代芯片都引人注目。

斯坦福科研项目Folding@home先驱者Vijay Pande表示,他的团队还优化了GPU中心软件的运算法则,将让现有GPU速度再提高“10至15倍”。

另外Rage3d刊登了一些ATi显卡GPGPU性能信息:

●是常规GPU峰值性能的100倍。

●X1900XT运算性能为500 GFlops,相比而言Cell处理器只有220 GFlops,Core 2 Duo处理器更是只有25 GFlops。

●10000台配备X1900XT显卡的客户机性能相当于一台PetaFlop的超级计算机。

●目前支持X1900、X1950等级显卡,不久后就支持X1800。

●X1900XT folding时功耗为80W,比3D运算时还少 。

如果你有一款X1900显卡,有多余的处理资源,为什么不加入Folding@Home,为人类健康事业做出自己的贡献呢?

目前Folding@home进行中的研究:

阿兹海默症

癌症

亨廷顿病

成骨不全症

帕金森氏症

核糖体与抗生素

我们也同时期待NVIDIA、Intel、AMD等业内芯片厂商能够开发出类似的流运算技术,让计算机技术更直接地造福人类。

点击这里进入Folding@home中文页面


斯坦福大学:ATI GPU具有最好通用计算性能
  • 文章纠错

  • 文章价值打分
    当前文章打分0 分,共有0人打分
    文章观点支持

    +0
    +0