正文内容 评论(0)
Beyond3d采访了Stanford大学的Mike Houston,讨论了ATi刚刚宣布的Folding@Home项目。Houston表示目前ATI芯片具有最好的GPGPU架构,同时他还透漏NVIDIA GPU进行通用运算的劣势所在。
Beyond3D:是不是X1K系列GPU的动态分支性能可以让你们真正挖掘R580(和R520)的GPGPU功能,特别是BrookGPU的GROMACS(分子动力学软件)。那么这种方式是否可以在当前其他的硬件上实现?除此之外,X1K还有哪些功能是GROMACS性能的关键?是否在fragment硬件中接近峰值性能?内存带宽如何?GROMACS的什么功能让芯片工作负荷严重?你们是如何挖掘芯片在该应用中的潜力的?
Mike Houston:所有的GPU都是SIMD,所以分支肯定会有相应的性能结果。我们仔细设计了代码,具有很高的分支统一性。代码严重依赖于shader中巨大的循环数目。对于ATi而言,循环和分支运算可以通过数学来处理。我们有很多数学计算。我们所运行的fragment shader非常接近所使用的指令顺序峰值。但是,我不能说分支就是该应用实现的关键。我认为是X1K令人难以置信的内存系统和线程设计使得它成为了最适合GPGPU的架构。这允许我们以接近峰值的速度运行fragment引擎。
ATi所能实现而NVIDIA却无法做到的原因是因为运行Folding代码需要在每个fragment中动态执行许多指令。而对于NVIDIA来说,在指令大于64K后,shader终止并在Color[0]->Color[3]中以R0->3退出。所以,对于NVIDIA显卡,我们必须执行多通道运算,这可能导致缓存崩溃并增加芯片外部带宽要求。
另外一个对我们很重要的是ATi硬件中纹理延迟隐藏的方式。通过数学计算,我们可以消除所有纹理读取的成本。我们可以在很宽范围内进行海量计算,我们可以在同一内存系统中驱动更多ALU。NVIDIA则无法隐藏纹理延迟率,更重要的是,即使发出一个float4取回命令也要花费4个周期。所以NVIDIA的成本=ALU+纹理+分支,而ATi则可以将GPGPU性能发挥到最好。
在当前NVIDIA硬件上运行代码还不可能,我们必须对代码做出巨大变化,即便如此,性能还是不理想。我们将关注NVIDIA的下一代架构并作出评估。ATi和NVIDIA的下一代芯片都引人注目。
斯坦福科研项目Folding@home先驱者Vijay Pande表示,他的团队还优化了GPU中心软件的运算法则,将让现有GPU速度再提高“10至15倍”。
另外Rage3d刊登了一些ATi显卡GPGPU性能信息:
●是常规GPU峰值性能的100倍。
●X1900XT运算性能为500 GFlops,相比而言Cell处理器只有220 GFlops,Core 2 Duo处理器更是只有25 GFlops。
●10000台配备X1900XT显卡的客户机性能相当于一台PetaFlop的超级计算机。
●目前支持X1900、X1950等级显卡,不久后就支持X1800。
●X1900XT folding时功耗为80W,比3D运算时还少 。
如果你有一款X1900显卡,有多余的处理资源,为什么不加入Folding@Home,为人类健康事业做出自己的贡献呢?
目前Folding@home进行中的研究:
阿兹海默症
癌症
亨廷顿病
成骨不全症
帕金森氏症
核糖体与抗生素
我们也同时期待NVIDIA、Intel、AMD等业内芯片厂商能够开发出类似的流运算技术,让计算机技术更直接地造福人类。
本文收录在
#快讯
- 热门文章
- 换一波
- 好物推荐
- 换一波
- 关注我们
-
微博:快科技官方
快科技官方微博 -
今日头条:快科技
带来硬件软件、手机数码最快资讯! -
抖音:kkjcn
科技快讯、手机开箱、产品体验、应用推荐...