正文内容 评论(0

程序猿玩家细说GTX 680轻取百万线程代码
2012-08-09 16:15:33  出处:快科技 作者:上方文Q 编辑:上方文Q     评论(0)点击可以复制本篇文章的标题和链接

说起通用计算、并行计算、加速计算,NVIDIA CUDA无疑是很多开发人员的首选。虽然还有开放的OpenCL,但在开发环境方面还不够,CUDA则在经过大力推广后拥有了不错的群众基础。GeForce GTX 600时代虽然这方面的宣传似乎少了很多,开普勒架构的浮点性能看起来也不强,但其实在并行计算方面仍然有很多进步的,其中蕴藏着不少能量,比如费米架构首创性地加入了和处理器一样的统一读写二级缓存,GK104核心更把底层的SMX进行了变革。

今天就有一位技术宅程序猿同学,利用一块GeForce GTX 680 4GB,展示了如何在开普勒上取得百万级别的线程代码。看不懂不要紧,内行看门道,外行看热闹。

程序猿玩家细说GTX 680轻取百万线程代码

据说,技术宅的厕纸用完了之后就会用书本。

程序猿玩家细说GTX 680轻取百万线程代码

技术宅受到刺激后,迷上了超大规模程序设计,那个叫什么CUDA神秘兮兮的东西。

程序猿玩家细说GTX 680轻取百万线程代码

平台艳照。

程序猿玩家细说GTX 680轻取百万线程代码

CUDA的环境配置:首先安装CUDA工具箱,然后安装显卡驱动,最后安装CUDA SDK。前两步必不可少,第三步可以省略。

程序猿玩家细说GTX 680轻取百万线程代码

G80、GT200的SM架构差异,导致了CUDA程序上的不同优化。
 
老架构就不花时间去讨论了,直奔在通用计算大放异彩的费米架构,革命性的统一读写一级、二级缓存有些模仿CPU设计的味道。下面结合硬件来说说CUDA如何根据它来优化。

程序猿玩家细说GTX 680轻取百万线程代码

费米的SM拥有3万个高速寄存器,保证了线程的快速切换,要知道八核心CPU也不过几百个而已。16路高速存储通道来并行操作64KB的片上高速缓存,速度可达到1TB/s级别。

程序猿玩家细说GTX 680轻取百万线程代码

开普勒再度加强,在晶体管数量控制在35.4亿个的情况下竟然塞进了比费米多一倍的CUDA核心,寄存器也翻番达到6.5万个,存储通道也多了一倍。

要让CUDA程序为开普勒架构优化,首要任务是让Block里面的线程尽量的多。GT200 SM允许的活动线程是1024个,费米优化的代码可以增加到1536个,开普勒则进一步提高到2048个(注:GK110核心也会如此)。

程序猿玩家细说GTX 680轻取百万线程代码

这个是软件层次对应的硬件层次。Block编程上的线程块在SM里分时运行,一个CUDA程序会有多个blcok并行运行,而每个block线程块又包含了数十到上百的线程,也就构成了CUDA。

程序猿玩家细说GTX 680轻取百万线程代码

不同架构对应不同的计算规格,代码优化也要针对性地进行,比如开普勒可以支持更大的block内部线程,可以让更多线程进行片上同步工作,另外费米和开普勒有DRAM缓存,所以对DRAM优化的力度没有G80那么吃力。

程序猿玩家细说GTX 680轻取百万线程代码

开普勒在CUDA上加入了更大的革新,特别是支持多内核函数的并行执行。注意,一个CUDA内核就是一个可具备百万线程的并行程序,而这些内核函数更可以并行执行。

程序猿玩家细说GTX 680轻取百万线程代码

开普勒在内核函数执行引擎上比费米有了大幅度的加强。

程序猿玩家细说GTX 680轻取百万线程代码

从CUDA的发展角度看,NVIDIA一共经历了四代架构更新,而唯一不变的是warp硬件指令的宽度。(这里和AMD的稍微不同,后者硬件指令宽度是64)。

程序猿玩家细说GTX 680轻取百万线程代码

想要CUDA编程的童鞋可以开始了。安装好驱动、工具箱后,就可以安装C/C++编辑器了。用微软的Visual Studio比较方便,只是它本身不支持CUDA语法,需要在工具箱里面找到语法配置文件,配置一下就可以了。

其实,CUDA代码也不神秘,就是C和一些C的扩展而已,懂C的朋友很容易就明白了,不过CUDA代码编译的系统执行文件有点小小麻烦,因为需要调用2个编译器,一个是C/C++,另外一个是GPU编译器。还好NVDIA提供了比较方面的NVCC工具,这是一个半编译和连接工具,主要用语分离CPU和GPU代码,然后把CPU代码给VS编译,然后自己编译GPU代码。编译后连接好就可以编程执行代文件了。

程序猿玩家细说GTX 680轻取百万线程代码

这是NVIDIA的性能调试工具,非常不错,能够可视化分析硬件的使用率。

程序猿玩家细说GTX 680轻取百万线程代码

程序的产生都可以清楚分析,这是一个CUDA二维傅立叶变换的例子。不过计算单元的使用率不高,虽然很密集地运行kernel,但是每个kernel的执行时间不长,不到30微秒。

程序猿玩家细说GTX 680轻取百万线程代码

用性能工具来测试CUDA体渲染程序。

程序猿玩家细说GTX 680轻取百万线程代码

开普勒有多kernel并行运行的优势。

程序猿玩家细说GTX 680轻取百万线程代码

黄色感叹号表明程序可能有能够加强性能的改进之处。

程序猿玩家细说GTX 680轻取百万线程代码

载入粒子模拟仿真。

程序猿玩家细说GTX 680轻取百万线程代码

程序性能分析。

程序猿玩家细说GTX 680轻取百万线程代码

这一段小代码让GPU所有的CUDA核心都运行一个内循环加法。当然,真正的并行程序并没有那么简单。这里是主要是用性能工具来分析GPU ALU的使用率。

程序猿玩家细说GTX 680轻取百万线程代码

代码主要一一对应地生成1536个线程,每个线程做一个内循环,模拟GPU真实的负载工作。另外如果需要,可以调整Grid网格的规格增加线程,要生成一个百万线程,只需要在内核函数输入1000000/192=540个block线程块就可以了。GPU的最大优势是可以实现线程的高速切换,速度是CPU的上千到几千倍。

最后,技术宅跟我们分享了CUDA的一些感觉。CUDA是一个异构的执行体系,就是说CUDA里面你既要写CPU代码,也要内嵌GPU内核代码。它是用来发挥CPU、GPU两种架构的长处的。你认为CPU执行更好的部分,可以在函数用CPU代码实现;你认为某部分交给GPU执行跟好,就可以写成GPU代码。打个比方,某个负责引用需要一个并行度极高的运算和一个串行读很高的复杂运算构成,那就可以先通过PCI-E传输数据给GPU并行执行,然后返回给CPU做执行,最终输出结果。CUDA的另外一个用法是CUDA图形相互操作,比如支持PhysX物理加速的游戏就是,在图形渲染哪里和CUDA物理加速相互操作。

看到这里,是不是发现自己对CUDA有了更加深刻的认识?其实它也不是多么神秘的,就是个开发环境而已。

【本文结束】如需转载请务必注明出处:快科技

责任编辑:

  • 支持打赏
  • 支持0

  • 反对

  • 打赏

文章价值打分

当前文章打分0 分,共有0人打分
  • 分享好友:
  • |
本文收录在
#NVIDIA

  • 热门文章
  • 换一波

  • 好物推荐
  • 换一波

  • 关注我们

  • 微博

    微博:快科技官方

    快科技官方微博
  • 今日头条

    今日头条:快科技

    带来硬件软件、手机数码最快资讯!
  • 抖音

    抖音:kkjcn

    科技快讯、手机开箱、产品体验、应用推荐...