正文内容 评论(0

“开普勒”的望远镜 从传闻看GK104的真实架构
2012-03-15 08:53:46  出处:快科技 编辑:zzzp     评论(0)点击可以复制本篇文章的标题和链接
架构:源自GF104还是GF110?

显卡的规格参数也确定了,核心架构也有了准确的消息。Kepler的流处理器单元(NVIDIA也叫CUDA核心,以下统称CUDA核心)也大幅攀升,GK104将拥有1536个CUDA核心,相比GTX 580提高了2倍,NVIDIA如何在芯片面积大降的同时塞入更多的核心呢

回想前两年的情况,对NVIDIA来说开发Fermi架构的过程无疑是艰难的,它太庞大了,但抛开难产的过程不谈,Fermi架构是NVIDIA的得意之作,无论是游戏还是通用计算上都能左右逢源,Kepler显卡的架构不可能重起炉灶,必然是在Fermi架构基础上修改而来。

众所周知,Fermi家族衍生出两大核心,一个是完整版的GF100以及后续的改进型GF110,另外一个就是GF104以及后续优化的GF114(其实GF114=GF104),Kepler更像哪一个架构呢?

GF110架构:高性能、高代价

“开普勒”的望远镜 从传闻看GK104的真实架构
GF100/GF100架构示意图

首先来看GF110,它分为4组GPC,每组下辖4组SM单元,每组SM单元又有32个CUDA核心,总计有512个CUDA核心,64个纹理单元,48个ROP单元,16个曲面细分单元,搭配6组64bit显存控制器,总计384bit位宽,1536MB显存。

“开普勒”的望远镜 从传闻看GK104的真实架构
GF110架构中的每组SM单元设计

这些是看得见的参数,实际上Fermi之所以这么设计主要是为了HPC高性能计算,具体到每组SM单元中又是由32个CUDA内核为基础运算单元,每个内核又包括完整功能的整数单元和浮点单元,配备64KB L1缓存,16个LD/ST存储单元以及四个SFU多功能单元。

GF100架构用在通用计算方面的确是最合适的,16组SM意味着16个运算单元(OpenCL计算中是以SM单元数量为计算单位的,GPLBench或者Luxmark中都要看SM单元数量,AMD的现在称为CU单元),GPU通用计算上比前代GT200架构有着质的提高。

当然,GF100的代价也是巨大的,核心面积达到530mm2,发热也很恐怖,第一代GTX 480显卡甚至需要阉割部分CUDA核心才能控制住功耗和发热。

实际上游戏运算跟GPU通用计算并不是一条路,Fermi架构的为了提高数据吞吐量配置了大容量L1、L2缓存对3D游戏用处并不大,所以NVIDIA为Fermi架构准备了B计划,精简规格,提高效率,推出了GF104架构。

GF104:精简,高效

“开普勒”的望远镜 从传闻看GK104的真实架构
GF114架构示意图

GF104架构首先应用与GTX 460显卡上,GPC只有2组,SM单元数量也从16组减少到8组,但是每组SM单元的CUDA核心数提高到48个,看起来是增加了,不过在其他单元如调度器、寄存器、L1缓存没有增加的情况这意味着资源争抢的情况也多了,对数据计算来说意味着削弱,但是对图形运算来说是增强。

除了CUDA数量变化之外,GF104的L2缓存也减少了,内存控制器减少到4组,位宽256bit,曲面细分单元也减少到8组,但是纹理单元依然维持在64个,ROP单元还有32个,图形性能受损不如规格精简幅度那样大,而功耗与核心面积却大大降低了,无论是GTX 460还是之后的GTX 560 Ti、GTX 560在温度与功耗上反倒比高端显卡还要好。

“开普勒”的望远镜 从传闻看GK104的真实架构
网上流传的一张GK104架构图,明显更像GF100架构一些

那么Kepler的架构应该源自哪一个?GK104架构确信有1536个流处理器,恰好是GF110的3倍,浴室上个月就有人PS了上面这张图,显示GK104将有16组SM单元,每组SM单元变成96个CUDA核心,恰好符合1536个流处理器的特征。

初看一下似乎也很合理,不过实际情况却不是这样。这么说似乎有些马后炮的感觉,但是GK104并非GF110那样的旗舰定位,而是类似GF114这样的中高端显卡,而且有GF104成功的先例在前,NVIDIA没理由去复制GF110架构设计。

“开普勒”的望远镜 从传闻看GK104的真实架构
实际上GK104的架构更像GF114

最终的结果就是GK104的架构更像GF104,它的每组SM单元中塞下了192个CUDA核心,是GF110架构的6倍,是GF104架构的4倍,SM单元总数也不是16组,还是8组,这样总计有1536个CUDA核心,1536的数值是这么算出来的,而非GF110乘以3那样。

目前知道的架构设计就是这些,纹理单元未知,不过纹理单元是跟SM中的SFU单元对应的,GF100架构中每组SM单元有4个TA纹理寻址单元、16个TF纹理过滤单元,GF104中每组SM提高到8个TA、32个TF,GK104的纹理单元有说是128个,也有说160个,目前还没有确切消息,需要等到GK104的架构完全公布才能知晓。 

责任编辑:

文章内容举报

  • 支持打赏
  • 支持0

  • 反对

  • 打赏

文章价值打分

当前文章打分0 分,共有0人打分
  • 分享好友:
  • |
本文收录在
#NVIDIA

  • 热门文章
  • 换一波

  • 好物推荐
  • 换一波

  • 关注我们

  • 微博

    微博:快科技官方

    快科技官方微博
  • 今日头条

    今日头条:快科技

    带来硬件软件、手机数码最快资讯!
  • 抖音

    抖音:kkjcn

    科技快讯、手机开箱、产品体验、应用推荐...