正文内容 评论(0)
【Core M GPU架构预览】
如果说这些年Intel CPU架构意兴阑珊,GPU就是一直在大跃进了,已经到了足以威胁AMD APU的地位,而且凭借庞大的市场份额(天下三分有其二),势头那叫一个好。
Ivy Bridge、Haswell上的GPU分别是第七代、七代半,Broadwell是在它们基础上的继续改进,但还不足以称之为第八代(Intel自己都没这么说),因为底层架构几乎完全相同的,只是在规模、性能、功能、技术上深入增强。
API支持方面已经和NVIDIA、AMD处于同一档次,完全支持DX11.2(以及OpenGL 4.3),或者确切地说是Direct3D Feature Level 11_2,甚至还领先于NVIDIA,开普勒、麦克斯韦架构都仅支持11_0。11_2虽然改进不多,只有分块资源、预编译着色器头等细节,但至少在名义上,Intel走到了NVIDIA前边!
下一步,Intel还会支持到DX12。
计算方面,确认支持尚未公布的OpenCL 2.0,包括共享虚拟内存,大大提升计算性能。Intel虽然没有类似AMD HSA那样的可编程异构架构,但至少可以在Broadwell CPU/GPU之间直接共享复杂数据了,而不用来回拷贝。
再深入一些,Intel其实还是在架构上做了调整的,增强了不同执行单元之间的平衡。
Haswell-Y的核显是GT2,是单独一个区块(Slice),又可细分为两个子区块(Sub-Slice),后者是Intel核显最小的功能性单元,包括10个执行单元(着色器)、缓存、纹理/数据/媒体采样器等。
Broadwell-Y将每个子区块里的执行单元减少到了8个,但是每个区块由三个子区块组成,也就是总计24个执行单元,比上代增加了20%。
但影响并不是这么简单,相关的一级缓存、采样器也增加了。每个执行单元的采样器增加了25%,因此同频下的采样输出能力提升了50%。
其实,现代PC GPU都在减少每个执行单元配备采样器的比例,Intel反而增加了,表明之前的架构这方面是有所不足。
包含ROP、光栅器、部分三级缓存的后端有一些微架构改进,提升了像素和Z轴填充率,前端则增强了几何单元,从而提高几何输出能力。
Intel这次没有宣传GPU性能提升了多少多少(很罕见)。结合上述变化,再考虑到14nm新工艺给发热、功耗留下的更大空间,还是可以期待一下的。
说起功耗改进,新工艺并不是唯一,还有个杀招“Duty Cycle Control”(DCC),占空比控制。——占空比是电子技术术语,大意是脉冲中信号激活的时间比例,又称工作周期。
这些年,Intel一直在努力改进待机功耗,但是晶体管运行需要一个最低电压,也就是阈值,所有到了一定程度,常规方法再怎么努力也是不可能继续降低的。
Intel的解决方法很天才:既然不能继续降压,索性就直接关闭GPU。通过将GPU置于工作周期中,可以大大缩短运行时间,只有原先所需的1/8,这就完全绕过了电压阈值的问题。
这一技术对应用、用户是透明的,无需干预。显示控制器与GPU时钟域分离并始终保持开启,因此无论GPU本身是否否关闭,都不影响显示输出。工作周期的控制通过GPU硬件、驱动程序联合进行。
目前还不知道该技术是仅限于Broadwell-Y,还是整个Broadwell家族都有。
最后说说多媒体与显示方面。因为架构方面的变化,视频质量引擎的输出能力也提升了一倍,QuickSync转码引擎同样有增强和改进。
H.265会有一个混合解码器,支持硬件解码,但是能效没有H.264的高。这主要是因为开发完全固定功能的编码器需要很长时间,Broadwell上有些来不及,只能上这样的临时方案。事实上,NVIDIA麦克斯韦架构的H.265解码也与此类似。
输出规格支持HDMI 1.4、DisplayPort 1.2、eDP 1.3a,最激动的是原生支持4K。其实呢,Haswell就已经支持4K,但是超低压的Haswell-Y上给砍掉了,这次Broadwell-Y没有再落伍,也给了苹果MacBook Air上视网膜屏的机会。
延伸阅读——