缓存真有那么神？Haswell GT3e架构深究--快科技--科技改变未来

正文内容 评论（0）

缓存真有那么神？Haswell GT3e架构深究

2013-06-07 15:13:34 出处：快科技作者：上方文Q 编辑：上方文Q 评论(0)

Intel集成显卡一直是个比较纠结的话题。它占据着全球最大的图形市场份额(常年60％以上)，但性能却被大多数玩家嗤之以鼻；每一代都宣传进步神速，但结果只是PPT制胜；硬件规格就算上来了，驱动程序却始终糟糕透顶。

不过说实话，至少这三年来，Intel集显的进步还是有目共睹的，规格、性能都有了长足的进步，联合AMD APU已经真的让低端独显失去了意义。Haswell这一代更猛，直接祭出了eDRAM嵌入式缓存，一时间被吹得神乎其神，什么秒杀APU、媲美GT650M。

从实测成绩看，带缓存的顶级型号GT3e Iris Pro 5200的确已经具备了叫板AMD APU、GeForce GT 650M/640的资本，表现抢眼，但问题在于，配备它的处理器目前只有区区几款型号，其中三款是笔记本上的Core i7-4x50HQ系列，价格高达468-657美元(约合人民币2870-4000元)，只有高端笔记本才会用它，另一半是R系列，BGA整合封装，仅供OEM而不零售。

这样一来，GT3e的牛逼很大程度上就没什么意义了，因为一般用户，尤其是主流级别的消费者，根本就买不到它，或者说买不起，而舍得银子买游戏本的又怎么好意思用集显？再者说，价格上也完全不可同日而语，APU和低端独显只要几百块钱，GT3e是它们的好几倍。

按说低端和入门级用户才需要更好的集显，不过Intel的做法恰恰相反，越高端集显越强，历代都是如此，显得不可理喻。Intel对此从来没有明确阐述过，想来是出于成本、利润方面的考虑，毕竟越强大的集显越耗费晶体管、核心面积，成本也越高，自然不可能放在奔腾、赛扬上，而在高端型号上增加一些成本可以接受(尽管GT3e据传需要50美元)，利润空间也大得多。

好了，开始说“正事儿”。

Haswell GPU的底层架构其实和Ivy Bridge上是完全一样的，只是做了一些增强和扩充，尤其是执行单元数量大增。就像AMD CU(计算单元)、NVIDIA SMX(流处理器阵列)那样，Intel Haswell GPU也有自己的基础模块“Sub-Slice”(子切片)，由10个执行单元(UE)组成，而每个执行单元都是双发射的SIMD，有两个四宽度的矢量ALU，远远没有A/N的那么宽。

而且Intel的这种架构还存在着并发(co-issue)问题，上一代的Ivy Bridge在此做了大量改进但依然存在不少局限。

Haswell GPU架构图

缓存真有那么神？Haswell GT3e架构深究
Intel、AMD、NVIDIA GPU基础模块对比

Haswell GPU的规模也大大扩充了。此前的HD 4000只有16个执行单元，现在的HD 4600就有两个子切片、20个执行单元，GT3 Iris 5200/5100、HD 4600更是翻番为四个子切片、40个执行单元，1.3GHz加速频率下峰值浮点性能可达832GFlops，已经超过了GeForce GT 750M。

缓存真有那么神？Haswell GT3e架构深究
峰值浮点性能对比

缓存真有那么神？Haswell GT3e架构深究
带宽对比

但毕竟是集成显卡，在像素填充率、纹理填充率、三角形生成率方面还是没法和独立显卡相比，距离GeForce GT 650M都差距不小，不过总体上基本超过了Trinity A10-5800K。

缓存真有那么神？Haswell GT3e架构深究
峰值理论性能对比

【嵌入式缓存解决带宽问题】

无论什么整合GPU，都必须面临内存带宽不足的问题。这一次，Intel的终极解决方案是128MB eDRAM嵌入式缓存，代号“Crystalwell”。这是由Intel自己设计的，采用P1271 22nm SoC工艺制造。注意这不同于P1270 CPU工艺，因为Intel需要更低的晶体管漏电率，而不是一味的高频率——最高为1.6GHz。

这些缓存并没有直接和CPU整合在一起，而是一颗独立的Die，共同封装在一起。这么做的原因也很简单，首先是工艺不完全一样，其次是可以很容易根据需要做调整。如果大家都很喜欢这种缓存配置，Intel就可以多造一些，反之亦然。

下一代的14nm Broadwell上仍然会有这种缓存，但可能还会是22nm SoC工艺制造，毕竟既能利用老工厂产能，还没必要急着扩大容量。

那么会不会有一天跟处理器彻底整合到一起呢？Intel说现在碳这个还为时过早(84平方毫米确实不容易放进去)，但可能会有16-32MB eDRAM的整合版本，用于特定目的。

但是不同于以往游戏主机中的eDRAM，Crystalwell又是内存体系中真正的四级缓存，扮演三级缓存替补缓冲器的角色，任何从三级缓存中被赶出来的数据都会到这里边来。

因为是缓存而非缓冲，Intel发现Crystalwell的命中率很少低于95％。三级缓存未命中后的访问延迟为30-32纳秒，介于三级缓存和系统内存之间。

内存延迟：GT3e确实低很多

它可以同时处理CPU、GPU缓存，还能在二者之间动态定位。如果你安装了独显，完全不需要使用整合GPU，Crystalwell就会去全力处理CPU请求。

对于Crystalwell和其它部分的互连，Intel语焉不详，只说是一条很窄的串行总线，双向带宽50GB/s，再加上128-bit DDR3-1600内存的25.6GB/s，还是很可观的。GT 650M 128-bit 5GHz GDDR5也才不过80.3GB/s。

事实上，eDRAM容量超过32MB之后就用处不是很大了(微软Xbox One里就是32MB eSRAM)，Crystalwell却有多达128MB，而且就这一个版本。Intel的意图是先翻番来应对任何可能的游戏复杂度，再翻番以确保万无一失。借用Intel自己的话说就是“要么128MB，要么就没有”。

至于为什么选择eDRAM，Intel看重了它的高带宽和低功耗。Intel宣称，Crystalwell的带宽曲线非常平稳，不像GDDR5那样依赖于负载。待机状态下，Crystalwell只需要简单地刷新已存储数据，功耗0.5-1W，全带宽负载下则是3.5-4.5W。

它还和其它所有模块一样，受到了电源控制单元(PCU)的监控。根据散热、负载甚至是eDRAM的命中率，PCU可以在CPU、GPU、eDARM之间平衡功耗。

很可惜，Crystalwell只会搭配高端四核心，出现在H、R系列部分型号中，要是K系列也有肯定会大受追捧。至于为何不用于低端，主要是GT1/GT2用不着那么多带宽。Intel还解释说，一旦热设计功耗达到18W，GT3e就会很有用，但又必须顾及内核面积。

缓存/内存带宽