正文内容 评论(0)
Intel集成显卡一直是个比较纠结的话题。它占据着全球最大的图形市场份额(常年60%以上),但性能却被大多数玩家嗤之以鼻;每一代都宣传进步神速,但结果只是PPT制胜;硬件规格就算上来了,驱动程序却始终糟糕透顶。
不过说实话,至少这三年来,Intel集显的进步还是有目共睹的,规格、性能都有了长足的进步,联合AMD APU已经真的让低端独显失去了意义。Haswell这一代更猛,直接祭出了eDRAM嵌入式缓存,一时间被吹得神乎其神,什么秒杀APU、媲美GT650M。
从实测成绩看,带缓存的顶级型号GT3e Iris Pro 5200的确已经具备了叫板AMD APU、GeForce GT 650M/640的资本,表现抢眼,但问题在于,配备它的处理器目前只有区区几款型号,其中三款是笔记本上的Core i7-4x50HQ系列,价格高达468-657美元(约合人民币2870-4000元),只有高端笔记本才会用它,另一半是R系列,BGA整合封装,仅供OEM而不零售。
这样一来,GT3e的牛逼很大程度上就没什么意义了,因为一般用户,尤其是主流级别的消费者,根本就买不到它,或者说买不起,而舍得银子买游戏本的又怎么好意思用集显?再者说,价格上也完全不可同日而语,APU和低端独显只要几百块钱,GT3e是它们的好几倍。
按说低端和入门级用户才需要更好的集显,不过Intel的做法恰恰相反,越高端集显越强,历代都是如此,显得不可理喻。Intel对此从来没有明确阐述过,想来是出于成本、利润方面的考虑,毕竟越强大的集显越耗费晶体管、核心面积,成本也越高,自然不可能放在奔腾、赛扬上,而在高端型号上增加一些成本可以接受(尽管GT3e据传需要50美元),利润空间也大得多。
好了,开始说“正事儿”。
Haswell GPU的底层架构其实和Ivy Bridge上是完全一样的,只是做了一些增强和扩充,尤其是执行单元数量大增。就像AMD CU(计算单元)、NVIDIA SMX(流处理器阵列)那样,Intel Haswell GPU也有自己的基础模块“Sub-Slice”(子切片),由10个执行单元(UE)组成,而每个执行单元都是双发射的SIMD,有两个四宽度的矢量ALU,远远没有A/N的那么宽。
而且Intel的这种架构还存在着并发(co-issue)问题,上一代的Ivy Bridge在此做了大量改进但依然存在不少局限。
Intel、AMD、NVIDIA GPU基础模块对比
Haswell GPU的规模也大大扩充了。此前的HD 4000只有16个执行单元,现在的HD 4600就有两个子切片、20个执行单元,GT3 Iris 5200/5100、HD 4600更是翻番为四个子切片、40个执行单元,1.3GHz加速频率下峰值浮点性能可达832GFlops,已经超过了GeForce GT 750M。
峰值浮点性能对比
带宽对比
但毕竟是集成显卡,在像素填充率、纹理填充率、三角形生成率方面还是没法和独立显卡相比,距离GeForce GT 650M都差距不小,不过总体上基本超过了Trinity A10-5800K。
峰值理论性能对比
【嵌入式缓存解决带宽问题】
无论什么整合GPU,都必须面临内存带宽不足的问题。这一次,Intel的终极解决方案是128MB eDRAM嵌入式缓存,代号“Crystalwell”。这是由Intel自己设计的,采用P1271 22nm SoC工艺制造。注意这不同于P1270 CPU工艺,因为Intel需要更低的晶体管漏电率,而不是一味的高频率——最高为1.6GHz。
这些缓存并没有直接和CPU整合在一起,而是一颗独立的Die,共同封装在一起。这么做的原因也很简单,首先是工艺不完全一样,其次是可以很容易根据需要做调整。如果大家都很喜欢这种缓存配置,Intel就可以多造一些,反之亦然。
下一代的14nm Broadwell上仍然会有这种缓存,但可能还会是22nm SoC工艺制造,毕竟既能利用老工厂产能,还没必要急着扩大容量。
那么会不会有一天跟处理器彻底整合到一起呢?Intel说现在碳这个还为时过早(84平方毫米确实不容易放进去),但可能会有16-32MB eDRAM的整合版本,用于特定目的。
但是不同于以往游戏主机中的eDRAM,Crystalwell又是内存体系中真正的四级缓存,扮演三级缓存替补缓冲器的角色,任何从三级缓存中被赶出来的数据都会到这里边来。
因为是缓存而非缓冲,Intel发现Crystalwell的命中率很少低于95%。三级缓存未命中后的访问延迟为30-32纳秒,介于三级缓存和系统内存之间。
它可以同时处理CPU、GPU缓存,还能在二者之间动态定位。如果你安装了独显,完全不需要使用整合GPU,Crystalwell就会去全力处理CPU请求。
对于Crystalwell和其它部分的互连,Intel语焉不详,只说是一条很窄的串行总线,双向带宽50GB/s,再加上128-bit DDR3-1600内存的25.6GB/s,还是很可观的。GT 650M 128-bit 5GHz GDDR5也才不过80.3GB/s。
事实上,eDRAM容量超过32MB之后就用处不是很大了(微软Xbox One里就是32MB eSRAM),Crystalwell却有多达128MB,而且就这一个版本。Intel的意图是先翻番来应对任何可能的游戏复杂度,再翻番以确保万无一失。借用Intel自己的话说就是“要么128MB,要么就没有”。
至于为什么选择eDRAM,Intel看重了它的高带宽和低功耗。Intel宣称,Crystalwell的带宽曲线非常平稳,不像GDDR5那样依赖于负载。待机状态下,Crystalwell只需要简单地刷新已存储数据,功耗0.5-1W,全带宽负载下则是3.5-4.5W。
它还和其它所有模块一样,受到了电源控制单元(PCU)的监控。根据散热、负载甚至是eDRAM的命中率,PCU可以在CPU、GPU、eDARM之间平衡功耗。
很可惜,Crystalwell只会搭配高端四核心,出现在H、R系列部分型号中,要是K系列也有肯定会大受追捧。至于为何不用于低端,主要是GT1/GT2用不着那么多带宽。Intel还解释说,一旦热设计功耗达到18W,GT3e就会很有用,但又必须顾及内核面积。
【小机箱里的移动平台】
看到这个你肯定认为不过是个普通的中塔小机箱,但事实上,它里边是Intel的移动客户参考主板(CRB),里边是完全针对移动平台优化的,只是为了方便测试诊断而做成了这样。
处理器是顶级的Core i7-4950HQ 47W,图形核心正是待缓存的Iris Pro 5200。
因为Intel对内核面积数据捂得很严实,AnandTech在跑完测试后就把散热器拿了下来,发现Intel并未使用散热顶盖。这就好说了,擦掉硅脂,就可以看到处理器、缓存的真容了。右边那个小点的Die就是缓存。
经过测量,Crystalwell缓存的面积大约为7×12=84平方毫米,而四核心加GT3的面积为16.2×16.3=264平方毫米,合计328平方毫米。
Intel官方公布的四核心加GT2的内核面积为177平方毫米,所以GT3相比于GT2多了87平方毫米,乘以2应该就是40个执行单元GPU的大致面积了:174平方毫米。
这就意味着,四核心GT3内核里会有大约65%的面积用在了GPU上,远远大于四核心GT2 33%左右。Intel对待GPU也是越来越认真了。
本文收录在
#Intel
- 热门文章
- 换一波
- 好物推荐
- 换一波
- 关注我们
-
微博:快科技官方
快科技官方微博 -
今日头条:快科技
带来硬件软件、手机数码最快资讯! -
抖音:kkjcn
科技快讯、手机开箱、产品体验、应用推荐...