正文内容 评论(0)
[现阶段45nm处理器介绍]
早在今年年初,Intel 45nm双核心、四核心处理器的进展就已经初现端倪,在Intel的原定计划中,今年的11月11日才是全新的45nm桌面级处理器Yorkfield发布之日,此后基于45nm的双核心处理器也会面世。更先进的制作工艺、更大的二级缓存、更强的超频潜力和更低的功耗、发热量,这一次都让人们无比期待,现在,我们驱动之家评测室就为大家提前带来了Intel桌面版45nm处理器的评测。

而原生的四核心处理器我们要等到2008年的下半年的Mehalem架构才会见到,当然就现阶段来说,Intel也没有必要加快自己的发展脚步,因为AMD的四核心桌面版“巴塞罗那”处理器依旧没有看到任何可供媒体测试的实物。另外,就算AMD能够赶在今年年底之前推出,在主频方面的落后也还不足以对Intel的“Yorkfield”45nm处理器带来威胁,所以就现在的局面来看,AMD还是要加把劲儿啊。
也许看过上表的读者对Q9550、Q9300、E8500、E8300这些型号的处理器有些疑问,3.16G、2.5G这些时钟频率,在333MHz的外频下,这个频率是不可能实现的。因此,在新一代的45nm处理器中,Intel准备全面引进X.5倍频概念,这一点除了在AMD的处理器上早就应用之外,在Intel Pentium4处理器面市之后就没有被使用过的,现在为了更加全面的划分市场以及其他某些方面的考虑(1333MHz前端总线,即333MHz外频的全面转入,使得还以1为倍频跨度的话,会造成两个临近产品的频率差距过大),使得Intel首次将X.5倍频引入到了45nm处理器中。


在晶体管数量上,65nm双核心Conroe/Merom/Woodcrest拥有2.93亿个,45nm双核心Penryn则提高到4.1亿个,其中四核心版本更是翻番到8.2亿个。虽然这只是现在Montecito双核心Itanium 2的大约一半(后者17亿个),但相当于2000年180nm工艺Willamette核心Pentium 4的20倍(后者4200万个)。

Penryn时代的功耗仍会维持在35W左右,所以主频会有不小的提高。Intel没有给出确切的频率,但有关工程师指出高端桌面会超过3.3GHz,笔记本则会不低于2.5GHz,而理论上的工作速度会更高。
Intel没有详细解释high-k工艺所用的材料,只是表示high-k栅极基于“铪”元素,金属栅极的两种元素则拒绝透露。Intel高级研究员Mark Bohr称:“可能的组合有上百种,能完成这种组合是一个重大的成就。”Intel还放出豪言,其他半导体企业要达到他们这种水平,得等到32nm工艺时代甚至更晚。



Intel给出的解释是,Deep Power Down模式相比于Enhanced Deeper Sleep模式,可以让电压再降低一倍,一级缓存关闭,处理器功耗进而减少最高可达75%,但是唤醒处理器的时间要比Enhanced Deeper Sleep模式多出越50%。
但是此时的问题就出现了,由于休眠深度越深,处理器唤醒的能耗损失也就提高,并且所花时间更大,为了弥补这个缺陷,Intel为Penryn 45nm处理器加入了更为先进的智能探测功能,可以更好的确定休眠时间和状态。如果智能探测技术发现目前不适合采用Deep Power Down模式,那么只会让处理器以Enhanced Deeper Sleep模式休眠。


Penryn 45nm处理器的二级缓存 容量相比65nm的二级缓存增加了50%,双核心产品二级缓存 容量最大可达至6MB、四核心更是达到了12MB,Intel也是考虑到了四核心的一些限制问题,因此提升到了24路联合(24-way set Associative) ,令二级缓存命中率进一步提升,从而让性能获得更好表现。
此外,Penryn 45nm处理器加入了名为“增强高速缓存拆分负载功能(Split Load Cache Enhancement)”的全新技术。当需要数据读取时,如果数据位于两个不同的高速缓存当中时,将会对在高速缓存中的数据进行拆分,让一个高速缓存进行数据读取,其速度要高于数据在两个高速缓存中进行读取和处理要快上许多。该技术我们可以看成是酷睿2中高速智能缓存技术的增强版本。

Penryn 45nm处理器在原有的架构上对除法器进行了改良,Intel称其为“Fast Radix-16 Divider快速Radix-16除法器”。改良之后的除法器在运行科学计算、三维坐标转换和其他数学密集型运算的时候,会带来比原有高两倍的运算速度,并可以加速浮点和整数运算的速度。其重要原理就在于,通过Radix-16除法器的采用,使得当面对基数提升到16的运算时,该功能会每次运算出4位商值,将运算延迟缩短了一倍。

Penryn 45nm处理器在这些方面也进行了改良,其加入全新Super Shuffle Engine(超级流水线引擎),可以让SSE指令更具效率的运行。以往在处理128Bit宽度的字节、字及Dword SSE数据时,是无法在一个周期内完成,而超级流水线引擎的加入可让这些不同性质的128Bit SSE指令,在1个周期内便可完成,减低延迟及吞吐量外。

Intel指出,加入的SSE4指令集让Penryn 45nm处理器增加了2个不同的32Bit向量整数乘法运算单元,并加入8位无符号 (Unsigned)最小值及最大值运算,以及16Bit 及32Bit 有符号 (Signed) 运算。在面对支持SSE4指令集的软件时,可以有效的改善编译器效率及提高向量化整数及单精度代码的运算能力。同时,SSE4改良插入、提取、寻找、离散、跨步负载及存储等动作,令向量运算进一步专门化。
SSE4还计入了六条浮点运算指令,支持单精度、双精度浮点运算及浮点产生操作,可立即转换其路径模式,大大减少延误,这些支持将会在3D游戏及对浮点运算能力非常敏感的领域起到积极的效果。
此外,SSE4指令集还加入了串流式负载指令,能够提升帧缓冲区的读取数据频宽,理论上可获取完整的快取缓存行,即每次读取64Bit而非8Bit,并可以将其保存在临时缓冲区内,让支持SSE4指令集的读取频宽效能提升最高至8倍。






|
系统硬件
|
|
|
CPU
|
Intel Core2 QX9650 1333MHz
(3.0G、L2 Cache:12MB)
Intel Core2 QX6850 1333MHz
(3.0G、L2 Cache:8MB)
Intel Core2 Quad Q6600 1066MHz
(2.4G、L2 Cache:8MB)
Intel Core2 Duo E6700 1066MHz
(2.66G、L2 Cache:4MB)
AMD Athlon64 X2 6000+
(3.0G、L2 Cache:2MB)
|
|
主板
|
华硕P5K-Premium(P35)
华硕M2N32-SLI(nForce 590)
|
|
内存
|
金邦DDR2 800 CL 5 – 5 – 5 – 15 (1024MBx2)
|
|
硬盘
|
Seagate 7200.7 160G
(SATA -150 , 8MB Buffer)
|
|
显卡
|
XFX GeForce7900GTX
XFX GeForce 8800Ultara
|
|
电源
|
康舒450W电源
|
|
系统软件
|
|
|
操作系统
|
Windows XP Professional Service Pack 2
|
|
DirectX版本
|
9.0c (4.09.0000.0904)
|
|
主板驱动
|
Intel英特尔芯片组Intel Chipset Software Installation Utility驱动最新8.0.1.1013官方正式版
|
|
显卡驱动
|
Forceware 169.01
|



在PCMark05的处理器测试中,“QX9650”并没有展现出优势,但是超频之后的QX9650却完全不一样了,其性能让其他处理器汗颜啊。
[基准性能测试——Sisoft Sandra 2007 SP1]




Sisoft Sandra 2007 SP1的理论性能测试一直是业界的权威,其可以充分发挥和展现多核心处理器的性能优势。在测试中,“QX9650”在测试中以微弱的优势领先于QX6850,但是在处理器的浮点运算中,架构上的改良和更大的二级缓存却让QX9650大幅度领先于QX6850。看来QX9650在游戏中的表现也一定会强于QX6850。
[CINEBENCH9.5测试]


在CINEBENCH9.5的测试中,QX9650凭借架构上的改进全面超越QX6850。而超频之后的QX9650更是让人惊叹。
[STARS Euler3D测试]
STARS Euler3D测试是一款通过编译器来进行上百万节点和多边形的循环运算测试软件,测试档案需要用户自行下载。该测试软件可以很好的支持多核心处理器,同时该软件对处理器架构和执行效率的依赖也非常大,换言之就是如果处理器的执行效率高,那么其获得的测试结果也就更好,而频率则成为了次要指标。在该测试中,核心数量和执行效率才是关键。

前面我们已经介绍过影响该测试的主要因素是处理器的执行效率,在以前我们的测试中这一点也得到了很好的体现,二级缓存和频率都占优的Pentium D双核心处理器耗时远大于E2140处理器就是这个原因。而在本次测试中,由于架构上的改进,QX9650超越了QX6850,而就算是超频到4GHz的QX9650处理器,得分提升也是十分微弱,这也从一个侧面说明了二级缓存和频率对STARS Euler3D测试微乎其微的影响。从测试结果上来看,同主频的QX9650耗时比同样主频下的QX6850减少了近7秒,而超频到4GHz的QX9650相比于默认主频下的QX9650才有不到6秒的提升。在STARS Euler3D测试中,QX9650架构上的改进远比主频提高1GHz来的更加明显。
[POV-RAY v3.7渲染测试]
POV-Ray(Persistence of Vision Raytracer)是一个使用光线跟踪绘制三维图像的开放源代码免费软件。它是基于DKBTrace来开发的,DKBTrace是由“David Kirk Buck”和“Aaron A. Collins”编写在Amiga上的。POV-ray早期也受到了“Polyray raytracer”作者“Alexander Enzmann”的帮助。


QX9650在测试中有着比同主频的QX6850更好的表现。
[Wprime v1.52测试]
Wprime是一款与Super Pi相同的圆周率计算软件,但与Super Pi只能支持单线程不同的是,Wprime可以支持最多八个线程,也就是说可以支持八核心处理器,对于目前已经完成成熟起来的多核心市场而言,显然对玩家更具有吸引力。


QX9650依旧凭借架构上的改进和更大的二级缓存领先于同主频的QX6850,超频之后的QX9650更是入脱缰野马,远远的甩开了其他参测处理器。
[Fritz Chess Benchmark测试]
Fritz Chess Benchmark是一款国际象棋测试软件,但它并不是独立存在的,而是《Fritz9》这款获得国际认可的国际象棋程序,而Fritz Chess Benchmark只是《Fritz9》其中的一个测试性能部分。它可以让我们的X86计算机也能完成IBM“深蓝”当初所做的事情,那就是计算国际象棋的步法预测和计算,虽然现在我们的个人电脑依然无法与10年前IBM的“深蓝”相提并论,并且无论是在处理器架构方面、节点方面还是AIX操作系统方面都有很大的差距,但是Fritz Chess Benchmark依然是目前在个人计算机方面最好的步法计算和预测软件,同时也可以让我们对等的看到目前我们所使用的个人计算机到底达到了一个什么样子的水平。同时该软件还给出了一个基准参数,就是在P3 1.0G处理器下,其可以每秒运算48万步。

结果依旧,QX9650领先于QX6850,4GHz主频的QX9650无人可以撼动。而超频之后QX9650的成绩相比于Intel的V8(采用双路3.0GHz四核心至强处理器)也才仅仅慢了18%!
[压缩解压缩性能测试]
7-ZIP v4.48:字典大小为32MB。


在7-ZIP的测试中,QX9650架构上的改进并没有得到良好的发挥,但是超频之后的QX9650在解压缩测试方面的性能还是无人能及。在7-ZIP的测试中,QX9650架构上的改进并没有得到良好的发挥,但是超频之后的QX9650在解压缩测试方面的性能还是无人能及。
WinRAR v3.62测试:

由于Winrar版本的落后,使得处理器之间的性能差距并没有被很好的反应出来。
[视频音频编解码测试]
该项测试我们采用了MainConcept H.264 Encoder 2.01、 MainConcept MPEG Encoder 1.05和Windows Media Encoder9三款测试软件来分别进行H.264、1080i、AVI转WMV和WAV转WMA的视频、音频编码测试。测试中我们选择了一个容量为500MB的AVI文件作为视频原文件,一个125MB的WAV文件作为音频源文件。




[大自然的风景——Vue 6 xStream测试]
我想很多朋友对《Vue 6 xStream》还都比较陌生,这是一款自然景观生成软件,其自身具备优秀的设计能力,利用Vue高级的动画工具,还可以使得其与其他主流三维软件方便地整合起来。为了给用户提供更好的工作流程,e-on sofeware对Vue 6的底层程序进行了重新架构。《Vue 6 xStream》新版本中将包含超过150种新的特性,这包括:第二代的EcoSystem技术,Spectral Atmosphere模型,以及可以为3D景观生成云层的MetaCloud。
《Vue 6 xStream》在我们之前的报道中出现,就是在上个月的“AMD巴塞罗那北京首发礼”上面,当时会场上的所有的AMD样机无一例外都在运行《Vue 6 xStream》的高分辨率渲染。详情请点击:http://news.mydrivers.com/1/90/90909_5.htm。
现在我们将《Vue 6 xStream》放入到了测试程序中来,因此其对多核心处理器乃至多路多核心处理器的支持都非常完美。并且项测试对处理器的渲染能力和执行效率都是一个考验,而主频则没有那么重要(并不是不重要)。

在测试中,我们分别对两个Vue文件进行渲染。在内部设定中,OpenGL渲染方式从硬件模式改为软件模式,同时将渲染图片的分辨率设定为1600*1200。


在测试中,QX9650表现出了优于QX6850的成绩,在同主频的情况下,渲染时间相比QX6850分别节省了37秒和25秒。
[3DMark05及处理器性能测试]


虽然《3DMark05》在处理器渲染方面的技术比较落后,但是QX9650还是凭借更大的二级缓存的优势领先于其他处理器。
[3DMark06及处理器性能测试]


在《3DMark06》的测试中,QX9650处理器的性能得到了充分的发挥,此时无论是整体分数还是处理器分数,“QX9650”都无人能与其叫板。而超频之后的QX9650在处理器得分上更是达到了惊人的6468分!让人惊叹!

QX9650超频到4G之后,配合GeForce 8800Ultra的成绩。
[游戏性能测试]



在游戏测试中,虽然游戏测试中QX9650相比于QX6850更具有优势,但是GeForce 7900GTX显卡已经成为了阻碍处理器性能进一步发挥的瓶颈。尤其是在QX9650超频之后与E6700处理器的成绩相差并不大。
所以在下面的测试中,我们将显卡换成目前最顶级的GeForce 8800Ultra,并且在测试中加入《荣誉勋章:空降兵》、《帝国时代3:酋长》、《英雄连》三款游戏,其中《帝国时代3:酋长》和《英雄连》游戏虽然不支持多核心,但是对处理器的敏感程度却相当的高。
[配备8800Ultra——QX9650全面发威一]



从测试的结果中我们已经看到了明显的差距,此时的E6700已经完全跟不上QX9650,而超频之后的QX9650在一些测试中的得分居然一倍于E6700,很难想象在GeForce 8800Ultra下,E6700的表现是如此惨淡。而QX6850虽然核心数量和主频与QX9650相同,但是面对架构改进的QX9650时,也全没有了王者风范,看来至尊桂冠是一点也保不住了。
更换完显卡之后的第一步测试就已经将E6700与QX9650的差距明显的表现了出来。
[配备8800Ultra——QX9650全面发威二]
我们将显卡换成目前最顶级的GeForce 8800Ultra,并且在测试中加入《荣誉勋章:空降兵》、《帝国时代3:酋长》、《英雄连》三款游戏,其中《帝国时代3:酋长》和《英雄连》游戏虽然不支持多核心,但是对处理器的敏感程度却相当的高。《荣誉勋章:空降兵》的测试方法与我们之前做的评测文章中的方法一致。
而《帝国时代3》的测试方法为先进行最大地图的4V4对战,科技设定为最大、地图全开、资源最大,并迅速用战斗单位将人口达到200上限,此后在地图中间8个文明1800多个战斗单位开始混战时存盘,以此为记录开始点,每次测试时都先读取存盘进度,当读取进度完成并且游戏开始记录帧数,时间为60秒。由于此时近2000个战斗单位的大型混战,使得游戏对处理器的要求更加明显。




在后加入的三款游戏测试中,《帝国时代3》和《荣誉勋章:空降兵》的测试成绩最为“夸张”,《帝国时代3》的“中原大战”让QX9650发挥的淋漓尽致。就连QX6850也落后QX9650不少。
在架构改良之后、且拥有更大二级缓存的QX9650面前,“前代王者低下了那原本高傲的头”。QX9650全胜战绩毋庸置疑。
[测试总结及功耗测试]

在时隔QX6850到来的三个月后,QX9650就来到了我们面前,架构上的改良和更大的二级缓存已经让同主频下的QX9650有了性能上的提高,尤其是在图形渲染、游戏、编解码等方面的提高都甚为明显。而45nm制程则让将处理器的发热量更低,具有了前所未有的强大超频能力,同时47条SSE4.1指令集的加入,更是给今后处理器在应用方面的性能提升打下了坚实的基础,目前已经有测试表明,在支持SSE4的软件应用中,QX9650的性能要快出QX6850达到70%之多。
QX9650的改进虽然不大,但是也足以让人兴奋,而这也让我们对2008年下半年面世的原生四核心Nehalem架构有了更大的期盼。毋庸置疑的是,在接下来的市场战略中,Intel 45nm系列处理器会全面取代目前的65nm酷睿2处理器,更强大的超频能力和SSE4让本就已经没有对手的酷睿2阵营更加的强大。AMD的桌面版K10 Phenom X4处理器到现在还是如同雾里看花,不知道面对Intel 45nm处理器,AMD的Phenom X4是否还有胜算,当然这一些还要等到Phenom X4实物面市之后才能分晓。

显卡为GeForce 7900GTX
在功耗对比中,45nm的QX9650在标准频率下具有优异的功耗和发热量控制能力,让人十分赞叹。由于我们手头上的是一颗ES版本处理器,所以超频之后的功耗和发热量有大幅度的提高,相信在正式版中会得到更好的控制。


