引言:实际上在Computex台北电脑展之前,台式机版本的Trinity APU就已经出货给了品牌机等OEM厂商,但距离实际产品出现在零售渠道还得等几个月时间。不过著名硬件网站Tom's Hardware近日运用自己的资源拿到了首批上市的三款Trinity APU产品,推土机家族第二代Piledriver打桩机和VLIW4底层架构的图形核心表现如何?内存频率在新APU中作用还重要吗?以下的评测会一一给予解答。
大约一个月以前,AMD正式披露了新一代Trinity APU的真实面目。不少用户都期待究竟第二代Piledriver处理器核心以及新图形架构的表现如何,为什么许多硬件发烧友也在这一行列之中——对一款主流硬件产品产生兴趣?因为Trinity APU的组成目前的确是独一无二的。
AMD的新APU平台是首个使用推土机家族Piledriver x86架构的产品。首款Bulldozer让不少人大失所望,不过也有用户期待该架构的后续发展会是什么样,此前AMD曾经在路线图中承诺推土机家族新产品会比提高10-15%的性能。现在这些人的目的在于看看Trinity是否能实现AMD的承诺。
另外,Trinity集成的图形核心架构对比Llano也做出了改进,取代VLIW5的是和Radeon HD 6900系列类似的VLIW4设计。目前AMD的独显产品全线使用了新一代的GCN架构,Trinity使用VLIW4也不是多么激进的改变,但在效率上对比上代产品肯定有所提升,用户自然也想知道Trinity GPU能带来多大的改进。
对笔记本等移动领域更加积极的AMD
上月AMD的发布会只是介绍了移动版本的Trinity。实际上对于AMD自己这是正确的一步,首先发布移动产品可以是笔记本厂商等对Trinity的性能尤其是功耗等产生正面印象,进而在更多的新产品中赢得订单。
但硬件发烧友不会仅仅满足于此,该群体想要得知的问题包括:Piledriver打桩机核心的顶级FX处理器表现会怎样?克服Bulldozer的弱点了吗?在相同的100W TDP和32nm制程下,Piledriver/VLIW4组合能比Stars(K10)/VLIW5显著增强吗?
回答上述问题需要主板BIOS提供全方位的调节选项,Tom's Hardware使用首批发布的三款"K"系列不锁频处理器来预览它们的性能。之所以说是预览,毕竟Trinity零售产品目前还没有进入渠道,同时Llano核心的APU库存依然不少。目前AMD的计划是在8月返校时节用户能买到基于Trinity的笔记本和台式机,但零售的处理器要等到更晚,搭配它的Socket FM2主板同样没有上市。
|
图形核心
|
GPU频率
|
流处理器数量
|
TDP
|
CPU核心数量
|
CPU基础频率
|
Turbo Core加速频率
|
L2缓存容量
|
是否锁频
|
A10-5800K
|
7660D
|
800
|
384
|
100W
|
4
|
3.8
|
4.2
|
4MB
|
否
|
A10-5700
|
7660D
|
760
|
384
|
65W
|
4
|
3.4
|
4.0
|
4MB
|
是
|
A8-5600K
|
7560D
|
760
|
256
|
100W
|
4
|
3.6
|
3.9
|
4MB
|
否
|
A8-5500
|
7560D
|
760
|
256
|
65W
|
4
|
3.2
|
3.7
|
4MB
|
是
|
A6-5400K
|
7540D
|
未知
|
192
|
65W
|
2
|
3.6
|
3.8
|
1MB
|
否
|
A4-5300
|
7480D
|
未知
|
128
|
65W
|
2
|
未知
|
未知
|
1MB
|
是
|
AMD计划首批推出六款产品,以下一一介绍Tom's Hardware拿到的三款不锁频版K系列处理器:
作为此次Trinity系列APU的旗舰,A10-5800K拥有一对Piledriver模块即4个CPU核心,每两个核心共享一部分资源。A10-5800K的设计基础频率为3.8GHz,Turbo Core频率4.2GHz,不过Tom's Hardware拿到的样品最大运行频率多数时间为4GHz。
其中单个Piledriver模块拥有自己的2MB共享L2缓存,总容量4MB。而两款A10系列APU集成的GPU均为Radeon HD 7660D,具有384个流处理器。A10-5800K中核心频率800MHz,A10-5700中核心频率760MHz。
规格更低一些的A8-5600K同样拥有2个Piledriver模块、4核心、4MB L2缓存,基础频率3.6GHz,Turbo Core加速频率3.9GHz。两款A8均集成Radeon HD 7560D GPU,具有256个流处理器,运行频率760MHz。
此次测试最低端的A6-5400K多数规格均有较大缩减,TDP从100W降至65W,Piledriver模块数量也只有一个(双整数核心,单浮点单元),L2缓存总容量为2MB,集成的Radeon HD 7450D GPU具有192个流处理器,运行频率官方没有公开。
Piledriver:升级的推土机架构
此次AMD首先强调的是x86处理器性能的提升,而把优势领域GPU加速的重要性/潜力摆在了第二位。AMD表示,Piledriver核心已经提升到在日常使用中完全不会产生瓶颈,指出一些基础应用并不会因为更快的CPU而获益。
至于打桩机对比推土机进步几何,以下测试的结果确实可以说明一些问题:
首先是iTunes中CD转AAC编码,测试中A10-5800K关闭Turbo Core和节能选项运行于3.8GHz,另外将FX-8150超频至3.8GHz同样关闭TC和节能。结果表明与核心数量无关的单线程负载应用比如iTunes中,同频的Piledriver的确比第一代Bulldozer要快得多,领先幅度也达到了15%。
在3DS MAX 2012测试中,关掉2个Bulldozer模块后,同样的4核心4线程同样的频率下A10-5800K依然领先FX-8150约15%。
对比Ivy Bridge只领先Sandy Bridge约4%的结果,Piledriver的确进步不小。但可以预计的是基于Piledriver的FX系列处理器仍然无法和最新的Core i7抗衡,毕竟前任多数情况下还不如Core i5-2500K。不过相对于此前Zambezi惨淡的竞争力,年底面世的新FX处理器要强得多。
那么究竟Piledriver对比Bulldozer提升在哪里?最大的因素为缓存的延迟下降,Sandra 2012的测试结果证明了这一点。
当然,对比自己的前任Llano,基于Piledriver的Trinity在整数运算应用中肯定会强于前者,至于浮点应用两者多数时间还是处于相当水平,Llano甚至会更强一些。
Turbo Core:第三代加速技术首次进入APU
相对于Llano,Trinity不锁频的"K"产品型号更多,最新的第三代Turbo Core加速技术也首次进入了APU产品。
但同时TC技术进入Trinity也给AMD的设计带来了挑战,毕竟APU不光有CPU也集成了规模较大的GPU。只有做到芯片内部所有“部门”之间信息传递顺畅,在设计的TDP下才能发挥最好的效果。
目前Trinity中每个Piledriver模块都拥有自己的功率检测器,这些检测器会随之向整合的北桥部分报告状况,而GPU也有自己的检测器同样对北桥负责。
收集三个检测器的数据之后,北桥将功率数据整合然后通过P-state Manager管理。当实际功耗小于TDP时,CPU/GPU被允许运行在更高的频率上。在FX处理器中Turbo Core支持CPU频率以100MHz的幅度递增,而Trinity APU会根据任务是单线程/多线程/GPU敏感动态调整运行频率。
通过iTunes这种单线程测试可以很清楚得出Trinity的一般功耗和TDP距离有多远,测试显示AMD第三代Turbo Core技术可使转换速度提升约4%。
A10-5800K的超频性能
下面是发烧级用户关心的另外一个特性,也是高端玩家最容易发挥实力的部分——超频。
考虑到这部分用户的需求,AMD在Trinity产品线中推出了更多K系列不锁倍频的处理器。由于目前Socket FM2主板的BIOS还处于不是很成熟的状态,此次Tom's Hardware只将A10-5800K在1.5V电压下稳定超频至4.5GHz,能进Windows的最高频率为4.6-4.7GHz但进不了桌面。AMD表示使用不同的平台A10-5800K的风冷极限温度在4.8GHz左右。预计正式登陆零售渠道前,各主板厂商还会做进一步调整以使K系列处理器的超频潜力完全发挥。
AMD同时指出,超频Trinity中的CPU核心效率远不如对集成GPU进行超频。AMD表示在该公司实验室中默认800MHz的Radeon HD 7660D频率可以稳定突破1GHz。但Tom's Hardware使用的主板中BIOS虽然具有图形核心的超频选项,实际上却不起作用,因此也无法验证AMD所称内容的真假。
VLIW4架构:更少的流处理器 更高的效率
和此前A10-4600M笔记本的测试中指出的一样,Trinity中GPU向VLIW4架构的转型与独显Radeon HD 6900系列类似,但带来的优势更大。
Trinity系列产品中,最大的Radeon HD 7660D拥有6个SIMD引擎模块,每个具有4个TMU纹理单元和16个线程处理器,单个线程处理器包括4个ALU,总共384个Shader和24个TMU。
而A8中的HD 7560D在此基础上砍去2个SIMD/8个TMU,具有256个Shader。A6中的HD 7540D砍去3个SIMD,具有192个Shader。最低端A4中的HD 7480D具有128个Shader。
与独显交火加速
与Llano相同,Trinity APU支持双显配置,使用集成的Radeon图形核心与独立显卡联合渲染。虽然目前AMD给出的支持混合交火的显卡均为马甲版Radeon HD 7000系列,但Tom's Hardware的测试发现即使是常见的Radeon HD 6670也可正常运作。
测试使用A10-5800K APU与Radeon HD 6670搭配,可以看到虽然在低分辨率下的优势不明显,但随着分辨率的提升,混合交火对比单APU/单显卡的优势逐渐在扩大,即使在1920*1080分辨率下成绩也接近100FPS。
此外Tom's Hardware还在最低设置条件下测试了《蝙蝠侠:阿卡姆城》的成绩,但开启混合交火后对比独显反而有所下降。具体原因是由于测试时使用的驱动程序只提供混合交火对DX11的支持,不兼容DX9。好在AMD近日发布的催化剂12.6 Beta版提供了这一特性。
独立显卡
|
台式机APU
|
独显核心代号
|
Radeon产品名称
|
推荐显存
|
A6系列HD 7540D
|
A8系列HD 7560D
|
A10系列HD 7660D
|
台式机配置
|
Turks XT
|
HD 7670
|
GDDR5
|
支持独显
|
推荐独显
|
推荐独显
|
Turks Pro
|
HD 7570
|
GDDR5
|
支持独显
|
推荐独显
|
推荐独显
|
Turks Pro
|
HD 7570
|
DDR3
|
推荐独显
|
推荐独显
|
推荐独显
|
Caicos XT
|
HD 7470
|
DDR3
|
推荐独显
|
支持独显
|
支持独显
|
Caicos Pro
|
HD 7450
|
DDR3
|
支持独显
|
不支持独显
|
不支持独显
|
一体机配置
|
Onega LP
|
HD 7670A
|
GDDR5
|
推荐独显
|
推荐独显
|
推荐独显
|
Onega LP
|
HD 7650A
|
DDR3
|
推荐独显
|
推荐独显
|
推荐独显
|
Caspian XT
|
HD 7470A
|
DDR3
|
推荐独显
|
支持独显
|
支持独显
|
Caspian Pro
|
HD 7450A
|
DDR3
|
支持独显
|
不支持独显
|
不支持独显
|
Cedar
|
HD 7350A
|
DDR3
|
不支持独显
|
不支持独显
|
不支持独显
|
对比Llano,Trinity在混合交火方面主要的改进是大大简化了步骤,只要插上独显,显示器接在主板搭载的输出接口上,安装好驱动混合交火会自动打开。并且在多屏输出方面Trinity也要更强:Llano只支持双屏,而Trinity最多支持四屏,三屏方案需要使用1个Displayport/VGA显示器外加两个DVI/HDMI显示器,四屏需使用DisplayPort 1.2输出。
内存带宽对性能的影响
通常情况下集成在CPU内部的北桥芯片组中的内存控制器在系统整体性能方面扮演了关键角色。但由于近年来CPU集成的内存控制器已经优化到了很高的水平,双通道内存水平的带宽通常应付普通应用已经足够。
但这种情况对于内存厂商来说却不是一个好消息,如果便宜的DDR3-1333内存就够用,谁还会去买昂贵的高速低延迟DDR3-2800内存条?
问题的答案是近年来规模越来越大的集成图形核心。虽然Intel的Sandy Bridge/Ivy Bridge同样在此方面有所反映,但直到AMD的Llano架构出现,对内存频率的敏感性才达到了一个新的水平。
而来到Trinity,随着集成GPU规模的进一步提高,对内存带宽肯定也更加敏感。AMD在Trinity中进一步提升了内存控制器的规格:每个内存控制器通道如果使用单条内存则支持DDR3-2133,使用双条内存则支持DDR3-1866;而Llano的数据则分别为DDR3-1866和DDR3-1600。
Tom's Hardware称,在Sisoft Sandra测试中Trinity APU在同样使用DDR3-1600 16GB内存的情况下带宽数据甚至小于Llano。但更换为金士顿最新的2*4GB DDR3-2800内存条套装后显示出了不同的结果:
可能是整个平台还有待调整,尽管只使用两条内存,但系统仍无法在DDR3-1866之上的频率无法启动。尝试手动调整时序也是一样的结果。不过从内存带宽上来看,DDR3-1866以上频率的收益也越来越小。理论测试如此,那么实际游戏中呢?
从WoW的测试结果可以看出,使用高频内存条对于Trinity在3D应用中发挥能力是完全必要的条件。Trinity集成显卡的性能几乎是依照内存频率线性提升。
当然,对于更多依靠CPU计算性能的WinRAR压缩来说相比内存带宽,测试成绩对于内存存取延迟更敏感,因此DDR3-1333倒是更占优势,不过幅度也只有很小一点,高频内存的综合性能仍然更好。
由此可见,Trinity平台上主板厂商竞争的一个重要因素是BIOS对高频内存的支持,而发烧级的内存套装也终于找到了自己的用武之地。
针脚兼容性与新的A85平台
Trinity APU的一个重大劣势在于AMD改换了插槽,与Intel弃LGA1156用LGA1155一样,AMD的Socket FM2同样和Socket FM1不兼容。
从整体结构来看,Socket FM2的接口应该是改变了供电的定义,毕竟PCI-E界面和DDR3 I/O等部分Llano与Trinity两者基本相同。
尽管Trinity与Llano的针脚不兼容,但芯片组却能通用。Tom's Hardware本次测试使用的主板其一就是华擎基于A75的Socket FM2主板FM2A75 Pro4,以及一款基于Hudson-D4芯片组的A85主板。
A85平台即Hudson-D4芯片组提供8个SATA 6Gbps接口,RAID 5支持,以及将APU的一条PCIe 16x分成两条8x通道的能力。
其余部分和前任A75基本相同,包括10个USB 2.0接口和4个USB 3.0接口,4条PCIe 2.0 1x插槽,mSATA/传统PCI支持等。目前AMD还未在自家芯片组平台上支持PCI-Express 3.0(情何以堪),预计未来一段时间内也看不到。
用户搭建Trinity配置时,考虑到性价比可以选择基于A75的Socket FM2主板,想要更多的功能自然是购买最新的A85平台。
测试平台与项目
处理器:AMD A10-5800K(3.8GHz,Trinity,四核心,4MB L2缓存,19*200MHz,开启Turbo Core和节能)
AMD A8-5600K(3.6GHz,Trinity,四核心,4MB L2缓存,18*200MHz,开启Turbo Core和节能)
AMD A6-5400K(3.6GHz,Trinity,双核心,1MB L2缓存,18*200MHz,开启Turbo Core和节能)
AMD A8-3850(2.9GHz,Llano,四核心,4MB L2缓存,14.5*200MHz,开启节能)
AMD FX-8150(3.6GHz,Zambezi,八核心,8MB L3缓存,18*200MHz,开启Turbo Core和节能)
主板:华擎FM2A75 Pro4、华擎A75 Extreme 6、华硕Sabertooth 990FX
内存:芝奇4*4GB DDR3-1600@9-9-9-24/1.5V,金士顿2*2GB DDR3-2800@1.5V
硬盘:Intel SSD 512 250GB(游戏测试)/Intel SSD 520 240GB(综合应用性能测试)
显卡:AMD Radeon HD 7660D/7560D/7540D(集成)/AMD Radeon HD 6670/NVIDIA GeForce GTS 450
操作系统:Windows 7 x64 旗舰版
Tom's Hardware表示,由于手上A85主板的BIOS还不成熟,所以使用华擎建议的FM2A75 Pro4搭建测试平台,比较的测试项目如下:
游戏:《蝙蝠侠:阿卡姆城》、《上古卷轴5:天际》、《魔兽世界:大灾变》、《暗黑破坏神3》
音频压缩:iTunes、Lame MP3
视频压缩:HandBrake CLI、MainConcept H.264 Reference v2.2
应用程序:WinRAR、WinZip 16.5、7-Zip、Adobe Premiere Pro CS 5.5/After Effects CS 6/Photoshop CS 6 64bit/Acrobat X Professional、ABBYY FineReader、3DS MAX 2012、SolidWorks 2010、Visual Studio 2010
综合测试软件:PCMark 7、3DMark 11、Sisoftware Sandra 2012 SP4a
测试结果:3DMark 11
尽管相对于基于Llano的A8-3850流处理器数量更少,Trinity A10-5800K的效率却更高,在3DMark 11中可取的对Llano约20%的领先优势。而流处理器数量更少的A8-5600K则和A8-3850持平,但如果两者定价相同则可以认为失败的是前者。
虽然在本次测试中A6-5400K垫底,但如果加入Ivy Bridge的HD 4000做比较的话,A6仍然对其具有优势。起码在集成的图形核心方面,AMD的领先幅度没有缩小。
测试结果:Sandra 2012
iSSE指令集方面,虽然Llano没有Trinity所具有的一堆ISA增强特性,但K10构架的浮点性能使得即使频率为2.9GHz,也能取得和Trinity差不多的水平。
而AVX/FMA3部分则是Trinity的主场,尽管Trinity中每对核心共享一个FP浮点单元,但构架优势和指令集支持使其远远抛离Llano。
AES等密码测试部分也大致相同,由于Trinity内置AES加/解密加速指令集,外加平均内存带宽更高,Llano垫底也是可以预料的。
但是在内存控制器部分,目前默认频率和时序下反倒是Llano更占优势,看来Trinity只有在使用DDR3-2133内存时才能完全发挥优势。
缓存延迟就不用提了,虽然有所改进但基于Piledriver的Trinity仍然弱于基于K10的Llano,只是幅度比此前FX系列产品对比Phenom II的劣势要小一些。
测试结果:Adobe CS 5/6
对于线程敏感的Photoshop CS6测试中四核心产品自然更强,而Trinity核心产品凭借更高的频率和新的特性也取得了对Llano的优势。但和Ivy Bridge相比,Piledriver孱弱的单线程性能还远远不及,尤其是在Premiere Pro的视频压缩方面,纯比较CPU性能不开GPU加速Core i5-3550所用的时间只是A10-5800K的一半。
测试结果:3D渲染/文档创建/程序编译/OCR
作为对浮点性能敏感的项目,Llano在3DS MAX 2012中超过Trinity实属正常,SolidWorks 2010的测试结果也同样如此。幸运的是APU目前还不是面向工作站级别的产品,即使以后有意推出Opteron APU,相信软件厂商也会有对应的GPU加速方案来辅助。
OCR扫描识别领域同样对线程数量敏感对浮点性能没有要求,四核心Trinity成绩依然最高。
Fritz国际象棋测试中,浮点能力更强的Llano仍然一马当先。这也是推土机架构的传统弱项。
使用Visual Studio 2010编译Google Chrome的源代码也给出了类似的结果,除非异构计算在此方面取得进展否则情形暂时不会有所改变。
而Acrobat创建文档为单线程应用,对处理器频率更敏感,结果也忠实反映了各款产品的频率范围,核心频率更高的Trinity自然占有优势。
测试结果:多媒体编码/文件压缩
H.264编码对于线程数量和核心频率支持比较敏感,两款四核Trinity超过了同样核心数量的Llano。HardBrake编码测试的结果也同样如此。
作为依赖整数性能的单线程应用Lame,Trinity超过Llano属于发挥正常水平,A6-5400K在本测试中可能由于TC加速频率时间更多所以取得了领先。Piledriver对比Bulldozer也有近15%的进步。iTunes的测试结果也大致相同。
而文件压缩部分,不开启OpenCL加速的情况下排名顺序基本依靠核心数量/运行频率,同时Trinity的整数性能也更强。WinZip/WinRAR的测试结果均反映了这一点。而7-Zip对于多线程的优化更好,四核Llano与Trinity之间的距离减小,与双核Trinity之间的距离增大。
测试结果:实际游戏性能
《蝙蝠侠:阿卡姆城》1280*720分辨率下,A10-5800K对上代A8-3850取得了20%的领先优势,而A8-5600K也比A8-3850更强,VLIW4架构在游戏中的优势进一步扩大。
相比《蝙蝠侠:阿卡姆城》,WoW使用APU在Full HD级别分辨率的流畅性更强,A10-5800K对比A8-3850提升了25%,FPS也接近60。A8-5600K的256SP GPU也击败了A8-3850的400SP GPU。
而在《上古卷轴5:天际》中A8-5600K对A8-3850的优势进一步拉大,同时A6-5400K也接近了A8-3850的成绩。但由于老滚5相对上述两个游戏中等设置下资源占用还是比较高的,只有在1280*720分辨率FPS才能达到可玩性较高的程度。
近日热门《暗黑破坏神3》中,几款APU于1920*1080分辨率的体验都不能说好,最低帧数很容易就会降到个位,降至1680*1050后A10-5800K取得了平均超越40FPS的成绩,比A8-3850高16%。进一步降至1280*720则所有参测产品均能流畅运行,A10-5800K对比A8-3850的领先优势也上升到了30%。
总之,要想使用Trinity APU组建游戏平台,一款能够混合交火的独立显卡还是最经济方便的选择。
测试结果:OpenCL加速与功耗
实际上AMD对于新一代APU和显卡产品着重强调的一点就是利用OpenCL的通用计算加速特性,而WinZip也是AMD的御用测试产品。开启OpenCL之后除GPU规模太小的A6-5400K之外,其余几款都取得了不小幅度(30-40%)的提升,也均超过了八核心的FX-8150。
但在基于SmallLuxGPU2的OpenCL渲染引擎测试软件LuxMark 2.0中,Trinity仍然不敌使用GeForce GTS 450独显的FX-8150测试平台。但需要注意的是Trinity基于的是VLIW4架构,不是最新的GCN。此外A8-3850也凭借更多的流处理器数量超越了A8-5600K。预计下一代集成GCN架构的Kaveri APU会取得更好的结果。
功耗部分,三款TDP为100W的APU A8-3850、A10-5800K和A8-5600K的均值从图上看基本类似。不过Llano架构的A8-3850波动看起来没有Trinity的大,待机功耗也要高一些。
总结
今年的Computex上AMD已经宣布向HP、联想、宏碁和华硕等出货台式机版本的Trinity APU,由于目前零售产品没有进入渠道,自然也无法得知具体售价。不过这不影响单纯从性能上分析Trinity APU的一些优缺点。
首先从Piledriver架构谈起,AMD在Trinity上实现了此前路线图上的承诺,Piledriver对比Bulldozer性能提升的确在15%左右。但原来的劣势也依然存在,同样四核的Trinity和Llano APU在对浮点性能敏感的应用中前者依然不如后者。实际上单论CPU的综合性能Trinity虽然强于Bulldozer但仍然弱于Llano,只是由于默认频率更高才挽回了一些劣势。
而集成图形核心部分Trinity的改进则是显著的,平均下来比上代Llano领先20-25%左右,对Intel HD Graphics 4000的优势也进一步拉大。
但仅仅如此就够了么?在通用计算加速方面,Trinity的“融合”理念实际上对比Llano提升幅度不大,同时可以从通用计算中得益的应用程序仍然很少,如WinZip现在几乎已经退出了一线压缩软件之列。这一领域要想取得更深层次的进展预计还是要等到AMD此前预计在2013年发布的Kaveri APU,基于第三代压路机Steamroller核心、GCN架构GPU、拥有更多的HSA异构计算特性。
至于Trinity APU本身的市场前景,还要看几个月之后正式上市时产品以及配套主板的定价如何再做决断。
|