AMD服务器产品市场总监John Fruehe(庄富瑞)、AMD产品公关总监Phil Hughes近日专程来京,向媒体阐述了AMD近期在服务器市场上的发展情况,特别预览了基于全新架构“推土机”(Bulldozer)的下一代服务器处理器,并联合接受了媒体的采访。
John Fruehe
Phil Hughes
一、AMD服务器市场近况
这部分由John Fruehe先生讲解,下边我们结合演示文稿一同看一下。
AMD目前在服务器领域的处理器产品线主要有两条:一是皓龙Opteron 6100系列,面向单路到四路市场,应用领域包括高性能计算、数据库和商业应用、Web和云计算等等,强调价格性能比,拥有更多的处理器核心(8/12个)、更大的内存带宽(四通道)、更灵活的扩展性;二是皓龙Opteron 4100系列,面向Web/云计算、IT基础架构、电子邮件和协作服务器等等,强调性能功耗比,特点是能效较高(65/80W)、成本较低。
两个系列虽然规格差异很大,但核心架构是相通的,而且都搭配AMD SR5600系列芯片组。最关键的是,它们分别兼容未来的推土机架构产品,可无缝升级。
皓龙Opteron 6100/4100系列已经得到了业界厂商的广泛采纳,宏碁、Cray、戴尔、IBM、惠普、曙光和一些区域性OEM厂商都推出了相关的服务器系统产品。
特别是皓龙Opteron 6100系列还赢得了权威IT网站InfoWorld的年度奖项“最佳并行计算处理器”。戴尔和惠普的相关机型也获得了好评。
就在最近,戴尔、IBM、Cray还再次发布了基于皓龙Opteron 6100平台的服务器产品,其中戴尔PowerEdge C6145最多八颗处理器、96个核心,IBM X3755 M3最多四颗处理器、32个核心,并且要比12个核心的Intel双路系统便宜5%,Cray XE6m则是一套小型集群计算系统。
半个月前,AMD还增加了五款新型号的皓龙Opteron 6100处理器,规格各不相同,并且均已出货。
二、推土机服务器处理器前瞻
AMD透露,推土机架构的皓龙Opteron处理器在2010年第二季度完成流片,第四季度向合作伙伴提供了测试样品,预计今年第二季度投入量产,第三季度全面出货并发布。消费级的桌面版则要早一些,第二季度末就会登场。
推土机服务器处理器有最多16核心的Interlagos、最多8核心的Valencia两个版本,分别兼容现有的Socket G34、Socket C32接口平台。它们都有支持256位浮点计算的弹性浮点单元(Flex FP)、所有核心都可加速500MHz的Turbo Core技术、计算能力提升最多50%、内存带宽提升最多50%。这四个方面我们会在后边一一详细解释。
这是推土机的模块化架构图,已经见识过很多次了。
这部分非常有趣,比较详细地披露了推土机皓龙Opteron处理器的规格参数:
核心数量方面,Opteron 4200系列6/8个,Opteron 6200系列8/12/16个,都比现在多三分之一;
缓存方面,每两个核心(也就是每个模块)共享2MB二级缓存,然后所有模块与核心共享8MB三级缓存,现在是每核心512KB二级缓存、共享6MB三级缓存;
内存方面,Opteron 4200系列双通道,Opteron 6200系列四通道,频率最高1600MHz,现在只有1333MHz;
浮点能力方面,每个核心可单独执行128位FMAC运算,每个模块可执行256位AVX指令,现在每个核心只能执行128位FADD、FMUL;
整数能力方面,每个时钟周期可执行四个整数发射,现在只有三个;
Turbo Core技术方面,可以所有核心同时提速最多500MHz,现在没有此技术;
功耗方面,仍然计划有65W、80W、105W三种;
指令集方面,新增的非常多,包括SSSE3、SSE4.1/4.2、AVX、AES、FMA4、XOP、PCLMULQDQ等等;
节能技术方面,除了已有的CoolCore、C1E又增加了关闭更多模块和晶体管、更加深入节能的C6电源状态;
制造工艺方面,从45nm SOI升级为32nm SOI,每个内核尺寸更小。
性能和功耗只有大概的估计,其中性能方面16核心可比现有12核心提升50%,也就是核心增多33%情况下,速度快了一半,这其实是很不容易的。功耗方面仍然分为高性能版、标准版、低功耗版三种,和现在保持一致。
Turbo Core,这个得多说两句。现在桌面上的Phenom II X6系列六核心处理器已经支持Turbo Core技术,但只能算是1.0版本,不是很灵活,加速幅度也有限。推土机的称得上Turbo Core 2.0,即使是16个核心全部开启,也能全都加速最多500MHz,而不再需要关闭部分核心。这是因为推土机处理器的预设频率都只是个基准值,AMD已经为其预留了很大的加速空间,可在确保不超过热设计功耗的情况下短时间加速,满足更高工作负载的需要。
内存性能提升从两方面着手,一是重新设计的北桥控制器,提升最多30%,并支持LR-DIMM、1.25V LV-DDR3等新型内存规格,增加多项深入节能技术,二是支持DDR3-1600内存,再提升最多20%的性能,合计可达50%。
Flex FP弹性浮点单元,我们曾经做过比较详细的阐述,这里就不重复了。
这张图展示了典型负载下桌面系统的功耗分布情况,其中处理器自己就占了整整一半,推土机的设计原则也正是在确保高性能的同时保持低功耗。
平台转换与过渡方面,AMD在2010年进行了一次大转型,今年就不需要如此大动干戈了。相比之下,Intel 2009年转换过一次平台的,今年即将推出的新系列Xeon将再次变换接口,不兼容旧平台。
三、专访
记者:推土机两个核心共享一个浮点运算单元,相比之前的架构是否会在注重浮点运算的高性能计算应用中偏弱?Turbo Core技术能把所有核心加速500MHz,是否会大幅提高能耗?
John Fruehe:我们有一种新技术Flex FP(弹性浮点单元),可以帮助我们实现高性能的浮点计算。它既支持256位的AVX,也支持128位的SSE,而且可以实现AVX和SSE的同时执行。此外我们还支持FMA4,这是一种新指令,Intel至少要在2013年才能支持,而且很可能支持的仅仅是FMA3,因此我们在高性能计算领域将会有极大的优势。
当然了,所有的核心都超频500MHz,能耗肯定会提高,但是仍然在整个处理器的热设计功耗范围内,而且Turbo Core技术的关键是只在有工作负载要求时才加速,这也就意味着只有处理器利用率很高时,它才会启动而导致能耗提高,平常用户是感觉不到的。
记者:我们知道Intel也有动态加速技术Turbo Boost(睿频),但是只支持高端产品。这个技术和AMD的Turbo Core有什么区别?Turbo Core在哪些产品上支持?是否只存在于高端型号上?
John Fruehe:主要两大区别。第一,所有推土机架构处理器产品都会有Turbo Core技术。Intel的做法是在低端产品上关闭某些技术,只在高端产品开放,这使得大家不得不购买他们的高端产品,从而增加成本,而我们希望用户有更大的选择自由,根据自己的需求来购买。第二是加速的程度不同。Turbo Core可以使所有的核心一起加速,而Intel的Turbo Boost技术只能在部分核心上加速,而且加速的核心越多,加速的幅度就越低。
记者:今天讲到了AMD处理器在服务器上的应用,请介绍一下这些处理器在工作站的情况。
John Fruehe:其实最近我们也看到工作站市场发生的一些变化。以前比较常见的配置是使用两个处理器的双路工作站,但随着处理器性能的提高,工作站越来越多采取单处理器配置,使得它越来越像台式机,而不再像传统的服务器。我们也看到,在工作站性能方面图形处理器GPU的重要性已经超过了CPU,而AMD的FirePro系列图形处理器确实为工作站系统提供了非常好的性能和可扩展性。
Phil Hughes:其实戴尔和惠普已经基于AMD处理器开发设计了很多新的工作站系统,也同时采用了AMD的GPU。
记者:我比较关心硬件虚拟化和内存拓展方面,因为友商对内存支持达到16条。AMD怎么看?
John Fruehe:AMD在虚拟化方面的性能是非常优异的,这一代就产品通过核心数量、内存通道带来了很大的虚拟化优势。Intel在某些系统可以支持每处理器16条内存,但代价是客户要花很高的成本,而且伴随内存条数增多的是内存性能的降低。在AMD的虚拟化环境中,双路系统可以非常容易配置128GB到256GB内存,四路系统更是支持512GB内存,而在推土机新架构下可以支持到1TB,能以更低的成本获得更高的内存容量和性能,相信客户会更喜欢这样的产品。此外我们还在硬件虚拟化上加入了一些新性能,而且核心数量的优势仍会保持。以前客户的习惯可能是每个核心上一个虚拟机,现在我们可以做到每个核心两个虚拟机,那么16核心就支持最多32个虚拟机。
记者:既然Turbo Core技术可以让所有核心的主频都提升500MHz,为什么不直接把处理器的主频整体做高?AMD处理器最高主频是2.5GHz,友商的却达到3.0GHz。
John Fruehe:生产处理器的时候都要对速度进行测试,而且是根据不同类别的负载进行的,有些负载耗电量较高,有些则较低。这时候你可能会想,那就让处理器的速度越快越好吧,但我们既要保证针对不同的负载应用都要有最快的速度,同时必须考虑功耗因素,而需要高频率的高性能计算又是非常耗电的,直接做成这么高的频率会影响其他应用环境的功耗。这里来演示一下:
最左侧的Opteron 2376是上代产品,中间的Opteron 6174是现有产品,右侧是未来的推土机。下方统一的蓝色部分代表平均频率潜力,往上Opteron 2376没有任何提升空间,Opteron 6174可以利用CoolSpeed技术进行小幅度的加速,推土机则有了Turbo Core,能利用不同的功耗状态进行加速,获得40%以上的性能提升能力。
如果你需要更快的速度,而且能够承受更高的耗电量,就可以启动Turbo Core功能,但是对于那些并不需要这种高速度的应用而言,就不用让处理器跑得速度那么快,而是让它们更加安静地运行,释放更少的热量。
记者:现在Intel的Nehalem架构服务器已经达到了八路,未来AMD基于推土机的服务器平台扩展性可以达到什么水平?
John Fruehe:首先计算一下成本。Intel的八路服务器使用八颗处理器,每颗最多八个核心、成本在3000美元左右,八颗就是2.4万美元,总共64个核心。目前AMD的皓龙Opteron 6100系列12核心处理器的价格是1500美元,四路就有48个核心,总成本是6000美元。也就是说,我们用四分之一的成本提供了四分之三的核心数量。现在我还不能公开推土机的价格,但与我们这一代产品非常相近,这也就意味着到时候我们只用四分之一的成本就能提供相同数量的核心(八路8核心与四路16核心)。
事实上,八个处理器插槽的x86平台系统只占整个服务器市场的1%左右。
记者:推土机新品的服务器版本在第三季度发布,而台式机产品第二季度发布,也就是台式机要比服务器更早,以往的惯例则是服务器要比台式机提前几个月乃至半年的时间,这次的安排出于什么考虑?
John Fruehe:对于共享基础架构的不同产品,我们都要做这样的抉择,是先发布台式机还是发布服务器。有时候是先发布台式机,有时候是先发布服务器。在推土机产品上,台式机产品组率先就绪,我们就选择了在第二季度先行发布台式机新品。
Phil Hughes:另外一点,产品发布要和消费者购买周期一致,第二季度发布推土机台式机产品与学生返校、入学的时间相符合,所以最终还是由客户需求决定发布时间,这样的做法也更加合理。 |