正文内容 评论(0)
这是一个无AI不欢的时代,而日益高涨的算力需求,对各类硬件提出了越来越苛刻的要求,也使得天生具备超强并行计算能力的GPU加速器大放异彩,仿佛成为圣物一般的存在,人们甚至不惜花三十多万元去抢一块卡。
但是同时,CPU处理器的光芒却被完全掩盖,甚至出现了“GPU可以彻底取代CPU”这样令人哭笑不得的言论。
事实上,在AI的硬件世界里,CPU、GPU、FPGA、ASIC都是重要的成员,各有各的特点和优劣,无所谓谁比谁好,只能说需要在最合适的地方使用最合适的硬件,彼此之间也可以有机配合,达到效率的最优化。
其中,CPU的计算性能不是最强的,在处理特定负载时甚至可能是最弱的,但作为计算机行业一直以来的中枢,它有着不可替代的地位,不但扮演着核心指挥官的角色,还在不断跟随时代的变化而不断演进,有着无可比拟的灵活性、适应性。
举个例子,业内一度普遍认为,生成式AI和大语言模型(LLM)只适合在高性能GPU上运行,但事实上在CPU上同样有着极高的效率,特别是配合特定加速器,效率与规模不受限制,从而提供极具竞争力的不同选择。
近些年,在服务器与数据中心领域,CPU持续快速迭代、升级,无论是AMD EPYC还是Intel至强,每一代都是旧貌换新颜,如今更成为AI浪潮的坚定基石。
尤其是AMD EPYC,2017年诞生重返高性能计算市场以来,凭借优秀的Zen系列架构,性能越来越强,能效越来越高,能力越来越丰富:高性能计算、边缘计算、人工智能、云服务、5G与通信基础设施、虚拟化……几乎无所不能。
回想2017年之前,整个数据中心市场被Intel至强完全垄断,客户没有任何选择空间,Intel提供什么就只能用什么,Intel要多钱就只能给多少钱,也难怪AMD EPYC 2017年横空出世的时候,整个行业的态度几乎都是“欢迎归来”。
AMD EPYC也确实没有令大家失望,经过连续四代的进化,如今拥有业界最高的计算密度、最高的性能、最高的效率,或者直白地说有着最多的核心、最大的缓存、最高的频率,以及极为丰富的技术特性,更关键的是不忘初心,一直坚持极高的性价比,可谓不二之选。
2022年11月11日,一个特殊的日子里,Genoa EPYC 9004系列正式诞生,而对手规划的Sapphire Rapids第四代可扩展至强反复跳票接近两年,不但速度慢得多,性能表现也相去甚远。
全新的5nm制造工艺、全新的Zen 4架构、Chiplet芯粒布局与最多96核心192线程、最多384MB海量三级缓存、最高4.4GHz加速频率、12通道DDR5-4800内存(单路最大容量6TB)、128条PCIe 5.0总线、CXL 1.1+高速互连标准、全新升级的加密计算……
这些亮点,每一个单独拿出来都值得说道半天,EPYC 9004却把它们一网打尽,而且还有着相当高的能效,即便是旗舰级的96核心型号EPYC 9654热设计功耗也只有360W,标准风冷散热即可轻松搞定。
作为对比,Intel Sapphire Rapids四代至强还是Intel 7制造工艺(原名10nm)、最多60核心120线程与112.5MB三级缓存、4.2GHz最高频率、8通道DDR5内存(单路最大容量4TB)、80条PCIe 5.0……几乎全面落于下风,只有各种加速器相当惹眼,但也侧面反映了CPU本身能力的欠缺。
实际性能方面,按照AMD在今年6月份举办的“数据中心与AI技术首映”上给出的数据,EPYC 9654对比至强铂金8490H,96核心旗舰对比60核心旗舰,云服务性能领先1.8倍,企业计算性能领先1.7-1.9倍,能效领先1.8倍,AI性能领先1.9倍,性价比领先近乎2.6倍……
四代对四代,AMD EPYC明显碾压了Intel至强。
如果到这里结束,AMD EPYC的表现已经近乎完美,但它还有着更高的追求,开始面向不同细分市场延伸、深入,通过不同的设计为不同的负载和场景提供最优化解决方案,第一次全面开花。
具体来说,EPYC 97X4系列(Bergamo)通过更高能效的Zen 4c架构,主打云原生市场;
EPYC 9084X系列(Genoa-X)通过集成大容量高速3D V-Cache堆叠缓存,提供顶级计算能力;
即将发布的Siena系列,则主打边缘计算等,能效同样非常高。
其中,Bergamo EPYC 97X4系列创新地采用了“同构小核心”设计,Zen 4架构核心衍生出来的Zen 4c,最大核心数从96个增加到128个,从而拥有业界最高核心密度。
但是,Zen 4c架构并没有为了增加核心数而简单粗暴地阉割功能、性能,它和Zen 4拥有完全相同的制造工艺、架构设计,无论x86 ISA指令集还是IPC理论性能,都保持百分百一致。
12通道DDR5内存、128条PCIe 5.0总线……这些关键技术特性也原汁原味地保留。
通过紧凑结构、精简缓存、优化频率,Zen 4c核心拥有了更高的能效,或者可以说是业内最高的能效,从而完美匹配云服务的场景需求。
Zen 4c核心仍然是5nm工艺制造,单个核心加对应二级缓存的总面积仅为2.48平方毫米,相比于Zen 4核心加二级缓存的3.84平方毫米,缩小了足足35%。
Zen 4架构的Genoa集成最多达12组CCD,每个都是8核心,总计最多96核心。
到了Bergamo之上,正是凭借Zen 4寸高超的能效、单位面积设计,每一组CCD的核心数翻番达到16个,因此只用了8组CCD,就达成了128核心的顶级规格。
哦对了,三级缓存容量依然高达256MB,仍旧是对手的两倍有余。
Bergamo在云原生应用中的性能可谓大杀四方,别说是Intel Sapphire Rapids四代至强这种稍显“笨重臃肿”的设计,就连同样专为云服务而生的一系列Arm架构产品也完全不是对手。
根据官方数据,128核心旗舰EPYC 9754对比同样128核心的Ampere AltraMax,一系列云原生应用中的平均吞吐性能领先多达2.9倍,最高达惊人的3.7倍,此外每台服务器容器数量领先3倍,系统能效领先2.7倍。
架设同样性能的机柜,EPYC 9754所需要的机架数量可节省最多55%,每年省电最多39%,节省运营成本最多39%,节省总拥有成本最多19%!
对于海量规模的数据中心而言,Bergamo不但可以增效,更能大大降本,完全满足当下的客户需求与行业趋势。
如果说官方数据都是理想化的,那就看看EPYC 9754在实际测试与应用中的亮眼表现。
根据中国电子技术标准化研究院组织的CPUBench公开测试(参考行业权威基准测试工具SPECCPU开发设计且不收费),EPYC 9754的Typical典型分数领先至强铂金8490H 27.5%之多。
凭借128核心的极高密度,EPYC 9754的双路多核性能超过双路至强铂金8490H 121%,即使面对四路至强铂金8490H,也有着27.5%的优势。
同时,64核心型号的EPYC 9554,凭借更多核心、更高频率,在双路多核性能测试中,也可以领先双路至强铂金8490H 63%之多。
如果按照Extreme极限分数排序,AMD EPYC 9754同样高居第一,而且前四名都是AMD EPYC。
↑↑↑数据来源:计算产品性能基准工作组
根据《微型计算机》的实测,SPECrate 2017基准测试中,两颗EPYC 9754对比两颗EPYC 9654,256核心对比192核心,整数性能可以领先多达12.1%,浮点性能也可以领先5.2%。
高性能计算中通用的HPL Linpack测试中,双路EPYC 9754更是大胜双路EPYC 9654,领先幅度达到了17.7%。
↑↑↑数据来源:微型计算机
再说3D V-Cache堆叠缓存,在数据中心端、消费端已经应用了两代,发展极为成熟,这可是AMD独有的大杀器。
大家对于桌面上的锐龙7 5800X3D、锐龙7 7800X3D应该都不陌生了,它们凭借上百兆缓存在游戏性能上遥遥领先,加上高性价比,备受游戏玩家追捧。
锐龙9 7945HX3D更是第一次将3D V-Cache缓存带入了游戏本,直接碾压所有对手。
到了数据中心,3D V-Cache的作用就更大了,远不是玩游戏能比的。
Genoa-X在Genoa的基础上,每一组CCD都额外堆叠64MB 3D V-Cache,12组CCD就是768MB,加上原生的384MB,总的三级缓存容量就达到了惊人的1152MB,也是处理器缓存史上第一次突破1GB。
如果再算上6MB一级缓存(每核心独享64KB)、96MB二级缓存(每核心独享1MB),Genoa-X的缓存总量就是1254MB!
海量缓存带来的性能优势可以说是断崖式的,对于竞品简直就是降维打击。
按照官方数据,96核心的EPYC 9684X对比至强铂金8490H,各种性能测试都是两三倍的差异。
如果你觉得EPYC 9684X还有更多的核心加持,那么用32核心的EPYC 9384X对比同样32核心的至强铂金8462Y+,同样都是一个顶俩一般的碾压。
按照官方说法,Genoa-X只需要8个节点,就可以达成传统14个节点的性能水平,可以节省最多43%的服务器空间、38%的服务器功耗、38%的运营成本、44%的碳排放、39%的总拥有成本。
实际应用测试结果也令人满意,3D缓存在特定负载中有着无可比拟的优势。
根据《微型计算机》的实测,在Libxsmm中,一个用于密集和稀疏矩阵运算、深度学习原语的开源库,EPYC 9684X测出的算力高达7445GFLOPS,相对EPYC 9654领先多达67.5%。
还有NASA为高性能计算系统开发的基准测试NAS Parallel Benchmarks,EPYC 9684X也有着压倒性的优势,领先EPYC 9654 40.1%之多。
↑↑↑数据来源:微型计算机
总的来说,在这个AI前所未有繁荣的时代,CPU处理器的作用不但没有丝毫削弱,反而更加强大,在更多舞台上绽放光芒。
对于任何应用来说,算力永远是优先级最高的,没有高性能其他一切都无从谈起,尤其是随着应用场景的细化,越来越需要更有针对性的算力,才能达成最高效率。
同时,随着时代的进步,无论是出于节省成本的需要,还是对我们这个地球的保护,半导体和电子产品的能效必须越来越高。
这一切,AMD EPYC都几乎完美地可以满足。无论是已发布的Genoa、Genoa-X、Bergamo,还是即将推出的Siena,都有着各自鲜明的特点,可以灵活满足不同市场的需求,性能上没有任何竞品可以媲美,效率上也是超一流的。
AMD还在2021年就做出了承诺,要在2025年实现 EPYC处理器、Instinct加速器能效提升30倍的目标,从而节省数十亿度的电力消耗,单个计算所需电力减少97%之多。
从目前的进展看,AMD EPYC处理器实现这一目标不会有什么难度,而且明年我们就能看到全新设计的Zen 5架构,无论性能还是能效都势必实现一次巨大的飞跃。
如果时光回到2017年之前,谁能想到AMD可以做到如此高度呢?