正文内容 评论(0)
Instinct MI300X:1920亿晶体管怪兽 完胜NVIDIA H100
Instinct MI300X属于传统的GPU加速器方案,纯粹的GPU设计,基于最新一代CDNA3计算架构。
它集成了八个XCD加速计算模块(Accelerator Compute Die),每一个XCD拥有38个CU计算单元,总计304个单元。
每两个XCD为一组,在它们底部放置一个IOD模块,负责输入输出与通信连接,总共四个IOD提供了多达七条满血的第四代Infinity Fabric连接通道,总带宽最高896GB/s,还有多达256MB Infinity Cache无限缓存。
XCD、IOD外围则是八颗HBM3高带宽内存,总容量多达192GB,可提供约5.3TB/s的超高带宽。
AI/HPC时代,HBM无疑是提供高速支撑的最佳内存方案,AMD也是最早推动HBM应用和普及的。
以上所有模块,都通过2.5D硅中介层、3D混合键合等技术,整合封装在一起,AMD称之为3.5D封装技术。
总计晶体管数量多达1530亿个,其中XCD计算核心部分是5nm工艺,IOD部分则是6nm工艺。
顺带一提,结构示意图中位于HBM内存之间的小号硅片,一共八颗,并无实际运算和传输作用,而是用于机械支撑、保证整体结构稳定。
MI300X的各项性能指标都可以胜出NVIDIA H100(H200已宣布但要到明年二季度才会上市所以暂时无法对比),还有独特的优势。
HPC方面,MI300X FP64双精度浮点矩阵、矢量性能分别高达163.4TFlops(每秒163.4万亿次计算)、81.7TFlops,FP32单精度浮点性能则都是163.4TFlops,分别是H100的2.4倍、无限倍、2.4倍、2.4倍——H100并不支持FP32矩阵运算。
AI方面,MI300X TF32浮点性能为653.7TFlops,FP16半精度浮点、BF16浮点性能可达1307.4TFlops,FP8浮点、INT8整数性能可达2614.9TFlops,它们全都是H100的1.3倍。
TF32即Tensor Float 32,一种新的浮点精度标准,一方面保持与FP16同样的精度,尾数位都是10位,另一方面保持与FP32同样的动态范围(指数位都是8位)。
BF16即Bloat Float 16,专为深度学习而优化的浮点格式。
另外,同样适用HBM3高带宽内存,MI300X无论容量还是带宽都完胜H100,而整体功耗控制在750W,相比H100 700W高了一点点。
更进一步,AMD还打造了MI300X平台,由八块MI300X并联组成,兼容任何OCP开放计算标准平台。
这样一来,在单个服务器空间内,就总共拥有2432个计算单元、1.5TB HBM3内存、42.4TB/s内存带宽。
性能更是直接飞升,BF16/FP16浮点性能甚至突破了10PFlops,也就是超过1亿亿次计算每秒,堪比中等规模的超级计算机。
对比同样八颗H100组成的计算平台H100 HXG,它在计算性能、HBM3容量上也有不少的优势,而在带宽、网络方面处于相当的水平。
尤其是每颗GPU可运行的大模型规模直接翻倍,可以大大提升计算效率、降低部署成本。
实际应用性能表现方面,看看AMD官方提供的一些数据,对比对象都是H100。
通用大语言模型,无论是中等还是大型内核,都可以领先10-20%。
推理性能,都是八路并联的整套服务器,1760亿参数模型Bloom的算力可领先多达60%,700亿参数模型Llama 2的延迟可领先40%。
训练性能,同样是八路服务器,300亿参数MPT模型的算力不相上下。
总的来说,无论是AI推理还是AI训练,MI300X平台都有着比H100平台更好的性能,很多情况下可以轻松翻倍。
产品强大也离不开合作伙伴的支持,MI300X已经赢得了多家OEM厂商和解决方案厂商的支持,包括大家耳熟能详的慧与(HPE)、戴尔、联想、超微、技嘉、鸿佰(鸿海旗下/富士康同门)、英业达、广达、纬创、纬颖。
其中,戴尔的PowerEdge XE9680服务器拥有八块MI300X,联想的产品2024年上半年登场,超微的H13加速器采用第四代EPYC处理器、MI300X加速器的组合。
在基础架构中引入MI300X的合作伙伴也相当不少,包括:Aligned、Arkon Engergy、Cirrascale、Crusoe、Denvr Dataworks、TensorWare,等等。
客户方案方面,比如微软的Azure ND MI300X v5系列虚拟机,比如甲骨文云的bare metal(裸金属) AI实例,比如Meta(Facebook)数据中心引入以及对于ROCm 6 Llama 2大模型优化的高度认可,等等。