AMD MI300加速器深度揭秘：八路并行破亿亿次！全面超越NVIDIA--快科技--科技改变未来

正文内容 评论（0）

AMD MI300加速器深度揭秘：八路并行破亿亿次！全面超越NVIDIA

2023-12-07 04:21:00 出处：快科技作者：上方文Q 编辑：上方文Q 评论(0)

#AMD #AMD Instinct

第一页数据中心AI市场无比丰厚 AMD亮剑
第二页 Instinct MI300X：1920亿晶体管怪兽完胜NVIDIA H100
第三页 Instinct MI300A：全球首个融合计算APU 冲击二百亿亿次
第四页软件生态：ROCm 6全面进化软硬结合提速8倍

Instinct MI300X：1920亿晶体管怪兽完胜NVIDIA H100

Instinct MI300X属于传统的GPU加速器方案，纯粹的GPU设计，基于最新一代CDNA3计算架构。

它集成了八个XCD加速计算模块(Accelerator Compute Die)，每一个XCD拥有38个CU计算单元，总计304个单元。

每两个XCD为一组，在它们底部放置一个IOD模块，负责输入输出与通信连接，总共四个IOD提供了多达七条满血的第四代Infinity Fabric连接通道，总带宽最高896GB/s，还有多达256MB Infinity Cache无限缓存。

XCD、IOD外围则是八颗HBM3高带宽内存，总容量多达192GB，可提供约5.3TB/s的超高带宽。

AI/HPC时代，HBM无疑是提供高速支撑的最佳内存方案，AMD也是最早推动HBM应用和普及的。

以上所有模块，都通过2.5D硅中介层、3D混合键合等技术，整合封装在一起，AMD称之为3.5D封装技术。

总计晶体管数量多达1530亿个，其中XCD计算核心部分是5nm工艺，IOD部分则是6nm工艺。

顺带一提，结构示意图中位于HBM内存之间的小号硅片，一共八颗，并无实际运算和传输作用，而是用于机械支撑、保证整体结构稳定。

MI300X的各项性能指标都可以胜出NVIDIA H100(H200已宣布但要到明年二季度才会上市所以暂时无法对比)，还有独特的优势。

HPC方面，MI300X FP64双精度浮点矩阵、矢量性能分别高达163.4TFlops(每秒163.4万亿次计算)、81.7TFlops，FP32单精度浮点性能则都是163.4TFlops，分别是H100的2.4倍、无限倍、2.4倍、2.4倍——H100并不支持FP32矩阵运算。

AI方面，MI300X TF32浮点性能为653.7TFlops，FP16半精度浮点、BF16浮点性能可达1307.4TFlops，FP8浮点、INT8整数性能可达2614.9TFlops，它们全都是H100的1.3倍。

TF32即Tensor Float 32，一种新的浮点精度标准，一方面保持与FP16同样的精度，尾数位都是10位，另一方面保持与FP32同样的动态范围(指数位都是8位)。

BF16即Bloat Float 16，专为深度学习而优化的浮点格式。

另外，同样适用HBM3高带宽内存，MI300X无论容量还是带宽都完胜H100，而整体功耗控制在750W，相比H100 700W高了一点点。

更进一步，AMD还打造了MI300X平台，由八块MI300X并联组成，兼容任何OCP开放计算标准平台。

这样一来，在单个服务器空间内，就总共拥有2432个计算单元、1.5TB HBM3内存、42.4TB/s内存带宽。

性能更是直接飞升，BF16/FP16浮点性能甚至突破了10PFlops，也就是超过1亿亿次计算每秒，堪比中等规模的超级计算机。

对比同样八颗H100组成的计算平台H100 HXG，它在计算性能、HBM3容量上也有不少的优势，而在带宽、网络方面处于相当的水平。

尤其是每颗GPU可运行的大模型规模直接翻倍，可以大大提升计算效率、降低部署成本。

实际应用性能表现方面，看看AMD官方提供的一些数据，对比对象都是H100。

通用大语言模型，无论是中等还是大型内核，都可以领先10-20％。

推理性能，都是八路并联的整套服务器，1760亿参数模型Bloom的算力可领先多达60％，700亿参数模型Llama 2的延迟可领先40％。

训练性能，同样是八路服务器，300亿参数MPT模型的算力不相上下。

总的来说，无论是AI推理还是AI训练，MI300X平台都有着比H100平台更好的性能，很多情况下可以轻松翻倍。

产品强大也离不开合作伙伴的支持，MI300X已经赢得了多家OEM厂商和解决方案厂商的支持，包括大家耳熟能详的慧与(HPE)、戴尔、联想、超微、技嘉、鸿佰(鸿海旗下/富士康同门)、英业达、广达、纬创、纬颖。

其中，戴尔的PowerEdge XE9680服务器拥有八块MI300X，联想的产品2024年上半年登场，超微的H13加速器采用第四代EPYC处理器、MI300X加速器的组合。

在基础架构中引入MI300X的合作伙伴也相当不少，包括：Aligned、Arkon Engergy、Cirrascale、Crusoe、Denvr Dataworks、TensorWare，等等。

客户方案方面，比如微软的Azure ND MI300X v5系列虚拟机，比如甲骨文云的bare metal(裸金属) AI实例，比如Meta(Facebook)数据中心引入以及对于ROCm 6 Llama 2大模型优化的高度认可，等等。

责任编辑：上方文Q

内容导航

第一页数据中心AI市场无比丰厚 AMD亮剑
第二页 Instinct MI300X：1920亿晶体管怪兽完胜NVIDIA H100
第三页 Instinct MI300A：全球首个融合计算APU 冲击二百亿亿次
第四页软件生态：ROCm 6全面进化软硬结合提速8倍

文章价值打分

当前文章打分0 分，共有0人打分

0
0
0
打赏
|

分享好友:
分享至QQ
分享至微博
分享至QQ空间
|

生成海报

本文收录在

#AMD #AMD Instinct #Instinct MI300X #Instinct MI300A #加速器 #人工智能

热门文章

换一波

好物推荐

换一波

关注我们

微博：快科技官方
快科技官方微博
今日头条：快科技
带来硬件软件、手机数码最快资讯！
抖音：kkjcn
科技快讯、手机开箱、产品体验、应用推荐...

正文内容 评论（0）

内容导航

相关资讯

文章价值打分

本文收录在

热门文章

换一波

好物推荐

换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容 评论（0）

内容导航

相关资讯

文章价值打分

本文收录在

热门文章 换一波

好物推荐 换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容评论（0）

热门文章

换一波

好物推荐

换一波