正文内容 评论(0

AMD MI300加速器深度揭秘:八路并行破亿亿次!全面超越NVIDIA
2023-12-07 04:21:00  出处:快科技 作者:上方文Q 编辑:上方文Q     评论(0)点击可以复制本篇文章的标题和链接

Instinct MI300A:全球首个融合计算APU 冲击二百亿亿次

AMD MI300加速器深度揭秘:八路并行破亿亿次!全面超越NVIDIA

如果说MI300X是传统GPU加速器的一次进化,MI300A就是一场革命了,CPU、GPU真正融合的方案目前只有AMD可以做到。

相比之下,NVIDIA Grace Hopper虽然也是CPU、GPU合体,但彼此是独立芯片,需要通过外部连接,放在一块PCB板上,层级上还差了一个档位。

Intel规划的融合方案Falcon Shores因为各方面原因已经暂时取消,短期内还是纯GPU,未来再冲击融合。

AMD MI300加速器深度揭秘:八路并行破亿亿次!全面超越NVIDIA

MI300A是全球首款面向AI、HPC的APU加速器,同时将Zen4 CPU、CDNA3 GPU整合在了一颗芯片之内,统一使用HBM3内存,彼此全部使用Infinity Fabric高速总线互联,从而大大简化了整体结构和编程应用。

这种统一架构有着多方面的突出优势:

一是统一内存,CPU、GPU彼此共享,无需重复拷贝传输数据,无需分开存储、处理。

二是共享无限缓存,数据传输更加简单、高效。

三是动态功耗均衡,无论算力上侧重CPU还是GPU,都可以即时调整,更有针对性,能效也更高。

四是简化编程,可以将CPU、GPU纳入统一编程体系,进行协同加速,无需单独进行编程调用。

AMD MI300加速器深度揭秘:八路并行破亿亿次!全面超越NVIDIA

AMD MI300加速器深度揭秘:八路并行破亿亿次!全面超越NVIDIA

AMD MI300加速器深度揭秘:八路并行破亿亿次!全面超越NVIDIA

MI300A有六个XCD模块,总计228个计算单元,另外两个在MI300X上属于XCD的位置换成了三个CCD,总计24个CPU核心,后者和第四代EPYC 9004系列的CCD一模一样,直接复用。

四个IOD、256MB无限缓存、八颗HBM3内存、3.5D封装则都是和MI300X完全一致,唯一区别就是HBM3内存从12H堆叠降至8H堆叠,单颗容量从24GB降至16GB,总容量为128GB,但这不影响带宽是同样的5.3TB/s。

晶体管总量1460亿个,其中XCD、CCD工艺都是5nm,IOD部分还是6nm,对外为独立的Socket封装接口。

AMD MI300加速器深度揭秘:八路并行破亿亿次!全面超越NVIDIA

性能方面,MI300A FP64矩阵/矢量、FP32矢量表现都是HJ100的1.8倍(都不支持FP32矩阵),TF32、FP16、BF16、FP8、INT8则都是旗鼓相当。

其中,FP64矩阵、FP32/矢量性能都是122.6TFlops,FP64矢量性能则是61.3TFlops,都相当于MI300X的75%。

TF32性能493.0TFlops,FP16、BF16性能980.6TFlops,FP8、INT8性能1961.2TFlops,同样也是MI300X的75%。

为什么都是75%?因为XCD模块少了1/4,GPU核心自然就减少了1/4,换言之这里都是GPU性能,没有包括CPU部分。

MI300A的整体功耗在550-760W范围内,具体看频率的不同规格设定。

AMD MI300加速器深度揭秘:八路并行破亿亿次!全面超越NVIDIA

AMD MI300加速器深度揭秘:八路并行破亿亿次!全面超越NVIDIA

对比H100,MI300A只需550W功耗就能在OpenFOAM高性能计算测试中取得多达4倍的优势,不同实际应用中可领先10-20%。

AMD MI300加速器深度揭秘:八路并行破亿亿次!全面超越NVIDIA

对比最新的GH200,MI300A 760W峰值功耗下的能效优势,更可以达到2倍。

AMD MI300加速器深度揭秘:八路并行破亿亿次!全面超越NVIDIA

MI300A已经在美国劳伦斯利弗莫尔国家实验室的新一代超级计算机El Capitan中安装。

它的设计目标是成为全球第一套200亿亿次超算,这也是第二套基于AMD平台的百亿亿次级超算。

AMD MI300加速器深度揭秘:八路并行破亿亿次!全面超越NVIDIA

MI300A的OEM和方案合作伙伴阵容也在不断扩大,目前已有慧与、Eviden(隶属法国Atos)、技嘉、超微。

其中,慧与EX255a是首个基于MI300A的超算加速器刀片服务器,将于2024年初上市。

AMD MI300加速器深度揭秘:八路并行破亿亿次!全面超越NVIDIA

目前,AMD Instinct系列加速器已经在众多企业、高校、科研机构得到应用,尤其是在超级计算机领域初露峥嵘,11月份发布的最新一期超算500排行榜上拿下了前25名的5个席位,比如第一名的美国橡树岭国家实验室Frontier、第五名的芬兰LUMI,都应用了MI250X。

同时,Instinct加速器还占据了绿色超算500排行榜上前10名中的7个席位,包括6个MI250X、1个MI210,其中Frontier TDS第二、LUMI第三,足可见其高能效。

这也是AMD 30x25目标的一个重要节点——AMD致力于在2020-2025年间将服务器处理器、AI/HPC加速器的能效提升多达30倍。

责任编辑:上方文Q

  • 支持打赏
  • 支持0

  • 反对

  • 打赏

文章价值打分

当前文章打分0 分,共有0人打分
  • 分享好友:
  • |

  • 热门文章
  • 换一波

  • 好物推荐
  • 换一波

  • 关注我们

  • 微博

    微博:快科技官方

    快科技官方微博
  • 今日头条

    今日头条:快科技

    带来硬件软件、手机数码最快资讯!
  • 抖音

    抖音:kkjcn

    科技快讯、手机开箱、产品体验、应用推荐...