性能1.55倍于NV 350W RTX！寒武纪发布全新AI训练GPU：8卡并行--快科技--科技改变未来

正文内容 评论（0）

性能1.55倍于NV 350W RTX！寒武纪发布全新AI训练GPU：8卡并行

2022-03-21 17:24:05 出处：快科技作者：上方文Q 编辑：上方文Q 评论(0)

3月21日，中国本土AI创新企业寒武纪正式发布了新款训练加速卡“MLU370-X8”，搭载双芯片四芯粒封装的思元370，集成寒武纪MLU-Link多芯互联技术，主要面向AI训练任务。

寒武纪MLU370-X8智能加速卡首次整合了双芯片四芯粒的思元370，也就是每张卡两颗芯片，每颗芯片内封装两个Die，因此可提供两倍于思元370加速卡的内存、编解码资源。

架构基于Cambricon MLUarch03，支持AI训练加速中常见的FP32、FP16、BF16、INT16、INT8、INT4数据格式计算，峰值性能分别为32TFlops、96TFlops、96TFlops、128Tops、256Tops、512Tops。

该卡采用7nm制造工艺，集成48GB LPDDR5内存，内存带宽614.4GB/s，PCIe 4.0 x16系统接口，整卡最大训练功耗250W，全高全长双插槽设计，系统被动散热。

单卡架构图

通过MLU-Link多芯互联技术，提供卡内、卡间互联功能，并专门设计了MLU-Link桥接卡，可实现4张加速卡为一组、8颗思元370芯片全互联。

每张加速卡通讯吞吐性能200GB/s，带宽为PCIe 4.0的大约3.1倍，可高效执行多芯多卡训练、分布式推理任务。

4卡桥接

单机8卡部署配置

性能1.55倍于NV 350W RTX！寒武纪发布全新AI训练GPU：8卡并行
4卡桥接拓扑

根据官方数据，Cambricon NeuWare SDK实测，在常见的4个深度学习网络模型上，MLU370-X8单卡性能与主流350W RTX GPU相当。

多卡加速，借助MLU-Link多芯互联技术、Cambricon NeuWare CNCL通讯库的优化，8卡环境下达到更优的并行加速比，YOLOv3、Transformer、BERT、ResNet101训练任务中，8卡并行平均性能达350W RTX GPU的155％。

寒武纪未透露对比的NVIDIA 350W RTX GPU是哪一款，从规格来看，350W功耗的目前只有RTX 3090、RTX 3080 Ti。

当然，一个是专用AI加速卡，一个是GPU通用游戏卡，其实没有太大可比性。

MLU370-X8产品定位中高端，与高端训练产品思元290、玄思1000相互结合，进一步丰富了寒武纪的训练算力交付方式，同时与基于思元370芯粒(chiplet)技术构建的MLU370-X4、MLU370-S4智能加速卡协同，形成完整的云端训练、推理产品组合。

单卡性能对比

8卡性能对比

【本文结束】如需转载请务必注明出处：快科技

责任编辑：上方文Q

文章价值打分

当前文章打分0 分，共有0人打分

0
0
0
打赏
|

分享好友:
分享至QQ
分享至微博
分享至QQ空间
|

生成海报

本文收录在

#显卡 #寒武纪科技 #人工智能

好物推荐

换一波

关注我们

微博：快科技官方
快科技官方微博
今日头条：快科技
带来硬件软件、手机数码最快资讯！
抖音：kkjcn
科技快讯、手机开箱、产品体验、应用推荐...

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章

换一波

好物推荐

换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章 换一波

好物推荐 换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容评论（0）

热门文章

换一波

好物推荐

换一波