马斯克Colossus AI超算集群内部首曝：足足10万英伟达H100 GPU--快科技--科技改变未来

当前位置：首页 > 资讯中心 > IT业界 > 企业动态 > 文章详情

正文内容 评论（0）

马斯克Colossus AI超算集群内部首曝：足足10万英伟达H100 GPU

2024-10-30 13:41:12 出处：芯智讯作者：浪客剑编辑：落木评论(0)

#马斯克 #超算中心

10月29日消息，YouTube视频博主 ServeTheHome 首次曝光了埃隆·马斯克（Elon Musk）旗下人工智能企业xAI的Colossus AI 超级计算机集群，其集成了100000个英伟达（NVIDIA）H100 GPU，号称是目前全球最强大的AI超级计算机集群。

早在今年7月下旬，马斯克就在“X”平台上宣布，自己已经启动了“世界上最强大的 AI 集群”。这座AI集群从开始建设到完成组装仅花了122天就完成了，目前已经上线运行了约3个月。

根据ServeTheHome曝光的信息来看，庞大的Colossus AI超级计算机集群采用的是超威电脑（Supermicro）的服务器，其基于NVIDIA HGX H100方案，每个服务器中拥有8个H100 GPU，封装在 Supermicro 的 4U 通用 GPU 液冷系统内，为每个 GPU 提供简单的热插拔液冷。

这些服务器装载在机架内，每个机架可容纳 8 台服务器，也就是说每个机架内有 64 个 GPU。1U 歧管夹在每个 HGX H100 之间，提供服务器所需的液体冷却。每个机架的底部是另一个 Supermicro 4U 单元，这次配备了冗余泵系统和机架监控系统。

△四组 xAI 的 HGX H100 服务器机架，每组可容纳八台服务器。（图片来源：ServeTheHome）

△xAI Colossus GPU 服务器的后部访问。每台服务器有 9 根以太网电缆，每台服务器有 4 个电源。电源和液体冷却软管也可见。（图片来源：ServeTheHome）

这些机架以 8 个为一组配对，每个阵列有 512 个 GPU。每台服务器都有四个冗余电源，GPU 机架的后部露出三相电源、以太网交换机和一个提供所有液体冷却的机架大小的歧管。

Colossus 集群中有超过 1500 个 GPU 机架，或近 200 个机架阵列。据英伟达首席执行官黄仁勋称，这 200 个阵列的 GPU 仅用了三周时间就完成了安装。

由于 AI 超级集群不断训练模型的高带宽要求，xAI 在其网络互连性方面提供了超大的带宽。

目前每个显卡都有一个 400GbE 的专用 NIC（网络接口控制器），每台服务器还有一个额外的 400Gb NIC。这意味着每台 HGX H100 服务器都有每秒 3.6 TB 的以太网速率。整个集群都在以太网上运行，而不是 InfiniBand 或其他在超级计算领域标配的连接。

△仰望一大片的黄色以太网电缆，将 xAI Colossus 集群连接在一起。多层过宽的电缆线路嵌入天花板中。（图片来源：ServeTheHome）

△xAI 的 Colossus CPU 计算服务器，看起来与该站点中也广泛使用的 Supermicro 存储服务器完全相同。（图片来源：ServeTheHome）

当然，像 xAI 旗下Grok 3 聊天机器人这样基于训练 AI 模型的超级计算机需要的不仅仅是 GPU 才能运行。

Colossus集群当中的存储和 CPU 计算机服务器的详细信息仍未曝光，不过这些服务器也大多采用 Supermicro 机箱。一波又一波的 NVMe 转发 1U 服务器内部带有某种 x86 平台 CPU，可容纳存储和 CPU 计算，还具有后入式液体冷却功能。

另外，在该超级计算机集群的外面，还可以看到一些大量捆绑的特斯拉 Megapack 电池（每个最多可容纳 3.9 MWh）。

该电池阵列的是为了应对突发停电的临时备用电源，其可以在毫秒之间快速提供供电，相比柴油发电机反应要快得多，可以使得有足够时间去启动其他备用电源。

责任编辑：落木

文章内容举报

相关资讯

支持打赏
支持0人
反对
打赏

文章价值打分

当前文章打分0 分，共有0人打分

0
0
0
打赏
|

分享好友:
分享至QQ
分享至微博
分享至QQ空间
|

生成海报

本文收录在

#马斯克 #超算中心 #超算

热门文章

换一波

好物推荐

换一波

关注我们

微博：快科技官方
快科技官方微博
今日头条：快科技
带来硬件软件、手机数码最快资讯！
抖音：kkjcn
科技快讯、手机开箱、产品体验、应用推荐...

关于我们
关于我们
隐私权说明

交流合作
加入我们
意见反馈
广告刊例

关注我们
微信公众号：
微博号：快科技官方
QQ群：53467377

安卓客户端下载
IOS客户端下载

APP下载

手机扫码下载

支持Android/iOS/iPad
投稿
纠错

线索爆料

爆料群

爆料1群

打开微信扫一扫
扫描入群，加入爆料
意见反馈
评论
返回顶部