正文内容 评论(0)
近日,在美国加利福尼亚举行的Hot CHIPS会议上,Intel展示了一款代号为“Piuma”的具有1TB/s硅光子互连的8核528线程处理器,旨在用于处理最大的分析工作负载。
7nm工艺8核心528线程
据介绍,Piuma芯片基于台积电7nm FinFET工艺制造(如果你不知道的话,Intel在台积电制造了很多非CPU产品,而且已经有很多年了),它有八个核,每个核具有66个线程,总共528线程,晶体管数量超过276亿个。
△芯片中心的一个重要部分专门用于路由器,这些路由器控制从共封装光学器件流入的数据流
需要指出的是,该芯片并不是基于x86架构的,它是专门为DARPA(美国国防高级研究计划局的分层身份验证漏洞(HIVE)程序使用自定义RISC架构构建的。
美国的这项军事举措旨在开发一种图形分析处理器,该处理器能够以比传统计算架构快100倍的速度处理流式数据,同时功耗更低。
虽然这对DARPA来说可能是一件奇怪的事情,但该政府机构认为大规模图形分析在基础设施监控和网络安全方面有应用。
Intel首席工程师Jason Howard在他的Hot Chips演示中指出的应用例子是社交网络,它可以运行图形分析工作负载来了解成员之间的联系。
这项创建大规模并行图形处理和互连芯片项目时间起源于2017年,Intel被选为制造 HIVE 处理器的供应商,麻省理工学院的林肯实验室和亚马逊网络服务被选为基于此类处理器的系统创建和托管万亿边图形数据集以供分析。
虽然Intel曾在2019和2022年对于“Piuma”处理器进行过一些介绍,但是在本周的Hot CHIPS大会上,Intel首席工程师Jason Howard进一步详解了Piuma处理器和系统,其中包括Intel与 Ayar Labs 合作创建的光子互连技术,用于将大量处理器连接在一起。
在2012年,超级计算机制造商Cary推出的XMT系列就是一个巨大的共享内存线程的怪物,非常适合图形分析。
它拥有多达 8,192 个处理器,每个处理器有 128 个以 500 MHz 运行的线程,插入 Opteron 8000 使用的 AMD Rev F 插槽系列 X86 CPU 全部与定制的“SeaStar2+”环面互连捆绑在一起,该互连提供 105 万个线程和 512 TB 共享主内存,供图形发挥作用。
就 Linux 系统而言,这看起来就像一个单一的 CPU。
The nextplatform认为,“Piuma”处理器就像是再次将旧的东西变成新的,虽然处理器本身比较普通,但其使用的硅光子互连技术更好,想必性价比也是如此。
也许Intel会将这个Piuma系统商业化,并真正改变一切。
全新的内存架构设计Jason Howard表示,当Intel开始设计“Piuma”处理器时,从事 HIVE 项目的研究人员意识到图形处理不仅是大规模并行,这意味着可能有一些方法可以利用这种并行性来提高图形分析的性能。
当在标准 X86 处理器上运行时,图形数据库的缓存行利用率非常低,在图形数据库运行的 80% 以上的时间里,72 字节缓存行中只有 8 字节或更少被使用。指令流中的大量分支给 CPU 管道带来了压力,而内存子系统也因依赖负载的长链而承受了很大的压力,这对 CPU 上的缓存造成了很大的影响。
Piuma芯片有四个管道,每个管道有 16 个线程(称为 MTP),还有两个管道,每个管道有一个线程(称为 STP),其性能是MTP中一个线程的8倍。处理核心基于定制的RISC指令集,但是并未明确具体情况。
Jason Howard在他的Hot Chips演示中解释道:“所有的管道都使用自定义ISA,它类似于RISC,是一个固定的长度。” “每个管道都有32个可用的物理寄存器。我们这样做是为了方便您在任何管道之间迁移计算线程。因此,也许我开始在一个多线程管道上执行,如果我发现它花费了太长时间,或者可能是最后一个可用的线程,我可以快速迁移到我的单线程管道上,以获得更好的性能。
STP 和 MTP 单元通过交叉开关连接,并具有组合的 192 KB L1 指令和 L1 数据缓存,并且它们链接到比 L2 缓存更简单的共享 4 MB 暂存器 SRAM 存储器。
每个Piuma芯片都有 8 个活动核心,每个核心都有自己定制的 DDR5 内存控制器,该控制器具有 8 字节访问粒度,而不是像普通 DDR5 内存控制器那样具有 72 字节访问粒度。每个插槽都有 32 GB 的定制 DDR5-4400 内存。
Jason Howard解释说,Piuma芯片所采用的新颖的内存架构,这是优化图形分析工作负载的一个重要内容。这些芯片与32GB DDR5-4400内存配对,通过允许8字节访问粒度的自定义内存控制器进行访问。
根据Jason Howard的说法,这是有利的,因为“每当我们从内存中取出一条数据线时,我们都会尝试利用所有的数据线,而不是扔掉7/8的数据线。”
1TB/s硅光互连,可以连接超过10万个芯片
“Piuma”芯片被认为是Intel首个直接网状光子结构的一部分,Intel并没有使用铜线将多个芯片缝合在一起,而是使用了使用硅光子互连技术,使用了共封装光学器件(CPO)可以将数百甚至数千个芯片连接在一个低延迟、高带宽的网络中。
这是一个不错的想法,但无论如何,该芯片仍然是一个原型。
Intel的目标是开发可以扩展的技术,以支持最大的图形分析工作负载。
△围绕中央计算芯片的四个小芯片为Intel这个原型芯片提供1TB/s的光学带宽
虽然该芯片最初看起来是一个标准处理器,它甚至有一个相当典型的BGA接口,与Xeon-D芯片上的接口没有什么不同,但I/O芯片的大部分数据都是使用与Ayar Labs合作开发的硅光子芯片进行光学传输的。
中央处理器周围的四个小芯片将进出处理器的电信号转换为32根单模光纤携带的光信号。正如我们所理解的,这些光纤束中的16根用于传输数据,另16根用于接收数据。
根据Intel的说法,每根光纤都可以在芯片内外以32GB/s的速度传输数据,总带宽为1TB/s。
该光纤网络可以将超过100000个“Piuma”芯片配置联网在一起,任何一个芯片都可以以非常低的延迟与另一个芯片通信。
△进出Intel原型处理器的数据都是通过光学传输的
Intel还必须找到一种方法来处理进出计算芯片的巨大数据流,理论上需要高达1TB/s。根据Jason Howard的说法,这一要求使得Piuma芯片内部大量区块专用于路由器的原因。
具体来说,Piuma芯片的每个核心都有一对路由器,将 2D 网格中的核心相互链接、链接到八个内存控制器以及四个高速高级接口总线 (AIB) 端口。
AIB 是Intel于 2018 年推出的用于互连小芯片的免版税 PHY。Ayar Labs 的芯片有 32 个光学 I/O 端口,每个 AIB 8 个,每个方向可提供 32 GB/秒的带宽。
以下是在 PIUMA 封装上实现 2D 网格的片上路由器的深入分析:
这是一个十端口直通路由器。2D 网格以 1 GHz 运行,需要四个周期来遍历路由器。它有 10 个虚拟通道和四种不同的消息类别,Jason Howard表示这可以避免网格上的任何死锁,并且为路由器内的每个链路提供 64 GB/秒的速度。
Piuma芯片上的路由器和核心封装比想象的要复杂一些,如下图:
它更像是芯片上有 16 个核心/路由器单元,其中只有 8 个核心被激活,因为芯片上网格需要两倍数量的路由器来馈入 AIB,而 AIB 又馈入 Ayar Labs 芯片光子学。硅光子链路仅用作物理层,它们专门用于扩展多个插槽之间的片上网络。
比如,由 16 个使用硅光子链路的Piuma芯片组成的网络可以以全对全配置的 4 x 4 网格连接在一起。
每个Piuma芯片在标称电压和工作负载下消耗约 75瓦,这意味着它消耗约1200瓦。
考虑到一个具有112个内核和224个线程的单双插槽Intel Sapphire Rapids系统在负载下可以很容易地消耗那么多功率,Piuma芯片的功耗表现还不错。
Piuma芯片具有 1 TB/秒的光学互连能力,可以将多达131,072个芯片连接在一起,形成一个大型共享内存的图形处理超级计算机。
路由器就是网络,所有设备都通过 HyperX 拓扑进行连接,而不是直接连接到机架内的所有拓扑,每个机架内将有16个Piuma芯片。
16 个Piuma芯片,则意味着拥有 128 个内核、8,448 个线程和 512 GB 内存。
HyperX 网络的第一级拥有 256 个芯片,包含32,768 个核心、270,336 个线程和 1 TB 内存。
升级到 HyperX 网络的二级,则可以构建一个包含 16,384 个芯片,包含210 万个核心、1730 万个线程和 64 TB 共享内存的 Piuma芯片集群。
最后,在 HyperX 网络的第三级,则可以扩展到 131,072 个芯片,拥有1680 万个核心、1.384 亿个线程和 512 PB 共享内存。
每个Piuma芯片节点通过单模光纤连接在一起,有趣的是,Piuma网络设计所实现的带宽(每方向 16 GB/秒)仅具有理论设计点的带宽。
但即便如此,这仍然是一个巨大的带宽怪兽,理论上整个 HyperX 网络的单向平分带宽为 16 PB/秒。
挑战依然存在
Intel此次成功展示Piuma芯片,并不是说其在光学器件研发方面没有遇到挑战。Jason Howard说,在测试中,Piuma芯片实际的硅光互连速率只达到了预计(1TB/s)的一半,并且光纤还经常出现故障。
Jason Howard说:“一旦我们把所有东西都调好并工作起来,就会出现很多纤维附着问题,因为这些都是脆性纤维,它们就会脱落。” “我们还看到,当我们对整个封装进行回流工艺时,由于热结果,我们会遇到光学问题,最终会产生糟糕的光学成品率。”
Jason Howard解释说,为了克服这些挑战,Intel必须与合作伙伴合作开发具有较低热障的新材料。
到目前为止,Intel已经构建了两块主板,每块板都配有一个Piuma芯片,并将它们互连起来以运行测试并向 DARPA 证明其有效。
现在的问题是,这样一台机器的大规模成本是多少?
嗯,以每个节点 750 美元计算,这根本不算什么,对于一个具有 4,096 个Piuma芯片的 HyperX 一级系统来说,大概需要 310 万美元;对于一个具有 262,144 个Piuma芯片的HyperX 二级系统来说,成本接近 2 亿美元;而对于一个具有210万个Piuma芯片的HyperX 三级系统来说,成本将达到15.7亿美元。
Intel设想,Piuma芯片可以构建到包含超过10万个芯片的网格中,即使是最大的图形分析工作负载,也可以实现近乎线性的性能扩展。然而,目前这还只是个梦想,因为Intel迄今为止只测试了两个连接在其结构上的芯片。
Jason Howard解释说,Intel是否会将该设计商业化将取决于资金。“如果有客户可以给我们资金支持,我们非常欢迎建造这些东西。”