第四代英特尔至强可扩展处理器和Habana Gaudi2在深度学习训练中展现领先的AI性能--快科技--科技改变未来

正文内容 评论（0）

第四代英特尔至强可扩展处理器和Habana Gaudi2在深度学习训练中展现领先的AI性能

2022-11-11 14:40:27 作者：Kew 编辑：Kew 评论(0)

在MLCommons近日发布的AI性能行业基准测试结果中，代号为Sapphire Rapids的第四代英特尔®至强®可扩展处理器和专用于深度学习AI训练的Habana® Gaudi®2加速器展现了卓越的训练表现。

英特尔执行副总裁兼数据中心与人工智能事业部总经理Sandra Rivera表示：“自去年6月提交了领先的MLPerf行业测试结果以来，我们团队不断取得新的进步，这让我感到非常自豪。第四代英特尔至强可扩展处理器和Gaudi2 AI加速器支持广泛的AI功能，为有深度学习训练和大规模工作负载处理需求的客户提供业界领先的性能。”

在众多数据中心应用场景中，基于至强处理器的服务器平台可用于运行一系列机器学习（ML）和数据分析的复杂管道，而深度学习（DL）正是其中的一部分。同时，这些服务器平台亦可用于运行其他应用程序，并能够适应随时间变化的多种工作负载。在这些使用场景中，至强可扩展处理器能够极大程度地降低总体拥有成本（TCO），提高全年利用率。

第四代英特尔至强可扩展处理器内置全新AI加速器——英特尔®高级矩阵扩展（AMX），旨在帮助用户通过扩展通用至强服务器平台，覆盖包括训练和微调在内的更多深度学习使用场景。AMX是一个专用的矩阵乘法引擎，内置于第四代至强可扩展处理器的每个核心。该AI引擎已经过优化，基于行业标准框架，可提供相较于上一代深度学习训练模型高达6倍的性能。

而在服务器或服务器集群主要用于深度学习训练和推理计算的场景中，Habana Gaudi2则是理想的加速器，针对这些专用场景，它旨在提供优异的深度学习性能并降低总体拥有成本。

关于至强处理器的测试结果：

英特尔首先提交了涵盖一系列不同工作负载的第四代英特尔至强可扩展处理器产品线的MLPerf v2.1行业测试结果。作为唯一提交该测试结果的处理器，Sapphire Rapids再次被证实其优异的AI性能，使客户能够随时随地使用共享基础设施进行AI训练。内置英特尔AMX的第四代至强可扩展处理器在多个行业标准框架中为用户提供即时可用的性能，并集成了端到端的数据科学工具，以及来自生态伙伴广泛的智能解决方案，开发者仅需使用TensorFlow和PyTorch框架的最新版本，即可充分释放其性能。现阶段，英特尔至强可扩展处理器已经可以运行并处理全部AI工作负载。

测试结果显示，第四代英特尔至强可扩展处理器正通过扩大通用CPU在AI训练方面的覆盖范围，让客户能够充分利用已经部署在商业应用中的至强处理器完成更多工作，尤其是用于中小型模型的训练或微调，即迁移学习。DLRM的结果便很好地论证了Sapphire Rapids能够在不到30分钟（26.73）的时间内仅用四个服务器节点即可完成模型训练。即使是面对大中型模型，第四代至强处理器亦可分别在50分钟（47.26）和90分钟（89.01）内成功训练BERT和ResNet-50模型。开发者可在一杯咖啡的时间内便完成小型深度学习模型的训练，在一顿午餐的时间内训练中型模型，并同时利用这些连接到数据存储系统的相同服务器，在下午进行诸如经典机器学习的其他分析。这也意味着企业能够将诸如Gaudi2的深度学习处理器预留给更大、对性能要求更高的模型。

关于Habana Gaudi2的测试结果：

Habana今年五月发布了用于深度学习训练的第二代Gaudi处理器——Gaudi2，在MLPerf v2.0训练10天后汇总的成绩中表现出了领先的测试结果。Gaudi2采用7纳米制程工艺制造，拥有24个Tensor处理器核心、片内封装容量达96GB HBM2e和24个100GB RoCE以太网端口。与英伟达的A100相比，Gaudi2在这项基准测试中再次展现了领先的8卡服务器性能。

Gaudi2在TensorFlow中训练BERT和ResNet-50的时间缩短了10%。而Gaudi2的PyTorch结果则显示，与5月的Gaudi1结果相比，其BERT和ResNet-50的训练时间分别缩短了4%和6%。这两组结果均在封闭和可用类别中提交。

这些优异表现突显了Gaudi2专用深度学习架构的独特性、Gaudi2软件的日益成熟以及Habana® SynapseAI®软件堆栈的扩展优势。值得注意的是，该软件堆栈针对深度学习模型开发和部署进行了优化。

与5月的测试结果一致，Gaudi2在BERT和ResNet-50模型训练方面始终优于英伟达A100，进一步证明了该测试结果的有效性。英伟达H100的ResNet-50训练速度仅比Gaudi2高11%，而尽管H100在BERT方面比Gaudi2快59%，但英伟达报告的BERT训练时间为FP8数据类型，Gaudi2的训练时间则为经过验证的标准BF16数据类型（在Gaudi2的软件计划中启用了FP8）。因此，与A100和H100相比，Gaudi2的性价比更高。