无惧限制 Intel为中国公司定制了一张AI大模型入场券--快科技--科技改变未来

正文内容 评论（0）

无惧限制 Intel为中国公司定制了一张AI大模型入场券

2023-07-14 14:01:53 出处：雷峰网作者：包永刚编辑：宪瑞评论(0)

#Intel #CPU处理器

一款名叫Gaudi2的AI芯片，2022年和2023年英特尔都为其开了一场发布会，为什么？

有两个方面的原因，一个在当前国际形势下的合规之举，另一个在生成式AI热潮下亮出的入场券。

这里的入场券有两层含义，一层含义是对正在四处寻找合适芯片的AI大模型算法公司来说，英特尔的Gaudi2能够成为这些公司发展业务的算力基石，足够的算力大模型竞赛的入场券。

另一层含义是对于英特尔来说，拿出的能和英伟达最先进的H100 GPU比拼的产品，是其在AI大市场里披荆斩棘的入场券，也是一个“大杀器”。

站在AI的变革时刻，手握AI时代入场券的公司，如何才能成为AI时代的领导者？

英特尔有一个十分清晰的路线图，2025年将会推出更适合AI需求的芯片，新的产品将融合Gaudi和GPU。

Gaudi2再次发布的2个原因

2022年的英特尔On产业峰会上，英特尔发布了新一代高性能深度学习AI训练处理器Habana Gaudi2，那时的Gaudi2训练BERT模型的性能相比英伟达A100就有2倍的性能优势，广受关注。

2023年7月，英特尔在北京又举行了一次Gaudi2的发布会，原因有两个。

“过去5个月大模型的演进非常快，去年发布audi2之后，我们做了大量软件模型的优化工作，可为大规模的多模态和语言模型提供出色的推理性能。”英特尔公司执行副总裁，数据中心与人工智能事业部总经理Sandra Rivera说，“这次我们不只是带来了一颗芯片，还带来了基于Gaudi2可以大规模部署训练以及推理大模型的整体解决方案。”

为了市场需求再次发布是一个原因，另一个原因是因为政策。

“这次在中国发布的Gaudi2，是中国定制版产品，对于出口或支持中国的客户没有任何问题。”Sandra分享。

中国版Gaudi2和国际版最大的区别是网口的数量，国际版集成以太网端口数量是24个，中国版减少到了21个，这一变化会降低中国版Gadudi2网络速度，对整体的性能影响不大。

这其实是在满足互联总线带宽不能超过400GB/s的美国出口法规限制。雷峰网(公众号：雷峰网)了解到，在法规的限制下，下一代Gaudi3在中国市场销售的版本也会和国际版有所不同。

用性价比和英伟达掰手腕

英特尔发布中国版Gaudi2并积极宣传的目的非常明确——从英伟达手上分一杯羹。

生成式AI火热之后，英伟达次新的A100和最新和H100 GPU在全球都成为了紧俏商品。在中国这种情况更加严重，并且因为有美国法规的限制，A100和H100并不能直接向中国市场出售，只能销售互联带宽更低的A800和H800。

这给包括英特尔在内的所有高性能AI加速芯片的提供者一个绝佳的机会，能从英伟达手里分一杯羹，就意味着抓住了AI这个未来十年甚至更长时间的大市场。

Gaudi2非常聪明地从性价比的角度与当下最强大的H100和A100竞争，这种聪明更直白的说就是抓住了用户最急切的需求。

“A100的定价相比此前的产品已经偏贵，到H100时定价已经贵的有些夸张，加上供货紧缺带来的价格上涨，H100让大量公司都对替代产品更有兴趣。”多位AI行业从业者都对雷峰网表示，“只要其它AI芯片的性能和体验达到英伟达的80%，价格是英伟达的一半，就一定有客户愿意买单。”

性价比可以借用数据直观体现。最受欢迎的AI开源模型提供商Hugging Face分享性能结果显示，Gaudi2在多种训练和推理基准测试中表现出的超过英伟达 A100 GPU的性能。在训练计算机视觉模型时，Gaudi2的每瓦性能是A100的2倍，对于1760亿参数的BLOOMZ推理，Gaudi2的每瓦性能是A100的60%，有全方位的能效比优势。

再看AI领域权威的基准测试MLPerf在六月发布的最新结果。

Gaudi2和英伟达H100是唯二提交GPT-3模型训练结果的半导体解决方案。结果显示，Gaudi2在384个加速器上训练GPT-3的时间为311分钟，英伟达在512个H100 GPU上的训练时间则为64分钟。

“这意味着，基于GPT-3模型，每个H100的性能领先于Gaudi2 3.6倍。”Habana Labs首席运营官Eitan Medina直言，“性价比是影响H100和Gaudi2相对价值的一个重要考量因素。Gaudi2服务器的成本要比H100低得多，所以Gaudi2的价格优势能够大大缩小了与H100的性价比差距。”

谈性价比，不能绕开软件，也就是使用体验。

几分钟就能迁移代码，Gaudi2高度适配大模型

芯片的使用体验，对于有开发经验的工程师来说是迁移的，对于没有代码的工程师来说是上手的难度。

Hugging Face 的首席布道者Julien Simon分享他使用Gaudi的经历，“在我第一次使用时，只花了10分钟，其中还包括阅读文档。在运行了我的加速脚本后，它立即就可以工作。我必须说这是我见过的最简单的开发体验之一，如果你有现成的代码，可以在几分钟内进行迁移。”

几分钟就能迁移原有模型的开发体验来源于英特尔针对Gaudi平台深度学习训练和推理优化的SynapseAI软件套件。这一软件套件集成PyTorch、TensorFlow、DeepSpeed框架，也支持Kubernetes编排，定制编译器。

同时，SynapseAI软件套件也有强大的合作伙伴生态系统，包括Hugging Face、PyTorch Lightning、RedHat。其中，超过5万个模型在Hugging Face平台上使用Optimum Habana软件库进行了优化。

这让Gaudi2对大模型开发者非常友好，从github上也能看到Optimum Habana对大量大模型支持的情况。像是对Stable Diffusion（一个用于从文本生成图像的最先进生成式AI模型之一）训练，Gaudi2能够实现从1张卡至64张卡近线性99%的扩展性。

随着软件优化的持续深入，开发者能够拥有更好的开发体验。而与Hugging Face的合作，也让开发者不用考虑英伟达的CUDA软件生态。

“确实很多人在用CUDA进行人工智能运算，但是大模型的开发者，大部分不会做那么底层的开发的，他们是在一个比较高的框架，比如PyTorch、TensorFlow上面做创新。”Sandra十分有信心，“我们和Hugging Face做了一些对策和合作，一些现有模型只花几十秒的时间就可以调通，能够运行在Gaudi上。”

“Gaudi2之前已经有一代产品，我们做了好几年积累，底层软件库都已经开发好。”Eitan补充，“我们希望让开发者能够在最上层的20%做他的开发，这里的开发和CUDA没有那么直接的关联。”

目前，浪潮信息已经发售基于Gaudi2深度学习加速器的浪潮信息AI服务器NF5698G7，这款服务器集成了8颗Gaudi2加速卡HL-225B，还包含双路第四代英特尔至强可扩展处理器。

英特尔也会打造基于Gaudi2的大规模集群，作为英特尔开发者云的一部分向中国客户提供。

2025年有更整合的GPU

Gaudi2是英特尔在大模型热潮里拿出的算力武器，但对于生成式AI的需求显然还不足够。

“明年我们会发布下一代产品Gaudi 3。”Sandra还透露，“2025年时，我们会把Gaudi的AI芯片与GPU路线图合二为一，推出一个更整合的GPU的产品。”

混合DSA（领域专用架构）是AI芯片领域明确的趋势，将Gaudi和GPU整合，既能发挥DSA的性能和能效优势，又能拥有GPU的通用性，这是高性能AI芯片公司都在努力的方向，但软件是一个挑战。

“从开发者的角度，他们更看重的是可持续的软件生态。”Sandra非常清楚，“在迭代产品的同时，我们要对开发者做最好的软件支持，让他们投入软件的一些代码能够在迭代的时候可以更好复用。”

当然，除了朝混合DSA的方向努力，英特尔还有丰富的AI产品组合的优势，包括CPU、GPU、FPGA和DSA。