如果没有AI算力：大模型这场战役我们可能胜不了--快科技--科技改变未来

正文内容 评论（0）

如果没有AI算力：大模型这场战役我们可能胜不了

2023-12-08 13:39:12 出处：量子位作者：明敏萧箫编辑：落木评论(0)

#AI #大模型

没想到，在ChatGPT爆火后的一年里，竟然出现了一个隐藏“Boss”——

量子位获悉，百度、360等互联网大厂均已开始基于昇腾部署AI模型；而知乎、新浪、美图这样全速推进AI业务的公司，背后同样出现了华为云昇腾AI云服务的身影。

明面上，大模型带动了N卡炙手可热；但另一面，国产算力提供者中的头部企业华为也浮出水面。

如果没有AI算力：大模型这场战役我们可能胜不了

有意思的是，上述提到的玩家，目前展现的共性也非常明显：无一例外都是有场景的互联网玩家。

简单解释，就是这些公司在大模型变革之前，基本都在各自的行业中有稳定的业务生态，也有核心的商用场景。

毫无疑问，他们需要更快更高效让大模型引擎转动，可以更快产生最直接的价值，云算力是最合适的选择。

国内算力市场，悄然生变

解题就得从大背景展开，国内算力市场的供给和需求，正在产生方向性变化。

首先是资源的供给，也就是提供算力的市场，出现了变化。

从去年开始，国内市场就出现了“N卡难求”的情况。为此英伟达轮番推出特供版GPU，在算力和功率上一再缩水，但还是受到限制。最近才有风声的HGX H20和两款新的GPU，也被曝可能推迟到明年2月或3月才能发布。

一系列算力供给缩水动作，使得国内市场上已有的英伟达系列显卡进一步稀缺，算力一个月内涨价50%甚至100%已是常态。

据《经济参考报》介绍，由于算力资源持续紧张，国内算力服务公司如汇纳科技，已经在11月中旬拟将所受托运营的内嵌英伟达A100的高性能算力服务器算力服务收费同步上调100%。

如果没有AI算力：大模型这场战役我们可能胜不了

与此同时，国内互联网厂商因大模型急速增长的算力需求，又加剧了这种紧张的局面。

先是国内大模型数量激增，10月份统计数据显示，国内已发布了238个大模型。

每一个大模型背后都意味着海量算力的投入，综述《A Survey of Large Language Models》显示，650亿参数大模型LLaMA，在2048块80G A100上训练了21天；而700亿大模型LLaMA 2，同样用了2000块80G A100训练。

然而，AI算力需求还会持续上涨。

据OpenAI测算，自2012年以来，人工智能模型训练算力需求每3~4个月就翻一番，每年训练AI模型所需算力增长幅度高达10倍。

如果没有AI算力：大模型这场战役我们可能胜不了
△图源OpenAI

显然，随着AI成为全球产业的增速引擎，算力作为背后的驱动力自然关注不小，甚至出现了“谁能争抢到算力，谁就更有先发权”这样的说法。

一方面，如果算力跟不上，无法搭上AI这班快车，直接面临的结果就是在竞争中落于下风，甚至可能被行业抛弃。

360公司创始人周鸿祎曾经谈到，公司如果没有搭上ChatGPT这班车，很有可能会被淘汰。

与之相反，如果及时跟进潮流，公司就能凭借已有场景，快速在行业竞争中获得优势。像是一度裁员12%的美版头条BuzzFeed，在宣布和OpenAI合作使用ChatGPT帮助创作内容后，股价一度暴涨119%。

另一方面，算力的充足与否，又直接决定了拥有AI技术和产品的公司，能否提供长期稳定的服务，从而在这场竞争中拥有先发权。

即使是在这场潮流中占据主导话语权的OpenAI，也面临算力紧张而无法满足用户需求、被迫将用户“拱手相让”的问题。

例如前不久，ChatGPT出现了几次流量过大、服务器承载不下导致应用响应崩溃的情况，导致国外用户争相涌向谷歌Bard和Anthropic的Claude 2；付费订阅产品GPT-4，同样因为服务器流量爆炸而出现“暂停订阅”的情况。

但当下算力受限的情况，导致传统互联网企业要想快速跟上AI大模型相关的业务，无法再单单依靠“买卡”这一条路。

毕竟光是等待算力龙头如英伟达发卡的时间，很可能就已经错过了这一波风口。

如果没有AI算力：大模型这场战役我们可能胜不了

相比之下，有场景的互联网玩家，一旦有合适的算力，就能更快接入AI大模型相关的业务，从而在这场竞争中获得先发话语权。

在这样的需求下，像华为云这样的国产算力玩家，再度成为国内互联网厂商们关注的对象。

作为有算力、能提供云服务、最早适应大模型打法的云厂商之一，华为云究竟为何能在一众算力供给者中脱颖而出，为有场景的玩家们所看好？

为什么是华为云？

在行业调研中，行业玩家们对大模型时代的云服务，有4大普遍性诉求：

算力可持续

高效长稳

简单易用

开放兼容

而之所以选择华为云，从其“对症下药”的技术细节就能管窥一二。

其架构由下至上，包括AI算力、异构计算架构、AI框架、AI平台、大模型、工具链几个层级，由此构成一个算力充沛、高效稳定、低门槛广生态的云底座。

1、算力可持续

可持续的算力能从最根本上缓解行业玩家们的算力焦虑，同时也是大模型快速炼成、应用落地的基本保障。

在这方面，华为云打造了贵安、乌兰察布、芜湖3大AI云算力中心，提供3大主节点及30+分节点，支持AI算力即开即用。

昇腾AI集群也在今年全面升级，集群扩展至16000卡，成为业界首个万卡集群。它可支持万亿参数大模型分布式训练。

此外在保障算力资源合理分配方面，华为云支持资源弹性伸缩，可根据业务需求实际情况，自动增加或缩减服务器实例或带宽资源，可在保障业务能力的同时节约成本。

2、稳定高效

先来看稳定性。

由于大模型训练过程比传统分布式训练更复杂，导致训练所需计算集群规模空前增加、涉及器件数量往往在百万/千万级别。如果单器件发生故障，就可能导致集群训练中断，且故障原因定位定界复杂。

这就使得当前大模型训练更容易出现故障，训练时间被拉长。

以Meta的OPT-17B训练为例，理论上在1000个80G A100上训练3000亿个单词，需要33天。实际训练却使用了90天，期间出现了112次故障。其中主要问题是硬件故障，导致手动重启35次，自动重启约70次。

△OPT-175B意外中断情况

在这方面，华为云昇腾AI云服务支持裸金属集群进行大模型训练，无虚拟化损失，并行训练效率提升100%。从处理器、算子、框架、平台全链路垂直协同优化，主力场景性能是业界平台的1.5倍以上。

以盘古大模型（2000亿参数）在2048卡上的训练为例，实现了30天训练不中断，长稳率达到90%，断点恢复时长控制在10分钟以内。

此外华为云还实现了千卡预训练故障自动诊断恢复，增强智能运维工具能力，实现分钟级信息获取、2小时定界、24小时提供解决方案。

△华为常务董事、华为云CEO张平安

再来看高效性，这是场景玩家们的迫切需求。

但是千亿参数大模型在训练中需要大量的梯度、参数等进行同步，集群很难实现线性加速比。即，增加了一倍的计算集群规模，但是计算量无法同比增加。比如：

1024卡集群：计算和通讯比例为7:3

2048卡集群：计算和通讯比例为4:6

华为云昇腾AI云服务通过模型+集群的混合并行策略，让模型切分更加平衡，从而实现集群接近线性加速比。

1024卡集群：计算和通讯比例为85:15

2048卡集群：计算和通讯比例为80:20

4096卡集群：计算和通讯比例为70:30

以及在训练成本方面，华为云昇腾AI云服务使用CAME优化器，相较于业内常用方案可节约50%内存用量。

要知道，大模型的海量参数会导致训练时内存消耗空前增加，进一步导致训练成本升高。CAME优化器专为大模型训练而来，获得了2023年ACL杰出论文奖。

3、简单易用降低开发门槛

如今ChatGPT引爆的大模型趋势已经全面铺开，来自千行百业的玩家们都迫切想要快速将大模型接入自己的业务中。

但是大模型开发又是一个复杂的系统工程，从头开始自己摸索会影响落地速度。

所以云服务厂家们纷纷推出了简单易用的开发工具。比如华为云提供了全链路工具链，云化免配置、开箱即用，可实现5倍速开发大模型。

它包括大模型开发工具套件，可自动化、半自动化数据工程，效率提升3倍，5分钟快速构建应用开发。

调试调优部分包含1400+算子沉淀，30+可视化调优部署工具；提供丰富的API能力，可调用盘古大模型100+能力集。

还能将典型模型迁移效率提升到2周内搞定，实现主流场景自主迁移。

4、构建开放兼容生态

最后，并非所有场景玩家都需要从头构建大模型。选择在已有基础大模型上进行微调或者直接使用，是更加降本增效的方案。

那么对于开发者、行业玩家而言，有更多选择就很重要了。

基于这一点业内需求，华为云上线了百模千态社区，企业和开发者能直接使用业界主流的开源大模型，如Llama、GLM等。同时聚合数据集、模型、实践等10万+AI资产。

为了满足开发者的不同偏好，昇腾AI云服务已兼容TensorFlow、PyTorch、RAY、Caffe等AI框架。

进入昇腾AI云服务百模千态专区，仅需3步即可开发自己的大模型。

基于如上云服务能力，华为云已经给业内诸多玩家提供了大模型使能服务。

比如美图仅用30天就将70个模型迁移到了昇腾，同时华为云和美图团队一起进行了30多个算子的优化以及流程的并行加速，AI性能较原有方案提升了30%。

昆仑万维和华为云签署战略合作，双方将在华为云昇腾算力领域展开全面深入合作，致力于打造企业专属模型，支持企业级AI应用，持续赋能千行万业应用创新与场景落地。

如果没有AI算力：大模型这场战役我们可能胜不了
△华为云CTO张宇昕

在当前算力稀缺、资源不足的情况下，这些场景玩家选择与华为云这样的云厂商联手，来快速增强自身“AI硬实力”。

而这种大背景之下，也涌动着当前的产业趋势：

技术创新的曲线开始趋于平缓，商业创新的曲线开始发力。

其中，增速最快的，自然是有场景、有业务的玩家。

场景玩家如何把握AI落地机遇

ChatGPT发布一年以来，AIGC已行至下半场。

上半场，国内外掀起一股基础大模型技术争锋浪潮，“百模大战”态势之下，涌现出一批AI初创公司。

这些公司或掌握底层AI架构基础、或有搭建上层AI工具的经验，依靠技术发布了不少有创意且吸睛的产品，融资更是拿到手软。

然而，随着相关技术逐渐从开疆拓域走向稳定成熟，AIGC产业也出现了新的变化。

下半场，AI技术公司开始追求产业落地，不少初创公司更是在寻求扩大生态圈的方式。

相比之下，有场景的互联网公司，通过观察AIGC技术优势，依托生态优势、加上算力基础，就能快速扩大影响力，进而在公司中取得话语权。

在这种情况下，技术和场景玩家的身位也在悄然发生变化——

技术玩家，需要“拿锤找钉”，面临进一步扩张技术生态和产品场景的难题。

虽说这些玩家已经具备了成熟的基础大模型或工具链技术，但技术仍旧需要找到场景，才能进一步稳定出圈。

相比之下，场景玩家成为了“拿钉找锤”的一方。

依托已有场景需求和稳定用户生态，这些玩家只需将AIGC技术融入业务，就能进一步实现降本增效。

然而，即便是AIGC技术趋于成熟的当下，想要快速跟进也并非易事，除了底层的算力搭建以外，大模型所需的训练和加速等技术也并非就能“一蹴而就”。

在这样的下半场态势中，像华为云这样底层算力、AI相关技术和平台、生态三者齐备的国内云厂商，在场景玩家的发展中进一步起到了催化剂的作用。

底层算力上，华为云依托自研的昇腾处理器打造的超大规模AI集群，已经由4000卡升级到16000卡集群，能支持万亿级模型训练，不仅速度更快，训练周期也更稳定；

AI相关技术和平台上，除了AI算力之外，华为云还为开发者提供了完善的工具和资源，解决了AI大模型部署从训练、加速到不同框架适配这些难题，进而基于已有的研发经验，给厂商提供运营所需的技术服务；

AI生态上，华为云已经与150多家伙伴、200多家客户，共同构筑了20多个行业大模型以及400多个AI应用场景，加速行业智能化升级。

所以，在当前国际大环境下，有场景的玩家，只需要借助像华为云这样的云厂商提供的技术服务，就能快速将下半场大模型机遇变成红利，而华为云也能给国内的互联网企业提供更多选择。

现有的趋势，也能说明这一点。

美图首个懂美学的AI视觉大模型发布当天，股价单日上涨21.28%，随后更是受到国内图像编辑工具行业的广泛关注；

拓维信息发布的交通CV大模型，如今已在高速公路稽核等行业场景得到应用，这1年一来股价上涨了129.44%……

显然，这些玩家基于自身已有的业务，再依托云厂商提供的大模型和算力，就能快速将场景势能发挥到最大优势。

但无论选择什么类型的云厂商、做出怎样的判断，国内互联网企业都依旧需要回到当前的大环境下，结合客观形势做出判断。

在国外算力购买愈发困难的当下，面临新一轮AI竞争趋势，如何让算力像水电一样即取即用，是所有国内企业都应当要思考的问题。

事实上，如今中国的算力水平实际上已经位居世界第二，占全球市场比重达25%，从2017年到2022年的复合增长率达到48.8%。

当更多的企业愿意投资算力、交易算力，就能推动算力产业进一步降本增效，加快算力向现实生产力转化。

责任编辑：落木

文章价值打分

当前文章打分0 分，共有0人打分

0
0
0
打赏
|

分享好友:
分享至QQ
分享至微博
分享至QQ空间
|

生成海报

本文收录在

#AI #大模型 #芯片

好物推荐

换一波

关注我们

微博：快科技官方
快科技官方微博
今日头条：快科技
带来硬件软件、手机数码最快资讯！
抖音：kkjcn
科技快讯、手机开箱、产品体验、应用推荐...

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章

换一波

好物推荐

换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章 换一波

好物推荐 换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容评论（0）

热门文章

换一波

好物推荐

换一波