连续无故障训练15天！摩尔线程发布夸娥智算集群KUAE 1.2--快科技--科技改变未来

正文内容 评论（0）

连续无故障训练15天！摩尔线程发布夸娥智算集群KUAE 1.2

2024-08-19 19:47:31 出处：快科技作者：上方文Q 编辑：上方文Q 评论(0)

#显卡 #摩尔线程

快科技8月19日消息，摩尔线程正式发布了夸娥智算集群KUAE 1.2版本，通过软硬件层面的综合性优化，在功能、性能上多维升级，更高效、稳定，对生态系统更友好，可为大模型训练提供更坚实可靠的算力支撑。

夸娥1.2主要升级点：

▼MFU提升10% 最高可达55%

在新版本中，使用千卡集群训练千亿模型，MFU(模型算力利用率)提升10%。

稠密模型集群训练中，MFU最高达到55%。

▼Flash Attention2优化

通过集成最新的MUSA SDK平台与优化后的Flash Attention2技术，结合新版Torch MUSA和算子融合，显著提升了大模型训练的效率与资源利用率，大幅缩短训练周期，并降低了整体成本。

▼64K长文本支持

增强了对长文本大模型训练的支持，优化了处理长文本理解和生成任务的能力，能够更好地应对文档摘要、文章写作等复杂语言处理任务。

▼支持混合专家模型MoE

MCCL通信库完成了All2All优化，并针对muDNN算子在不同形状下的矩阵运算进行了优化，以更好地支持MoE（Mixture of Experts）大模型的训练。

这不仅提升了智算效率，还为更大规模参数的大模型训练提供了高度可扩展的基础。

▼断点续训

进一步提升了大模型训练的Checkpoint(检查点)读写性能，写入时间小于2秒，显著提高训练效率。

▼优化DeepSpeed

支持DeepSpeed、Ulysses的适配和性能优化，强化了长文本训练支持。

适配国内外多款大模型，在Hugging Face上支持训练和微调主要的开源大模型，创新型企业可以灵活选择不同的大模型开发智能应用。

▼稳定性提升

千卡集群软硬件进一步成熟，实现了连续无故障训练长达15天。

新版本引入了KUAE Aegis可靠性功能，加强了对GPU、显存、集合通信等方面的监控、自动诊断与故障恢复能力。

▼可视化/可观测

引入了PerfSight性能监控系统，可实时显示模型训练过程中的资源消耗与性能分析数据，有助于快速发现并恢复训练期间的故障，满足大模型上的性能调优需求。

▼内置模型库中新增大模型

KUAE内置模型库Model Zoo新增LLaMA2全系列大模型、百川、雅意、Qwen2、Mixtral（MoE 8x7B）等模型。

【本文结束】如需转载请务必注明出处：快科技

责任编辑：上方文Q

文章内容举报

文章价值打分

当前文章打分0 分，共有0人打分

0
0
0
打赏
|

分享好友:
分享至QQ
分享至微博
分享至QQ空间
|

生成海报

本文收录在

#显卡 #摩尔线程 #大模型 #夸娥集群

好物推荐

换一波

关注我们

微博：快科技官方
快科技官方微博
今日头条：快科技
带来硬件软件、手机数码最快资讯！
抖音：kkjcn
科技快讯、手机开箱、产品体验、应用推荐...

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章

换一波

好物推荐

换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章 换一波

好物推荐 换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容评论（0）

热门文章

换一波

好物推荐

换一波