中国电信天翼云完成首个国产GPU万卡训练！4000亿参数大模型领先--快科技--科技改变未来

消息 ×
	loading..

登录
注册
浅色模式深色模式

默认主题

橙色主题

红色主题

当前位置：首页 > 资讯中心 > 电脑办公 > 显卡 > 文章详情

今日视点

2025年03月27日星期四

正文内容 评论（0）

中国电信天翼云完成首个国产GPU万卡训练！4000亿参数大模型领先

2024-09-20 15:57:04 出处：快科技作者：上方文Q 编辑：上方文Q 评论(0)

#中国电信 #天翼云

快科技9月20日消息，中国电信宣布，天翼云自研的国内首个单集群万卡国产化全功能预训练云服务平台，已经正式发布上线，基于华为昇腾芯片，并完成了万卡规模Llama3.1-405B大模型训练。

Llama3.1-405B作为4000亿参数规模的大模型，在息壤训推服务平台的支持下，经过多轮优化，MFU(算力利用率)达到国内领先水平。

另外，700亿参数大模型Llama2-70B在万卡规模下完成训练，MFU也处于业界领先水平。

据悉，天翼云的这套平台具备万卡纳管和并行训练能力，基于HPFS PB级并行文件系统、CTCCL RDMA高速卡间互联技术、Gang策略与拓扑感知的智算容器调度，以及慧聚自研分布式训练框架TeleFormers和平台，实现万卡资源纳管、万卡规模并行训练。

其中，天翼云自研了AI框架Teleformers，对算子、通信、数据处理进行优化，还有并行策略的自适应调整，显著提升了大模型训练的训练效率。

在目前业内最大参数规模开源单体稠密模型Llama3.1-405B大模型训练测试中，性能表现达到国际同等水平。

算子优化方面，针对昇腾芯片的特性，在网络结构层面对诸多高频算子进行了定制化改造，构建了高性能算子集。

比如matmul算子，利用昇腾芯片的计算亲和性，将算子输入padding到特定的维度，大幅提升执行效率，从而明显缩短了训练时间。

数据处理和流水线方面，通过设置合理的数据分片策略和HPFS条带化优化，结合数据预取与数据下沉技术，大幅提升数据流的处理效率和稳定性；对预处理后的数据集进行了二次分片并提供就近缓存能力，减少GPU空闲时间。

自适应并行策略方面，基于对3D并行中各类计算单元的分析，天翼云设计了多种自适应的3D并行策略，依据模型规模和硬件资源的不同可以自动选择合适的并行策略，充分利用计算资源和显存资源，缩短模型训练中每轮的迭代时间。

天翼云国产化万卡智算中心还有多项技术突破——

天翼云息壤训练服务平台基于软硬件协同设计，提供全链路故障监控、基于主动感知的全链路故障监控和定位、CheckPoint秒级多级高速存储系统、容错优雅调度和模型编译缓存等系统，将万卡规模故障发现和解决问题缩短到业内前沿的分钟级，大幅提升有效训练时间。

自动断点续训系统：

建设丰富的故障库，基于此构建了多维故障感知系统，能够快速主动感知相关故障事件和潜在的故障风险；

通过精准的故障隔离和调度手段，快速隔离处理故障节点并重新调度新节点接手任务继续训练，实现无人干预式断点续训，有效减少GPU闲置时间。

高速多级CheckPoint系统：

天翼云设计基于多级存储的高速CheckPoint系统，通过两阶段异步存储，实现高速写入内存，并最终异步写入远端系统；

针对断点恢复场景，提供进程级故障原地快恢和远端快速恢复能力，最终实现对CheckPoint的秒级读写能力，大幅降低断点恢复时间、提升训练效率。

全链路检测工具链：

天翼云开发了全链路故障监控工具链，能够基于主动感知实现全链路的故障监控和定位。

该工具链可以主动发现设备故障，并降低训练中断的频次，确保训练过程的连续性和稳定性。

【本文结束】如需转载请务必注明出处：快科技

责任编辑：上方文Q

文章内容举报

相关资讯

支持打赏
支持0人
反对
打赏

文章价值打分

当前文章打分0 分，共有0人打分

0
0
0
打赏
|

分享好友:
分享至QQ
分享至微博
分享至QQ空间
|

生成海报

本文收录在

#中国电信 #天翼云 #智算中心 #华为 #昇腾 #大模型

热门文章

换一波

好物推荐

换一波

夏进全脂纯牛奶29.8元15瓶：配料表只有生牛乳
2025-03-25 1
比用毛巾划算还更卫生！维达悬挂式洗脸巾29.9元（320抽）
2025-03-24 0
不加一滴水：摘养NFC芒果/黄桃/苹果汁1kg半价大促9.9 元
2025-03-21 2

关注我们

微博：快科技官方
快科技官方微博
今日头条：快科技
带来硬件软件、手机数码最快资讯！
抖音：kkjcn
科技快讯、手机开箱、产品体验、应用推荐...

关于我们
关于我们
隐私权说明

交流合作
加入我们
意见反馈
广告刊例

关注我们
微信公众号：
微博号：快科技官方
QQ群：53467377

安卓客户端下载
IOS客户端下载

APP下载

手机扫码下载

支持Android/iOS/iPad
投稿
纠错

线索爆料

爆料群

爆料1群

打开微信扫一扫
扫描入群，加入爆料
意见反馈
评论
返回顶部