华为昇腾、阿里平头哥、沐曦、壁仞：四大国产GPU可以在一起了！--快科技--科技改变未来

正文内容 评论（0）

华为昇腾、阿里平头哥、沐曦、壁仞：四大国产GPU可以在一起了！

2026-03-08 15:20:06 出处：快科技作者：上方文Q 编辑：上方文Q 评论(0)

快科技3月8日消息，上海人工智能实验室（上海AI实验室）官方宣布，基于此前的DeepLink混训技术方案、跨千公里多智算中心长稳混训千亿参数大模型，正式推出DeepLink多元算力混合推理加速方案，实现了对华为昇腾、沐曦、阿里平头哥、壁仞等多款国产GPU芯片的混合调度与协同推理。

据悉，DeepLink混推方案基于统一推理中间件、低时延通信、智能流量路由、策略求解器等原创技术，不仅可对多款芯片混合调度与协同推理，性能也大幅提升，对比单一芯片方案，推理时延TTFT最大可优化34.5％，推理吞吐最大可提升32％。

近些年，国产AI GPU如雨后春笋，性能越来越强，但一方面都是各自为战，另一方面大模型推理技术也需要深入优化和提升。

上海AI实验室在国产GPU异构算力中，运用了预填充-解码分离（PD分离）策略，验证了混合芯片高效协同推理的路径。

同一数据中心内不同规格属性的GPU芯片组合优化使用，可以形成最具性价比的异构算力配比。

具体实现上，上海AI实验室通过四大原创技术底座，实现了对异构算力资源的兼容调度。

推理中间件（DLInfer）：

以标准化融合算子接口打通上层框架与底层硬件壁垒，实现算法模型在多元硬件上的统一推理，降低应用门槛。

高速通信库（DLSlime）：

全面兼容各类主流物理连接协议，实现跨架构设备高速互联，核心场景带宽利用率突破97％；具有较强的异步处理能力，可实现计算与通信的重叠。

智能流量路由系统（DLRouter）：

支持KVCache感知的请求路由，最大限度减少重复或重叠请求，节省计算资源，实现分布式集群负载均衡分配。

策略求解器（DLSolver）：

自动获取异构芯片全方位评测数据，结合模型配置以及用户服务等级目标等输入，匹配最优PD分离配置策略，兼顾推理性能与成本。

单一算力平台推理加速方面，可以实现在华为昇腾A2上，针对千卡规模下的化学数据生成场景，吞吐率提升61.9％；在沐曦曦云C500上，MinerU多模态生成推理加速60％。

多款国产GPU芯片的深度混合调度与协同推理方面，千卡规模推理集群实测数据表明，在多模态生成、高并发智能服务等典型场景下，比单芯片方案推理时延TTFT最大可优化34.5％；

在科学论文处理等长输入短输出推理任务中，推理吞吐可提升32％。

值得一提的是，除了以上四家，寒武纪、燧原科技、天数智芯、无问芯穹、商汤科技、中科曙光等也都是上海AI实验室和DeepLink技术方案的合作伙伴。

相信会看到越来越多的国产GPU并肩战斗！

参考链接：

DeepLink官网：https://deeplink.org.cn/home

DeepLink Github：https://github.com/DeepLink-org

DLInfer仓库：https://github.com/DeepLink-org/dlinfer

DLSlime仓库：https://github.com/DeepLink-org/DLSlime

DeepLink合作伙伴

【本文结束】如需转载请务必注明出处：快科技

责任编辑：上方文Q

文章内容举报

文章价值打分

当前文章打分0 分，共有0人打分

0
0
0
打赏
|

分享好友:
分享至QQ
分享至微博
分享至QQ空间
|

生成海报

本文收录在

#昇腾 #平头哥 #沐曦 #壁仞科技

好物推荐

换一波

关注我们

微博：快科技官方
快科技官方微博
今日头条：快科技
带来硬件软件、手机数码最快资讯！
抖音：kkjcn
科技快讯、手机开箱、产品体验、应用推荐...

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章

换一波

好物推荐

换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章 换一波

好物推荐 换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容评论（0）

热门文章

换一波

好物推荐

换一波