上游不优化我自己来！五年老卡RX 6800 XT内核魔改：MoE速度暴增至1770t/s--快科技--科技改变未来

正文内容 评论（0）

上游不优化我自己来！五年老卡RX 6800 XT内核魔改：MoE速度暴增至1770t/s

2026-05-13 11:35:35 出处：快科技作者：红茶编辑：红茶评论(0)

快科技5月13日消息，开发者Stormrage34近日发布llama.cpp分支TurboQuant-HIP v0.3.0版本，通过重写矩阵乘法内核，成功将AMD RX 6800 XT显卡的MoE大模型预填充速度从上游llama.cpp主分支下的约480 t/s提升至1770 t/s

该团队长期维护面向AMD GPU深度适配的llama.cpp专属分支，专门针对AMD硬件特性优化大语言模型推理性能。

上游官方版本llama.cpp此前将AMD GPU作为通用后端适配，核心计算内核均针对NVIDIA架构开发，随后直接移植到AMD后端，在RDNA2架构上存在大量带宽浪费问题，MoE场景运算完全受内存带宽限制。

该团队从HIP底层切入做针对性改进，新开发的基于BFE的IQ4_XS反量化内核，独立运行速度较原有方案提升13倍。

同时，新增异步流水线调度逻辑，将内核启动延迟和运算过程做重叠处理，直接降低31%的内核启动开销。

带来MoE场景约4倍性能跃升的核心，是实验性LDS双缓冲矩阵乘法内核，实现权重加载和DP4A计算并行，最大化利用硬件算力资源。

目前该核心优化功能仅开放手动标志位启用，仍存在对称瓦片尺寸下的LDS存储体冲突问题，导致延迟波动偏高暂不适合生产环境，完整修复方案已经制定完成。

用户可通过项目仓库提供的脚本直接构建测试版本，无需修改CMake配置文件，该分支完整保留上游全部原有功能。

【本文结束】如需转载请务必注明出处：快科技

责任编辑：红茶

文章内容举报

文章价值打分

当前文章打分0 分，共有0人打分

0
0
0
打赏
|

分享好友:
分享至QQ
分享至微博
分享至QQ空间
|

生成海报

本文收录在

#RX6800 #RX 6800 XT #RX 6800 #AMD

好物推荐

换一波

关注我们

微博：快科技官方
快科技官方微博
今日头条：快科技
带来硬件软件、手机数码最快资讯！
抖音：kkjcn
科技快讯、手机开箱、产品体验、应用推荐...

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章

换一波

好物推荐

换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章 换一波

好物推荐 换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容评论（0）

热门文章

换一波

好物推荐

换一波