作者私密文章,无浏览权限
因版权限制,过往内容只提供给老鸟级别及以上用户访问
快科技5月13日消息,开发者Stormrage34近日发布llama.cpp分支TurboQuant-HIP v0.3.0版本,通过重写矩阵乘法内核,成功将AMD RX 6800 XT显卡的MoE大模型预填充速度从上游llama.cpp主分支下的约48