正文内容 评论(0)
快科技5月19日消息,在AI显卡领域NVIDIA一家独占了90%的市场份额,之所以领先不仅在于纸面性能强,实际AI算力也是远超AMD、Intel等对手的,不过AMD现在有机会追回来了。
AMD今年下半年会出货MI450系列AI显卡,这一代的AI竞争力上来了,但是当前的MI350X系列还是很多厂商部署没多久的,依然需要挖掘潜力,AI云服务商 Zyphra日前就发布了首份基于 AMD旗舰AI显卡MI355X的端到端大模型推理实测。
先说结论,他们的测试在真实单节点环境下运行了DeepSeek V3.2、Kimi K2.6 与 GLM-5.1,最终显示MI355X有能力直接对标NVIDIA的Blackwell架构AI显卡B200。
文章内容比较长,来看点重点的,首先是AMD强的地方,其杀手锏是288GB的海量显存,远超B200的180GB,更大容量的显存让MI355X处理超长文本时,单卡就能塞下更多缓存,直接省下了拆卡并行的硬件成本。
但AMD的劣势在芯片间互联带宽上,B200靠NVLink技术就能让任意双卡跑满900GB/s带宽,相比之下AMD的MI355X还在采用点对点Infinity Fabric直连,卡间通信效率一般,带宽峰值也就537.6GB/s。
既然AMD的显卡带宽硬件上有缺陷,Zyphra 就在软件优化上下了功夫,他们开发了张量序列并行 (TSP) 与树状注意力 (Tree Attention) 算法来解决问题。
他们的团队用树状通信取代了传统的环形网络,把解码阶段的计算和数据传输完全折叠在一起,强行用算法弥补了AMD硬件在点对点互联上的缺陷。
最终的效果还不错,虽然在单请求绝对速度上,NVIDIA B200肯定还会全面领先,,但是随着长文本场景增多,而且上下文拉长之后,MI355X加上算法优化之后吞吐量已经逼近B200。
Zyphra用实例证明只要底层软件栈优化够好,AMD的AI显卡也能依靠大显存优势在长文本生产环境中与NVIDIA 的旗舰级AI显卡正面竞争。
有了这些经验之后,Zyphra 计划利用这套架构支持1.6万亿参数的DeepSeek V4 Pro部署,并将上下文拉升至100万token。
团队后续还将针对MI355X开发专属的低精度量化方案,并引入全新的扩散投机采样模型,进一步挖掘这块芯片的算力潜能。
- 热门文章
- 换一波
- 好物推荐
- 换一波
- 关注我们
-
微博:快科技官方
快科技官方微博 -
今日头条:快科技
带来硬件软件、手机数码最快资讯! -
抖音:kkjcn
科技快讯、手机开箱、产品体验、应用推荐...






