正文内容 评论(0)
【AI新时代的Radeon AI PRO显卡】
专业的工作站不但需要专业的处理器,也需要专业的显卡,尤其是在一些图形相关工作中,显卡的作用有时候甚至更加重要,这也就是为什么叫“图形工作站”。
AMD专业显卡最早叫FirePro,后来更名为Radeon PRO,从现在开始又有了新名字Radeon AI PRO,和锐龙AI处理器一样都是突出AI。
不同层级的处理器、新卡、内存搭配,AMD已经形成了全套AI解决方案,搭配ROCm软件平台,更是如虎添翼。
比如移动端的锐龙AI Max处理器,搭配强大集显、LPDDR内存,主要面向个人推理应用,适合中小型大模型。
工作站级的撕裂者处理器搭配Radeon AI PRO显卡、GDDR内存,可满足多GPU的边缘与本地推理应用,可轻松处理中等模型。
数据中心级的EPYC处理器搭配Instinct加速卡、HBM内存,是大规模训练与推理的首选,面对任何大型大模型都毫无压力。
Radeon AI PRO显卡和Radeon RX 9000系列游戏卡一样,也是基于 RDNA4架构,采用台积电4nm工艺,单芯片,539亿个晶体管,内核面积356.5平方毫米。
新架构改进了指令处理器,优化了缓存系统,包括2MB计算单元缓存、8MB二级缓存、64MB第三代无限缓存,还升级了第二代AI加速器,改进Tensor计算能力,新增8位浮点数据格式,支持结构化稀疏性。
基础架构模块仍然是CU计算单元,但做了全面翻新,两个为一组,增强矩阵操作能力,改进了标量单元、调度器、光追加速器。
首款产品是Radeon AI PRO R9700,拥有64个CU计算单元(4096个流处理器)、64个光追加速器、128个AI加速器,搭配256-bit 32GB GDDR6显存,
峰值性能在FP16半精度浮点下为96 TFLOPS,FP16 Dense可以做到191 TFLOPS,INT4稀疏精度下为1531 TOPS。
整卡功耗300W,和最高端游戏卡RX 9070 XT一样。
值得一提的是,Radeon AI PRO R9700不但有AMD公版,还会有大量的AIB品牌产品,包括华擎、华硕、技嘉、撼迅、蓝宝石、讯景、盈通。
Radeon AI PRO R9700对比上代Radeon PRO W7800,在核心数更少的情况下,实现了FP32性能持平,FP16/BF16性能翻倍,INT8/INT4性能达到4倍,还新增了FP8、结构化稀疏性。
实际性能对比,以DeepSeek-R1大模型输出Tokens速度为例,R9700可以轻松碾压W7800,尤其是在70-80亿参数规模时优势最大,甚至可以领先1倍有余。
选择32GB显存,因为这可以满足流行大模型典型的显存占用,还有一定富裕,从而战未来。
当然,如今的大模型已经不过分追求更多参数、更大体积,对于显存的需求也会在一定时间内保持基本稳定。
Radeon AI PRO R9700还支持灵活的多卡并行,目前最多可以做到四卡,后续将升级到八卡,更好地满足并发实例应用。
比如四卡并行跑DeepSeek-R1 32B蒸馏模型,最多可以做到180个并发,每秒输出Tokens将近1800个,平均每个实例都接近10个。
当然,并发越少,平均输出速度就越快,比如8个实例平均就超过35个Tokens。









