3月30日晚,Intel终于发布了预热良久的Arc锐炫系列独立显卡,代号Alchemist(炼金术师)。
Intel的上一款高性能游戏独立显卡,还要追溯到1998年的i740,但是昙花一现之后就没了,后来的Larrabee独显计划也没能开花结构(除了衍生出短命的Xe Phi加速卡)。
现在,24年过去了,Intel终于回归游戏显卡!
Intel Arc显卡包括3、5、7三大系列,分别定位主流游戏、性能游戏、发烧游戏。
首批登陆笔记本移动端(后续陆续进入桌面台式机和工作站),而首发的是主流的3系列,5、7系列将在今年初夏面世。
平台搭档主力是12代酷睿H45、P28系列高性能处理器,也入围了Intel Evo严苛认证。
【型号/规格/性能:最高飙到150W】
Arc A系列有大小两种不同的GPU芯片,其中大的编号“ACM-G10”,拥有32个Xe核心(可以粗略地理解为512执行单元)、32个光追单元、16MB二级缓存,搭配256-bit GDDR6显存,支持PCIe 4.0 x16。
小的编号“ACM-G11”,8个Xe核心,8个光追单元,4MB二级缓存,96-bit GDDR6显存,支持PCIe 4.0 x8。
它们都具备2个Xe媒体编解码引擎、4个显示通道。
产品方面,Arc 3系列首发两款型号,高端的Arc A370M核心频率1550MHz,64-bit 4GB显存,功耗范围35-50W。
Arc A350M精简到6个Xe核心、6个光追单元,核心频率降至1150MHz,显存不变,功耗范围则是25-35W。
Arc 5系列目前仅一款型号Arc A550M,16个Xe核心、16个光追单元,核心频率仅900MHz,搭配128-bit 8GB显存,功耗60-80W。
Arc 7系列将有两款型号,满血的是Arc A770M,32个Xe核心(512执行单元)、32个光追单元,核心频率高达1650MHz,配备256-bit 16GB显存,功耗范围高达120-150W。
Arc A730M精简到24个Xe核心、24个光追单元,核心频率1100MHz,显存降至192-bit 12GB,功耗80-120W。
值得一提的是,Arc显卡的核心频率并不是固定的,而是有一个动态范围,可以根据不同负载自动调节,规格表中的频率只是一个平均值。
性能方面,Arc A370M显卡搭配i7-12700H处理器,1080p中等画质下,大部分主流游戏都可以稳定超过60FPS,《GTA5》、《火箭联盟》等则可以超过90FPS。
对比12代酷睿i7-1280P中集成的96个执行单元、1450MHz频率的锐炬Xe核显,综合游戏性能高出一倍左右。
而在内容软件中,得益于优化适配,性能提升幅度最多可以达到1.4倍。
目前,基于Arc A300M系列的笔记本正在陆续问世,品牌包括宏碁、华硕、戴尔、海尔、惠普、联想、微星、三星、蓝天、闻泰等等,Intel NUC迷你机也会加入。
在国内市场,Arc笔记本将从下个月开始上市。
【内核架构:这次完全变了】
Intel Arc锐炫显卡基于高性能的Xe HPG架构,基本组成单元包括Xe内核、Xe媒体引擎、Xe显示引擎、Xe图形流水线等,我们逐一来看。
大家知道,Intel GPU多年来的基本模块一直都是“执行单元”(EU),Xe HPG架构上变成了全新的“Xe核心”(Xe Core)。
Xe核心中又包含16个256位矢量引擎(XVE)、16个1024位矩阵引擎(XMX)、192KB共享缓存、载入存储单元等等,其中缓存可以根据工作负载,在一级缓存、共享本地内存(SLM)之间动态分配。
Xe核心的上一层级是渲染切片(Render Slice),每个包含4个Xe核心、4个光追单元、4个纹理采样器、几何前端、光栅前端、HiZ单元、2个像素后端。
渲染切片可以多组结合扩展,Arc显卡最多有8个。
Arc显卡完整支持DX12 Ultimate、Vulkan,并且同时支持DXR光追、Vulkan光追。
这就是Arc显卡完整的内部架构图。
矢量引擎改进了ALU单元,提供专用的FP浮点执行接口,共享的INT/EM整数执行接口,每个时钟周期可以执行16个FP32操作、32个FP16操作、64个INT8操作。
由于AI算法核心几乎完全围绕矩阵乘法、累加算法,所以Xe核心里加入了单独的矩阵引擎,专门用于执行XMX指令。
它具备独立的执行端口,每个时钟周期可以执行128个FP16/BF16操作、256个INT8操作,512个INT4/INT2操作。
【XeSS:化腐朽为神奇的超分辨率缩放】
针对矩阵引擎不同指令的处理操作,Intel也做了详细的解释,我们来简单了解下。
MAC作为图形渲染中的基本SIMD矢量指令,也是Xe矢量引擎的核心,可以执行8次并行乘法,然后执行8次并行加法,每个时钟周期就是16个操作。
上图最左侧水平方向的前排、后排蓝色方块,就代表操作数,上下的方框则代表累积的源和结果。
DP4a指令是针对不需要32位精度的AI计算所做的优化,工作原理是将所有32位输入分成8位块,然后独立执行,总共32次并行乘法(紫色方块),每个时钟周期就是64个操作,相比标准SIMD MAC提高了4倍。
XMX指令也是每个操作分成4个块,然后独立相乘、累加,共有64个操作,每个时钟周期4个阶段就是256个操作,由此带来16倍的算力提升。
XMX矩阵引擎最直接的作用就是支撑XeSS超采样抗锯齿技术,类似NVIDIA DLSS、AMD FSR,可以通过低分辨率渲染、高分辨率缩放输出,提升游戏性能,并得到类似或超越原生的画质。
XeSS已经得到了十多款游戏的支持,不过目前还不可用,会在今年初夏正式面世。
下边感受一下XeSS在实际游戏中的效果,左侧是1080p原生渲染,右侧是4K XeSS缩放渲染,可以明显看到后者的画面质量高得多,细节也更加丰富、锐利。
至于性能提升幅度,Intel暂时没有给出具体数据。
【多媒体:首发全新视频格式AV1】
Xe媒体引擎可以为主流视频软件带来硬件加速,解码支持高达8K60 12-bit HDR,编码支持高达8K 10-bit HDR。
视频编解码格式不但支持MPEG-4、VP9、AVC、H.264、HEVC(H.265),更是首发支持AV1硬件编码、解码。
AV1的编码效率相比H.264、H.265分别高出50%、20%,能够以更小的文件、更少的带宽带来更高的画面质量,关键是开放的,无需版权费,是开放媒体联盟力推的技术。
这个联盟的成员都是大名鼎鼎的巨头,包括亚马逊、苹果、ARM、思科、Facebook、Google、华为、Intel、微软、Mozilla、Netflix、NVIDIA、三星、腾讯等等。
AV1还在起步阶段,但普及速度很快,尤其是解码方面,NVIDIA RTX 30系列、AMD RX 6000系列,联发科天玑1000开始,Windows 10系统和不少视频软件、视频网站、视频设备,都已经支持。
来对比一下AV1、H.264在游戏直播中的画质差异,分辨率都是1080p,码率都是5Mbps。
【显示:支持平滑同步】
Xe显示引擎支持HDMI 2.0b、DisplayPort 1.4a输出标准,并且为下一代DisplayPort 2.0 10G做好了准备。
视频输出也支持极高的分辨率、刷新率,最高可以双路8K60 HDR、四路4K120 HDR,以及1080p360、1440p360。
同步技术更是带来了三种,最常见的是VESA标准的Adaptive Sync(适应性同步),与显示器刷新率同步,消除画面撕裂,当今多数游戏本的屏幕都支持该技术。
其次是Speed Sync(加速同步),可以在关闭V-Sync垂直同步后,为当前帧提供加速,不仅可以消除撕裂,还具备低延时、无上限的优点。
最后是新的“Smooth Sync”(平滑同步),通过抖动过滤功能,对画面撕裂进行模糊化处理,保证同步无撕裂、无失真。
【Deep Link:CPU+GPU协同发力】
处理器、显卡都是自己家的,自然要联合作战,这就是Deep Link技术,可以让酷睿处理器、核显、独显协同释放各自的潜力,主要应用包括三个方面。
一是动态功率共享,支持12代酷睿平台,原理很简单,就是根据不同的负载,动态调节CPU、GPU的功耗配比,玩游戏就多给GPU。
AMD平台有相同的技术SmartShift,NVIDIA也有类似的,但自己没有CPU处理器,效果自然大打折扣。
二是超级编码,通过oneVPL API,可以让独立显卡、核芯显卡共同进行视频编码,处理不同的帧画面,再合成。
三是超级算力,联合基于机器学习的MLS框架,结合XMX引擎加速,可以智能地将计算负载分配给独立显卡、核芯显卡各自的计算引擎,比如处理视频的时候,将画面分成不同区块,交给两种显卡,处理完毕后再合成输出。
Intel宣称,在内容创作上,动态功率共享、超级编码、超级算力可以分别带来最多30%、60%、24%的性能提升。
Intel也展示了超级算力的应用实例,将低画质的视频AI处理缩放到高分辨率画质。
【驱动面板:焕然一新 监控优化都在行】
硬件有了,驱动自然也要跟上,Arc显卡将搭配全新的“Arc Control”驱动控制面板,功能更加丰富,包括游戏驱动、性能调优、全局设置、游戏库、创作者工作站等模块。
性能调优部分,可以实时监测查看各种硬件指标,频率、电压、占用率、温度、风扇转速等等,还可以设置监测涂层,随时覆盖查看。
未来的桌面产品,还会支持调节功耗、风扇转速等,不知道是否会加入超频……
创作者工作站部分,可以方便地进行直播、AI摄像头强化(背景模糊/背景替换/删除和自动补帧等)、自动生成游戏高光时刻。
等了这么久,Intel高性能独立显卡终于来了,你准备好了吗?
|