正文内容 评论(0)
【NPU 5:不盲目追求高算力 更在意高效率】
NPU的历史不算长,但在各家的AI战略中,它都是非常关键的一环,和CPU、GPU共同组成AI计算矩阵,各有各的长处。
无论是Intel、AMD,还是高通、联发科乃至苹果,都是这么做的。
Intel一直坚持XPU策略,CPU、GPU、NPU都要利用起来,各司其职。
NPU的优势是超高能效,适合持续运行特定负载,尤其是后台负载,比如视频会议效果、游戏助手、AI助手等。
CPU的优势是快速响应,适合对响应速度要求很高、但负载不是很重的负载,比如语音转文字。
GPU的优势是算力强、带宽高,适合对性能需求极高的繁重负载,包括游戏、内容创作等。
根据Intel的观察,目前的AI负载中,主要跑GPU能占到超过60%,NPU利用率正在快速提升已经超过20%,CPU则有10%以上。
当然,CPU、GPU、NPU三者也不是彼此隔离的,同样一个AI应用,可以将不同负载分配给不同引擎,达到尽可能高的性能和效率。
Lunar Lake上搭载的NPU是第四代(Arrow Lake第三代),具备6个神经计算引擎、12个增强SHAVE DSP、优化的MAC阵列,最大算力48 TOPS。
Panther Lake NPU升级到了第五代,架构方面没有太大变化,最大变化就是将每一组MAC阵列的规模直接扩大一倍,同时减少了前后端的诸多单元,使之更加高效。
可以理解为将原来的两组MAC合并,共享前后端单元。
这样一来,NPU 5 NCE(神经计算引擎)的数量从6个变成3个,SHAVE DSP、推理流水线、数据转换单元、激活函数单元、载入存储单元等等随之全部减半,但是MAC阵列大大增强到了12K。
另外还有256KB二级缓存、4.5MB便签内存(SPM)用于存储占用部分地址空间的数据或指令。
Panther Lake NPU的算力最高为50 TOPS,相比Lunar Lake上的48 TOPS几乎没有增长,持平AMD,远低于骁龙X2 Elite系列的80 TOPS。
不过可以看到,Panther Lake NPU的面积比Lunar Lake上缩小了很多,单位面积的算力能是猛增了超过40%。
正是Intel NPU的发展思路,不盲目追求高算力,因为GPU才是最适合跑高算力负载的,NPU的优势就是高能效,在尽可能小的面积、尽可能低的功耗下发挥适合的算力,才是最适合NPU的做法。
硬件变化的同时,NPU 5也针对最新AI负载做了优化适配,比如新增加了原生FP8数据格式,包括E4M3和E5M2两种格式。
FP8相比于FP16虽然牺牲了一些精度,但是可以大大减少内存/显存占用,吞吐量、能效也都高了一倍。
INT8/FP8都支持16×16×16矩阵计算,每时钟周期均为4096 MAC,FP16则是16×16×8计算和2048 MAC。
格式转换单元增强后,针对原生FP32后期处理流水线做了架构上的重构,广泛支持FP32、FP16、BF16、FP8、INT8、INT4。
至于NVIDIA力推的FP4,Intel表示会保持观察,视需要而定,毕竟它还远不是行业标准,各有各的实现方式(NVIDIA的就直接叫做NVFP4)。
事实上,FP8也还没有成为IEEE754组织行业标准,但是Intel强调对它的支持与行业主流基本对比,对比NVIDIA支持的FP8差别很细微,并且推理前可以直接转换,对实际应用和性能表现基本没有影响。
Panther Lake三大AI引擎的总算力最高为180 TOPS,其中GPU最强达120 TOPS,NPU次之为50 TOPS,CPU最弱为10 TOPS。
这种算力分布,是非常符合它们各自的负载应用需求的。








