年度GTC技术大会上,NVIDIA CEO黄仁勋首次宣布了其下一代GPU架构,代号“Volta”(伏特),包括顶级的GV100大核心,以及Tesla V100高性能计算卡。
NVIDIA是在2013年第一次透露Volta架构的,原计划在Maxwell(麦克斯韦)架构之后上马,但因为某些原因,临时增加了一个Pascal(帕斯卡)。
据悉,Volta架构的研发投入达到了30亿美元,创造了NVIDIA的历史新高。
Volta家族的顶级核心代号GV100,将会取代GP100成为新的旗舰。
它采用台积电专门为NVIDIA定制的12nm FFN新工艺(N代表NVIDIA),或者说是16nm FinFET的改良升级版,集成多达211亿个晶体管,核心面积达到了恐怖的815平方毫米,相比于GP100分别增加了38%、34%,顺利成为史上第一大GPU核心。
其内部拥有5376个32位浮点核心、2688个64位浮点核心(还是2:1),划分为84组SM阵列、42组TPC阵列、7组GPC阵列,同时搭配336个纹理单元,都比GP100增加了40%,同时还首次加入了672个Tensor Core。
Tensor Core是一种新的核心,专门为深度计算操作加入的,更加刚性,不那么弹性,但是依然可以编程。
它本质上是一系列ALU单元的集合,可以执行4x4矩阵操作、融合乘加操作(A×B+C),还可以计算两个4xx 16位浮点矩阵的乘积,再加上一个4x4 16/32位浮点矩阵,得到一个4x4 32位矩阵。
通过在一个单元内执行大规模的矩阵乘积操作,GV100可以获得更强大的浮点计算性能。单个Tense Core每时钟周期能执行64个FMA操作(128FLOPS),官方号称整体性能比Pasal提升4倍。
每个SM阵列还拥有128KB一级缓存/共享内存,GP100核心则是24KB一级缓存/纹理缓存、64KB共享内存,总的二级缓存容量也从4MB增至6MB,不过每SM 256KB寄存器的规模没变。
显存还是搭配HBM2,位宽不变4096-bit,堆叠也是四个,只是频率提高了25%,但是得益于更好的显存效率,带宽增长了50%。
新的互连总线NVLink 2可以提供25GB/s的双向带宽,提升40%,而且每个核心拥有六条之多(GP100两条),并支持缓存一致性,预计会搭配IBM Power9处理器。
NVIDIA还透露,Volta核心及大地改变了SIMT(单指令多线程)的工作方式,32个线程束内的每个CUDA核心都有一定程度的自治,线程同步精度更高,整体效率自然有所提升。
更重要的是,单个线程可以独立完成然后重新调度到一起,这意味着有限的调度硬件又回到了NVIDIA GPU。
说完Volta GV100核心,再来看看首款基于它的产品Tesla V100。
和前任Tesla P100一样,它也不是满血的,只开启了80组SM阵列、5120个流处理器,显然是出于良品率的考虑。
其加速频率只有1455MHz,略微降低了一些,但凭借新的架构和更大规模的计算单元,性能大涨了足足42%:16位浮点30TFlops、32位浮点15TFlops、64位浮点7.5TFlops(4:2:1)。再加上Tensor单元的120TFlops,整体提升多达6-12倍。
Tesla V100还是搭配16GB HBM2,位宽不变,不过频率从1.4GHz提高到了1.7GHz。
它依然采用了和Tesla P100类似的特殊造型,NVIDIA称之为SXM2,接口应该也是新的,针脚更多,但暂未透露细节。
Tesla V100的热设计功耗还是300W,但是号称效率更高。
Tesla V100将首先以DGX-1V服务器的方式出货,一台整合八颗GPU核心,价格14.9万美元,第三季度发货。
另外,NVIDIA还宣布了两个PCI-E版本的V100核心产品,其一是250W功耗的全尺寸扩展卡,其二是150W的半高全长样式,用于高密度计算。