正文内容 评论(0)

AMD下一代GPU架构某种程度将充当CPU角色

AMD下一代GPU很像CPU
“Next-Generation GPU”是一个全新的GPU架构,目前尚不确认是否Radeon HD 7000显卡就是采用这个架构。AMD推出APU和异构计算显然已经让我们看到了AMD未来将会把GPU和CPU融合计算的思路,“Next-Generation GPU”架构更是如此,甚至有可能未来AMD GPU会充当目前CPU的角色,那么究竟它如何实现CPU的功能的呢?接下来就让我们来分析分析。

大环境促使GPU架构需要做大幅改进
首先需要分析AMD的技术背景和应用大环境,很明显AMD拥有图形技术,而在CPU技术方面处于弱势,如果能通过GPU技术弥补CPU弱势,会更容易取得竞争优势;而目前随着众多需要并行异构计算应用不断出现,CPU、GPU同时计算确实能够带来体验提升。
AMD Fusion开发者峰会(以下简称AFDS)上,微软此前就高调展示了自家对高性能并行计算的看法,他们宣称今年或明年将会推出针对Visual Studio和C++开放工具的C++ AMP (accelerated massive parallelism) 扩展程序。通过这个C++ AMP扩展程序,能够让程序员轻松调用CPU和GPU的异构并行计算性能。微软据称这个扩展程序未来将会公开,并且允许其他编译器集成它。

未来GPU担当CPU协处理器的角色
就像当年Intel 8086处理器可以搭配8087浮点处理器做协处理器使用,未来GPU的角色很有可能将会担当协处理器的角色,参与原本只有CPU才做的工作。
AMD下一代GPU可能用'graphics-enabled vector processor'(配图形功能的向量处理器)来形容更恰当,这比NVIDIA的Fermi GPU可能更过之而无不及。
这个GPU具备X86内存寻址特性,换句话说就是可以和CPU一样调用系统内存,CPU通过MMU内存控制器访问内存,而GPU则是通过IOMMU实现内存调用。这种新技术允许系统设备在虚拟内存中进行寻址,也就是将虚拟内存地址映射为物理内存地址,让实体设备可以在虚拟的内存环境中工作,这样可以帮助系统扩充内存容量,提升性能。该技术可以通过搭配具备IOMMU的AMD 8系和9系主板来实现。

同时AMD下一代GPU还具备64bit x86指针、Page fault、地址转换缓存、分配内存的功能,操作系统将会同时为CPU、GPU内存调用全面服务。当然只是能够调用内存还不够,还需要让GPU能够接替原本CPU干的活,这方面我们看到了很多希望。

我们仔细总结AMD下一代GPU的架构特性:
·每个计算单元CU将基于vector向量处理器、scalar具备协处理器和特殊图形硬件
·每个计算单元CU将会具备4线程MIMD(用于多指令多数据计算)和64-op FMAD vector向量处理器单元(用于SIMD单指令多数据计算),并支持40路SMT多线程能力
·每个计算单元CU将独占16KB L1 cache,并搭配64KB L2 cache(可以被别的CU和CPU共享)
·可支持x86兼容寻址、指针、page faults、CPU/GPU共享L2 Cache和内存

很明显,GPU将会具备处理器的架构特点,那么它和处理器架构相似程度有多高呢?接下来就让我们来对比一下推土机的架构。
下图是Bulldozer的具体结构,可以看到一个Bulldozer有2个整数运算的内核,每个内核有4个整数运算通道。4个通道内,2个ALU和AGU为一组,而现在AMD的架构是3个ALU和AGU为一组,最大能实现3个x86整数运算命令。如果是4个ALU和AGU一组的话,那么一个整数运算内核要比现有CPU内核大,如果是2个ALU和AGU一组的话,大约是现有内核的2/3。

AMD Bulldozer架构
Bulldozer模块的指令获取和解码,每个周期可处理4条指令,而计算指令与在寄存器操作的x86指令会被分成8个内部微操作指令(uOPs),整数运算管道中ALU和AGU则两两成对,正好吻合。
在浮点运算单元方面,则准备了两个整合的128bit SIMD单元,这将兼容英特尔的256bit AVX指令集,AVX将在这两个128bit SIMD单元中执行。
不过GPU缺乏的是X86扩展指令集,不过如果有高性能GPU的加入,未来X86扩展指令集可能要退休也不奇怪,Intel没准要悲催了。
当然,当GPU用于图形计算的时候,向量计算单元将会充当统一渲染架构阵列、控制器的角色,通过搭配特定的图形硬件,用于Tesselation、图形、纹理、扫面转换等工作。
我们来仔细计算一下新GPU的性能,如果假定是1GHz计算单元频率,并且可每周期处理64个64-bit FMAD计算,1个FMAD则可算成两个FP浮点操作,整个算下来,每个1GHz计算单元,理论上可以达到128 GFLOPs双精度浮点运算(如果是单精度则是64 x 32-bit计算),如果要达到HD6970显卡的性能,只需7组CU计算单元就能达到。
当然,除了硬件架构调整以外,软件方面做全面优化和加强才行。AMD 16日于美国Fusion开发者峰会上,与700多名开发者和PC业界管理人员详细阐释其Fusion系统架构发展蓝图。蓝图显示未来AMD的计算架构将会变更为Fusion System Architecture(Fusion系统架构)。

AMD计算架构演进过程
未来整合CPU和GPU处理器核心成为统一的处理引擎,而且为了强化特性,将会用于新的程序设计语言,以及如OpenCL和Direct Compute等界面,让软件开发人员更轻易全面发掘AMD加速处理器的功能。

据AMD表示,首款整合x86 CPU核心和支持DirectX 11的Radeon GPU核心的Fusion APU产品已早于1月发布,而未来AMD将会致力推动该架构的进化,当中包括按步骤支持C++的功能,令系统更充分地利用GPU的平行处理器,而且加入提供用户模式以调配CPU和GPU之间的资源,实现更低延迟的任务派发。同时,APU还会使CPU和GPU共享的统一内存地址,以及两者共享完全一致的内存,预期将持续到2014年。
编辑总评:
整体来说,AMD下一代GPU架构将会具备更多CPU架构的特点,并通过创新的共享内存、缓存平台创新,让GPU和CPU共同加速完成计算任务,也许未来CPU性能弱,通过GPU弥补也能比竞争对手要强。(文/硬派网)
本文收录在
#快讯
- 热门文章
- 换一波
- 好物推荐
- 换一波
- 关注我们
-
微博:快科技官方
快科技官方微博 -
今日头条:快科技
带来硬件软件、手机数码最快资讯! -
抖音:kkjcn
科技快讯、手机开箱、产品体验、应用推荐...
