正文内容 评论(0

深度解析NVIDIA的三极化战略:Denver和Tegra没关系?
2011-09-03 16:41:14  出处:快科技 作者:ChrisR 编辑:ChrisR     评论(0)点击可以复制本篇文章的标题和链接
Project Denver究竟目的在哪?

那么,Project Denver开发的CPU核心究竟是什么样的东西呢?可从2010年11月在美国路易斯安那州新奥尔良市召开的HPC相关技术大会"SC10"上窥见一斑,同时也可从NVIDIA在GTC Workshop Japan 2011上公开的Roadmap中"Echelon"高性能HPC向平台推测出部分内容。

深度解析NVIDIA的三极化战略:Denver和Tegra没关系?
Echelon计划成员实力强劲,包括Cray、美光、洛克希德马丁等著名公司,以及加州大学、斯坦福大学、德州大学奥斯汀分校、佐治亚理工学院、田纳西大学、宾夕法尼亚大学、犹他大学、橡树岭国家实验室等著名科研院校

Echelon计划的来头颇大,主导机关是美国国防部下属的DARPA(国防尖端技术研究开发计划局),目标是在2018年实现ExaScale级别计算能力的超级计算机(UHPC),Echelon的开发受到这一项目的经费资助。DARPA资助经费的规定为,在2014年前完成Phase1阶段的开发,即设计完成硬件部分,同时要报送DARPA审查

NVIDIA首席科学家Bill Dally在SC10大会上的演讲内容中透露,Echelon为128个SM模块和Project Denver的基础——名为Latency Processor的8个CPU核心所组成,其中每个SM模块含有8个CUDA Core和独立的L0 Cache。据此计算,Echelon芯片整体含有8*128=1024个CUDA Core

深度解析NVIDIA的三极化战略:Denver和Tegra没关系?
NVIDIA首席科学家Bill Dally

各个SM模块独立命名为"NoC"(Network on Chip)通过内部界面,经由L2 Cache和内存控制器与其他SM相互连接。L2 Cache和CUDA Core数量一样分1024块,单个Echelon芯片中,NoC通过MC与一同封装的DRAM Cube连接带宽可达1.4TB/s

Echelon芯片的峰值计算性能(以双精度浮点运算记)可达20T FLOPS。NVIDIA设想的每个Echelon机柜搭载32个模块,每个模块封装4个Echelon芯片,这样单个机柜的运算能力可达2.56P FLOPS。Echelon的Phase1(第一阶段)设计就是如此,NVIDIA将在此基础上第二阶段主要考虑继续提高运算性能和降低芯片所消耗的电力。

深度解析NVIDIA的三极化战略:Denver和Tegra没关系?
Echelon模块图解

深度解析NVIDIA的三极化战略:Denver和Tegra没关系?
Echelon由128个SM模块和8个Latency Processor组成,后者就是Denver的核心

深度解析NVIDIA的三极化战略:Denver和Tegra没关系?
内存和每个Echelon的MCM(Multi Chip Module)Node在同一封装内相连,带宽可达1.4TB/s

深度解析NVIDIA的三极化战略:Denver和Tegra没关系?
每个Echelon机柜由128个Node(即单Echelon芯片)组合而成,实现2.56P FLOPS的计算能力,功率38千瓦

深度解析NVIDIA的三极化战略:Denver和Tegra没关系?
400个机柜即可实现Exa级别的计算,功率约150万瓦

为了配合UHPC一期开发阶段制造Echelon工程样品的需要,2013年前需要完成Latency Processor即Project Denver的CPU核心开发工作。

这和NVIDIA在GTC Workshop Japan 2011上公开的最新平台路线图相符合,Project Denver将和NV的下下代GPU核心"Maxwell"在同一时段登场。公布的幻灯片将Denver和Maxwell划在了同一个框内,或许Echelon就是Maxwell和Denver核心的组合体

深度解析NVIDIA的三极化战略:Denver和Tegra没关系?
NVIDIA的GPU发展路线图

深度解析NVIDIA的三极化战略:Denver和Tegra没关系?
GTC Workshop Japan 2011上公开的各平台框架图

不过和Echelon专注于通用计算不同的是,作为需要兼顾到原本3D应用的GeForce系列芯片,Maxwell不太可能采用像前者一样激进的GPGPU专用架构。根据前面Echelon拥有1024个CUDA Cores实现20T FLOPS计算能力推算,如果Maxwell和Fermi成品旗舰显卡的TDP相当,在250W左右的话,双精度浮点性能大约为3.5-4T FLOPS为Tesla的15倍,Fermi的7.5倍左右,和NV路线图展示的比例相近。但如果两者架构相同,Maxwell的CUDA核心数可能会降到200左右,现在NVIDIA旗舰显卡GTX 580则有512个。由此看来除非NV桌面显卡架构也跟着大变,否则Maxwell和Echelon不太可能采用同样架构,两者的GPU性能不是为同一级别应用设计

此外,黄仁勋也曾经发表过关于Project Denver性能的评论,他在GPU Technology Conference 2010会议上曾经表示,将GPU和现有的ARM架构CPU(Cortex-A9)整合后,整数运算性能将是原有的3-4倍。如果这里整合产物指的是Project Denver,那么它的性能将是下代ARM Cortex A-15的2倍以上。如果此目标真能实现,那么NVIDIA将在ARM阵营内争夺主导权的战斗中占据上风,Project Denver也将圆满完成目标。

深度解析NVIDIA的三极化战略:Denver和Tegra没关系?
ARM公开的Cortex-A15对比同频Cortex-A9的性能对比图,如果Project Denver是Cortex-A9性能的3-4倍,那么将是Cortex-A15性能的2倍以上

Desai曾经称NVIDIA的CPU核心开发部分在同时推进多个计划,在笔者看来,Project Denver或许还有另外一个出路——进驻基于Windows 8的笔记本电脑用SoC(System on a Chip)市场

回顾一下前面提到的内容,Echelon、Maxwell和Denver核心的功耗都比较高,进驻笔记本电脑SoC芯片市场的可能性很小。而目前还没有Tegra和Project Denver合并的计划,Tegra处理器在2011年2月MWC 2011大会上公开的路线图也多是针对智能手机和平板电脑市场,并且Tegra的性能目前看来也只适合低端笔记本。 此外,2013年Intel和AMD预计都将力推超薄笔记本电脑所用CPU SoC化,特别是Intel从现在就开始力推Ultrabook概念。难得Windows 8开始支持ARM架构处理器,NVIDIA没理由不参与这一世代的笔记本电脑市场竞争

这样看来,Tegra可能会从Project Denver的第二代CPU核心开始与后者整合。目前我们得知的消息是,四核Kal-El的下一代Tegra "Wayne"和下下代"Logan"均将使用Cortex-A15架构,而2014年的"Stark"就是Tegra和Denver的最好整合时期。至于Stark以后NVIDIA将怎样活用Project Denver的成果继续发展Tegra品牌产品,我们大可拭目以待。

深度解析NVIDIA的三极化战略:Denver和Tegra没关系?
Tegra产品发展路线图

总结:Project Denver是NVIDIA在CPU+GPU混合计算时代掌握市场主导权的最重要计划,此后NV旗下产品将主要分为三大块:着重于GPGPU的高性能计算处理器,3D游戏用GPU和移动设备包括笔记本电脑、平板电脑和智能手机的Tegra三足鼎立,对比最早单GPU和近年来Tegra+GPU的战略做了重大变革。

【本文结束】如需转载请务必注明出处:快科技

责任编辑:

  • 支持打赏
  • 支持0

  • 反对

  • 打赏

文章价值打分

当前文章打分0 分,共有0人打分
  • 分享好友:
  • |
本文收录在
#快讯

  • 热门文章
  • 换一波

  • 好物推荐
  • 换一波

  • 关注我们

  • 微博

    微博:快科技官方

    快科技官方微博
  • 今日头条

    今日头条:快科技

    带来硬件软件、手机数码最快资讯!
  • 抖音

    抖音:kkjcn

    科技快讯、手机开箱、产品体验、应用推荐...