一场“站起来”的革命堆叠内存技术解析--快科技--科技改变未来

正文内容 评论（0）

一场“站起来”的革命堆叠内存技术解析

2014-12-18 05:00:00 出处：中关村在线编辑：快科技评论(0)

#电脑

1内存从此“站起来”了

一场存储的革命正在悄悄酝酿，你感受到了么？

作为最老资历的PC组成部件，内存及内存存储体系已经拥有了几十年的历史，在其漫长的发展过程中也曾经历过数次重要的变革，但无论是从FP到EDO，还是从SD到DDR，这些变革的意义均无法与即将发生的这场革命相提并论，这场革命的名字，叫堆叠内存。

一场“站起来”的革命堆叠内存技术解析

与以往的技术进步不同，堆叠内存并未直接提升内存的速度或者信号模式，但它却同时实现了内存存储速度的提升、容量的激增以及能耗的大幅降低。用一句贴切的话形容，堆叠内存的革命让内存从此“站起来”了。

一场“站起来”的革命堆叠内存技术解析 内存的最重要革命即将到来

想要融入到这场革命当中，我们首先要明白什么是堆叠内存，所以在接下来的时间里，就让我们一起看看堆叠存储体系的技术细节吧。

2从平房到楼房

从平房到楼房

与以往的内存形式不同，堆叠内存的最大特点在于向“空间”要“空间”。前一个“空间”指的是立体空间，后一个“空间”则指存储空间。传统内存的存储模式以平面分布为基础，所有存储颗粒均分布于二维平面当中，除了使用更大容量的单颗颗粒之外，传统存储如果要拓展容量就只能占用更多的平面空间（在PCB上敷设更多颗粒并使用更长的连线）。堆叠内存改变了这一传统，将颗粒集中在一起并向“上”进行了空间的延伸，在相同的“占地面积”下，堆叠内存能够实现数倍于传统内存的存储容量。

一场“站起来”的革命堆叠内存技术解析 堆叠内存

定义永远是干涩的，所以我们还是换个方式来看待堆叠内存的革命吧——堆叠内存相对于普通内存的差异，就像楼房相对于平房的差异一样。

假设有这样一个社区，社区内的所有房子都是单层的平房，每户平房代表了一户人家，这个社区的形态就可以被看做是传统的内存体系了。社区如果想要增加人口数量就要修更多的平房，所以就只能不断的向外拓展自己的总面积，而且随着平房数的增长，平房到平房（非紧邻）之间的距离也会急剧拉大，人与人之间沟通的时间也会变得越来越长，这些都折射出了传统内存的瓶颈所在——无论内存、显存或者SSD，甚至是手机/平板电脑的NAND，传统内存体系在提升容量时都会受到来自PCB面积的约束，互联线长/带宽以及通讯延迟也会随之增大。

一场“站起来”的革命堆叠内存技术解析 堆叠内存本质上就是从传统内存的“平房模式”进化到了“楼房”

相对于传统内存，堆叠内存所做的改进就是把平房换成了多层的楼房，该技术将若干片DRAM颗粒垂直叠放在一起，这相当于使用平房时期一户人家的占地面积来盖一座能够容纳若干户同时居住的楼房，过去小区所占面积内能够容纳的人口及住户一下子就翻了好几倍。不仅如此，因为楼房楼层的垂直距离短于平面延伸平房的距离，人与人之间的物理距离也比平房时缩短了许多，沟通更加便利且可以实现更大规模的并行化通讯。所以相对于传统内存，堆叠内存的联线、带宽以及延迟均拥有很大的优势。

一场“站起来”的革命堆叠内存技术解析 堆叠内存结构

平房改楼房，小区变新样，改传统的2维平面存储为3维立体存储，这就是堆叠内存最大的特点。当然，这事儿说起来似乎挺容易，做起来却是相当困难的。要实现堆叠内存，我们需要在技术上功课两大难关：内存控制管理，以及垂直方向上的联线工艺。

值得庆幸的是，我们在讨论这两个技术问题时仍旧可以将“平房改楼房”这件事儿进行到底。

3参见楼长大人

参见楼长大人

先来看看内存控制管理的问题吧。

堆叠内存带来了很多与过去截然不同的存储模式，它将更多颗粒布置在了更小的面积当中，这在提升容量和带宽的同时也导致了新的问题，那就是内存控制器所面临的管理层级和管理范围有了显著的变化。突然激增的内存颗粒和并行存储链路对内存控制器提出了极大的挑战，如果依旧采用传统结构，让全部内存颗粒都去对应单一且统一的内存控制器的话，无论CPU还是GPU都要可能要做到巴掌大甚至脸盆大……

要解决这个问题，我们依旧可以将视线转移到楼房小区当中去——你住的楼有“楼长”么？

一场“站起来”的革命堆叠内存技术解析 Logic Layer当中包含二级存储管理机制

楼房格局大幅提升了小区的居住密度，同时也给街道管理带来了毫无疑问的困难，居委会理论上不可能太大，理论上不可能面面俱到的对人口突然增长了数倍甚至十几倍的居住区继续行使与过去相同的管理，要想有效管辖激增的高密度住户，唯一的选择就是在基本单位当中寻找协助者，所以楼长这种设置也就应运而生了。楼长一般为楼房本身的居民之一，他们并不属于直接的管理体系，但却可以以楼栋为单位将信息汇总然后传递给街道，并且协助完成居民与街道居委会之间的沟通联系工作。对于街道而言，只要管理好楼长阶层就可以做到对基层居民的管理工作了。

一场“站起来”的革命堆叠内存技术解析 拥有Base Die的HBM内存（图片源自后藤弘茂blog）

与楼长的设置类似，堆叠内存在解决内存控制器瓶颈的过程中也引入了一级新的沟通机制，每一颗TSV内存颗粒的最底层都拥有独立的Base/Logic Die，其上集成了能够管理整簇堆叠颗粒的芯片，这些芯片将与内存控制器直接沟通，可被用来收集堆叠颗粒当中的数据、并帮助内存控制器对其实施管理。在堆叠内存体系当中，内存控制器的规模甚至不会有明显的变化，它只需要面向这些Base Die当中的芯片即可，对每簇颗粒当中各层DRAM的管理将由Base Die完成。

有了“楼长大人”的协助，堆叠内存的管理将不再成为问题。

4找捷径？修个楼梯吧

找捷径？修个楼梯吧

整个堆叠内存体系最大的实践难点并不是内存控制体系的变动，而是互联问题的解决。堆叠之所以被称之为“堆叠”，就是因为其将若干片DRAM颗粒摞在一起放置的形式，这种堆叠方式不仅节约空间，而且能够带来更短的颗粒间距进而缩短信号传输路径及延迟，但这些颗粒不是光放在一起就能解决问题的，你还必须想办法把它们连起来才行。这个互联的过程成了困扰堆叠内存的最根本问题，直到TSV技术成熟的之后才得以解决。

什么是TSV？这事儿其实说起来也挺简单的，要找楼房里沟通楼层的东西，那不就是现成的楼梯么？

一场“站起来”的革命堆叠内存技术解析 意法半导体实现的TSV工艺

平房社区的一切都是平面化的，路径也是一样，如果您要从自家到某个邻居那里去串门可能需要走上几十甚至上百米，小区越大这问题就越明显，但楼房不同。楼房的垂直结构不仅大幅提升了居民容纳的能力，同时也缩短了住户之间的物理距离——想找小伙伴？下个楼梯就行了。

跟楼长一样，楼梯的经验同样可以使用在堆叠内存体系当中，堆叠DRAM之间的垂直互联不仅距离更短而且延迟更低，这是堆叠显存的一大优势。但跟楼梯至于楼房的那份理所当然不同，在堆叠内存体系当中实现楼梯并不容易。盖楼房这事儿之所以拖到今天，可以说最大的困难就在于人们一直没能掌握在楼房里安全并且相对廉价地造楼梯的技术。

一场“站起来”的革命堆叠内存技术解析 复杂的垂直互联构成了堆叠内存的“楼梯”

在堆叠内存体系当中，厂商会采用名为穿透硅的技术对DRAM颗粒的边缘或特定位置进行穿孔处理，然后以这些孔为通路进行布线并完成垂直互联，但通孔过程进展的一直相当不顺利。无论存储还是逻辑芯片的结构及加工过程都相当复杂，这注定了芯片本身的脆弱性，想要在不影响芯片强度以及完整性的前提下在一块DRAM颗粒上打洞，而且是不止一个的孔洞，这件事儿的具体技术细节根本无需讨论，光是想想就已经很难了。

在演化出了分别对应不同的通孔时机的via middle和via last这两大分支之后，TSV技术的发展终于成熟，现代的穿透硅技术已经成功解决了稳定性及成本等问题。无论是先通孔的via middle还是最后通孔的via last，两种工艺都可以实现稳定的DRAM颗粒通孔及互联过程，并且能够集成到当前的300mm wafer加工工艺当中，这给堆叠内存的实现铺平了最后的道路。

经由成熟的TSV技术来做“楼梯”，堆叠内存这栋“楼房”终于可以开建了。

5即将完工的高楼大厦

即将完工的高楼大厦

与楼房按建筑形式分为板楼和塔楼一样，堆叠内存也会按存在形式不同而被人为的分类，视堆叠方式及位置的不同，堆叠内存体系可以被分为2.5D和3D两种存在形式。

如果堆叠内存颗粒以及Base Die被封装在PCB上并通过普通线路与运算核心完成水平互联，这种封装模式就是2.5D，我们即将见到的堆叠内存/显存体系基本上均采用此种形式；如果堆叠内存颗粒及Base Die被直接封装在运算核心上层并通过TSV与核心直接垂直互联，这种封装模式就是3D，SoC等需要更高集成度，同时对能耗及延迟十分敏感的场合将会是这种形式的理想方向。

一场“站起来”的革命堆叠内存技术解析 2.5D/3D封装堆叠内存

除了堆叠形式不同之外，堆叠内存还依标准不同而划分成了两大阵营，分别是海力士+AMD支持的HBM（High Bandwidth Memory）以及Intel支持、镁光/三星主导的HMC（Hybrid Memory Cube）联盟。

无论HBM还是HMC，在基本结构上都属于原教旨型的2.5D/3D堆叠内存，它们均采用多片DRAM+Base Die/Logic Die垂直堆叠封装的形式，可以以2.5D的形式被用于内存以及显存等场合，也可以以3D的形式与SoC芯片封装在一起。两者的主要区别体现在DRAM运行频率、总位宽、发热以及扩展性层面。相比于HMC，HBM的先期频率和带宽相对较低，但与之相对应的，HBM因此而获得了更低的工作电压，在能耗及发热表现上应该会有值得期待的表现，同时在部署时机上也具有优势。

一场“站起来”的革命堆叠内存技术解析 HMC内存

按照海力士以及AMD公布的试产产品数据，HBM在作为显存出现时可以提供8通道1024bit起跳的显存位宽，搭配适当频率颗粒（等效频率在2000~3600MHz左右，约等于GDDR4的水平）时可以提供超过128GB/s，最大可至512GB/s的等效带宽，在此基础上还能实现40%的功耗下降。HMC阵营目前尚未提供具体的技术细节，但根据镁光的样品显示，HMC可以以4颗堆叠颗粒的模式来实现480GB/s的等效带宽，这一数字还将继续增长。

一场“站起来”的革命堆叠内存技术解析 HBM内存

在支持情况上，HBM内存目前只有海力士和AMD明确支持，HMC则拥有包括Intel，微软，NVIDIA，ARM,IBM,HP,三星以及镁光等在内的一系列厂商所组成的联盟，海力士也包含在其中。所以以目前的状况来看，HMC可能会在未来统一堆叠内存业界，包括AMD在内的几乎所有人都将会提供支持。

6当存储不再成为瓶颈

当存储不再成为瓶颈

围着楼房说了这么多，相信大家对堆叠内存的基本特点已经有所了解，接下来我们该恢复严肃风格了。堆叠内存体系在技术上已日趋成熟，虽然还面临一些成本控制以及稳定性等细节问题，但随着各个厂商实验性生产的成功，其实际部署已经近在眼前。

一场“站起来”的革命堆叠内存技术解析 堆叠内存将在短时间以内大量出现

由于市场对存储性能以及容量的需求，2015年将是堆叠内存大批量上市的一年。我们在前页已经提及，无论是海力士的HBM还是镁光/三星的HMC，各个主要的存储器厂商已经开始出货堆叠内存的样品，海力士的HBM将提供给AMD并成为其新一代GPU架构显卡产品的显存；镁光的HMC则会发布工程样品，并开始为在高性能计算（HPC）领域的用户供货，这些用户包括了Intel正在研发第二代Xenon Phi处理器以及NVIDIA正在研发的下一代GPU架构Pascal。三星也在堆栈DRAM方面有进展，采用“Widcon”技术的第二代Wide I/O方法获得验证，配合这种3D形式堆叠内存的下一代Exynos处理器将用于消费电子领域。

一场“站起来”的革命堆叠内存技术解析 NVIDIA基于HMC体系的3D memory技术

随着一系列产品的到来，很多过去仅存在于想象当中的意义将会变的具体，我们将会很快亲身体会到堆叠内存为我们的生活带来的变化。

首先，堆叠内存可以在同样的PCB面积占用量上实现翻倍甚至数倍的内存容量，而且并不会因此而导致功耗及发热的激增，这将大幅提升内存/暂存体系的容量提升速度，同时进一步拉低存储体系的单位成本。无论内存、显存还是基于NAND的SSD，甚至是手机和平板电脑，都将会从中明显获益。如果考虑到3D模式对SoC芯片封装形式的影响，也许智能移动平台的获益还会更大。1TB甚至更大容量的内存，更廉价的大容量固态硬盘，搭载海量显存的显卡，以及拥有更多存储空间的手机/平板电脑/智能穿戴设备，在2015年之后都将不再是奢求或者梦想。

一场“站起来”的革命堆叠内存技术解析 不同的封装形式能够进一步拓展堆叠内存的应用范围

其次，堆叠内存能够以大并行存储模式大幅提升存储带宽，同时通过减少互联线长明显降低了信号延迟，这将对内存体系的性能提升产生明显的推动作用。所有受内存性能影响的逻辑运算单元，包括CPU和GPU都将会因此而面临新的机会。更大的内存带宽不仅能够给CPU/GPU的更高效运算提供保障，还会深刻的影响逻辑结构的研发方向。未来一直两个产品周期内，我们将会因此而迎来CPU/GPU架构及性能的新一轮革命。

一场“站起来”的革命堆叠内存技术解析 应用堆叠NAND颗粒的固态硬盘产品已经问世

除此之外，得益于容量的激增、性能的提升以及功耗的降低，堆叠内存对HPC领域的影响将前所未有的巨大。无论CPU节点还是GPU节点，突破存储墙瓶颈都将会加速百亿亿次运算目标的达成并促成新的技术发展，这种发展对PC领域的中长期影响是无可估量的。

一场“站起来”的革命堆叠内存技术解析 新的革命，将从这里开始

毋庸置疑，堆叠内存是一次存储体系的重要革命，在经历了多年单纯的速度/频率/信号传输模式发展之后，存储体系终于从2维走向了3维空间，实现了存储模式的本质变化，我们甚至可以认为堆叠内存是内存体系发展史上的“第一次直立行走”。可以预见的是，一旦堆叠内存正式部署，存储市场乃至整个PC业界就再也离不开这项技术了。我们的未来，将会完全融入到这次内存直立行走的变革当中，能够从中收获的好处，也许会超过任何人的想象。

不要再留恋过去了，让我们一起带着希望迎接由堆叠内存开启的美好未来吧。

责任编辑：