APP下载

TLC、QLC皆有进展 从ISSCC看2021年NAND技术走向

2021-06-18张平

微型计算机 2021年6期
关键词:海力士英特尔串联

张平

在ISSCC 2021 (IEEE International Solid-State CircuitsConference,国际固态电路会议)上,大量厂商公布了旗下产品的最新消息,本刊在之前的文章中也已经做了一些介绍。在存储领域,2021年NAND厂商将会继续在TLC和QLC产品上发力,至于他们瞄准的方向和新产品的技术应用情况,这篇来自ISSCC的报道可能会为你带来一些新消息。

ISSCC 2021上,全球六家主要NAND厂商中有四家出席了会议并带来了新技术的展示,包括三星、SK海力士、铠侠(东芝)以及英特尔。缺席的是美光和长江存储,他们可能由于产品周期和技术路线原因没有在本次会议上进行展示。

三星在ISSCC上公布了他们即将推出的TLC NAND产品,相比2019年的产品,新的TLC颗粒在最大密度上同样为512Gb,但是在密度、IO速度、顺序读取速度、延迟、位面数量方面都有显著差异,并且新产品采用了CuA设计。下面我们具体来看—下。

新的TLC颗粒在密度方面提升到了8.5G b/m m2,IO吞吐速度达到了2.OG b/s,相比之前的5G b/m m2和1.2G b/s有显著提升。在顺序读取速度方面,新的TLC颗粒高达184M Bls,不但远超之前产品的82M B/s,还超过了绝大多数竞争对手,同时延迟也降至40us。出现性能大幅度提升的原因可能是三星在新品中采用74个位面(Planes)的设计而不是之前的2个。多的位面可以带来更多的并行通道和并行读写,自然能够显著提升顺序读写速度。

从参数来看,三星新的TLC颗粒除了存储密度外,其余部分的表现都很好。但是恰巧存储密度是一个关键的因素。三星新品的存储密度提升达70%,但是依1日显著落后于竞争对手大约10G Mrir12的规格。在此之前,三星在存储密度上的落后并没有太大问题,因为这是在没有使用串联堆叠( string stacking)技术的前提下,就实现了128层NAND的生产。但是现在这个问题则变得比较明显。

在这里需要解释的是,3D NAND相比2D NAND,实际上是将整个NAND的生产过程立体化,需要—层层构建NAND结构。目前在生产过程中有两种比较主流的方案,分别是东芝的BiCS(Bit Cost Scalable)和三星的TCAT( Terabit Cell Array Transistor).这两种技术的差别在于BiCS采用的是先栅极法( gate-first approach),也就是通过交替沉积氧化物和多晶硅层,再在这个层堆叠中形成通道孔,并填充氧化物一氮化物一氧化物(ONO)材料和pSi,后续再沉积光刻胶,形成一个互联的阶梯,从而实现3D NAND结构。而TCAT则是后栅极法(gate-lastapproach),先交替沉积氧化物和氮化物,再形成通孔并填充ONO和pSi,然后形成互联阶梯,在蚀刻穿过这些层的槽并去除氧化物后,填充相关材料,最后再回蚀,用金属钨填充后完成。由于栅极形成的时间先后存在差异,因此两种技术流程的名称就被定为先栅极和后栅极。

具体来说,无论是先栅极法还是后栅极法,本质上都完成了类似的3D NAND结构生产。但是问题在于,三星采用的后栅极法可以在生产3D NAND颗粒的时候,生成更多层的产品。相比之下,东芝在128层时代就需要采用串联堆叠技术来实现更多层NAND的生产。所谓串联堆叠技术,是指先生产出64层或者48层3D NAND单元,再在某个位置留下通孔,然后基于这个通孔在上方层叠出64层或者48层3D NAND的技术。换句话来说,串联堆叠技术是再次将多个3D NAND单元堆叠起来,以实现单位面积下更多的存储容量。

但是,串联堆叠对技术有更高要求,同时会产生额外的资金成本。有数据显示,2层的串联堆叠技术会带来大约14%的成本增加,因此三星在之前宣称自己在128层之前都不会使用串联堆叠技术。相比之下,铠侠和SK海力士都在128层3D NAND上使用了至少2层堆叠的串联堆叠技术。

现在三星面临的问题是,在ISSCC 2021上尚未公布其新一代NAND颗粒的层数。因为通过新一代NAND的堆叠层数就可以判断,TCAT技术是否已经成为更多层数的瓶颈?而这样的情况导致三星不得不采用串联堆叠技术来实现更高的数据密度?如果真是如此,那么目前三星新品表现出来的数据密度就已显著落后于竞争对手,这是令人失望的。但是另一种情况是如果三星没有导入的话,可能意味着三星转而应用了其他新方案,比如采用了CuA(CMOS under Array.CMOS线路存放于存储单元下部,简称为CuA),从而避免在本代使用串联堆叠技术。如果真是如此,就是一个令人惊讶的技术进步,这意味着三星在垂直通道的高纵横比控制以及通道生成方面拥有極为先进的技术和强悍的市场竞争力,这是3DNAND发展的关键技术,可以大大延续三星现有技术的生命周期,并形成相对其他厂商的竞争优势。

除了三星之外,SK海力士和铠侠在TLC新品上面的表现是极为相似的。值得一提的是,铠侠拿出了lTb容量的NAND产品,三星和SK海力士依1日停留在512Gb。不过,铠侠和合作伙伴西部数据联合发布了一条新闻,宣布了162层的3D NAND颗粒,因此从总的层数上来看,铠侠是落后于SK海力士和美光的。另外值得一提的是,在同样的新闻中,铠侠还提到自己的产品存储水平密度提高了10%,这可能在暗示其产品的垂直通道密度比任何竞争对手都要更为紧凑,更节约芯片面积。

今年唯一在ISSCC上发布QLCNAND新品的厂商是英特尔。从目前来看,英特尔比其他厂商更重视QLCNAND产品。英特尔目前推出的144层QLC NAND是英特尔和美光共同研发的第一代3D NAND,在一些技术上这款产品是独一无二的。不过考虑到英特尔已经将NAND产线出售给了SK海力士,因此英特尔后续将如何发展NAND还值得观察。

说实话,目前英特尔QLC产品的整体性能表现并不很出色,SK海力士的产品在层数上已经突破了170层,相比之下英特尔的144层QLC产品竞争力有所逊色,同时前者TLC产品的QLC版本在存储密度上也已经胜过英特尔。目前英特尔已经放弃了96层的QLC产品,因为这款产品使用了较大的erase块,96层的产品竟然高达96MB,而SK海力士、三星、铠侠的产品均不超过24MB。当然英特尔新的144层QLC产品已将erase空间缩小到了48MB,但相比之下还是显得有些大。

虽然在性能、规格上差点意思,但是英特尔144层QLC竟然是首个采用了3层串联堆叠的NAND产品。串联堆叠技术被认为是实现超过1 00层堆叠的NAND的必经之路——三星除外。因此在1 70层的级别上,美光采用2层的串联堆叠实现了1 76层,每个层拥有88层的存储单元。在前文我们也提到过,串联堆叠技术意味着成本的增加,并且技术难度也更高,尤其是在2个串联堆叠层的接口处需要非常严格地对齐。当然,另一种做法是选择更宽的垂直通道,但需要谨慎选择纵横比(宽度比深度)并使其小于当前晶圆厂所掌握的刻蚀技术能够处理的范围。

英特尔144层QLC的惊人之处在于使用了3层串联堆叠技术,每一层NAND单元为48层构建,而不是人们猜测的72层。英特尔的前代QLC产品采用了96层,分为2个串联堆叠层,每层依1日是由48层单元构建.所以新的144层OLC相当于英特尔直接在前代产品的2层串联堆叠上再加一层。因此,除了三次重复的沉积、刻蚀和填充等步骤外,英特尔对存储阵列本身的改进可能做得不多。显然,3层串联堆叠设计会影响工厂的生产能力,毕竟步骤更多且烦琐,但这样的做法可以更好地控制NAND堆栈从底部到顶部的通道尺寸和单元尺寸。考虑到英特尔对QLC的关注,这可能是英特尔采用三层串联堆叠技术的关键——英特尔依1日采用浮栅单元,而不是像其他厂商一样切换至电荷陷阱单元,并且浮栅单元受制于自身原理,很难在低于20nm的制程上成功应用。因此英特尔在这里维持48层并使用3层串联堆叠,可能有浮栅单元很难进一步缩小尺寸的原因。

另外,为了和这种独特的3层串联堆叠技术配合使用,英特尔还重新组织了整个NAND数据擦除块的方式。现在,3层串联堆叠中的每一层都构成了一个单独的擦除块,用户可以擦除144层NAND中间的那48层,而不影响上下两层的数据。按层分块也是英特尔将96层QLC的96MB块降低至不那么极端的48MB块的原因之一。

最后,英特尔暂时还没公布新的产品计划,有一种可能是英特尔未来也不太会公布NAND这个层级的产品计划了,毕竟工厂都卖给了SK海力士,SSD产品可能还在,但是NAND芯片则不会自己生产了。

有关CuA技术,前文提及了一些,比如三星可能在新的NAND上使用了这个技术。实际上,英特尔和美光是CuA技术真正的发明人。CuA技术的特点是将NAND裸片的外围控制电路,比如页面缓冲器、数据读取放大器、电荷泵等都布置在存储单元的垂直堆栈之下,而不是像之前那样放在一侧,这在很大程度上提高了NAND的数据存储密度。

CuA技术极大地提升了NAND的数据存储密度,并且允许超过90%的芯片面积用于存储单元阵列。类似的技术也被SK海力士使用,不过他们称之为PuC,也就是“Periphery under CeLL",单元下置外围电路技术。此外,铠侠也推出了类似的技术,他们在ISSCC 2019上展示了1 28层的CuA NAND单元,但是实际上铠侠最终推出的第五代BiCS 3D NAND单元并没有使用CuA技术。今年铠侠在ISSCC 2021上展示了170+层的CuANAND单元,并确认了其将在162层的第六代BiCS 3D NAND单元上使用CuA技术。

CuA技术除了节约芯片面积外,用在3D NAND上还允许芯片拥有更多的外围电路,从而提高整个芯片的成本效益。CuA技术的出现,使得NAND的存储阵列可以被划分为更多独立的平面单元,每个独立的平面单元都将拥有自己的外围电路。大多数不采用CuA技术的3D NAND内部只有2个平面,但是在CuA技术介入后,其技术标准提升至每个模块拥有4个平面。更多的平面用于布置外围电路带来了更多的并行性,从而可以提高芯片的性能,并抵消了通常使用更少的芯片达到相同总容量,而带来的总体SSD性能下降(一般是由于并行性降低)。

当然,CuA技术并非没有缺点。虽然当制造商首次采用CuA技术时会大大增加外围电路可用裸片的空间,但是在此之后,随着每一代NAND产品的存储单元面积不断变小,留给CuA技术的空间也随之变小。另外,三星也指出过CuA技术的一些问题,比如由于面积缩小,难以制造电荷泵工作所需要的大型电容器,这类单元的尺寸往往很大,后期可能难以在不断缩小的外围电路空间中存在,因此如何在CuA技术上实现类似的功能还有待考量。

除了CuA技術之外,此前长江存储在发布会上提到的Xtacking架构也非常独特。Xtacking架构的特点在于它并不是将外围电路置于存储单元的下方,而是将其置于存储单元的上方。长江存储宣称Xtacking架构能够带来更高的IO速度、更高的存储密度以及更短的上市周期。目前全球最快的3D NAND的IO速度目标值是1.4Gbps,而实际上能够达到l.OGbps,但是如果利用Xtacking技术,则可以实现3.OGbps,这和DDR4的IO速度基本相当。Xtacking技术已经应用在长江存储64层堆叠的NAND颗粒中。

根据SK海力士的资料,CuA技术能够带来更小的芯片面积,更方便的生产和更低的成本,而长江存储的Xtacking技术则带来了更高的密度和更高速的IO单元,其宣传方向的不同显示了这两个技术完全不同的侧重点。长江存储目前更注重速度和密度,对成本方面没有太多着墨,CuA则是在保持了高密度的情况下,降低了成本。目前Xtacking技术只有长江存储在使用,而CuA和类似的PuC技术有多家厂商使用,孰优孰劣,还得等待—段时间才能清楚。

前文曾提到,CuA技术相E匕1专统的NAND技术,电路平面由2个提升至4个。由于电路平面更多,因此可以布置更多的电路,使得存储单元的并行度更高,从而提高性能。不过CuA技术带来的4个电路平面并不像4个独立的存储模块,其存在一些操作限制。比如同时写入数据必须在每个平面的同一个字线上进行,这限制了存储模块的并行性操作。因此,目前厂商也在考虑这方面的问题,希望做出一些改进以增强电路平面配合存储单元的并行性,比如使用独立的多平面读取单元,这意味着在不同平面中同时读取数据时对被读取数据的位置将不会有任何限制,这将带来随机吞吐量的显著提升。

此外,现在对多个平面操作的另一个限制也正在放宽,比如在不同平面进行读取操作时不再需要对齐。这时一个平面可以从SLC页面执行多次快速读取,而另一个平面可以从TLC或者QLC页面执行较慢的读取。这种能力被称为异步独立多平面读取。带来的实际效果是,对于读取操作,1个比较大的4平面芯片可以和4个较小的平面芯片在性能上相当,这样可以缓解更高的单个芯片容量带来的性能下降,尤其是那种1个数据通道只有1个或者2个NAND芯片的固态硬盘。

关于这个功能铠侠给出了一些建议,如果要实现类似的并行性,就需要停止在不同的电路平面之间共享电荷泵,原因是不同步的读取而导致的电压或者电流持续波动。在这里需要提及英特尔的1 44层QLCNAND,它实现了上述一半的功能,也就是电路平面被配对成平面组,每个平面组可以执行读取操作,而不需要与另一个平面组的读取时间保持一致,英特尔的这种设计可能会带来怎样的效果,还有待进一步测试。

在ISSCC 2021上,各厂商展示的TLC NAND产品的10速度从1.6G bls到2.OG b/s不等,这个速度指的是NAND闪存颗粒和SSD控制芯片之间的通信速度,目前市场上SSD的最快单通道速度在1.2G b/s-1.4G b/s。一般来说,NAND厂商推出的SSD控制芯片会比较好地适配新的NAND颗粒的速度,但是第三方厂商的控制芯片则会晚一些时间才能实现同样效果。比如群联推出的E18芯片,拥有8个通道并支持PCle 4.O,其10速度仅为1.2G b/s,即将推出的E21T 4通道NVMe控制芯片仅有1.6G b/s的速度。另一家厂商慧荣的8通道SM2264控制芯片和4通道SM2267控制芯片分别支持1.6Gb/s和1.2Gb/s。

不过,即使是第三方厂商的控制芯片,在当前的系统架构上也已经受到了限制。比如Phison的E18,8个1.2G b/s的通道实际上已经能占满PCIe 4.0 x4的带宽。在PCIe 5.0到来之前,更高的IO速度对SSD来说实际上并没有太大意义。但是,对消费级、通道数较低的产品来说,更高的10速度能帮助这些产品更好地利用PCIe 4.0的带宽。比如SK海力士Gold P31这类SSD控制芯片,仅有4个通道,但是每个通道的IO速度要显著高于现有产品,因此其在性能上颇具竞争力,并且还能够以相比8通道产品更高的效率运行。

为了达到更高的10速度,需要对NAND颗粒上的接口逻辑进行升级,正如我们在PCIe以及其他高速接口上看到的那样,功耗的增加是在所难免的。三星给出的方案是通过双模驱动和独特的终端设计来解决这个问题。具体来看,当由于总线上拥有更多的负载并需要更高的驱动强度时(每个通道挂接更多NAND芯片),他们将使用PMOS晶体进行操作,否则将改用NMOS晶体管并减少超过一半的驱动功耗。这使得三星提供了一个统一的接口方案,这个方案既适用于面向消费者的SSD(更少的NAND芯片),也可以用于企业级SSD(每个通道挂接更多的NAND颗粒)。在之前的方案中,三星会在多芯片方案中加入单独的retimer芯片,允许在1个或者2个通道上挂接大量的NAND芯片,但是目前三星是否还在使用这个技术就不是很清楚了。

在本文最后,简单聊几句ISSCC这类学术会议的特点。一般来说,学术会议主要是提出一些新的方法和思想,和最终产品的发展方向有很大关系,但也并不绝对。比如铠侠之前展示的128层和170层NAND产品,而最终上市的第五代和第六代BiCS产品则是112层和162层,甚至在2019年的时候,更高层数的产品也在相关演说中出现。不仅如此,会议中出现的很多性能参数都是指最佳情况下测得的数据,实际使用中还要打不少折扣。今年ISSCC,厂商大量展示了他们在NAND颗粒中的一些独特优化操作,比如数据平衡、速度优化、精度优化、磨损优化等。但实际上这些信息对最终用户帮助不大,因此我们也就不多做介绍了。希望未来在ISSCC或者类似的会议中,我们能够看到对NAND或者类似产品在结构、速度上取得突破,毕竟现在的技術路线再打磨也已有瓶颈。要想有新突破,那得看谁先找到新的实现方法了,这将是一个庞大的系统工程。

猜你喜欢

海力士英特尔串联
SK海力士M16新厂竣工
英特尔携手一汽集团,引领汽车行业全新变革
串联法写记叙文的概括
英特尔扩充FPGA可编程加速卡产品组合
审批由“串联”改“并联”好在哪里?
我曾经去北京串联
英特尔开源帮霍金“说话”软件
好平板有强芯 英特尔Bay Trail芯片解析