突破能耗屏障超导计算机技术初探
2021-03-12李实
李实
计算机是推动人类进入信息技术时代的核心设备。随着计算机和相关产业的快速发展,人类社会的技术能力也得到了大幅度的增强,互联互通的程度也得到了极大提高。但是,随着计算机持续发展以及人类所使用计算机的数量成倍增加,计算机背后的能耗问题逐渐凸显了出来。2015年,《EnergyEfficiency》(能源效率)杂志就曾经披露过一个研究报告,其中显示游戏PC的耗电量占据了当年所有PC耗电量的21%,达到了75TWh,相当于1.6亿台冰箱的耗电量。而根据2017年的数据,当时全球数据中心的总耗电量约为416TWh,约占当年地球总发电量的3%。除此之外,随着全球超级计算机的发展和不断增加的部署,超算背后的能耗问题也越来越受到大家的关注,比如目前全球排名第一的超算—日本Fugaku,其功耗就高达29899kW,相当于它运行1小时就需消耗接近3万度电,这还不包含为这个超算提供服务的相关设备以及维护的消耗。
另一方面,计算机和相关设备不断提升的能耗需求也带来了一个严重的问题—那就是散热。有人甚至估计,未来超算等设备有可能不得不建立在河流、湖泊甚至南北极周围,因为超算在达到其计算能力的上限之前,散热和功耗问题将首先成为最大的拦路虎,需要流动的河水、湖水或者极地的低温气候才能使得超算等设备处于能正常工作的温度区间。因此从现在的技术发展来看,计算机尤其是超算等设备的功耗和散热等问题,可能在不久之后的未来成为阻挡人们获取更多算力的绊脚石。
为了解决这个问题,研究人员开始考虑现有技术路径之外的实现方法。比如采用全新的计算架构、专用单元或者不断改善软件架构等。不过,这都没有一个技术来得直接,那就是利用超导效应和量子力学有关技术来实现超导计算机。超导的特性就是没有电阻、能耗极低,这有助于帮助人们建立低功耗的计算设备。在超导计算机的研发上,从1956年麻省理工D.A.Buck的《Thecryotron—asuperconductivecomputercomponent》论文中提到了的超导状态实现量子计算的构想开始,人们就不断地努力着。现在,包括中国、欧盟、日本和美国等都在超导计算上推出了各自独特的技术和构想。近期,来自日本横滨国立大学的研究人员在论文《MANA:AMonolithicAdiabaticiNtegrationArchitectureMicroprocessorUsing1.4-zJ/opUnshuntedSuperconductorJosephsonJunctionDevices》中提到了一种超导计算机的实现方式。借由这个论文,我们一起来了解一下超导计算机以及相关的内容。
超导约瑟夫结构和AQFP逻辑
如果要制作一台计算机,那么首先得拥有制造计算机芯片最基本的材料,然后再制作出非门、与门、与非门等一系列具有功能的逻辑门,并将其配合使用实现功能。在目前的硅基芯片中,人们使用半导体材料,制作出了P型半导体、N型半导体、PN结等结构,经过组合使用后,获得了一个完整的半导体芯片和相关功能。
如果是超导计算机的话,也需要进行类似的步骤。在这里,本文首先先介绍一个概念,那就是超导约瑟夫森结。
超导约瑟夫森结是目前超导计算研发中的一个重要方向。约瑟夫森结由两个互相微弱连接的超导体构成。这里的微弱连接是指两个超导体之间可以使用薄绝缘层,或者一小段非超导金属,抑或是一小段可以弱化接触点超导性的狭窄部分,不同的连接有着不同的名称,比如SIS、SNS或者SsS,本文中使用的是SIS。
超导约瑟夫森结的特性是具有临界电流。当流过超导约瑟夫森结的电流小于临界电流时,超导约瑟夫森结的两端是没有电压降低的。但是如果流过超导约瑟夫森结的电流稍大于临界电流,就会触发多重安德烈夫反射,这在电路测试中会表现为明显的尖峰。继续增大电流并超过超导体之间绝缘体的带隙的话,电流和电压的表现就会变得很线性。由于超导约瑟夫森结在临界电流上的独特表现,使之有可能成为逻辑电路的候选结构。
实际上根据日本横滨国立大学的论文,超导约瑟夫森结已经成功实现了多种逻辑电路结构,包括高效快速单通量逻辑结构(ERSFQ)、高效SFQ逻辑(eSFQ)、互反量子逻辑(RQL)、LR偏置RSFQ逻辑以及低压RSFQ逻辑(LV-RSFQ)等。但这些逻辑都属于非绝热逻辑,虽然借由超导特性,无论这些逻辑单元以什么频率工作,他们的开关能量消耗都是不变的。但是考虑其非绝热逻辑电路的特性,其工作能耗较高,不是超导计算机最佳选择。实际上,日本研究人员使用的是一种绝热逻辑电路,所谓绝热逻辑电路,是指电路可以通过回收节点电容上的电荷至电源实现能量的重复利用,相比非绝热逻辑电路,绝热逻辑电路消耗电能大幅度降低,其能量消耗只会随着频率上升而上升,并且呈现线性状态。另外,在时钟频率方面,绝热电路时钟频率最高大约为10GHz,再高可能无法保持绝热状态,但是非绝热电路的时钟频率最高可以达到770G Hz,但是代价是开关能量可能更高。
日本研究人员使用的是一种被称为绝热量子通量参数逻辑电路(AQFP)的设计,这种电路在使用无分流超导约瑟夫森结器件的测试中,在4.2K的温度以及四相5GHz交流电的驱动下,每个逻辑开关的能量仅为每单位1.4zJ,大约是1×10的-21次方焦耳。考虑到将周围环境降低至4.2K的能量开销,因此将每个AQFP逻辑开关的能量乘以1000,结果为1.4aJ,也这也仅仅是1×10的-18次方焦耳。这个数值相比目前7nm工艺、0.8V电压下的类似电路,其效率高出大约80倍。实际上,即使考虑散热所需的能量开销,扩大1000倍也是一个非常夸张的数字了。由于AQFP工作在超导状态下,其功耗相对非超导状态下的电路存在好几个数量级的优势,因此无论怎么比较,它依旧能够带来巨大而显著的能耗降低。
从AQFP到MANA
在这里,研究人员确定了使用AQFP来制造超导计算机,并给出了一个由AQFP制造出来的加法器。研究人員发现,由于互连线存在寄生电感,因此AQFP单元的驱动距离很有限,大约只有1mm,之后就必须插入另一个缓冲区作为中继器来放大信号。当然,在真正的芯片制造中,这样的问题可能会得到比较好的解决。在解决了这些问题之后,研究人员们带来了一个被称为MANA的微架构,也就是MonolithicAdiabaticiNtegrationArchitecture绝热集成微处理器架构。
研究人员推出MANA架构的目的是为了证明AQFP逻辑也能够执行计算,包括逻辑处理和数据存储等,并且所有的这些工作都可以基于单一技术、单个逻辑家族以及单个芯片内完成。由于这个芯片仅仅用于验证芯片逻辑设计和工作可行性,因此包括芯片的IPC、吞吐量等指标就不在研究人员的考虑之内了。并且,由于这是一种全新的芯片体系结构,它缺乏系统集成工具,所有的设计都是由手工完成的,因此整体规模比较小,架构也相对简单,时钟单元方面采用了四相时钟设计,需要程序控制予以配合。
研究人员给出的MANA的架构图、支持的核心指令等。MANA的功能包括指令缓冲、解码、发出以及带有外部IO访问的RF阶段、执行阶段和回写阶段等。在架构图中,研究人员使用不同颜色标识了MANA的不同部分。其中绿色的是指令的缓冲、存储和发出部分,包括4×16b的缓存、PC&指令fetch以及指令解码、棕色的RFX寄存器阶段、橙色的ALU和位移执行阶段、蓝色的数据回写和缓冲阶段。
整个MANA的处理过程非常简单。比如它的寄存器只是一个16×4b容量的、2读/1写的小型寄存器。寄存器的$14和$15用于保存IO数据、$0是恒定的零寄存器。外部IO数据通过串行方式进入$14和$15,其中前者包含内存字节数据比较高的部分,后者包含比较低的部分。数据进入后,控制标志就可以标明$14和$15是可以进行处理的有效数据,被送入后面的执行部分。执行部分只有一个4bit的整数ALU和一个4bit的位移单元,值得一提的是,这两个单元是串行的,也就是说无论数据是否需要进行整数或者位移计算,都必须通过这两个单元。数据经过处理后,再交给回写单元进行判断。
整个处理器的架构可以用“简陋”来形容,考虑到MANA只是用于验证AQFP是否可以实现制作超导计算机,因此这样的逻辑关系和计算架构也基本够用了。
在基本架构确定了之后,研究人员就可以根据这个基本架构来搭建包括软件环境、组合逻辑设计、内存、时钟方面的设计了,另外他们还需要进行组件集成。实际上由于这类芯片采用了全新的架构,其绝大部分部件都是没有先例可循的,因此研发人员不得不采用手工制造的方式来完成。在超导材料方面,AQPF制作采用的是金属铌和绝缘层氧化铝,因此又被称为Nb-AlO材料。金属铌在10K以下的温度时能够呈现超导特性,最终芯片也要工作在这个温度下。
从MANA到第一个测试芯片
MANA从蓝图到实际产品采用的是AISTHSTP10kA/cm2Nb/AlOx/Nb超导芯片制作工艺。不过有点令人沮丧的是,由于前期对芯片尺寸的估计比较保守,因此后期不得不使用较大的1cm×1cm的基板来完成芯片制作,但是研究人员发现他们的高频率探头设备不支持这么大的尺寸,不得不改用低频率探头来完成有关功能的测试,并且整个芯片的频率被限定在100KHz之下,也就是0.1MHz。但是,研究人员为了证明MANA真的能在高频率也就是GHz下运行,在后期也单独制作了一个包括ALU和数据转移器的小尺寸设备,这个芯片被称为“EX”,其尺寸只有2mm×3.5mm,运行频率大于1GHz,并成功完成了测试。
测试人员将整个芯片放置在温度仅为4.2K的液氦中进行测试工作。在经过一系列的设置和启动后,测试人员开始在较低的频率也就是100KHz下运行MANA芯片,并演示了2个简单的四指令程序,比如让数据和寄存器某位数据相加,比较两个数据的大小,让寄存器内数据相加,比如“3+2”、“9-5”、“9-(4+3)”等操作,同时还使用示波器进行探测,以确定芯片是真的在工作且工作后的结果是正确的。
对于“EX”芯片,由于缺失部分功能,因此研发人员只能用一些更简单方法测试,包括临界进位传播测试,其中控制信号被设置为固定的加法。测试总共在12个EX芯片上完成,其中7个可以完成正确的功能,最大工作频率约为1.2GHz~2.5GHz。一些芯片的输出不稳定或者振荡,可能是由于磁通捕获或者其他原因等。
如何判断超导芯片的功耗和性能
MANA的出现和成功实践,证明超导材料、AQFP制造芯片是完全可行的。那么,超导芯片和传统芯片在能耗、性能方面孰优孰劣呢?
MANA在研发和测试中使用的是液氦冷却,因此研发人员认为,这样一来,这种芯片所对应的计算机设备,是不可能出现在移动市场、个人电脑市场的,针对的只能是超大型计算机,也就是超算。
首先,研究人员使用了两台LindeLR280液氦冷却系统,并且认为整个系统包括室内其余的设备总计需要2MW电源功率。接下来,研究人员计算了在2MW的冷却设备支持下,采用AQPF芯片实现类似GA100和英特尔北极星芯片的功能的话,能够冷却多少芯片。为此,研发人员设定了2个假定条件,A是假设在芯片模拟中,采用AQPF的数量和现在的芯片晶体管数量相当,B是采用AQPF的数量是4倍于现在的晶体管才能实现相同的性能。相比之下,B假定显得相当保守。
在这个估计中,以AQPF芯片在1.5GHz运行时开关总量为0.2zJ每单位、5GHz以1.4zJ每单位来计算的话,在4.4K的温度下,以AQPF芯片制作的GA100GPU,在假设A下功耗为15.2mW,在假设B下为60.9mW,以AQPF制作的英特尔CPU在假设A下为0.7mW,在假设B下为2.9mW。无论是CPU还是GPU,其功耗都显著低于现有产品好几个数量级。比如GA100芯片,实际应用中TDP功耗不会低于350W,相比采用AQPF材料制作并保持超导状态的话,功耗高了大约23026倍。因此,即使采用2MW冷却设计,整个系统也能容纳A假设下的66980个GPU和1429000個CPU,或者B假设下的16750个GPU和357100个CPU。
那么,以两台LindeLR280液氦冷却系统冷却的AQFP超算能达到怎样的计算水平呢?以美国能源部的百亿亿次计算机为例,这款计算机需要的冷却功耗是20MW,达到的计算能力预计超过1EFLOPS。如果同样冷却功耗的LindeLR280液氦冷却系统组建AQFP超导超算的话,使用AQPF版本的英伟达GA100芯片,A预测下双精度性能可以高达6.5EFLOPS,B预测下也能达到1.6EFLOPS。对于英特尔来说,A预测下计算性能可达23.3EFLOPS,B预测下则为5.8EFLOPS。由于这只是预测,实际的计算性能更可能会位于A和B条件预测之中。但即使如此,这也已经是一个令人惊讶的性能表现数据了。
可能只是一小步,但是也能看到未来
从本文对日本研究人员所做的工作介绍来看,目前超导计算机和相关产品的研究,已经从之前的理论进入了实际阶段,研究人员开始试制超导芯片并进行了简单测试,然后通过实验数据预估了超导计算机在超算等同档次设备上的应用情况。当然,日本研究人员本次进行的研究还是初步的,它只是超导计算的一小步,但是可以窥探到的未来却是广阔而不可限量的。
接下来,人们会在超导材料、制造工艺以及实现方式上面做更多的探索,比如目前采用金属铌和相匹配的液氦,成本过于昂贵,如果换用高温超导材料会不会得到同样的结果且更为容易生产和推广?如果最终高温超导材料能做到液氮温度下超导且可以用于计算机设计的话,那么超导芯片必将快速崛起。还有在芯片设计环境、软件配套上的一系列产品,可以想象这又是一个庞大的万亿级别市场。超导的未来,值得期待。