基于高海拔地区的大气中子单粒子效应实时测量试验研究
2022-04-25张战刚雷志锋恩云飞李晓辉何玉娟肖庆中李键坷路国光
张战刚,雷志锋,*,黄 云,*,恩云飞,张 毅,童 腾,李晓辉,师 谦,彭 超,何玉娟,肖庆中,李键坷,路国光
(1.工业和信息化部电子第五研究所,电子元器件可靠性物理及其应用技术重点实验室,广东 广州 511370;2.中国科学院 高能物理研究所,北京 100049)
地球大气中存在由大量的辐射粒子组成的复杂辐射环境,这些辐射粒子主要由空间中存在的银河宇宙射线和太阳宇宙射线进入地球的中性大气,与N和O发生交互作用而形成[1],主要包括中子、质子、电子、γ射线、π介子、μ介子等。由于中子不带电、穿透能力极强(可穿过建筑物屏蔽、飞机外壳等)且大气含量高,大气中子入射航空和地面电子系统引起的单粒子效应成为威胁电子设备安全工作的潜在因素。根据JESD89A标准[2],电子器件的大气中子软错误率(SER)评价方法包括非加速实时测量试验和地面加速试验。相比于加速试验,非加速实时测量试验具有结果最真实直接、人为干扰因素少[3]等优点,具有不可替代的地位。为了提高试验效率,实时测量试验通常选择在高海拔地区开展,或采用飞机搭载。此外,大面积器件阵列和长测量周期是实时测量试验的另一显著特点,可有效保证试验数据的统计性。国内外相关机构包括Xilinx、Intel、iRoC、西北核技术研究院等开展了一系列大气中子单粒子效应实时测量研究工作[3-16],试验对象包括静态随机存取存储器(SRAM)、现场可编程门阵列(FPGA)等,飞机搭载试验也有少量的报道[17-18]。但实测得到的SER包含了高能中子、环境热中子和封装α粒子的共同贡献,关于实测数据诱因定量分析和多地推演的报道非常少,不利于实测数据的实践应用。
本文基于青藏高原4 300 m海拔试验点,开展高速大容量SRAM大气中子单粒子效应实时测量试验,通过搭建大面积存储阵列和智能远程测控系统,获得器件的单位翻转(SBU)和多单元翻转(MCU)SER,对其中高能中子、热中子和封装α粒子各自的贡献进行区分,演算得到该器件在北京地面和10 km高空应用的SBU和MCU失效率(FIT),并进行特征分析和加固策略优化设计。
1 试验设置
高海拔试验点选择位于拉萨市的羊八井国际宇宙射线观测站(30.1°N,90.6°E),海拔达到4 300 m。搭建了65 nm高速QDRII+SRAM大面积存储阵列及大气中子单粒子效应远程测控系统,测试容量达到10 Gb,读写速度达到120 MHz。被测器件型号为CY7C1663KV18,内核和I/O电压均为1.8 V,单片容量为144 Mb。单粒子效应测控系统如图1所示。其中,实测试验共使用4块测试板,每块板上搭载18只器件。测试过程中,被测器件处于数据保持状态,测试系统定期对存储阵列进行巡检。
图1 测控系统示意图Fig.1 Schematic diagram of measurement and control system
2 大气中子辐射环境分析
基于EXPACS工具[19]对高海拔试验点辐射环境进行计算和分析,结果如图2所示。辐射粒子包括中子、质子、μ子、电子、光子等。中子能量范围较宽,最高可达GeV量级。计算可得,高海拔试验点处能量大于10 MeV的中子通量为118.6 cm-2·h-1,能量介于1 MeV和10 MeV之间的中子通量为78.4 cm-2·h-1。
对各种航空器飞行高度的中子通量进行计算和分析,计算结果表明,随着飞行高度的增大,地面设备、直升机、客机、浮空气球面临的中子辐射环境恶劣程度各不相同。其中,在15~20 km高度区域,中子通量最高,达到1 500~2 000 cm-2·h-1。进一步计算了全国各地典型中子通量,其中我国北京、上海、广州等主要城市的地面中子通量相差不大,由于拉萨市海拔超过3 500 m,其中子通量较沿海城市增大数10倍。
3 关键试验技术
高海拔地区的试验环境恶劣,存在高寒、雷击、积雪等影响因素。在153 d的高海拔试验过程中,大面积存储阵列长时间带电运行,对试验条件和技术有严苛的要求,包括大面积存储阵列的长期运行和自动控制可靠性、高功率电源系统的长期稳定性、环境条件变化影响(包括温湿度、气压、建筑物/积雪屏蔽等)、异地数据信号采集等。此外,大气中子在被测器件中产生效应的同时,也可能影响控制系统的运行,需进行效应甄别,并解决中子导致的控制系统故障。
3.1 被测器件软错误甄别技术
使用该方法,可实现被测器件、测试板其他敏感器件(如FPGA、存储器等)、测试设备等发生的单粒子效应的有效甄别,准确获得被测器件的软错误率。测试系统具备对被测器件进行写、读出、比对、修正错误、重置、断电重启等操作的功能。发现错误时,详细记录和上报错误信息,包括发生时间、发生位置、错误数据等。检测到错误时开展以下甄别措施。
1)对错误的详细信息进行分析,判断错误地址是否位于被测器件内,如否,则认为该错误不是被测器件中产生的辐射效应。
2)对发生的错误执行修正错误操作,即将错误发生位置处的数据重新改写为初始数据,然后执行读出和比对操作,判断错误是否还存在,如否,则认为该错误是被测器件中产生的辐射效应。对被测器件依次执行重置、写、读出和比对操作,判断错误是否还存在,如是,则认为该错误不是被测器件中产生的辐射效应。对被测器件依次执行断电重启、写、读出和比对操作,判断错误是否还存在,如是,则认为该错误不是被测器件中产生的辐射效应,如否,则认为该错误是被测器件中产生的辐射效应。
3)根据该方法可判断错误在被测器件中发生的位置。若对发生的错误执行修正错误操作,然后执行读出和比对操作,发现错误消失,则可判定错误发生在被测器件存储区。若对发生的错误执行修正错误操作,然后执行读出和比对操作,发现错误仍然存在,继续对被测器件依次执行重置、写、读出和比对操作或断电重启、写、读出和比对操作,发现错误消失,则可判定错误发生在被测器件外围电路。
3.2 辐射效应异地智能测控技术
高原地区存在气候恶劣、基础设施差、交通不便等缺点,因此,本次试验使用了一种辐射效应异地智能测控技术,通过搭建辐射效应异地智能测控设备,使用自动模式和手动模式,可实现实时测量试验的异地智能测试和控制,解决上述问题。辐射效应异地智能测控设备由辐射效应测试系统、现场监视模块、网络传输模块、异地控制计算机和控制软件构成。测试模式包括自动模式和手动模式。自动模式是指测试系统实现被测器件辐射效应的自动测量和数据上传,发生异常时可自行退出自动模式并进入诊断模式,其工作流程如图3所示。启动系统,写入测试程序后,设定自动模式的退出条件,包括:1)测试系统工作异常,如数据通讯中断、无法对被测器件进行控制和操作等;2)温度超出设定范围,此处的温度包括环境温度、被测器件温度、测试板主控芯片温度等;3)测试数据异常,如单次测试中错误数量超过设定值、错误无法修正等。
开始测试后,测试系统对待测器件进行周期性自动巡检。发现软错误时,将自动上传数据;软错误数量达到预设值后,自动结束试验。在任何时刻,当检测到满足自动模式的退出条件时,说明测试系统或测试环境发生异常,将退出自动模式,进入诊断模式。在诊断模式中,需测试人员进行现象分析和故障排除。然后,通过控制软件进行异地重启,继续测试。
测试系统应具备手动模式的测试功能,用于测试系统的调试、测试数据的深入分析、自动模式的补充备选等。手动模式要求控制软件具备对测试系统进行全面控制的能力,包括断电重启、重新配置、数据写入、数据读出和比对、温度监控、数据处理和分析等。测试人员远程启动系统,写入测试程序后,开始异地测试。软错误数量达到预设值后,结束试验。发现异常时,进行故障诊断和恢复,然后继续测试。
4 试验结果分析与讨论
4.1 试验结果
在153 d的试验时间内共观测到错误43次,其中器件内单粒子翻转39次[20]。本文主要针对SBU和MCU占比、诱因定量分析和各地软错误率推演等进行研究。表1列出了观测到的翻转类型,由表1可见,65 nm工艺SRAM中的SBU占比最大,为77%,最大的MCU为9位,其占比为3%。根据发生的总错误数(NSEU)、工作时间(T)和总测试容量(Nbit,单位为Mb)可计算得到,65 nm工艺SRAM在4 300 m海拔试验点的软错误率(SER)为2 356 FIT/Mb。其中,总测试容量为10.13 Gb,由于长期测量过程中部分测试板出现过故障,故实际的总工作时间小于153 d。SBU对应的软错误率为1 812.3 FIT/Mb,MCU对应的软错误率为543.7 FIT/Mb。
SER=NSEU×109/TNbit
(1)
上述软错误率包含了高能中子、热中子(E<0.4 eV)和封装α粒子的共同贡献。对于封装α粒子,该器件的放射性α粒子主要来自于模塑料,其发射率为0.001 cm-2·h-1,结合241Am人工放射源辐照试验获得的SEU截面,计算得到的封装α粒子引起的软错误率为303 FIT/Mb,且由于封装α粒子电离能力较弱,引起的翻转类型均为SBU[21]。对于热中子,开展了散裂中子源辐照试验,发现束流中是否包含热中子对试验结果没有影响。进一步开展了二次离子质谱(SIMS)测量和分析,未在器件中发现10B元素成分,表明该类器件对热中子不敏感,所以热中子对实时软错误率没有贡献[22]。表2列出了高能中子、热中子和α粒子引起的各种翻转类型的FIT值。高能中子引起的总体软错误率为2 053 FIT/Mb,占比为87%,远高于封装α粒子的13%,MCU均由高能中子入射被测器件产生。
表2 高能中子、热中子和α粒子引起的各种翻转类型的软错误率Table 2 SER of various upset types caused by high energy neutron,thermal neutron and alpha particle
4.2 数据推演
获得不同粒子引起的软错误率数据后,即可将高海拔试验数据推演到其他应用地点。首先,计算实时测量试验地点与应用地点的高能中子通量比例因子μ:
μ=Fn,实测/Fn,应用
(2)
其中:Fn,实测为实时测量试验地点的高能中子通量;Fn,应用为应用地点的高能中子通量。应用地点处高能中子引起的软错误率(SER应用)通过式(3)计算得到:
SER应用=SER实测/μ
(3)
其中,SER实测为实时测量试验地点处高能中子引起的软错误率。封装α粒子引起的软错误率与所处地点没有关系,固定不变。
以北京地面和北京10 km高空为典型应用场合,图4为羊八井、北京地面和10 km高空的中子能谱图(使用EXPACS软件计算得到)。可看出,3处的中子能谱形状十分相近,中子能量最高可达GeV以上。随中子能量的增大,中子通量呈下降趋势。图4结果与国外已开展的机载[23-24]和地面[25]大气中子测量结果一致。
图4 羊八井、北京地面和10 km高空的中子能谱Fig.4 Neutron spectra of Yangbajing,Beijing and 10 km above ground
羊八井地区的E>10 MeV中子通量(118.6 cm-2·h-1)比北京地面(7.3 cm-2·h-1)高16.3倍。需要说明的是,此处计算通量比例因子使用的数据为E>10 MeV的中子通量;虽然软错误中同样有1~10 MeV中子的贡献,但该能量段中子的通量比例因子与E>10 MeV中子是相同的(图4),故对推演结果没有影响。由此可计算得到该65 nm SRAM在北京地面使用时高能中子引起的软错误率为126 FIT/Mb,加上封装α粒子引起的303 FIT/Mb,故该65 nm SRAM在北京地面使用时的软错误率为429 FIT/Mb,具体数据列于表3。相比于高海拔试验点,北京地面处高能中子引起的总体软错误率从87%降为29%,封装α粒子成为地面软错误的主要诱因,MCU总体占比为8%。
羊八井地区的E>10 MeV中子通量(118.6 cm-2·h-1)比北京10 km高空(1 068 cm-2·h-1)小9倍,可计算得到北京10 km高空的软错误率数据(表4)。对比表3、4可发现,相比于北京地面,北京万米高空应用的总体软错误率增大约44倍,其中,MCU对应的FIT值明显增大,其占比由8%增大至26%。该数据对SRAM航空应用的软错误加固策略制定具有重要意义。
表3 北京地面应用的软错误率数据Table 3 Soft error rate data for ground application in Beijing
表4 北京万米高空应用的软错误率数据Table 4 Soft error rate data for 10 km flight height in Beijing
4.3 方法验证
将采用本文试验结果和推演方法得到的纽约海平面中子软错误率与国外报道的试验结果进行对比,达到验证试验结果和推演方法准确性的目的。根据本文被测器件的产品手册,该款器件的软错误率为197 FIT/Mb(纽约海平面)[26]。该数据由CYPRESS公司基于散裂中子源辐照试验结果计算得到。本文基于羊八井地区4 300 m高海拔试验点测量达到的中子软错误率为2 053 FIT/Mb。羊八井地区的E>10 MeV中子通量(118.6 cm-2·h-1)比纽约海平面(11.9 cm-2·h-1)高约10倍。故推演可得纽约海平面的中子软错误率为205 FIT/Mb。该结果与CYPRESS公司报道的被测器件中子软错误率FIT值差别小于4%。
4.4 机理分析
结合器件版图布局、翻转特性分析等,进一步研究MCU的产生机理和特征。图5为被测器件存储单元和灵敏区(六管存储单元“关”态NMOS管的漏区)的布局图。由图5可见,灵敏区之间的横向间距约为0.3 μm,纵向间距约为0.1 μm和1.5 μm。灵敏区表现出明显的集聚特点,导致该器件在试验中出现大量的MCU。该横纵间距的特征与MCU的图形特性[20]相吻合,即对于两单元翻转,MCU图形以纵向为主,而对于更大的MCU,横向特征更明显。
图5 被测器件灵敏区布局图Fig.5 Layout of sensitive volume of device under test
表5列出了被测器件最大MCU的详细信息,包括翻转序号、翻转数据和翻转极性,该MCU横跨5个存储单元。由于被测器件内嵌交错架构,故该9单元翻转中的9个错误均分布在不同的字内,可被具备“纠一检二”功能的校验码有效修正。
表5 最大MCU的详细信息Table 5 Detail of the largest MCU
4.5 加固策略
1)加固方法
2)试验验证
将上述加固方法在本文试验中进行应用验证,验证场景选择北京10 km高空航空应用。首先,确定器件在实际应用环境下的软错误率指标。表6列出了美国航空无线电技术委员会DO-254文件对飞行系统安全等级的划分及软错误率指标要求,表6中的FIT值针对系统级。工程实践中认为,器件发生10个位翻转,在系统级层面会输出1个错误[27-29]。据此可确定航空应用场景下,不同等级对应的器件级软错误率指标。
表6 DO-254飞行系统安全等级Table 6 Flight system security level in DO-254
其次,根据本文试验结果,确定器件在北京10 km高空应用时的实际软错误率。文中被测器件采用65 nm工艺,对多位翻转十分敏感,因此器件内嵌交错架构。经分析,由于交错架构的存在,所有MCU内的多个翻转位均位于不同的字内,可被具备纠正字内单位错误的校验码纠正。据此计算可得,器件在北京10 km高空应用时,系统级总体软错误率为2.7×105FIT,且全部可被具备纠正字内单位错误的校验码纠正。结合软错误率指标和实际软错误率可得到:当器件航空应用时,若系统等级为D或E,则无需采用加固措施;若系统等级为A、B或C,则需进行校验码加固,采用具备纠正字内单位错误的校验码。
5 结论与展望
本文基于青藏高原4 300 m海拔试验点开展大气中子单粒子效应实时测量,针对65 nm高速大容量QDRII+SRAM,搭建大面积存储阵列和单粒子效应测控系统,突破软错误甄别、异地智能测控等关键技术,获得了65 nm工艺SRAM器件的单位翻转和多位翻转FIT值详细数据。对高海拔试验点及全国各地的大气辐射环境进行了计算,结合被测器件的热中子和α粒子软错误敏感性分析,推演得到了实测地、北京地面和北京10 km高空的SBU和MCU软错误率及其诱因占比。相比于地面应用,航空飞行高度的MCU FIT值增大18%,源于高能中子通量的增高。
下一步工作将针对28 nm、14 nm FinFET工艺器件开展二期高海拔试验,并结合散裂中子源试验、封装α粒子试验深入分析软错误率敏感性。
本文的高海拔试验是在位于拉萨市的羊八井国际宇宙射线观测站进行的,感谢俞连爱等研究工作人员对试验的支持和帮助。