重离子辐照下SDRAM 存储器“固定位”错误研究
2021-03-04殷中云邓玉良李孝远方晓伟
唐 越,殷中云,邓玉良,李孝远,杨 彬,方晓伟
(深圳市国微电子有限公司,深圳518057)
1 引 言
SDRAM 存储器具有价格低、体积小、容量大、读写速度快等优点,是计算机系统中理想的存储器件,目前已在工业和商业中广泛使用。若要在工作环境严苛的航空航天系统中使用SDRAM 存储器,需密切研究其辐照效应。在这一领域中,国内外主要针对单粒子翻转进行研究,对于辐照试验中出现的单粒子硬错误SHE(Single Hard Errors)涉及较少。然而,相比于单粒子翻转错误,不能通过重新上电恢复的硬错误对计算机系统的危害更大。在SDRAM的硬错误中,典型的一种是“固定位”(stuck bit)错误,其特点为存储单元的状态卡在了“0”或“1”状态,无法从“0”变为“1”或从“1”变为“0”。
Henson 等人[1]在对0.35 μm 的SDRAM 进行重离子试验时就有“固定位”错误产生,其认为“固定位”错误数量只占SDRAM 容量的0.002%,对航天应用不会产生严重影响。然而随着特征尺寸减小,“固定位”错误更易发生,并且“固定位”错误的数量会随着辐照剂量的增加而增加[2]。这使得SDRAM 存储器在辐照环境下工作时,“固定位”错误越来越多,超出ECC 的可纠错能力范围,使系统出现问题。针对这一情况,在此提出一种试验方案,对65nm 的SDRAM 存储器进行重离子辐照,统计和分析出现的“固定位”错误;对辐照后样品采用不同条件退火,分析退火温度和时长对“固定位”错误恢复的影响;根据以上试验数据分析“固定位”错误的产生机理,进而设法解决SDRAM 存储器在宇航环境下出现“固定位”错误却无法维修器件的问题。
2 重离子试验
2.1 试验条件
重离子试验的样品是3 片编号分别为1#、2#、3#的SDRAM 芯片,容量皆为512 Mbit,电源电压为3.3±0.3V,以65 nm 光刻工艺制成。对芯片开盖处理,通过目检和功能测试,确保芯片的完好。
为避免试验对被测芯片以外的试验板控制电路造成影响,在设计试验板时将控制电路与被测芯片进行分区,控制电路和被测芯片分别位于试验板的正、反面,控制电路在试验板反面,安装待测芯片的扣板在试验板正面,这样能更有效地避免控制电路受辐照影响。
单粒子试验板布局如图1 所示。试验板采用FPGA 作为主控。FPGA 对SDRAM 进行读写测试,其测试结果采用串行方式通过RS-422 接口输出至上位机保存。
图1 单粒子效应试验系统布局图
试验在北京串列加速器核物理国家实验室开展,利用HI-13 串列静电加速器进行重离子试验。根据试验条件,选用粒子能量如表1 所示。
表1 试验离子能量表
2.2 试验结果
芯片1#、2#、3# 分别在C 离子、Ge 离子、Br 离子下进行了辐照,在芯片辐照后对SDRAM 存储器芯片进行测试得到辐照后的“固定位”错误数量。通过开关ECC 对芯片进行对比测试分析,可得出:
①“固定位”错误数量和注量、照射能量正相关;
②“固定位”错误成离散分布。
图2 为1#、2#、3# 芯片在重离子辐照后开启ECC 和关闭ECC 的测试结果对比。横坐标为辐照的注量,纵坐标为“固定位”错误数量。可以观察到,被高能离子辐照后的2# 和3# 芯片错误数量远高于1#,且随着辐照注量的增加,“固定位”错误数量也会增加。Br 离子的能量比Ge 离子高,但是由于Ge 离子辐照的总注量是Br 离子辐照总注量的两倍,所以“固定位”错误的数量更多。芯片ECC 纠错码为(40,32)的检二纠一码。开启ECC 后“固定位”错误数量骤减,即大部分错误可以被ECC 纠正。由此可知大多数的“固定位”错误都是离散的。
图2 关闭和开启ECC 的“固定位”错误数量对比
分别采用64 ms、32 ms、16 ms 的 刷 新周期 对SDRAM 进行测试,发现刷新周期越小,“固定位”错误数量越小,但32ms 与16ms 刷新周期的“固定位”错误数量差距不大,推测其存在一个阈值,刷新周期小于阈值后,“固定位”错误数量将不会再随刷新周期的减小而减小。表2 为这三个芯片在不同刷新周期下的“固定位”错误数量。
表2 不同刷新周期下的“固定位”错误个数
2.3 退火情况
结束以上测试后,在不同条件下对三个试验芯片进行退火。“固定位”错误的数量随退火时间和退火温度的变化如图3 所示。
图3 芯片退火情况
1#、2#、3#芯片在室温(25℃)下退火120 小时,三个芯片的“固定位”错误数量都缓慢下降。在室温下退火后,把1#、2#芯片放入85℃高温箱,其“固定位”错误随退火时间的增加而减少。而3#芯片在300 ℃下退火了0.1 小时,错误数量从459 骤减为60 个,之后放入125 ℃高温箱下退火,其错误数量缓慢减少。由此可知,“固定位”错误能在常温下退火恢复,但需要的退火时间长。高温下的退火效率比常温高,且温度越高,退火效果越好。
3 机理分析
“固定位”错误的出现是由于数据保存时间小于刷新间隔时间,导致数据不能保持到读取之时从而出错。G.M.Swift 等人[3]最早认为DRAM 存储器中因重离子辐照而产生的“固定位”错误是由单粒子栅穿(SEGR)或微剂量(micro-dose)导致的。因“固定位”错误可通过退火恢复,L.D.Edmonds 等人以此判断其是由微剂量或微位移损伤(micro displacement damage)造成的[4-5]。另外一些学者认为导致“固定位”错误的机理是总剂量效应[6-8]。在此,将讨论总剂量效应、位移损伤、微剂量导致“固定位”错误的可能性。
1)总剂量效应:总剂量效应是一种累积效应,对器件的影响是均匀的。通过实验结果来看,发生“固定位”错误的单元数量随着注量的增加而增加,图2反应了"固定位错误"对剂量的敏感性。但“固定位”错误的地址分布是离散的,辐照前后器件AC 参数也没有发生明显变化。结合之前器件在Co60下做过的总剂量实验中并没有观察到“固定位”错误的现象来看,总剂量效应导致“固定位”错误这一说法与试验现象存在矛盾。
2)位移损伤:位移损伤主要是高能粒子导致半导体产生晶格空位(即原子离开晶格位置后所留下的空位),在反偏耗尽层中产生载流子,这种载流子会造成漏电流。在SDRAM 中,晶体管漏极与电容之间的反偏耗尽区会使电容放电,导致数据保持时间减小。通常位移损伤是发生在高能粒子辐照后,然而在试验中发现,C 离子(LET≈1.73 MeV·cm2/mg)辐照下也有“固定位”错误出现,但C 离子的能量不足以造成位移损伤。
3)微剂量:微剂量指单个粒子在其径迹周围的局部空间内所沉积的剂量,其作用机理与总剂量效应类似,但带来的影响是单个粒子的局部影响。其既有与总剂量效应相似的失效数量与剂量相关的特点,又有单粒子效应的随机性。微剂量与总剂量均匀分布的方式不同,其分布是局域性的。从开关ECC的测试结果可看出,试验产生的“固定位”错误也是离散和局域性的,且“固定位”错误的数量与辐射剂量相关。
综上分析,微剂量产生“固定位”错误的推论更符合试验结果。根据试验结果,最后推测导致“固定位”错误的机理为微剂量。
4 解决办法
文献[4]中的研究结果表明,DDR3 芯片在经过150 ℃下12 小时的退火后,芯片所有“固定位”错误消失,芯片恢复室温后可进行正常工作。从试验结果可看出,通过退火,“固定位”错误会大幅下降,退火温度越高,“固定位”错误数量减少的越快。因此,“固定位”错误可以通过退火来减少和消除。
当芯片在宇航环境下出现“固定位”错误时,由于不能将其拆卸放入高温箱退火,也不能对整个硬件系统进行高温加热。因此需要一种能够不拆卸芯片,且只对失效和退化的芯片进行加热的退火方法来消除“固定位”错误。
针对以上问题,可通过3D 堆叠封装技术,在存储器芯片下堆叠一个加热芯片并封装成一个器件。加热芯片堆叠在存储器芯片下方,可以均匀加热存储器芯片,且通过控制加热芯片引脚电压可以调节加热存储器芯片的温度。由此芯片就能够在不拆卸的情况下,在器件内部实现退火,而不影响硬件系统的其它器件。
5 结 束 语
对65 nm SDRAM 存储器进行重离子试验,测试SDRAM 开关ECC 的“固定位”错误,在不同条件下对SDRAM 芯片进行退火。通过对试验数据进行统计和分析后可得出:“固定位”错误发生的LET 阈值很低;“固定位”错误数量与辐照能量和辐照注量呈正相关;“固定位”错误的分布是离散的;退火温度越高,“固定位”错误减少得越快。综合这四点特点,分析总剂量效应、微位移损伤、微剂量等机理导致“固定位”错误的可能性,推断出“固定位”错误为微剂量机理所导致。提出在存储芯片下方通过三维堆叠的方式叠封一个加热芯片的方法,解决器件在宇航环境中工作不能拆卸和退火维修的问题。