半导体级别故障预测与健康管理
2011-08-14王浩罗宏伟陈媛
王浩 ,罗宏伟 ,陈媛
(1.广东工业大学 材料与能源学院,广东 广州 510006;2.工业和信息化部电子第五研究所,广东 广州 510610;3.电子元器件可靠性物理及其应用技术国家级重点实验室,广东 广州 510610)
1 引言
20世纪70年代,为了解决航天飞行器的可靠性问题,美国喷气动力实验室提出了故障预测与健康管理 (PHM:Prognostics and Health Management),其基本思想是通过给装备或系统增加失效先兆监测单元或传感器,实时监测系统状态,并通过数据分析和推理,预报产品剩余寿命,及时做出维修决策[1]。随着电子技术的迅速发展,绝大多数系统中的控制功能都使用电子产品来完成,因而随之展开了有关电子产品的PHM。相对于机械系统,电子产品的退化更难监测,原因是大多数电子产品中的故障通常是微米级甚至纳米级的且结构复杂[2]。
集成电路是组成电子产品的核心单元,随着特征尺寸按比例缩减,其在规定时间内,规定条件下完成规定功能的概率,即可靠性,就显得越来越重要。因此,对其进行PHM就显得相当重要。相对于电路板级别或系统级别的PHM,半导体级别的PHM更容易实现。半导体级别的失效位置、失效模式和失效机理如表1所示。
表1 半导体级别产品的潜在失效 [3]
2 主要研究方法
目前实施半导体级别的PHM主要有两种方法:预兆单元法和失效先兆监测推理法。
2.1 预兆单元法
即在电路中增加易损单元,使其先于主单元失效而提供预警,达到保证主单元安全的目的。其中的易损单元被称为预兆单元或预校准单元,因为这些预兆单元的失效时间都相对于主单元的失效时间进行了预校准。由于工作应力相同,所以主单元和预校准单元的损伤速率也应该相同。我们可以通过按比例对预兆单元增加应力,即相对于主单元加速预兆单元失效。按比例增加应力可以通过控制预兆单元中的电流密度来实现。增大预兆单元上的电压或减小电流通过的横截面积都能够增加电流密度。大的电流密度会导致单元内部热运动的加剧,使预兆单元产生更大的应力,因此,当大的电流密度通过预兆单元时,它就会比主单元更加快速地失效。图1[4]给我们展示了主单元和预兆单元的失效分布。在同样的环境和工作负载情况下,预兆单元更快地进入耗损区,表明主单元即将到来的失效。预兆单元被预校准到能提供足够的预测故障距离,有充足的时间来进行维护和更换。预测故障点可以提前,因此可以提供多个故障触发点。
图1 主单元和预兆单元的失效分布
2002年,马里兰大学CALCE电子产品与系统中心的Mishra和Pecht[5]等人在实际电路中的同一块芯片上使用预校准单元成功地实施了半导体级别的PHM。随后美国Ridgetop集团将该方法商业化,使之能够在即将到来的器件失效之前发出预警。目前,这些预兆单元已经成功地应用在0.35、0.25和 0.18 μm CMOS工艺上。
2005年西安电子科技大学庄奕琪[6]等在0.18 μm CMOS工艺下设计MOSFET TDDB预兆单元,使其处于过应力条件下而加速退化,在主MOSFET之前发生栅介质击穿,成功地实现了对MOSFET TDDB的预报。2007年西安电子科技大学宽禁带半导体材料与器件教育部重点实验室硕士研究生赵俊晖[7]等在0.18 μm CMOS混合信号工艺下成功地设计了热载流子预兆单元,通过对环形振荡器振荡频率热载流子退化的分析,在主电路因热载流子而发生失效之前,提前发生失效预警。目前,预兆单元法主要应用于以下半导体失效机理:与时间有关的电介质击穿、热载流子效应和电迁移。
2.1.1 与时间有关的电介质击穿(TDDB:Time Dependent Dielectric Breakdown)
TDDB,就是施加的电场低于栅氧化层的本征击穿场强,并未引起本征击穿,但经历过一段时间后仍发生了击穿。这是由于施加电应力过程中,栅氧化层内产生并积聚了陷阱的缘故[8]。
研究中纳入对象为我院2007年1月-20110年12月接收的足月妊娠临产胎儿窘迫孕妇80例,纳入孕妇病情均经临床病理学证实,排除了合并重大疾病及过敏体质、凝血障碍与经产妇,将其根据入院单双顺序均分组为:对照组中孕妇年龄为23-38岁、均值为(28.59±2.18)岁,妊娠时间为38-42周、均值为(40.17±0.52)周;观察组中孕妇年龄为24-40岁、均值为(28.70±2.03)岁,妊娠时间为38-41周、均值为(40.04±0.17)周。两组孕妇各项基础数据比较不存在差异,P>0.05。本次研究内容均经,孕妇及其家属均对本次研究内容知晓,并签署了知情同意书。
失效典型地发生在氧化层中的缺陷位置,这些缺陷是由一些恶劣的工艺或不均匀的氧化生长产生的。TDDB的特点是在MOS电容的电介质中发生突然的、经常是永久的直流导通。在使用过程中,施加的电压和电流会产生缺陷和电荷陷阱,并在衬底氧化物中和每个接触面处累积。随着时间的延长,累积电荷将缺陷和陷阱达到一定的水平,它能够产生足够高的局部电场和电流,导致局部区域的热激发和熔化。
目前,对于这种失效机理的薄氧化层效应仍然正在研究中,研究表明,在氧化层生长(只有几层)过程中的高水平工艺控制能够将缺陷降低到一个很低的水平,因此能够降低潜在的失效点。研究还表明,在薄氧化层中,电介质失效是一个软误差,只要没有达到TDDB,就可以恢复。
2.1.2 热载流子效应
所谓热载流子是指其能量比费米能级大几个kT以上的载流子。这些载流子与晶格不处于热平衡状态,当其能量达到或超过Si-SiO2界面势垒时(对电子注入为 3.2 eV,对空穴注入为 4.5 eV)便会注入到氧化层中,产生界面态、氧化层陷阱或被陷阱所俘获,使氧化层电荷增加或波动不稳,这就是热载流子效应[8]。
随着半导体特征尺寸的缩减,其电源电压并没有按比例缩减,导致器件内部的电场强度增加,这在MOSFET中特别突出。流进强电场区的载流子被加速,获得了足够的能量,其中的一些就变成了热载流子,这就意味着它有足够的能量能够克服Si衬底和栅氧化层薄膜之间的电势差,能够导致所有的半导体性能的恶化,并最终导致失效。
高能量的热载流子能够引起MOS器件的一系列效应,包括漏极区域的撞击电离和雪崩击穿,导致不断增加的漏极电流和衬底电流。将热载流子注入到栅氧化层也会引起栅电流,这些电流就是热载流子效应发生的指示器。随着时间的累积,氧化层累积的电荷能够改变阈值电压和器件跨导,当这两个参数变化超过一定的限值,器件就失效了。热载流子效应通过释放陷阱电荷能够被改变。阈值电压的变化能够引起数字电路延迟误差,但是通常这些误差难以进行定位。
2.1.3 电迁移
式中:Adc——与线宽有关的一个常数;
J——流过的电流密度A/cm2;
m——1~3的常数;
Ea——激活能;
T——金属条温度(K);
k——波尔兹曼常数8.62×10-5(eV/K)。
从公式可以看出,随着电流密度或温度的升高,就会导致电迁移寿命的减小[8]。
现在半导体行业已经广泛地使用铜互连导线代替铝,因为铜发生电迁移的阈值电压比铝发生电迁移的阈值电压要大。
2.2 失效先兆监测推理法
该方法根据电路的某些失效先兆信息,如性能参数漂移等,对其监测并推理,继而做出失效预报。失效先兆指失效症状出现前的异常信号,通常是失效发生前可测的变化,如输出电压、电流的变化。通过建立被测信号变化与随后发生的失效之间的因果关系就可以建立推理算法,进而在对监测所得数据分析的基础上进行诊断和故障预测。该方法首先是要确定监测参数,该参数应该是能表征电路可靠性的关键参数,对任务的完成至关重要。被控参数可以根据相似产品的以往经验或现场失效数据和质量鉴定来确定,也可采用较为系统化的方法——失效模式、机理及危害性分析 (FMMEA:Failure Mode Mechanisms and Effect Analysis)来确定[10]。FMMEA应该包括以下内容:1)电路易损单元及其失效率列表;2)各易损单元的失效模式与失效机理、失效物理模型;3)各易损单元的失效表征参量及发生失效前的先兆;4)电路发生严重故障前的迹象;5)用于失效预测的状态参量;6)探测器件失效前的专用监控单元及其位置。FMMEA分析是建立失效物理模型和失效先兆推理模型,完成PHM实时状态监控和残余寿命预报的基础。
1999年,Pecht[11]等人研究并通过实验验证了电源电流异常是CMOS集成电路性能异常的征兆之一,如表2所示。这种方法通过探测缺陷电路和正常电路的电流差值推理来诊断故障。电源电流分两种:静态电流和动态电流。静态电流是CMOS电路静态工作时获得的漏电流,动态电流是在加载输入之后周期转换过程中电路产生的电流。静态电流能够探测到桥接、开路和寄生晶体管等缺陷。温度、辐照和电压等工作和环境应力能够快速退化未探测到的故障,导致漏电流的增加。现在有关动态电流的文献几乎没有。
表2 半导体级别失效先兆
Smith and Campbell[12]发明了静态电流探测器(QCM: Quiescent Current Monitor),它能够实时探测到工作中增加的静态电流。QCM通过实时测量系统时钟信号电平转换时的漏电流,尽可能多地获得集成电路故障分布情况。Pecuh[13]与Xue和Walker[14]提出了一种CMOS器件低功率内置电流探测器的测试方法。在Pecuh的研究中,通过电流探测器测试一系列反相器来模拟开路和短路故障。两种故障都被成功地探测到,如果忽略测试条件对电路性能的影响,电流探测器的工作速度能够达到100 MHz。Xue和 Walker研发的电流传感器能够探测到的最小静态电流为10 pA。Kanniche和Mamat-Ibrahim[15]发明了一种算法,它能够对脉冲宽度调制电压源反相器的健康状况进行监控。也就是说,这种算法能够探测到并识别晶体管开路故障和电子驱动中发生的间歇性故障,其基础是离散小波变换(DWT:Discrete Wavelet Transform)和模糊逻辑 (FL:Fuzzy Logic)。
失效先兆推理法可以应用于电子产品故障预测的各个级别。在一些情况下,电路被看作是一个黑匣子,也就是说,没有必要知道产品内部具体发生的情况。根据输出信号单元所收集的数据,应用算法或经验来确定失效先兆。这个方法的优点是没有必要知道失效机理和失效模式。但是,缺点是在实施故障预测前,需要采集大量的数据来训练算法或者获得失效先兆预测方程。
3 面临的挑战
虽然半导体级别PHM实施起来相对容易,但是仍然处于初步发展过程阶段,许多相关技术还远未成熟,面临着许多挑战:
1)半导体器件的退化和失效过程是一种微观物理-化学过程,使用中很难做内部检测;
2)VLSI的集成度越来越高,其内部电路的监测难度也越来越高,技术越来越复杂;
3)电子器件的故障多具突发性,缺陷或损伤发展为故障往往呈雪崩形式,很难预测;
4)由于残余使用寿命预测中的不确定性,导致故障预测过早会成为虚警,预测过迟则无意义,从而不能有效地预防故障,避免事故;
5)对PHM技术投资回报率的评估,尽管近年来在基础PHM技术与方法上取得了巨大的进步,但是将科学研发成果转化为实际应用的案例还不多见(即使进行商业化了,也很难量化PHM技术带来的利益)。
4 结束语
PHM技术目前被广泛地视为一种高效的可靠性预测解决方案。相对于成熟的机械系统PHM,半导体级别PHM,甚至电子产品PHM尚未成熟,且同国外相关科研机构相比还有一定的差距。希望更多的资金和科研人员投入到该领域及相关技术领域,在提高集成电路可靠性的同时降低其成本。
[1]杜磊,庄奕琪,包军林.PHM与混合电路的发展机遇[J].混合微电子技术,2009,20:39-46.
[2]孔学东,陆裕东,恩云飞.电子产品PHM及其关键技术[J].中国质量,2010,(3): 15-18.
[3]GU J,VICHARE N,TRACY T,et al.Prognostics implementation methods for electronics[C]//Reliability and Maintainability Symposium.Orlando,2007:101-106.
[4]VICHARE N M,PECHE M G.Prognostics and health management of electronics[J].IEEE Transaction on Components and Packaging Technologies,2006,29:222-229.
[5]MISHRA S,PECHT M.In-situ sensors for product reliability monitoring[C]//Design,Test,Inte-gration and Packaging of MEMS/MOEMS.France,2002,4755:10-19.
[6]LV Y B,ZHUANG Y Q,LI X M,et al.A time dependent dielectric breakdown (TDDB)prognostic monitor[C]//20068th International Conference on Solid State and Integrated Circuit Technology.Shang-hai,2007: 1174-1176.
[7]赵俊晖,庄奕琪,李小明.一种VLSI热载流子退化的嵌入式实时预测方法[J].微电子学,2007,37:180-184.
[8]史宝华,贾新章,张德胜.微电子器件可靠性[M].西安:西安电子科技大学出版社,1999:26-42.
[9]HAU-RIEGE C S.An introduction to Cu electromi-gration[C]//Microelectronics Reliability,2004:195-205.
[10]张婧婧,杜磊,包军林.电子元器件与系统可靠性保障的PHM方法[J].电子产品可靠性与环境试验,2009,27(2):17-23.
[11]PECHT M G,RADOJCIC R,RAO G.Guidebook for managing silicon chip reliability[M] .Boca Raton,FL:CRC,1998.
[12]SMITH P A,CAMPBELL D V.Practical implementation of BICS for safety-critical applications[C]// IEEE International Workshop Current Defect Based Testing.Montreal,2000: 51-56.
[13]PECUH I,MARGALA M,STOPJAKOVA V.1.5 Volts iddq/iddt current monitors[C]//IEEE Canadian Conference on Electrical and Computer Engineering.Edmonton,1999:472-476.
[14]XUE B,WALKER D M H.Built-in current sensor for IDDQ test[C]//IEEE International Workshop on Defect Based Testing.Napa Valley,2004: 3-9.
[15]KANNICHE M S,MAMAT-IBRAHIM M R.Wavelet based fuzzy algorithm for condition monitoring of voltage source inverters[J].Electronics Letter,2004,40: 267-168.