高加速寿命试验技术分析及应用研究

2022-11-17康京山

电子产品可靠性与环境试验 2022年5期

康京山

（中国电子科技集团公司第五十四研究所，河北石家庄 050081）

0 引言

为实现产品可靠性，需在全寿命周期开展可靠性工作[1]。但在新产品研发中不可避免地会引入一些影响可靠性的错误、问题或薄弱环节，如元器件的原材料选型、逻辑或时序设计和各个部分之间的有效协同，以及抗干扰工序的工艺设计等多方面的问题。

发现这类问题的方法有两种:一种是分析方法，另一种是试验方法。经验表明，约有70%左右的设计缺陷要靠对样件进行试验来找出[2]。从国内工程实践看，由于缺乏严谨有效的分析方法，并且在必要的数据、知识和经验的积累和运用方面的机制不够健全，造成在文档图纸资料审查或评审中发现可靠性设计问题能力不足。因此，相关问题在很大程度上需要依赖可靠性试验的方法去发现。

然而，传统的可靠性试验方法采用模拟产品预期使用应力环境方法，需要的试验样本数量大，耗时长，成本高，难以在多个产品层次、不同的技术状态下充分地开展。而在项目后期通过试验发现可靠性方面的设计问题时，所采取的解决方案不可避免地会受到进度、成本和技术状态控制等诸多因素的制约，难以实现最优化。

为了缩短可靠性试验周期，美国G K Hobbs博士在20世纪80年代末90年代初提出了高加速寿命试验（HALT:Highly Accelerated Life Testing）方法[3-5]。该方法认为，与其费力地测量或评价产品的可靠性指标（如平均无故障时间（MTBF:Mean Time Between Failure）），还不如通过试验快速地发现产品可能存在的缺陷并加以改进来提高可靠性水平。而为了保证“快速”，采用在样品上施加远超出产品规范极限的应力并逐步地增大应力量值的方法，以换取试验时间的缩短，就不失为一种值得提倡的方法。

随着支持快速温变和六自由度随机振动试验设施的普及，这项技术在航空电子、通信产品和消费电子产品等许多领域中得到了成功的应用[6-10]。例如:文献[7]报道了在电信设备领域中的应用情况，在试验时间方面，传统的可靠性试验方法所需的时间大多在4～6个月之间，而HALT方法仅需几周时间；在提高可靠性效果方面，有案例将12 250个经HALT改进后的点对多点单元在交付1年后统计现场可靠性，与此前交付试运行1.5年的2 715个未经HALT试验的单元进行对比，发现现场可靠性提高了将近5倍。

但是，关于HALT，存在以下问题:

1）人们对其概念、原理、方法和应用等还存在模糊的认识甚至误区，不利于这项技术的正确运用；

2）产品研发人员往往认为HALT所发现的故障模式是由过应力造成的，将来在规定的使用条件下不可能实际发生，因此，对于设计改进的积极性不高；

3）由于缺乏对HALT技术全面而深入的理解，试验人员往往只施加常规的、通用的环境应力，简单地逐步增大应力量值，容易出现既大量激发现场不可能发生的故障，又遗漏应该得到激发的故障的现象，损害试验结果的价值。

因此，迫切地需要对HALT的技术原理及应用进行进一步的研究，使试验人员正确地运用这项技术取得对于提高产品的可靠性真正有价值的试验结果，使产品各个相关方全面地了解这项技术，恰当地解读试验结果，最终使得这项技术得以在更大范围内推广应用。

1 HALT的结构化分析

为了对HALT技术及其应用进行全面分析，采用结构化分析方法，按照某种模型将分析对象分解为一系列相互独立的方面或者子问题分别分析。这样的模型有多种，结合HALT的特点，本文选择5W2H模型。

1.1 HALT究竟是什么（What）？

经历了长期发展的演进，业界关于HALT有了一定的共识，但是，在不同的应用领域或不同的发展时期，其概念含义存在一定的差异甚至完成不同。

Hobbs博士给出的描述是“为了发现设计和制造工艺的缺陷环节，所使用的每个可能的激励值均需在加速试验条件下施加[3]。”

GB/T 29309的定义是“通过逐步增强施加在试验样品上的试验应力（如温度、振动快速温变和振动综合应力等），确定产品的耐受应力极限的试验[11]。”

GB/Z 31477（等同采用IEC/TS 62500）并未定义HALT，而是定义了高加速试验:“对产品或产品的某些部件以步进方式施加环境应力和（或）工作应力，并逐步地提高到远超过规范规定的应力水平，直到其达到工作和（或）破坏极限为止的试验[12-13]。”

GB/T 34986认为，作为非指标考核性的加速试验，HALT不能得到产品的寿命信息，但可以得到产品设计应力极限值信息，为了避免引起误解，它定义了高加速极限试验，缩写同样为HALT。顺便指出，其定义为“在规定的环境应力下，用于找出产品最有可能出现的失效模式的试验或试验序列[14]。”这容易使人困惑:不是要超出规定的环境应力以压缩试验时间吗？笔者查其等同采用的IEC 62506，发现该标准中给出的HALT的定义为“用于发现产品在规定应力环境下最有可能出现的失效模式的试验或试验序列[15]。”对比两个定义发现，后者强调要找出的是产品暴露在规定应力下也就是实际的使用现场环境下的失效模式（也被称为故障模式），而不是限定在规定的环境应力下进行试验。因此，我们认为后者的表述更准确。

GJB 451A[16]将HALT翻译为高加速应力试验，其定义是“在产品研制阶段，通过步进的方法向产品施加高于技术条件规定的应力，不断地找出设计和工艺缺陷加以改进，逐步地提高产品的耐环境能力，并找出产品承受环境应力的工作极限和破坏极限的过程。”它规定了HALT的时机、采用的方法、要达到的目的，定义全面而准确。同时，该标准还定义了与HALT类似的概念可靠性强化试验（RET），定义为:“通过系统地施加逐步增大的环境应力和工作应力，激发和暴露产品设计中的薄弱环节，以便改进设计和工艺，提高产品可靠性的试验。它是一种可靠性研制试验。”RET应用和研究也很广泛，如文献[17-19]所示。

通过以上分析可知，HALT、高加速极限试验、高加速试验、高加速应力试验和可靠性强化试验，虽然各个概念强调的重点有所不同，但其实质是相同的，体现了HALT的本质:采用步进应力试验的方法，激发设计和工艺缺陷，探测应力极限或裕度，通过改进设计和工艺来提高产品的可靠性而不是测量产品的可靠性指标。因此，可认为这些概念在许多语境下是通用的。

HALT的基本理念是提升可靠性常用方法之一的“试验-分析-改进（TAAF）循环”，因此，HALT技术的内容或范畴，不仅包括对受试品进行试验的过程，还包括分析和改进，不断地循环迭代，直到把产品可靠性提高到可以接受的水平为止的全过程。

1.2 为什么要进行HALT（Why）？

具体包括以下3个方面的动机。

1.2.1 发现设计缺陷或故障模式

制约可靠性水平的是产品存在缺陷或设计方面的薄弱环节。这些问题用常规检测或监测手段难以发现，但当产品在使用中长期暴露在应力环境下时，随着损伤的累积可能造成故障。HALT通过施加逐渐增大的应力将薄弱环节激发为明显的缺陷，表现为可检测故障，从而使薄弱环节得到改进。在TAAF循环中，故障或者缺陷是受欢迎的，因为它们为改进提供了契机。

1.2.2 获得应力极限值或裕度

产品在寿命周期贮存、运输、使用和维护等各种状态下，受到环境和业务负载各种应力的作用。对于每一种应力，产品实际具有的能力即强度会随着应力的积累作用而递减。当产品具有的强度低于实际暴露的应力时，就会发生故障。因此强度与应力之间的关系，决定着产品的可靠性。

通过HALT可测得产品面对各种应力的工作极限和破坏极限，与规范极限的差值被称为设计裕度，可用于以下情形。

a）为是否继续对产品进行改进提供决策依据，设计裕度越大，则应力超出产品强度的概率就越小，产品的可靠性就越高；但是，设计裕度越大，意味着成本或其他开销（如电路复杂性）增大，需权衡决策。

b）在生产阶段，可据此合理地提高应力施加水平从而提高环境应力筛选的效率和有效性。传统的环境应力筛选（ESS）[20]所施加的环境应力不能超出产品规范的规定范围，在很短的试验周期内，难以有效地剔除存在瑕疵的产品，高可靠产品尤为如此。利用HALT得到的裕度，可用高加速应力筛选（HASS）[3，21]代替ESS，将应力量值提高到既能有效地激发潜在的缺陷而又不会对产品造成损坏的恰当水平，改进生产批产品可靠性。

1.2.3 显著地缩短可靠性试验时间

基于失效物理的加速损伤理论，提高施加应力的水平，可在短时间内产生与现场使用等效的损伤效果，此即为加速试验。通过施加远高于现场应力水平，HALT可将试验周期从传统可靠性试验的几个月，加速寿命试验（ALT）[22]的几十天，缩短到几天的时间，从而使得TAAF循环可以快速地迭代。试验时间大幅缩短是这项技术的根本优势。

顺便指出，无论以故障模式还是以设计裕度为关注中心，本质上是相同的。当应力达到某个量值时会触发一种或多种故障模式，则此时的应力量值就是应力极限。因此，提高极限的方法，或者采取措施将该故障模式排除；或者退而求其次，延缓该故障模式的发生。

另外，可以从浴盆曲线看HALT对于产品可靠性的作用。如图1所示，故障率浴盆曲线可以分为3段:早期故障、外部诱发故障和损耗故障。首先，HALT提高了设计裕度，因而外部应力超出产品强度的可能性减小，降低外部诱发故障率。其次，由于HALT在产品研发阶段识别那些损耗故障发生较早的设计、元器件、材料和工艺并予以改进，推迟产品损耗故障阶段的到来直至将其推出产品的有效寿命周期之外，即推迟损耗故障段的到来。关于早期故障段，主要是通过批量生产时进行HASS以有效地剔除潜在的缺陷，显著地降低故障率并缩短早期故障阶段的时间跨度。HALT将为HASS提供必不可少的极限数据，发挥间接作用。

图1 HALT对降低故障率的作用

1.3 何时进行HALT（When）？

主要在以下几个时机进行HALT。

a）HALT最主要的应用场合为产品研发早期的可靠性研制试验（RDT:Reliability Development Test）。RDT的目的是，通过对产品（或产品组成部分）施加适当的环境应力、工作载荷，寻找设计缺陷，以改进设计来提高产品的固有可靠性水平[1]。

b）在批生产阶段进行HASS试验之前，进行HALT，评价设计和工艺改进等技术状态的更改是否导致了应力极限值的变化，为开展HASS提供应力参数选择依据。

c）其他场合，例如:产品故障排查时复现故障或者改进后验证措施的有效性所需的时间特别长，可考虑采用HALT。

关于HALT是否适用于可靠性增长试验（RGT:Reliability Growth Test）需要讨论。我们发现不同的文献中有关概念存在差异。按照GJB 450A，RGT与RDT虽然都是暴露薄弱环节加以改进，但二者存在根本不同:1）在激发故障的手段方面，RGT强调“施加模拟实际环境的综合环境应力及工作应力”；2）在试验目标方面，RGT强调“使产品的可靠性达到规定要求[1]”。HALT不满足这些要求，因此不适用于RGT。

按照另外一些可靠性试验分类方法，例如:GB/T 2900.99（等同采用IEC 60050-192），不单独定义RDT，而将RGT定义为“通过试验直至失效、失效分析、执行纠正措施和进一步试验，以提高可靠性的迭代过程”[23]，覆盖了GJB 450A的RDT和RGT两个概念范畴。在此语境下，HALT适用于RGT。

1.4 需要什么样的试验场所（Where）？

HALT属于室内试验，关于测试实验室，需注意以下几个方面。

a）最好选择研制单位内部或当地长期合作的可靠性实验室。这是因为，一方面HALT具有不确定性，试验前难以确定TAAF迭代次数和排查故障所需的时间；另一方面对于HALT发现的故障进行分析和改进时，通常不得不借助产品研发调试环境。

b）实验室应具有施加所需环境应力和业务应力的能力。有研究表明[24-25]，在没有专门的HALT设施的情况下，用传统的环境试验设施也可实施HALT中的低温步进、高温步进、温度循环和振动步进试验项目，无法进行温度循环与振动综合试验，与完整的HALT相比，大约只损失20%的发现故障机会。但是，对于高可靠产品，为了充分地发现薄弱环节，一般认为具有专门的HALT/HASS试验箱，是开展HALT的必要条件。

c）具有面向具体产品的测试环境。一般情况下，对受试品进行功能性能测试，需要有输入信号作为激励，测量相应的输出信号，持续地监视受试品的运行状态或性能指标，与预期结果进行比较从而判定受试品是否出现故障。

需要指出的是，测试环境的构建往往成为工程实践中的难点，也是影响HALT效果的关键点。具体分析如下所述。

a）HALT的受试品主要是产品中的模块、组件和板卡等，通常与其余部分交互密切（如时钟、控制和数据等多种信号的输入输出），因此测试环境较为复杂。与常温下调试所需的环境不同，HALT时受试品和测试环境通常分处试验箱内外，受信号时序、信号驱动能力和抗干扰等诸多因素的限制，构建甚至专门开发测试环境的难度大、工作量大。

b）如果在开发测试环境时对信号及其逻辑关系、时序关系等过度简化，将不能充分地模拟受试品的实际工作场景，导致受试品的许多物理或逻辑组成部分在试验中未得到充分的、有效的测试。另外，故障发生后若测试环境不能及时地检测和隔离故障，可能造成某些瞬态故障、间歇故障被遗漏，或者等到故障影响扩大甚至诱发其他故障而被检测到时，则将加大故障根因分析的难度。不仅如此，由于HALT采用步进应力方式，故障检测的滞后将造成测得的应力极限值偏高，对于是否采取改进措施的决策，以及HASS的应力量值的选取都会造成误导。

c）在研发阶段的早期，可能出现某种板卡具备试验条件后，其余部分尚未具备条件无法构成测试环境的情况，导致试验不能及时地开展。

1.5 需要哪些角色参与HALT（Who）？

HALT的性质决定了需要参加试验的人员及其职责，如下所述。

a）作为研制试验，通常由研制方自行开展，产品订购方不需加以控制，即HALT的主体是产品研制方。研制方不应认为只有在订购方有要求时才进行HALT，而应积极地寻求使用该技术尽早地发现设计薄弱环节的机会。对于复杂系统产品，为降低后续各个阶段的风险，订购方或总体单位应引导各个具体的研制方开展HALT。

b）需要组织一个由产品研发、试验、质量、工艺和技术等人员组成的试验团队，而不是像其他试验那样交由试验人员完成即可。

团队中研发人员起主导作用，负责确认产品技术状态，分析需施加的应力类型，构建测试环境，对于试验中得到的裕度或故障进行分析决策，必要时组织改进。试验人员利用长期积累的经验，对试验参数的选取和故障模式分析提出建议。质量、工艺和技术专家等，提供咨询和技术支持。

故障分析需要从故障现象中推理出故障根因和机理，确定处置措施，因此需要利用所积累的数据和经验，难度大。进一步地，由于HALT激发的故障并不一定都是预期在现场将会出现的关联故障，也可能伴随有非关联故障，只有通过分析才能区分。但是，有的相关方在没有确定为关联故障之前，认为故障不是自己产品或技术造成的，因而不愿意配合分析，这将进一步地加大故障分析的难度。如果不能及时地分析处置，不仅无法实现TAAF循环，还可能导致试验停滞。因此，故障分析与处置是HALT的一项关键技术。

1.6 怎样进行HALT（How）？

HALT本质上是一个TAAF循环迭代过程，如图2所示，从顶层视角给出了其流程。

图2 HALT的试验、分析、改进流程图

a）试验需求的确定和应力选择

根据需要来确定对哪些产品或组成部分进行试验，分析选择施加的应力类型，估计基本极限。

b）试验准备

准备受试品、测试环境、判决准则、试验装置和夹具等。

c）HALT的实施及应力极限的测定

受篇幅所限，见相关标准或文献[11-12]。

d）故障分析及处置

进行故障模式分析，确定并实施改进措施，提高产品裕度。故障发生后，若经分析做出不再改进的决策，若试验尚未全部完成，则应对发生故障的受试品采取临时修理或替换措施，保障后续试验的进行。

1.7 HALT成本效益如何（How much）？

众所周知，在产品寿命期内，错误或缺陷发现得越早，造成的损失就越小。特别是对于复杂或者重要用途的产品，可靠性的提高将降低运行维护和保障费用，还可以改善用户体验甚至避免造成严重的后果。HALT能够在研发阶段的早期，针对较低装配层级产品（如模块、板卡等），在很短的试验周期内，发现产品设计和工艺设计存在的薄弱环节，及时地组织改进，成本可控，经济效益显著。对于研制周期短、样机数量少和可靠性要求高的新产品研制，HALT作用尤为明显。

2 讨论

在此讨论以下几个问题。.

2.1 HALT的加速应力一定是环境应力吗？

施加应力的目的在于激发潜在的缺陷，因此，选择什么应力应以激发缺陷的能力来衡量。应力，既包括环境应力，也包括业务载荷应力，以及电应力等。正如Hobbs博士所指出的那样，“用于HALT和HASS的应力，包括但不限于全轴向同时施加的振动，高速率、宽范围的温度循环，通电循环，电压和频率变化，湿度，以及可以暴露设计和工艺问题的其他任何应力[3]。”至于应力类型的具体选择方法，可结合受试品的风险分析以及FMEA/FMECA[26-27]来识别敏感点，列出可能的应力，以矩阵形式分析各种应力对各个敏感点的激发能力，选出具有“高激发率”的应力，经适当归纳合并后最终确定需施加的应力。

之所以会出现HALT施加的一定是环境应力的误区，可能有两个方面的原因:1）环境应力适用于绝大多数产品特别是电子产品、机电产品，而其他应力往往只适用于特定的敏感点，通用性不强，因此，在介绍HALT时，往往只提及环境应力；2）在引入HALT技术时，有些文献将“stress environment”译为“环境应力”，容易对读者造成误导。根据上下文分析，其本义是指产品面临的各种应力环境，而不是单指气候、力学等狭义的环境应力。

2.2 怎样判断步进应力应该停止？

HALT采用步进方式逐步地增大应力量值，可按以下方式来确定试验应该继续还是停止。

a）若实测极限值低于规范的规定水平，说明设计不满足要求，必须改进。

b）基于企业类似产品的典型值或经验值，考虑产品设计及生产过程中各类参数的离散性对裕度统计特性的影响（如文献[12]的附录A），判定极限实测值是否可接受。

1）若不可接受，则须改进并继续试验。

2）若可接受，若技术可行并且成本、周期及其他约束条件允许，则仍应继续试验，提高裕度；若已达到或接近元器件、原材料和工艺等的极限，只有从技术上进行根本性更改才能提高裕度，则停止试验。

c）若已达到试验设施能力的极限，则停止试验。

2.3 施加应力量值越高激发故障越多越好？

在一些文献中，HALT被简单化了，就是采用步进方式逐步地提高应力量值，要么激发而产生故障，交由研发人员进行故障分析；要么到达基本极限或试验设施能力的极限为止。而许多企业或产品，由于缺乏支撑数据和经验的积累，往往难以确定贴切的基本极限，仅以试验箱的能力极限作为终止条件。

实际上，HALT希望发现的是在规定的使用环境下长期使用时预期会出现的故障模式，而不希望出现在现场条件下不会出现的故障模式。如果简单地增大施加的应力量值，存在几个方面的问题。

a）产生大量的非关联故障，增大故障模式分析与处置工作的难度和工作量，导致HALT总周期大幅度地延长。

b）由于分析甄别关联与非关联故障的难度大，如果全部采取改进措施的话，将会造成成本的增大，甚至带来产品体积、重量和功耗的增大。

c）可能频繁地造成受试品损坏，由于研发阶段的样品数量少，这将影响后续试验的进行，甚至影响其他研制工作的开展。

3 结束语

HALT虽然不能定量地评价但确实可以提高产品的可靠性指标。为推动其普及应用，至少有以下工作迫切地需要开展:1）使各个相关方了解该技术并消除认识误区；2）研究和突破敏感应力类型识别、试验参数选取、故障模式分析与处置等关键技术，减少试验的盲目性，提高有效性；3）选择典型产品来实际开展HALT，并且长期跟踪产品后续阶段的质量表现，对HALT的效果进行评价并积累数据；4）形成典型案例，吸引更多的研发团队把HALT作为其提高可靠性水平的得力工具。