浅谈电子设备的可靠性评估

2022-03-10刘梓君

科学与信息化 2022年4期

刘梓君

南京莱斯电子设备有限公司江苏南京 210000

引言

可靠性是产品在规定的时间内和规定的条件下，完成规定功能的能力，而这种能力的标识通常归结于一个概率值。在现代产品的质量中，可靠性占有突出的重要地位，所以在产品是全生命周期都需要开展可靠性管理工作。目前可靠性的管理工作贯穿于产品研制、试验、生产、使用和维修的全过程，通过对产品的可靠性评估，可发现产品的可靠性水平是否满足要求，从而实现产品的优化，提升产品的质量水平。

1 可靠性评估的概述

由于生产阶段产品数量和试验数量大大增加，此时所进行的可靠性数据的分析和评估，反映了产品的设计和制造水平；而使用阶段收集和分析的可靠性数据，对产品的设计和制造的评价最权威，因为它反映的使用及环境条件最真实，参与评估的产品数量较多，其评估结果反映了产品趋向成熟期或达到成熟期时的可靠性水平，是该产品可靠性工作的最终检验，也是今后开展新产品的可靠性设计和改进原产品设计的最有价值的参考。由此看来，可靠性评估是可靠性工作的重中之重，发挥着无可替代的作用。

针对目前市面上使用最多的电子设备，进行可靠性试验的费用很大，或者没有足够的条件进行可靠性试验，所以需要对设备在使用过程中的数据进行收集、分析，以完成电子设备的可靠性评估工作，不仅可以实现成本大幅降低的目标，还发现产品可靠性的薄弱环节，进行分析、改进设计，使产品的质量与可靠性水平不断改进和提高[1]。

2 可靠性评估流程

电子设备可靠性评估流程一般包括：①明确产品可靠性要求，包括可靠性参数和指标；②明确产品的故障判据和故障统计原则；③按大纲要求和故障判据、故障统计原则进行使用数据的收集与整理；④根据数据情况选取适合的可靠性数据分析方法、对产品或系统的可靠性进行评估；⑤对评估结果进行分析，并得出相应的结论和建议；⑥完成可靠性数据分析报告。

3 详细要求

3.1 确定可靠性要求

一般情况下，依据用户要求，综合考虑使用要求、精度、技术水平及相似产品的可靠性水平等因素，将可靠性要求（规定值）提高一定裕度，作为产品的可靠性设计指标。

3.2 故障判据

故障具体表现为在规定的条件下工作时，产品的一个或者几个性能该参数不能保持在规定的范围内，或者其结构部件、组件、元件等在工作条件下破损、断裂、丧失完成规定功能的能力。故障判据就是判定产品故障的标准，具体指故障的界限，超过此界限就是故障。

3.2.1 关联故障与非关联故障。在可靠性分析中，凡被判定为非关联故障的故障，应不计入故障，而每一次关联故障都应当记录。

3.2.1.1 如果试验或使用中发生以下故障，应记为关联故障：①设计缺陷或制造工艺缺陷造成的故障；②零部件及元器件缺陷造成的故障；③损耗件在寿命期内发生的故障；④故障原因不明的故障。

3.2.1.2 如果使用中发生以下故障，应记为非关联故障：①产品在使用过程中，由于安装不当造成的故障；②试验设备、监测设备发生的故障，以及由此引起的产品的故障；③使用过程中由于意外事故或误操作引起的故障；④由其他产品引起的从属故障；⑤由使用程序、规程等方面的错误引起的故障；⑥在同一部件第二次或相继出现的间歇故障；⑦在筛选、寻找故障、修复验证或正常维护调整中发生的故障；⑧由于超过设计要求的过应力所造成的故障；⑨超寿命期工作时出现的故障；⑩批准的试验程序中明确的其他非关联故障；⑪ 其他任何非系统的独立故障引起的失败或故障。

3.2.1.3 至于关联故障与非关联故障的变更，当满足下列条件时，已判定为关联故障的，可以重新判定为非关联故障。①经过故障分析、采取了相应的有效的纠正措施，并有足够证据证明纠正措施对消除故障完全有效；②已得到订购方对故障进行重新分类的批准。

3.2.2 故障统计原则。在确定故障判据之后，需要按照一定的故障统计原则，进行数据记录和筛选。对故障进行分类后，应按下面的原则对关联故障次数进行统计：

3.2.2.1 在一次工作中出现的同一部件或设备的间歇性故障或多次报警，只记录一次故障；

3.2.2.2 当可证实多个故障模式是由同一器件的失效引起的时候，整个事件记录一次故障；

3.2.2.3 在有多个零部件或单元同时失效的情况下，当不能证明是一个失效引起了另一些失效时，每个元器件的失效各记录为一次独立的故障；

3.2.2.4 已经报告过的故障由于未能真正修复而又再次出现的，应和原来报告过的故障合并，记录一次故障；

3.2.2.5 由于独立故障引起的从属故障不计入装备的故障次数；

3.2.2.6 试验对象或其部件计划内的拆卸时间不计入故障次数；

3.2.2.7 零部件的轻微缺陷，若不丧失规定功能，并且能够按照维修规程通过工作前检查和工作后检查等予以原位修复（不引起拆卸）的时间，如松动、漂移、渗漏等，不计入故障次数；

3.2.2.8 已确认为非关联故障的故障不计入故障次数；

3.2.2.9 其他要求。

3.3 数据收集

可靠性数据主要从两方面得到：一是从实验室进行的可靠性试验中得到，二是从产品实际现场得到。从实验室得到的数据，称为试验数据或内场数据；而在现场得到的数据，则称为现场数据或外场数据[2]。

在产品故障频发（可靠性低）的状态下，通过实验室的试验可以很容易地获得数据。但当产品的可靠性提高之后，故障并不轻易发生，通过实验室试验取得数据就很困难。当产品的可靠性较高，无法在实验室获得数据，采取现场数据更为合适。其中记述产品开始工作至故障的时间（故障时间）及开始工作至统计之时尚未故障的工作时间（无故障工作时间）的数据是用来评估使用可靠性参数的主要数据，应特别注意收集。数据收集数量越多，则可靠度评估的准确性越高，应尽量多收集现场数据。

3.4 失效分布类型确定

失效分部类型是各种各样的，某一类型分布可适用于具有共同失效机理的某些产品。常用的失效分部有指数分布、正态分布、对数正态分布、威布尔分布、二项分布、泊松分布等。

确定产品的失效分布类型可通过失效物理分析，来证实产品的失效形式或失效机理近似地符合于某种类型的失效分部的物理背景。表1给出了常用产品在实践经验中得到的对应分布的举例。

表1 常用产品的失效分布类型对照表

本文主要针对电子设备产品进行可靠性评估，通过上表可知失效分部选择指数分布较为合适。

3.5 可靠性评估

3.5.1 平均寿命。当产品为不可修复产品时，平均寿命又称为平均故障时间（mean time to failure），简记为MTTF。

当产品为可修复产品时，其平均寿命又称为平均故障间隔时间（mean time between failure），简记为MFBT。一般的电子设备如显示器、计算机等均为可修复产品，产品的平均寿命为平均故障间隔时间（MTBF），所以对产品MTBF的评估计算产品的平均寿命θ即可。

3.5.2 置信下限。在实际使用过程中，产品的可靠性越高越好，此时单侧置信限的下限可作为可靠性评估的指标，所以产品的可靠性评估计算出最优置信下限即可。

3.5.3 有替换定时截尾时的指数分布可靠性评估。一般由于产品发生故障后回进行维修，维修后进行继续工作，所以可看作有替换的试验，一般评估采用评估时作为截止时间收集数据，所以可看作定时截尾，因而考虑采用有替换的定时截尾时的指数分布类型进行可靠性评估。

已知产品寿命服从指数分布，现从总体中抽取n个样品进行有替换试验，试验至t0时停止，其运行时间的统计量为t1、t2……tn。可以得到，所有产品的使用时间之和T0为：

对于发生故障的设备，其使用时间为几段使用时间相加，例如：某设备共发生2次故障，每次修复后继续工作，具体的设备工作时间在图1上进行标注，则该单个设备的总运行时间t运行为：

图1 设备工作时间示意图

进行单侧信限估计时，其置信度为（1－α）水平的平均寿命置信下限为：

式中，r－为故障次数。

注：置信水平（1－α）通常取0.9，即α为0.1。

3.5.4 结果分析。根据上文中平均寿命θ的（1－α）水平的单侧置信下限可得出可靠性评估的MTBF值，通过与产品要求的MTBF值进行对比，若超过产品的要求，则认为该产品满足可靠性设计要求，若小于等于产品的要求，则认为该产品不满足可靠性设计要求，则需要进行故障进一步分析，改进产品设计以实现可靠性要求[3]。