APP下载

嵌入式系统的可靠性方法和流程探讨

2018-08-22朱志勇

新型工业化 2018年7期
关键词:可靠性故障产品

朱志勇

(南京康尼电子科技有限公司,江苏 南京,210009)

0 引言

以数字化、物联化、智能化趋势为特点的嵌入式系统产品已经深入人们的生活,在日常的使用中非常广泛。其可靠性不仅关系到正常使用,而且关系到使用者的人身安全,若发生严重故障可能会令使用者受到严重的人身伤害。可靠性是与产品质量相关的重要的因素,根据定义,可靠性是指产品在规定的条件、规定时间内完成规定功能的能力。嵌入式系统产品是否具备高可靠性是决定产品能否应用到高端领域的基本前提[1]。

嵌入式系统通常集传感器、集成电路、存储器、网络、软件等技术于一体,可以实现系统预期定义的功能。但由于不断追求系统功能多样会导致系统可扩展性不断增强,复杂度不断增加,运行频率不断提高,因此,保障系统的可靠性越来越困难。

目前国内外对系统可靠性的研究与应用已历经几十年,在军工产品和民用产品中应用广泛。本文基于笔者对可靠性工程理论的了解和学习,结合理论和笔者的工作经验对产品可靠性工程相关的流程和方法进行了梳理。

1 我国可靠性标准的现状

我国已经发布的可靠性标准有400余项,其中能够提高可靠性标准整体水平的通用技术标准占比较少,且主要集中在可靠性的名词、术语、通用试验方法等方面,此外,可靠性设计、评审、评价标准数量等也偏低,致使标准对可靠性提升的指导意义不强[2]。

2016年9月,国家军用标准GJB / Z 299D《电子设备可靠性预计手册》完成了修订后的审查。国家军用标准GJB/Z 299D合并代替GJB/Z 299C-2006《电子设备可靠性预计手册》和GJB/Z 108A-2006《电子设备非工作状态可靠性预计手册》,将满足武器装备现代化建设中对可靠性方面的需要,也为工业和民用产品在维修性、保障性、测试性和安全性等领域的工作提供更加扎实的基础。2016年11月23日,国家标准《电子设备可靠性预计模型及数据手册》在广州通过了标准审查。该标准是我国首个基于国产元器件的电子产品可靠性预计国家标准。有此可见可靠性标准的制定和研究已经得到了业界的广泛重视。

2 可靠性总体框架

2.1 可靠性工程

可靠性工程是指为了达到系统的可靠性要求所进行的一系列技术和管理活动,贯穿于产品系统工程的寿命周期过程中。可靠性工程与系统工程两者之间必须相互协同,同步开展。不考虑可靠性的系统工程将缺乏实际应用意义,脱离系统工程研究的可靠性也难以得到显著成效。

2.2 可靠性流程

图1 产品生命周期的可靠性工作流程Fig.1 Product reliability process in life cycle

可靠性流程应围绕可靠性总体指标展开,从制定可靠性工作计划开始,应当在系统需求定义的阶段完成功能模块分解和模块可靠性指标的定义[3]。通过对功能模块进行可靠性预计,衡量分配到各系统中的可靠性指标是否合理,系统可靠性能否达到总体目标,否则应当在平衡性能、风险、成本、工期的基础上,改进系统功能模块结构。通过此过程识别出可靠性关键件,并且输出各个子系统的可靠性指标[4]。根据实际需要,经常将故障模式和影响分析(FMECA),故障树[5]等方法用于辅助模块分析。对涉及安全相关系统,需在此阶段形成危害登记册,从而可以掌握相关危害的严酷度,对危害加以管控[6]。如果属于耐用工业品,还需进行全寿命周期费用(LCC)分析[7]。

软硬件设计应遵循可靠性设计准则,围绕产品寿命周期内的使用载荷和环境载荷,通过可靠性设计消除或减少关键故障模式[8]。同时应在设计阶段进行产品的可制造性设计,如果产品的可制造性不良,不但会出现产品制造的成品率低的问题,而且也会在制造过程中产生制造缺陷,造成最终产品的可靠性降低[9]。

在完成系统集成后,除了验证系统功能,还应开展降级模式试验,早期故障试验,高应力加速寿命试验等工作,可以在试产前发现设计中遗留的问题,提高产品可靠性[10]。从试验数据中经常可以发现产品的薄弱环节[11]。试验中发生的问题如果得不到解决,在现场使用过程中必然也会发生,将直接影响到可靠性指标的达成。

事实上,无论多么完善的设计都无法完全识别产品的使用载荷与环境载荷,在使用中不可避免地还是会出现失效,因此收集使用后的失效数据用于产品的可靠性增长是非常重要且有效的工作内容。图1为产品生命周期的可靠性工作流程。

3 可靠性方法

3.1 系统的可靠性方法

系统的失效分为系统失效和随机失效两类,可以从这两个方面提高系统的可靠性。系统性的失效通常可以通过可靠性预计,选用成熟的技术方案,通过严密的设计计算等方法避免,对于残留的设计错误还可以通过验证测试排除。避免系统失效开展的研发活动同样会间接降低随机失效。例如,如果产品使用的技术方案越成熟,产品的制造系统也更加容易保障产品质量的稳定,因而会降低随机失效的发生。随机失效与产品的使用环境因素,物料选型,等因素非常相关,也应在设计阶段进行可靠性评估。

可靠性关键件在各个子系统中对可靠性指标均起到非常重要的作用,根据故障模式和影响分析(FEMECA)可以识别出最不希望发生的故障事件作为顶事件。故障树分析法(FTA)是一种非常直观并且常用的可靠性预计方法。故障树可以用来指明能够引发顶事件的各种因素的组合逻辑关系。根据可靠性理论,故障树事件(包括顶事件和中间事件)的发生概率在“与”门结构中按照如下公式进行计算:

故障树事件的发生概率在“或”门结构中按照如下公式进行计算:

其中:X为顶事件;xi为底事件(i=1,2,……,n); P(xi)为底事件发生的概率。

某轨道交通产品用于数字量输入的硬件电路如图2所示。输入的信号为110 V直流电压,输入口电路采用电阻R1(36 Κ,2 W)进行限流保护,采用光耦器件进行隔离处理。采用电阻R2(2.7 Κ, 1 W)与并联光耦用于抑制噪声干扰。此外,光耦的次级设计了RC低通滤波电路以滤除高频干扰。与RC低通滤波电路串联施密特触发器用于防止输入信号不稳定引起电路的输出信号的质量较差。

图2 数量输入电路Fig.2 Digital signal input circuit

在系统需求定义的阶段,上述输入口被识别为可靠性关键件,输入接口异常为“高”是导向严重故障的事件,因而有必要采用故障树分析法对输入口进一步分析。经分析此顶事件输入口电路异常出现“高”电平会在光耦U1发生短路失效,或非门U2失效导致输出常低,或非门U2出现输出开路时发生。故障树如图3所示。

3.2 硬件的可靠性方法

减少硬件随机失效应当考虑物料的优选,电磁兼容性设计,环境适应性设计,电路的可靠性防护,印制线路板的工艺设计,组装的可制造性,环境适应性等方面的因素。避免系统性失效应从降额设计,严谨的设计计算,采用仿真技术,开展热设计,信号完整性检查等方面着手。

提高硬件可靠性的一个重要方法是进行可靠性预计,并结合故障树分析是否符合项目要求。国际上用于可靠性预计的手册或标准有很多,如:美国军用标准 MΙL-HDBΚ-217,Telcordia SR-332、RDF、HRD、西门子 SN29500和 ΙEC TR 62380[12]。2017年公布实施的ΙEC 61709合并替代了 ΙEC 61709:2011 and ΙEC TR 62380:2004 包含了对工作状态和非工作状态的电子组件的可靠性预计。虽然美国国防部停止了更新美军标Mil-Hdbk-217,但是实际设计中仍然经常用于计算各个硬件故障发生的概率,评估硬件系统的可靠性。参照美军标Mil-Hdbk-217F 6.11章节,光耦器件的可靠性预计模型为:

其中: λb为光耦器件的基本故障率,查表可知数值为0.013;πT为温度因子,按照40℃预计系统的运行时光耦器件所处的环境温度,查表得到πT为1.6;根据器件的品牌质量情况,供货渠道的成熟度评估质量因子πQ,由于未达到普军级(JAN),选取等级为更低级(Lower),查表得到对应值为5.5;πE为环境因子,由于此产品用于轨道交通,属于地面移动设备,对应等级GM,查表得到对应的πE数值为8.0。

图3 异常输入的故障树Fig.3 Fault tree with abnormal input

表1 输入口元器件的失效率及占比Table 1 Failure rate and proportion of component of input port

根据可靠性预计模型计算:

依照上述方法计算出其他各种器件的失效率。参照ΙEC 61709标准的附录A 章节“器件的失效模式”,获得各种器件典型失效模式占总失效率的百分比[13]。器件失效率计算结果和各失效模式的占比如表1所示。得到上述计算结果后更新故障树,得出输入口模块的输入异常表现为“高”的概率数值,结果如图4所示,输入口异常为“高”顶事件的故障率为4.78e-7次/ h。在获得顶事件的故障率后,根据此故障率数值评估得到此输入口的失效率水平是满足系统分配给输入口模块的可靠性指标要求的。

3.3 软件的可靠性方法

保证软件的可靠性需要从需求的分析入手,充分分析软件功能模块的风险,对安全关键功能采用必要的设计方法,包括开展冗余设计、健壮性设计,使用简化的模块结构,使用良好的编码风格,充分分析系统的资源分配和时序等。同时,对潜在的功能运行错误,采取必要的防错处理[14]。

保证软件的正向设计可靠性的同时,还应依据产品的设计准则开展同行评审活动,暴露软件缺陷。通过由本领域的专家对软件结构、功能模块及软件代码审核,可以有效地发现软件缺陷。软件的常规测试则包括静态测试,白盒测试,黑盒功能测试及性能测试等,应结合系统需求,充分理解软件对硬件的操作行为,制定合理和充分的测试用例。通过软件测试过程纠正不符合预期的结果,达到提高可靠性的目的。

图4 异常输入的故障率Fig.4 Failure rate of abnormal input

3.4 可靠性试验

在产品完成软硬件集成后,应通过系列的型式试验确认系统是否符合产品技术规格的要求,确保产品在已知的应力及可试验的条件下,能够按照预先的设计完成生命周期的服务功能。产品的确认应包括产品的运行参数的确认,边界值条件下的功能及降级模式的确认。高加速应力试验是一种经过检验的可靠性增长的有效方法,可以在短期内快速激发产品缺陷,经过进一步的改善活动,可以起到快速提高产品可靠性的作用[15]。

3.5 可靠性的闭环管理及增长

尽管通过周密的设计及试验验证能够最大程度地减少产品使用后的失效,但是由于嵌入式系统涉及多学科,在制造过程中也会引入潜在缺陷,在使用过程中也会超出正常应力,以致产品出现失效,因而产品上市后开展失效闭环管理实现可靠性的增长非常有意义。开展可靠性增长既可以改进已发货产品的可靠性,又能够将相关的经验数据用于下一代产品的研制中。

实现可靠性增长的主要工作包括分析失效原因,制定改进措施,实施和监控改进措施,对产品失效形成闭环管理实现产品质量的增长。应对反馈的失效数据进行分类汇总分析,根据故障现象,故障类型,失效点位,服役时间,原因分析及效果验证等数据形成产品的可靠性数据库[16]。从数据库中识别共性故障用于指导下一代产品的优化实现可靠性提升。

4 结论

本文探讨了嵌入式系统的可靠性流程和方法。可靠性工程应与系统工程同步开展,从分析产品的可靠性要求开始,制定可靠性目标,进而围绕可靠性目标开展的可靠性分配、预计等工作。系统地介绍了与可靠性工程有关的系统及软硬件可靠性方法。此可靠性流程及方法应用于轨道交通门系统控制器的研制工作中,对保障控制器的可靠性起到了指导作用。通过监控和分析已发货产品的运行数据,并在正常检修过程中进行改进,实现了可靠性的增长。

猜你喜欢

可靠性故障产品
故障一点通
合理使用及正确测试以提升DC/DC变换器可靠性
GO-FLOW法在飞机EHA可靠性分析中的应用
5G通信中数据传输的可靠性分析
论如何提高电子自动化控制设备的可靠性
奔驰R320车ABS、ESP故障灯异常点亮
2015产品LOOKBOOK直击
故障一点通
江淮车故障3例
新产品