装备无故障发现与间歇故障诊断技术
2019-09-20刘冠军吕克洪李华康
刘冠军,吕克洪,李华康,李 乾,邱 静
(1.国防科技大学 装备综合保障技术重点实验室,湖南 长沙 410073; 2.国防科技大学 智能科学学院,湖南 长沙 410073)
近年来,随着装备实战化水平、任务强度和复杂性的提高,以及临近空间、深空、深海等计划的实施,装备结构越来越复杂,工作环境越来越恶劣,一个“黑色幽灵”越来越多地困扰装备尤其是电子设备的使用和保障,影响任务完成甚至导致任务失败,保障难度和费用大幅增加。这个“黑色幽灵”就是装备无故障发现(No Fault Found,NFF)问题。NFF是装备单元在某维修级别被认为故障而拆卸,却在下一维修级别测试没有发现故障的现象[1-3]。国内外统计发现,目前,NFF问题在飞机等大型复杂装备中表现日益突出。这些装备在任务执行过程中,其机内测试(Built-in Test,BIT)等指示了故障,但拆下维修时,近1/3的故障排查不出,配置强大的自动测试系统亦检测不出故障,导致排故和修理难以下手。NFF问题直接有损于装备可用度,导致装备任务中断,降低任务成功率,还会导致装备好的部件错误拆换,造成无效的维修活动,增加维修费用和维修时间[1-4]。如果NFF现象出现频率过高,操作者和维修者会对BIT等测试手段失去信任甚至忽略故障指示,当装备出现真实故障或异常时却未进行处置,从而可能造成严重后果[5-6]。目前,国外航空装备维修中,NFF问题处理费用已经占电子设备大约30%~50%的维修费用,是装备维修领域的棘手问题与“瓶颈”技术问题[1,7]。研究与分析表明,导致装备NFF问题的原因中,间歇故障是主要原因[8-9]。间歇故障是指产品发生故障后,不经修理而在有限时间内或适当条件下自行恢复功能的故障,它是不同于传统的永久故障的一种特殊故障表现形式[10-11]。间歇故障不同于永久故障,由于其瞬变、随机性强、时有时无等特性,其故障征兆及特征不易获取,目前的故障诊断方法难以进行间歇故障检测与诊断,系统深入的NFF与间歇故障研究进展困难[12-13]。但近年来,随着大型复杂装备不断投入使用,装备NFF和间歇故障问题日益成为不可回避的关键问题,也逐渐成为国际研究热点。该问题的有效解决,对于提高复杂装备可用性和实战化水平、减少维修保障费用具有重要意义。
首先对NFF和间歇故障的概念和内涵进行梳理,总结分析NFF和间歇故障产生的诱因以及对装备的影响,概述装备NFF问题、间歇故障检测与诊断技术的国内外研究历程和现状,最后分析了间歇故障诊断领域的技术问题与发展重点。
1 概念内涵与问题分析
1.1 无故障发现
近年来,NFF在国外装备保障领域研究越来越多,但我国对其认识还处于初步阶段,尚未给出标准定义和确定的内涵,新修订的GJB451正在讨论将其纳入。从内涵上分析,NFF与重测合格(Retest OK,RTOK)、虚警、故障未发现(Fault Not Found,FNF)、不能复现(Can not Duplicated,CND)、误拆(Error Removed,ER)、无证据故障(No Evidence of Failure,NEOF)、无法验证(Cannot Verify,CNV)、隐匿故障Hidden Failures,HF)等概念[14-15]既有联系又有区别。NFF与RTOK内涵比较接近,与虚警也有关联。但从工程实践问题分析,NFF内涵更为丰富和复杂,其可能是因真实故障而拆卸后重测合格,也可能因疑似故障(或真实无故障而被认为有故障)导致单元拆卸后在下一级别测试时没有发现故障。
NFF主要有两种类型:一种是装备确实发生了故障、使用时报故并可能知道故障位置,在下一维修级别时故障不再出现,或者复现了故障却测试合格;另一种是装备使用时就是错报或虚警、或者进行了错误的定位,导致后面维修时在本来无故障的位置测试合格、未发现故障的现象[4]。从装备层次角度看,NFF可以分为3个层级:一是装备/设备级,使用者发现装备/设备运行不正常,在维修时没有测试到异常的故障现象;二是板级,使用者发现装备运行不正常,在维修时装备原位发现了故障并将故障电路板拆卸,当离线对该电路板进一步测试时发现该电路板运行正常,未发现故障;三是零部件级,被拆卸的电路板发现了故障,将故障零部件进行更换后的电路板运行正常,但所更换零部件测试正常,未发现故障[16]。
从机理上分析,导致装备NFF主要诱因包括4个方面:① 装备间歇故障:装备在使用过程中发现间歇故障、但在下一维修级别环境下间歇故障不再发生,或通过某些手段将间歇故障复现出、但现有测试手段无法检测定位间歇故障,是导致装备出现NFF问题的主要原因之一。来源于美军NFF问题统计数据表明,间歇故障是造成5年以上装备NFF问题的主要原因。② 测试能力因素:BIT虚警、BIT测试未覆盖、内场测试设备能力有限等。③ 环境因素:温度、振动、湿度、辐射,占所有NFF问题的25%[17]。④ 人为因素:设计人员、使用人员和维修人员分析、使用和维修不当等[13]。对于测试能力、人为因素等导致的NFF问题,工程上通常采用提高系统可靠性、提高BIT及测试设备的测试诊断能力、加强数据资源共享与管理、标准制定与人员培训等手段进行防范。对于间歇故障和环境导致的NFF问题,由于在装备工作过程中间歇故障和环境通常相互耦合作用,其导致的NFF问题在工程中占有相当大的比例,必须通过综合考虑环境因素的影响,对间歇故障进行检测和诊断,这也是减少复杂装备NFF问题的主要技术手段和关键所在。
1.2 间歇故障
按照GJB451A-2005的定义,间歇故障是指产品发生故障后,不经修理而在有限时间内或适当条件下自行恢复功能的故障[10]。国内外装备使用表明,间歇故障是装备尤其是装备中电子设备服役中后期的一种主要故障类型。间歇故障是不同于传统的永久故障的一种特殊故障表现形式,它与永久故障的区别见表1所示。
表1 间歇故障与永久故障的区别
从间歇故障的表现形式看,间歇故障也是分层级的,不同层级的间歇故障具有不同的表现形式。某些间歇故障逐层影响,在装备各个层级都有所体现,以某连接器接触不良导致的间歇故障为例,在器件级表现为连接器接触电阻的不连续,在功能电路级表现为传输的功能信号时断时续,在系统级表现为系统功能间歇性异常,如显示屏闪烁、计算机重启等现象。某些间歇故障对上层次基本无影响,仅在部分层级有所体现。以电源模块的间歇性输出故障为例,由于设备设计有相应保护措施或容错措施,瞬时的掉电对系统功能无影响,间歇故障在系统层级无明显表现。美军间歇故障检测军用性能规范从间歇故障的持续时间角度,将电子设备间歇故障分为3类:① 短时间歇故障,时长在100 ns以内;② 中时间歇故障,时长在101 ns~500 μs之间;③ 长时间歇故障,时长在501 μs~5 ms之间[18]。从间歇故障的诱因看,可以将间歇故障分为两类:① 设计型间歇故障。一般指由于存在接地、软件缺陷等设计不足,当多个部件与因素相互作用时产生的间歇性故障。这类间歇故障随机性非常强,规律性差,难以复现和检测。但其可能在试验与使用初期阶段表现出来,可以针对缺陷,通过提高可靠性、优化产品设计等技术途径解决。这类间歇故障不是间歇故障的主要问题,尤其不是老化设备表现出的间歇故障问题。② 耗损型间歇故障。由连接器针脚松动或疲劳、电线磨损或断丝、接触器不良、焊点开裂、印制板线连接不良、器件性能退化等导致的间歇性故障[15]。这类间歇故障是产品使用一定时间后的必然物理性表现,其机理多与连接器、焊点、器件等的损伤、退化及外部环境应力密切相关,存在相对明确的机理和规律,有可能实现有效复现、检测与诊断,成为当前国外研究的热点。
来自美军的数据统计及分析表明,耗损型间歇故障约占军用飞机间歇故障的80%以上,是装备多数功能间歇异常的底层物理性故障根源[15,19-20]。从耗损型间歇故障的机理分析。一方面,耗损型间歇故障与装备的退化和损伤状态密切相关,即耗损型间歇故障的发生频率等特征会随装备的损伤加剧而逐渐增加。一般地,在装备服役早期,这种故障看起来像是短时间的小波动、电压下降、或电噪声等,对装备功能不会产生影响。当装备进入服役中后期,随着损伤的加剧,耗损型间歇故障幅值和持续时间不断增加,逐渐导致装备功能的间歇性不正常,且这种现象随机发生,离线难以复现和检测,导致装备的NFF现象。只有当这种故障发展到晚期甚至成为永久故障时,常规的BIT和ATE才可能检测到。另一方面,耗损型间歇故障还与装备的工作环境因素密切相关。工程实践表明,耗损型间歇故障的表现通常遵循如下规律:当环境应力消失后,装备间歇故障随之减少或消失;如果再次受到环境应力的作用,装备间歇故障又可能随机出现[21]。
1.3 影响与问题分析
装备发生间歇故障导致NFF现象时,一方面将会导致装备任务中断,进而进行拆卸、换件等维修工作,产生大量维修费用。以美军统计为例,美军飞机飞行报告的故障有高达50%在随后地面测试中不能被检测,由间歇问题造成的NFF问题,已经成为航空器维修中最大的费用[22-23]。F16战机每年由于NFF造成的换件费用超过1300万美元,加上厂商维修时遇到的类似问题,NFF造成的换件费用超过2000万美元[23]。总的来算,美军飞机NFF相关问题消耗了超过24.6万个维修工时,包括飞机停机时间和保障费用,等于6架飞机平台的费用。同时,美军统计表明,源于不能检测的间歇故障是目前飞机维修费用增长中的一个重要因素,美国国防部为此花费约20亿美元[24]。对于新型飞机,问题也同样严重。如2012年9月10日至11月14日,美军在埃格林空军基地对F-35A开展的为期65天的作战效用鉴定试验飞行结果显示,其飞行控制系统是导致BIT虚警的主要部件,仅头盔等的电路引脚/连接间歇故障问题就导致了5次任务中止,使得BIT虚警的平均间隔飞行小时仅为10.6 h,远远达不到50飞行小时的目标值。
另一方面,NFF发生后,由于被拆故障单元维修时检测合格,导致无法排除故障或问题归零。类似情况发生若干次后,装备使用部门可能无奈地不再换件送修,而是凭经验采用重启、重新插拔等手段尝试使设备恢复正常。装备使用部门深刻反映,这种处理方式实属权宜之计,虽然可能使设备暂时恢复工作,但并没有找到故障原因和真正排除间歇故障问题。装备实际上是带隐患工作,后续工作时特别是实战化环境下故障可能又发生,不仅失去了永久故障发生前改进和修复的宝贵时机,而且可能因为间歇故障发生而错过稍纵即逝的任务窗口,直接导致装备的任务失败,成为影响装备可用性和任务成功的重大隐患。另外,由于目前我国装备BIT等检测手段能力有限,各类电子设备中还有相当的间歇故障在装备使用过程中可能未被检测出来,虽然装备没有报警,但已经带间歇故障隐患工作,长此以往,将严重影响装备完好性和任务执行。
近期,我国越来越多的大型复杂装备进入使用中后期,大量新型装备陆续投入使用,间歇故障尤其是耗损型间歇故障将处于高发期阶段,主要体现在:① 耗损型间歇故障的出现与使用环境密切相关,随着装备使用强度越来越大,环境越来越复杂、严酷,耗损型间歇故障出现频度会越来越高,将给装备服役安全等带来很大隐患,严重影响战备完好性和任务执行;② 耗损型间歇故障与设备老化过程相关,类似的使用环境下,一般在设备寿命中期前出现频度较小,寿命中后期出现频度较大;③ 新研制装备使用初期是设计型间歇故障的高发期。此背景下,我国间歇故障及NFF问题研究日益迫切。
2 NFF问题研究现状
国外早在1965年就提出了NFF问题,但长期处于工程认识阶段,近年来其技术研究呈现高潮[25-26]。如英国克兰菲尔德大学EPSRC研究中心近几年一直致力于NFF问题的研究,主要从间歇故障、集成故障、BIT与测试设备3个方面进行了研究[26]。综合国内外研究现状,目前NFF问题主要有以下解决措施。
(1) 制定减少NFF问题的规范。
如2008年,美国发布了关于NFF的ARINC标准ARINC-672-2008“减少无故障发现(NFF)现象的指南”,该指南系统分析了装备设计生产、任务使用、外场维护、内场维护等过程中NFF问题的原因,并给出相应的减少措施[27]。
(2) 提高装备可靠性。
装备高度复杂导致的可靠性低是造成NFF现象的重要原因之一。装备越复杂,设计缺陷可能越多,产生NFF问题、特别是设计型间歇故障有关的NFF问题可能性越大,提高装备可靠性有助于降低NFF现象的发生概率。如装备设计之初考虑可能存在的NFF问题,采取提高模块间连接或耦合的可靠性、消除软件缺陷等措施来减少NFF问题;在设计阶段充分结合相近装备的维修保障数据,进行预防NFF的装备改进设计等[12]。
(3) 提高BIT和测试设备的测试诊断能力。
若BIT的检测诊断能力足够强,能够准确地进行故障检测与定位,识别虚警,则在一定程度上可以减少由于虚警等导致的NFF问题。因此,提高BIT检测诊断与降虚警能力是解决NFF问题的技术途径之一。国防科技大学在该方面开展了较深入研究[6,28-29],从BIT信息处理流程的角度,提出了BIT分层信息融合的综合降虚警方法;针对系统级BIT体系结构与集成因素等诱发系统级BIT虚警问题,提出了系统级BIT降虚警方法。中国飞行试验研究院在机组告警信息实时监控系统中进行了虚警抑制设计[30]。另一方面,针对维修级别间测试容差不一致导致的NFF问题,可以设计合理的容差。同时,提高下一级维修的测试精度,确保内场维修时的故障检测与隔离能力[4]。
(4) 提高间歇故障检测与诊断能力。
如前所述,间歇故障和环境因素是引起NFF现象的主要因素,因此提高间歇故障的检测与诊断能力,能够极大地减少装备的NFF问题。将在后文对该方面重点阐述。
(5) 加强数据资源共享与管理。
收集装备设计、服役、维修保障等过程中的故障发生时间和位置等相关数据,然后处理转化为专家和相关维护技术人员适用的方式,建立故障数据库,实现数据共享,并反馈给装备设计部门及相关技术人员,进而不断更新装备的故障排查工具和流程,是国外采取的减少NFF现象途径之一。如自上世纪90年代末起,美军希尔空军基地开始收集F-16武器系统电子箱的维修数据,即DRILS(Defense Repair Information Logistics System)计划。该计划审查数年的维修历史记录,收集修理车间和航空站的各种测试数据,传送到基地中央服务器,将现场不正常的测试数据与服务器中正常的测试数据进行比较,如果数值差别不大,则可认为是测试误差下的正常情况;如果差异大,才指示NFF问题[23]。
(6) 加强维修人员培训。
人为因素也是导致NFF问题的重要原因,如维修人员对装备和相应测试设备的熟练程度、机组人员与维修人员对故障信息的理解不一致等。Neil Pickthall等人通过对NFF问题处理流程的调研,分析了人为因素对飞行设备出现NFF问题的影响,结果表明维修人员故障排查能力的缺乏是导致NFF现象的重要因素之一。提高维修人员使用测试维修设备、排查故障的熟练程度,加强层级之间的协调畅通与准确性,有助于减少装备NFF现象[27,31-32]。
3 间歇故障诊断技术研究现状
3.1 国外研究历程及研究现状
国外早在上世纪60年代即开始间歇故障相关技术研究。纵观半个世纪的研究历程,国外在该技术领域的研究走过了从不确定性检测到确定性检测的曲折道路,具体可以分为两个阶段。第一个阶段为不确定性检测与诊断方法阶段:上世纪60年代以来,针对间歇故障时有时无、随机性强的外在表现,其研究主要集中在基于统计推理、随机过程模型等不确定性检测与诊断方法方面。第二个阶段为确定性检测与诊断方法阶段:2010年前后,研究人员逐渐意识到不确定性检测与诊断方法在解决间歇故障问题方面的本质不足和根源,从间歇故障的物理机理入手,研究确定性的检测和诊断方法,在机理、方法、设备及应用方面取得了突破性进展。
3.1.1 间歇故障不确定性检测与诊断方法
早在1967年,航天领域就关注了间歇故障问题。几十年来,国外从诊断方法的角度对间歇故障诊断开展了大量的研究,在传统的故障诊断方法基础上,将间歇故障纳入判决范围,提出了许多基于数据、统计模型的间歇故障检测与诊断方法,具体如下。
(1) 基于数据驱动的间歇故障检测与诊断方法。
基于数据驱动的方法是直接将观察值进行数据处理或统计推理,以得到诊断结论。常用的方法有聚类分析、决策树、概率推理以及其他模式识别技术等。
① 基于特征分析的方法。S.S.H.Zaidi等人分别采用STFT、WVD(Wigner)、CWD对间歇故障的信号特征进行提取,采用两种聚类分析方法:线性分类器和k-mean分类器,实现对间歇故障进行判别[33-34]。
② 基于决策树的方法。S.Singh等人针对汽车电子控制单元(ECU)间歇故障的识别定位问题,利用存于PCM中的故障码和工作状态参数,并通过计算信息熵的办法,提出决策生成和特征状态参数选取算法,从而辅助维修人员进行维修排查,大大减小维修决策时间[35-36]。
③ 基于概率推理的方法。美国Palo Alto研究中心的J.de Kleer等人以自检测打印机为例,针对经过多模块任务,通过观测任务的失败或成功,分别在单个永久故障、单个间歇故障、多个永久故障、多个间歇故障情况下,估计模块故障的后验概率,以实现间歇故障的隔离[37]。
(2) 基于模型的间歇故障检测与诊断方法。
基于模型的方法是构造间歇故障诊断问题的数学模型,将观察值输入模型,或是学习训练得到模型参数,由模型参数作进一步的推理,进而得到诊断结论。依据模型的不同,主要包括以下几个方面。
① 基于随机过程模型的方法。一是Petri网模型。Yoshio Sugasawa等人使用Petri网描述含间歇故障的系统特性,使用可达树表示模型的动态行为,用Markov更新过程分析系统随机行为,得到吸收状态的极限概率[38]。Krasnobaev等人采用Petri网建立间歇故障发生过程的模型,并对该模型进行分析以确定影响故障概率的过程参数[39]。二是Markov模型。Toshio Nakagawa等人以连续参数Markov模型为基础,推导了间歇故障相关的检测概率和检测时间[40]。Breuer等人提出二状态离散参数的间歇故障Markov模型[41]。V.B.Prasad等人建立连续参数三态Markov模型,用以区分正常、间歇故障、永久故障状态,进而分析得到可靠性和平均故障间隔时间[42]。三是概率统计模型。A.A.Ismaeel等人研究了组合电路的间歇故障诊断,提出TDM模型,该模型可以预先确定特定故障模式的测试向量[43]。Brian W.Ricks等人提出了间歇和永久故障的贝叶斯网模型,扩展了用于处理永久故障的诊断算法,以用于间歇故障诊断[44]。
② 基于系统信息模型的方法。Bin Fu等人针对多处理器网络间歇故障的诊断问题,提出相应的测试和诊断算法,该算法可诊断出所有永久故障和部分间歇故障[45]。G.M.Masson等人研究了相互连接和测试系统的间歇故障数量问题,给出了间歇故障诊断的充分和必要条件,并分别针对间歇故障和瞬时故障,提出隔离和任务结果处理的过程和方法[46]。M.Blom等人针对通信网络间歇故障问题,建立瀑布型网络结构模型,通过对组件故障概率进行更新,从而检测出间歇故障[47]。
③ 离散事件系统模型。密歇根大学的O.Contant等人构建了考虑间歇故障的离散事件系统模型,对其可诊断性的充分必要条件进行了论证,并基于此构建诊断器,对系统事件进行状态评估,从而实现故障的检测[48-49]。A.Correcher等人基于离散事件系统构建诊断器,获取部件发生故障和恢复状态的概率来诊断间歇故障,并以含4个发动机的铣床为例进行了验证[50]。L.K.Carvalho等人针对传感器间歇故障建立离散事件系统模型,并构建了诊断自动机来识别间歇故障[51]。
④ 状态空间模型。A.Yaramas和Y.Cao针对飞机布线系统功率线路的间歇故障,建立了正常和故障状态线路的状态空间描述模型,通过最小二乘法估计负载电路模型的系数或参数,通过阈值判断间歇故障[52]。英国Cranfield大学的T.Sedighi等人研究了基于状态空间模型的间歇故障检测方法,构造残差和动态阈值进行间歇故障检测[53]。
⑤ 决策优化模型。斯坦福大学的J.Savir等人以小于n次测试检测出间歇故障的概率最大为目标,引入逃脱概率EP(Escape Probability)描述系统间歇故障的漏检率,构建了间歇故障诊断的决策优化模型并进行了求解[54]。N.Kranitis等人研究了嵌入式流水线处理器中间歇故障的最优周期测试,以测试费用(时间)最小为目标计算最优测试间隔时间,使用数值方法进行求解[55]。
总之,在2010年以前的几十年间里,国外针对间歇故障检测与诊断问题,提出了大量基于统计推理、随机过程模型等的间歇故障检测与诊断方法。虽然这些方法从不同角度对间歇故障问题进行了分析和建模,但其诊断结果多是判断可能发生间歇故障,难以确切给出间歇故障的发生位置、故障强度、表现情况等维修和排故所需要的故障信息。且这些方法多需要大量间歇故障先验数据支持,而间歇故障数据先天难以获取和稀少,较大地影响了其诊断准确性。另一方面,这些方法没有认识到装备使用环境下出现的间歇故障在后续维修级别环境下基本不再发生,片面采用这些方法不可能检测出间歇故障。因此,多年来,研究成果多停留在方法层面,难以准确检测工程实际中的间歇故障,在解决装备间歇故障及NFF问题方面长期无大进展,装备间歇故障甚至一度被认为无法真正有效检测与诊断。
3.1.2 间歇故障确定性检测与诊断方法
从信号层面看,实现简单间歇故障如线缆间歇故障的确定性检测可以采用线缆瞬断检测方法。但线缆瞬断检测方法一般适用于简单连接线缆、且正在发生的间歇故障,难以解决存在众多连接环节和器件的设备间歇故障检测、隔离及NFF问题。
2010前后,美英等国装备间歇故障与NFF问题越来越严重,对装备任务执行和保障费用影响越来越大,到了非解决不可的地步。因此,近年来国外装备管理、使用、研制部门与测试诊断领域空前重视,开展了更深入的分析与研究,取得了较多成果,特别是在耗损型间歇故障机理、确定性检测与诊断方面取得了突破性进展。
(1) 间歇故障规范与管理方面。
2012年,美国国防部长办公室成立了“联合间歇故障测试工作产品组(JIT WIPT)”,联合各军兵种共同关注装备间歇故障问题;2014年美国国防部维修年会将间歇故障检测与诊断技术列为2013、2014年最为重要、能够推动维修技术发展的3种前沿技术之一,认为该技术是由跨军兵种技术团体选择的、对改善维修效能和效率具有重大潜能的技术[56]。同年,美军发布MIL-PRF-32516“间歇故障检测与隔离军用性能规范”,该文件给出了间歇故障定义等规范,是开发间歇故障检测诊断技术与设备的主要依据[18]。目前,美军给海军和空军配发了间歇故障发生器(IFG),提供部队验证和确认间歇故障检测的能力。
(2) 间歇故障机理与检测诊断方法手段方面。
研究人员经大量试验与分析研究,逐渐明确耗损型间歇故障机理是:设备经长期应力(包括环境应力和工作应力)作用、导致性能退化到一定损伤状态后,工作中又受到即时应力作用的结果。这为耗损型间歇故障复现与检测提供了指导。检测诊断方法与手段方面,美国Brent Sorensen等人开发了IFD-2000间歇故障检测器,IDF-2000采用不解体方式,通过设备接口可同时检测256条通路的间歇故障;美国Universal Synaptic公司在IFD-2000基础上,研制了间歇故障检测和隔离系统IFDIS,提供了耗损型间歇故障的复现与检测的有效方法与手段,得到了成功应用,受到军方和军工巨头的认可,在国防部维修年会上两度获得 “最佳创意”竞赛奖,被认为在同类技术和产品中性能最佳,作为优秀案例在2014国防部维修年会上进行重点介绍[24,56]。
IFDIS系统目前应用于检测隔离F-16机载雷达系统低功率无线电模块的间歇故障(过去10年该模块是影响F-16战斗机执行任务率的主要因素),60%的单元测试出一次或多次间歇故障,基地级维修间隔时间从292 h增加到926 h,可靠性增长约3倍,投资回报为28倍,使得F-16战斗机战备完好性大大提高。该系统同时应用于美国空军、海军、英国国防部、澳大利亚皇家空军、以色列空军和民航飞机等项目,并取得了较大成功[24,56]。
3.2 国内研究现状
国内约在2000年前后开始关注间歇故障检测与诊断问题,研究起步较晚。从整体研究情况来看,间歇故障问题受重视程度不高,学术界尚未把间歇故障问题提升到一个技术领域层面开展广泛研究,相关研究较少。
清华大学周东华教授等从动态系统的角度分析和研究了控制系统的间歇故障问题,提出了线性离散系统间歇故障的鲁棒检测方法等[57-58]。崔涛等针对电力传输系统接地瞬时故障和间歇故障,采用希尔伯特变换辨识电路中的瞬时功率,并由该信号特征提出故障诊断的算法[59]。浙江大学赵九洲等考虑CAN总线中节点处于不同状态(发送、接收)时发生间歇故障的表现,建立了混合泊松过程以描述间歇故障过程,采用最大似然估计方法获取模型参数[60]。2000年以来,国防科技大学在研究机内测试(BIT )虚警问题时,对间歇故障问题展开了一定研究[61-63],提出了采用三态马尔科夫模型、离散事件系统模型等描述间歇故障问题,并探索了间歇故障诊断方法。另外,国内在线缆瞬断检测方面也有个别研究。
2010以来,国防科技大学随着对我国装备NFF问题和间歇故障的深入认识,以及对国外间歇故障研究情况的跟踪,深刻意识到:要真正解决装备NFF和间歇故障问题,需要明晰间歇故障机理,研究适用的确定性检测和诊断方法。因此,对耗损型间歇故障机理开展了一定探索[64-65],开发了间歇故障检测原型系统,并取得了初步的应用效果。
4 间歇故障诊断领域关键问题分析
针对目前我国装备间歇故障问题需求,综合该领域国内外研究现状,间歇故障诊断领域的关键技术问题与建议发展方向分析如下。
(1) 间歇故障机理。
从目前研究和应用情况看,间歇故障尤其是耗损型间歇故障的复现、诊断与分析评估效果较大地依赖间歇故障机理明晰程度。目前,耗损型间歇故障机理主要是定性认识,设计型间歇故障机理尚未总结出明确规律。为实现高效复现、精准诊断、可信评估,有必要进一步分析间歇故障的发生机理及规律,特别是建立外部环境应力、内部损伤与耗损型间歇故障之间的定量或半定量化关联关系。
(2) 间歇故障在线检测。
间歇故障脱离工作环境一般不再表现,理想的方式是在设备工作状态下发生间歇故障时将其检测与隔离。但由于间歇故障分布范围广、发生随机、持续时间短、信号表现多样,若采用BIT等手段进行在线检测,可能需要高速采样等较大代价电路。若通过传递综合后的信号进行功能检测判断,则信号综合可能屏蔽前端的物理性间歇故障而难以检测出来。而且由于设备工作中存在干扰等情况,间歇故障与干扰导致的波动有可能混淆。因此,间歇故障在线检测存在检测效果不佳、代价大、虚警等严重挑战。目前,尚未有设备专门针对间歇故障进行BIT等在线检测设计。
(3) 间歇故障复现。
耗损型间歇故障的发生与工作过程中所承受的环境应力密切相关。但一方面,间歇故障具有一定的随机性,加载工作环境不一定复现,或者加载相当长时间环境才复现出来。另一方面,与可靠性试验不同,间歇故障复现是对使用过程中已经客观发生间歇故障的设备,通过施加环境应力,复现出设备在使用环境中曾经出现的间歇故障,而且不出现新的间歇故障。如何施加环境应力才能将设备内部的耗损型间歇故障隐患准确、高效地复现出来而又不对设备造成新的故障或严重损伤,是一难点问题。
(4) 间歇故障确定性检测。
间歇故障确定性检测对解决间歇故障问题具有实际意义。在间歇故障复现基础上,要实现间歇故障确定性检测,关键在于如何捕捉到间歇故障导致的瞬态信号变化。理论上,基于高速采样的测试方案在技术上可以实现少量间歇故障的瞬态信号捕捉。但对电子设备来说,连接环节众多,且其间歇故障持续时间短,若采用一对一高速采样方案,其测试通路可能需达成百上千。而且需要在设备内部施加大量测试点,而解体在内部施加测试点将影响设备间歇故障状态。因此,在不解体实现准确检测、测试成本、同步并行测试控制等方面将有很大的挑战。
(5) 间歇故障精准定位。
确定间歇故障发生的具体部位,对维修至关重要。但电子设备连接、器件众多,多个环节容易构成模糊组,如何准确定位间歇故障的具体位置十分困难。而传统的故障诊断方法难以进行间歇故障定位。因此,需要研究间歇故障的隔离定位方法。
(6) 间歇故障评估。
由于同一间歇故障在不同阶段的强度有大有小,对设备的影响也有大有小,如何对其处置(更换、维修还是继续使用)是工程中需要决策的问题。维护人员希望基于间歇故障设备的状态好坏做出决策。因此,在发生间歇故障后,如何定量判断设备使用状态是一关键问题。
5 结束语
NFF与间歇故障日益成为我国装备测试与保障领域的突出问题。深入分析NFF与间歇故障原因与机理,研究间歇故障复现、确定性检测与诊断、分析评估等方法,制定NFF与间歇故障问题解决方案,对提高装备可用性、降低保障负担将具有重要意义。