APP下载

复杂系统维护策略最新研究进展:从视情维护到预测性维护

2021-03-04陆宁云

自动化学报 2021年1期
关键词:寿命决策建模

陆宁云 陈 闯 姜 斌 邢 尹

随着信息技术和自动化技术的快速发展,如飞行器、高速列车、核电站、智能电网、流程工业设备等现代工程系统的集成度和复杂度越来越高,系统的安全运营和维护保障问题日益突出[1−4].对于可修复的复杂工程系统,及时恰当的设备维护是确保系统安全性、可靠性、可用性的重要手段之一.

系统维护策略已经历修复性维护、定时维护、视情维护等多种维护策略[5−7].修复性维护(Corrective maintenance,CM),又称事后维护(Breakdown maintenance,BM),是在故障发生后进行系统修复的维护方式.它以系统是否完好或是否能用为依据,故障后通过维修或更换手段恢复其原始状态,属于典型的非计划性维护[8].显然,这种维护策略的停机时间损失高,安全性差,仅适用于对安全性、可靠性要求不高的系统.定时维护(Time-based maintenance,TBM),也称计划维护(Scheduled maintenance,SM),它根据生产计划和经验,按规定的时间间隔进行停机检查、解体、更换零部件,以期预防设备损坏、继发性毁坏及生产损失[9].这种维护方式是现阶段被普遍采用的一种维护策略.按照时间间隔的长短,维护策略一般包括大修、中修和小修等具体操作.然而,为了确保系统安全可靠运行,计划维护的策略制定往往较为保守,从而造成过度维护,导致其经济性较差.视情维护(Condition-based maintenance,CBM) 是以系统实际运行状态为依据的维护策略,通过对主要的(或有需要的)部位进行定期(或连续)的状态监测,当有证据表明系统需要进行维护时才实施维护活动[10].

CBM 是当前颇受关注并已经逐渐走向工程应用的维护策略,它能够有效减少不必要的维护行动,其经济性和安全性好于修复性维护策略和定时维护策略.基于信息的决策支持技术是CBM 维护策略的核心.基于随机退化模型的状态监控和健康评估是CBM 中常用的决策支持技术.随机退化模型又分为连续型模型和离散型模型.如果利用有限状态来表征系统的实际运行状态,譬如,将系统运行状态划分为健康、退化、失效三种状态,则可实现系统退化过程的离散型建模.若系统状态具有连续变化特性,则通常用连续的分布函数对系统运行退化过程进行建模,进而得到连续型退化模型.工程系统中应用CBM 维护策略时,通过采集系统当前状态信息,由退化模型得到系统的退化程度(或健康状态),并根据该信息进行维护决策.

近年来,随着物联网技术、信息技术和人工智能的快速发展,一种更新颖的CBM 策略--预测性维护(Predictive maintenance,PdM)逐渐成为领域研究热点[11−14].PdM 最大的价值在于,它利用系统剩余使用寿命(Remaining useful life,RUL)的预测信息,在维护机会窗口内选择成本最低的维护策略和生产调度计划,达到降低成本、提高效率、最大化生产利润的目的.和CBM 相比,PdM 更关注于对系统未来状态的预测和利用,其关键在于如何处理与系统健康状态相关的各类大数据的知识挖掘以及如何降低信息不确定性对预测模型的影响.数据驱动的预测模型是PdM 决策的核心.其中,机器学习(Machine learning,ML)和深度学习(Deep learning,DL)是近年来最受关注的预测建模技术,它们不需要系统退化原理性知识,可通过系统实时收集的相关监测数据来估计系统健康状态或剩余寿命,具有方法通用性好、实施成本低等优点.

图1 概要描述了系统维护决策系统中从实时数据获取到最终维护活动安排的全过程,从中可以看出CBM 向PdM 转变的主要原因在于决策支持技术的进步.CBM 依赖于状态监测数据的使用,以期建立能够精确描述系统性能退化的退化过程模型;而PdM 则利用数据驱动的学习理论处理与系统健康状态相关的各类大数据,准确评估与预测未来可能发生的失效概率以及设备的剩余使用寿命.

图1 系统维护决策的全过程Fig.1 Overall process of system maintenance decision-making

本文内容的组织结构如下:首先,简要回顾了系统维护策略的发展历程;然后,根据决策支持技术的不同,重点介绍了基于随机退化模型的CBM策略和基于数据驱动的PdM 策略,对每类技术的发展分支与研究现状进行了疏理、分析和总结;最后,探讨了当前复杂系统维护策略面临的挑战性问题和可能的未来研究方向.

1 基于随机退化模型的视情维护(CBM)

系统在实际运行过程中由于受到内部因素(如磨损、疲劳等)与外部环境(如振动、冲击等)的综合影响,系统健康状态不可避免地逐渐衰退,学术界通常将这类衰退现象称为退化过程[15−18].退化现象,可视为系统设备对系统性能的损害,随着时间推移而累积,当累积损害达到一定的故障阈值时,将大概率导致系统级故障[19].图2 给出了退化失效过程与退化阈值的示意图.退化阈值失效机制在退化和系统失效之间提供了密切的联系.通过对失效机理和数据的分析,可以确定失效时间分布及其参数.因此,如果能够为退化过程轨迹找到一个合适的退化模型,那么该模型就可以用于后续的寿命预测和维护决策.基于随机退化模型的CBM 是指利用数理统计以及随机过程的相关知识,建立随机过程模型来描述系统性能退化轨迹,并通过收集和评估系统实时状态信息进行维护决策[20].该策略中,只要能采集到当前可用的相关设备健康状态数据,就进行退化建模,并实时评估系统的运行状态.通过与预设的失效阈值进行比较,如果系统退化指标达到或超过阈值,将要求对系统进行及时维护;否则,认为系统状态良好,仍可继续使用,无需进行系统维护.

图2 退化过程及失效阈值失效示意图Fig.2 Illustration of a degradation process with failure threshold

图3 基于随机退化模型的CBM 策略的一般步骤Fig.3 General steps of CBM strategy based on stochastic degradation model

由此可见,基于随机退化模型的CBM 策略的主要包含状态监测、退化建模、维护活动安排和维护策略优化4 个步骤,如图3 所示.前两步旨在基于状态监测结果建立合适的随机退化模型,其中,随机退化模型又分为连续型模型和离散型模型;后两步是应用系统退化模型进行系统维护和决策优化.决策优化过程需要选择合适的维护策略代价函数.如果系统对安全性和任务完成度有较高的要求,通常将平均可用度作为代价函数[21];而对于可靠性高、任务失败后风险小的系统,一般将平均维护费用作为代价函数[22].最优维护决策就是在此基础上研究费用最小或可用度最大的优化问题.根据现有CBM 相关文献,不同维护策略的主要区别在于随机退化模型,而决策优化过程基本相似,其主要差异在于代价函数和优化方法的不同.

1.1 离散状态退化模型

当无法获得系统退化状态的精确测量值时,通常采用离散状态建模手段,如马尔科夫(Markov)过程模型.离散状态表述具有天然的合理性,因为从工程实践的角度来看,将系统退化状态划分为有限几个退化等级是可行且有效的技术手段[23].马尔科夫过程描述的是空间状态经过一个状态到另一个状态转换的随机过程.设{X(t),t ∈T}是取值于状态空间E中的随机过程,如果对任意的正整数n,t1

则称过程{X(t),t ∈T}为马尔科夫过程.马尔科夫模型有许多变体,如半马尔科夫模型和隐马尔科夫模型.其中,半马尔科夫模型具有更为宽松的建模条件;而当系统的可用信息仅能部分观测时,可使用隐马尔科夫模型.关于马尔科夫模型的退化建模已有大量文献报道[24−30],本文不再赘述.下文主要介绍基于马尔科夫模型及其变体模型的CBM 策略.

在周期检测条件下,文献[31]研究了一类可控环境下服从马尔科夫退化系统的最优更换问题.在有限状态空间内,将系统退化状态建模为离散时间马尔科夫链(Discrete-time Markov chain,DTMC),其状态空间结构依据退化程度递增顺序而排列;DTMC 的转移概率矩阵由环境过程控制,而环境过程也可作为DTMC 在有限状态空间上演化.如果检查时发现系统出现故障,则必须更换故障设备;否则,系统继续运行或对系统进行一定维护后运行.最优更换问题最终被描述为一个离散的、无限时间马尔科夫决策过程.需要指出的是,该最优更换策略假设系统状态和环境方面具有控制受限特性.在非恒定周期检测条件下,文献[32]在马尔科夫过程退化中考虑了使用时间和维护次数等要素,重点分析了武器装备的几个主要部件,通过预测各部件故障时间并结合判定规则确定了最优维护策略.在恒定和非恒定周期检测条件下,文献[33]分别建立了基于半马尔科夫决策过程的风电机状态维护模型,通过对两种检测条件下检测间隔时间和维护成本的分析,得到优化的维护决策,该模型综合考虑了风速、备件物流、停机损失等因素对风电场维护的影响,并成功将部件退化过程离散成了有限退化状态,实现了风力机维护优化.

在实际工程系统中,系统某些重要的物理量不能被直接测量,但可以根据其他状态监测传感器信号进行估计.由于测量噪声、外部干扰等原因,此估计通常不能完全地揭示系统状态,因此需要研究基于不确定性信息的维护决策问题.概率论是描述不确定性信息的重要手段.文献[34]运用概率分布定义了系统状态,并在部分观测马尔科夫决策过程框架下开发了决策模型.所提出的维护决策模型能够根据每个部件的内部条件和外部运行环境动态地安排相关维护活动,其内部条件不仅包括退化状态的程度,还包括与单个部件相关的不同失效模式;而外部运行条件包含可能对系统维护成本和可用性产生重大影响的环境因素和维护资源准备时间等.另外,不完全的状态监测往往会造成模型参数的不确定性,这种不确定性会显著影响维护决策的可靠性.为了获得准确可靠的设备状态转移率参数,文献[35]将模糊集理论引入马尔科夫过程模型,给出了考虑不确定性的设备状态转移参数的模糊表达,并依据模糊数的扩张原则求取了设备的模糊可用度,最后以设备的最大可用度为目标,确立了设备状态检查频率优化决策的方法.文献[36]认为隐马尔科夫模型理论也是解决模型参数估计问题的一种有效方法,该方法优势在于可有效辨别由于运行条件变化而引起的系统测量变化以及由于测量仪器或测量精度变化而引起的状态测量变化.该文通过将优化模型与源于经验数据的输入参数估计方法相结合,提出了基于离散状态马尔科夫过程的最优维护策略.为了描述一类部分可观测系统退化,文献[37]将系统退化过程建模为三态连续时间的隐马尔科夫过程:状态1 和状态2 分别描述系统的良好和预警状态,是不可观测的;而状态3 描述系统的失效状态,被认为是可观测的.基于此,在部分观测马尔科夫决策过程框架下,文献[37]提出了易于实现的最优采样与维护策略;实验分析表明,所提出的策略能够显著降低系统长期维护费用.

基于马尔科夫过程的退化建模具有如下几个特点:1)马尔科夫模型能够模拟许多系统的设计及其故障场景;2) 马尔科夫模型开发时计算效率高;3)马尔科夫模型适用于不完整的数据集,决策中能够很好地处理不确定因素.然而,马尔科夫模型的训练仍然需要较大的数据量,且在退化建模时多假设单一的、非暂时的失效退化模式.

1.2 连续状态退化模型

如果系统状态随着时间的不断推移具有连续退化特性,且系统具有实时可观测的状态量,则应使用连续状态退化模型描述其退化过程[38−40].现有文献中主要涉及三种连续状态退化模型:伽玛(Gamma)过程、维纳(Wiener)过程和逆高斯(Inverse Gaussian)过程.

1.2.1 伽玛过程

伽玛过程模型于1975 年被引入可靠性领域[41],当退化过程具有不确定、非递减特征时,可将其视为伽玛过程.伽玛过程是具有独立非负增量的随机过程,其中,增量具有相同尺度参数的伽玛分布.设随机过程{Y(t),t ≥0} 为伽玛过程,其概率密度函数为:

其中,α>0 和β >0 分别为形状参数和尺度参数;exp(·)指的是以e 为底的指数函数.Y(t) 的均值和方差分别为α/β和α/β2.

目前,越来越多的CBM 退化建模中使用伽玛过程模型.文献[42]指出,当系统退化过程具有较大的不确定性时,基于伽玛过程的CBM 策略优于基于役龄的定期更换策略.文献[43]进一步考虑了系统中存在多个退化过程的CBM 决策问题.当某一个退化过程的退化水平超过对应阈值时,执行非停机预防性维护;如果系统在检查时停机,则执行修复性维护任务.为了提高维护决策精度、避免过度维护和欠缺维护问题,文献[44]提出非完美预防性视情维修、小修与故障更换相结合的维护策略,通过最小化总加权期望完成时间,得到了优化的加工作业次序和预防维修阈值.需要指出的是,该文所提出的维护策略仅适用于单机调度问题,对于更复杂的调度与维护决策的集成问题还需要进一步研究.文献[45]分别考虑了经济性和可用性两个准则,给出了两个通用的CBM 决策优化模型.其主要思想是利用历史维护信息和状态数据确定模型参数,建模分析了维护效果和维护时间这两个重要因素.得出的主要结论有:不同研究对象的维护决策模型差异性巨大;不准确的维护效果和维护时间建模将可能导致错误的决策.以上研究主要针对单部件系统的最优维护决策问题,对于多部件系统,文献[46]将风电机组视为一个同类多设备系统,提出了基于退化状态空间划分的多设备系统状态维护决策建模方法,并建立最优解析模型,以最优检测周期和维护阈值为决策变量,实现长期维护费用率最小的目标.

事实上,维护后的系统很难达到"修复如新"状态,而通常是处于"修复如新"与"修复如旧"之间的状态.换句话说,维护活动是不完全或非完美的,只是部分修复了系统.近年来,不完全维护条件下的维护决策问题已成为CBM 领域的一个研究热点.文献[47−49]认为贝塔(Beta)分布能够较好模拟不完全维护后的系统退化水平.Beta 分布的优势在于,它是定义在(0,1)区间的连续概率分布,而不完全维护后的系统退化水平也处于有限区间范围内,这两者之间具有定义域上的相似性,且Beta 分布具有良好的数学计算性质.另外,不完全维护活动甚至可能加速系统的退化过程.譬如,焊接可以减少裂纹长度,但可能破坏材料的某些物理行为;更换系统多个部件以进行维护操作可能会加速其他部件的恶化;备件可能是可重复使用的组件,也可能是质量低下的组件.因此,在维护之后,系统的退化速率有可能高于维护前的水平,即维护加速了系统的退化速率.基于此观点,兴起了对系统加速退化的研究.比如,文献[50]利用一个服从指数分布的非负随机变量来刻画退化速度增量,而考虑到退化速度的变化能够体现在伽玛过程参数的更新上,进一步开发了一种自适应维护策略,使得每次设备检查时可获得最佳的维护操作.文献[51]利用具有随机单调性质的几何过程构建了一种加速退化模型,研究了加速退化系统下的最优CBM 策略.文献[52]考虑了系统工况变化对退化率的影响,将退化速度描述为应力分布,提出了一种基于状态的自适应维护策略,该策略可根据可用度最大化准则确定最优的维护成本分配和维护阈值.文献[53]则针对系统维护数据的稀疏特性,提出了适合小样本建模的灰色模型理论,建立了系统加速退化模型,进一步结合偏最小二乘回归和改进灰狼算法实现了系统CBM策略优化.

通过以上文献回顾可以看出,伽玛过程在CBM 领域得到广泛青睐,其主要优势在于:1)伽玛过程便于数学上的分析和计算;2)伽玛过程适用于建模随时间逐渐累积的渐进式损伤,例如,磨损、疲劳、腐蚀、裂纹增长、蠕变和膨胀等;3)伽玛过程模型的包容性较好,可与灰色模型、极大似然估计、矩估计、贝叶斯理论以及专家知识等多种方法结合使用.尽管基于伽玛过程的退化建模方法具有诸多优势,但同时也存在一定的不足,譬如,伽玛过程模型通常无法描述非单调退化过程,如陀螺仪的漂移数据、电池容量的大小等.另外,伽玛过程模型参数复杂,难以实时更新.

1.2.2 维纳过程

维纳过程是一种重要的独立增量过程模型,适合描述系统性能随时间推移非单调退化的过程.由于维纳过程模型能够描述多种典型产品的退化过程,并且具有良好的计算性质,因而逐渐成为CBM领域最常用的退化模型之一.对于维纳过程{Z(t),t ≥0},一般表示为:

其中,Z(0) 表示系统在初始时刻的退化量,ρ是漂移系数,σ是扩散系数,B(t) 表示标准布朗运动,且满足B(t)~N(0,t) .通常情况下,Z(0)=0,在实际中,若Z(0)≠0,可通过数学中的平移变换将其转化为Z(0)=0 .

随着维纳过程理论的快速发展,维纳过程已被广泛应用于工程设备的退化建模、剩余寿命预测以及可靠性评估中.但以维纳过程模型为基础的CBM策略仍处于起步阶段,相关研究成果并不多见.文献[54]研究了微电子机械系统,系统总体由多数的正常器件单元和一小部分孱弱器件单元组成,而这两类器件单元又分别遵循具有不同线性漂移系数的维纳过程.通过构建并优化在线使用期间的平均成本决策函数,可确定最优老化选择设置和预防性更换间隔.类似地,文献[55]也建立了包括两个相同模型结构但参数不同的双维纳过程退化模型,有效刻画了系统运行的两种状态,通过一种五场景概率模型描述一个检测间隔内的状态演化,并考虑离散检测的非平稳性和状态检测延迟对长期运行成本的影响,开发了三态机械部件在竞争故障模式下的最优维护策略.为了提升系统维护决策精度,文献[56]分析了带正漂移的维纳过程和奥恩斯坦-乌伦贝克(Ornstein-Uhlenbeck)过程的具体特性,利用这两个过程对系统运行时间和日历时间进行建模,该建模能够准确判断出系统危险率,并精确预测出系统平均剩余寿命,为CBM 决策构建了基本准则.但以上研究,并没有考虑到不完全维护的情况.文献[57]考虑了不完全维护对系统退化量和退化率的双重影响,通过采用维纳过程建立起一种考虑不完全维护活动影响的维护决策模型.该方法在首达时间意义下推导出系统剩余寿命的解析概率分布,并依据剩余寿命的预测结果,建立起以检测间隔和预防性维护阈值为决策变量的维护决策模型,最终通过决策模型优化达到了降低系统维护费用的目的.不过,这里需要指出的是,该维护决策模型仅适用于线性退化系统,对不完全维护干预下的非线性退化系统构建维护决策模型仍是空白方向.

对于执行安全关键任务的任务导向型系统,维护操作通常需要满足一系列约束条件,如可用性、可靠性、维护时间和维护机会.此外,在实践中,面向任务的系统允许实施一些预防性维护活动,在这样的预防性维护之后,系统可恢复到一个“修复如新”和“修复如旧”之间的某一状态.面向这一类任务导向型系统,文献[58]在维护成本代价函数中加入了可用度约束条件,通过引入残余退化量的概念刻画出了不完全维护对退化水平的影响,并在此基础上构建了一种以维护成本为目标的预防性维护优化模型,通过优化决策函数获得了最佳预防性维护阈值.文献[59]在维护决策中考虑了由操作环境变化引起的外部冲击影响,将随机冲击波的到达过程建模为齐次泊松(Poisson)过程,而将由老化和磨损引起的自然退化过程建模为维纳过程.根据累积冲击模型,冲击造成的损伤将会整合到退化过程中,并利用改进因子模型描述维护措施对系统恢复的影响,最终建立了以长期维护费用率最小化为目标的CBM 决策优化模型,最后通过对水下防喷器系统的实验分析,验证了该模型的有效性.

通过上述文献分析,总结基于维纳过程的退化建模优势在于:1)维纳过程源于带有线性漂移项的布朗运动,能够描述非单调的退化过程,以及实际退化中的“自愈”现象;2)维纳过程的增量服从高斯分布,不仅有利于模型参数的估计,而且为剩余寿命解析概率分布的推导提供了有力保证;3)维纳过程也便于数学上的分析和计算.虽然基于维纳过程建模方法具有多方面优势,但同时也暴露出一些问题,例如,实际工程中疲劳裂纹的退化速率会随外界环境发生变化,对于这类非时齐的退化过程,维纳过程模型很难处理;另外,维纳过程在模拟单调的退化过程时效果不佳[60].

1.2.3 逆高斯过程

和伽玛过程相类似,逆高斯过程也适合对具有单调退化轨迹的系统进行建模.然而,由于逆高斯过程不像伽玛过程那样有直观的物理可解释性,并未在系统退化建模领域得到广泛研究与应用.文献[61]首次从物理的角度深入研究了逆高斯过程,同时指出其物理意义与维纳过程具有一定相似性,即均为极限状态下的复合泊松过程.因而,在工程实际中,对于不能用伽玛过程或维纳过程等模型进行良好拟合的退化数据,逆高斯过程是一个可考虑的选择[62].对于逆高斯过程{H(t),t ≥0},其增量之间相互独立且服从一个逆高斯分布,即∆H(t)~IG(µΛ(t),λ(Λ(t))2),其中 Λ(t) 是非负单调递增函数,µ和λ是常数,用来调节退化速度和波动性.逆高斯分布IG(a,b)的概率密度函数为:

其中,a和b分别是逆高斯分布的形状和尺度参数.

逆高斯过程最近颇受关注[63−67],但基于逆高斯过程的退化建模和CBM 策略仍然是全新研究方向.有限的几篇文献中,文献[68]针对产品退化符合具有随机效应的逆高斯过程,研究了一种具有最优检测间隔的最优视情更换策略.该策略利用逆高斯过程的随机效应参数刻画了产品群体中常见的异质性特征,通过不断获得可用的退化观测值实时更新其概率分布,并联合考虑了产品役龄和退化情况,制定了相应的更换策略.另外,文献[68]也从理论上证明了单调控制极限策略是最优的.文献[69]进一步将逆高斯随机过程理论引入到油气管道的腐蚀评估中,提出了一种逆高斯-状态空间油气管道腐蚀退化过程模型和维护决策优化模型.该策略首先根据其腐蚀机理建立逆高斯-状态空间退化过程模型,然后运用经验最大化与粒子滤波融合的算法估计模型参数,进而得出腐蚀油气管道的剩余寿命分布函数和概率密度函数,最后以更换时间为决策变量构建了维护决策优化模型.

迄今为止,基于逆高斯过程的退化建模与CBM策略的联合研究相对比较匮乏,还没有形成系统的理论体系,有待进一步地深入研究.另外,由于逆高斯过程无法描述非单调退化过程,阻碍了其在退化建模领域的发展进程.

2 基于数据驱动的预测性维护(PdM)

早期的PdM 策略通常预先假定系统的退化模型是已知的,然后根据确定的退化模型估计或预测系统的平均剩余寿命或推导出解析的剩余寿命概率分布,进而规划后续的维护活动.在实际工程系统中,退化模型往往是未知的且建模成本高昂,不同类型系统的退化模型也不尽相同.另外,构建系统退化模型的输入也仅局限于系统的状态监测数据,而与系统健康状态相关的“大数据”,比如系统使用状况、当前工作环境和条件、早先实验和历史经验等数据,并未得到有效利用.因而,近年来,系统维护策略的研究逐渐转向于基于数据驱动的PdM.

基于数据驱动的PdM 策略可以不依赖于系统的退化机理模型,其决策信息也不局限于系统的状态监测数据,而是通过挖掘系统健康状态相关的“大数据”,获得设备剩余使用寿命等更准确的系统维护决策信息,从而实现更为行之有效的维护策略,以减少机器停机时间,改善生产流程.基于数据驱动的PdM 流程主要包括数据采集、数据处理、预测建模和维护决策4 个步骤,如图4 所示.从中可知,如能获得系统运行的各种数据,就可以开展基于数据的预测建模和维护决策研究.其整体思路是,基于传感器采集到的系统运行数据 进行数据选择、降噪、标准化等预处理操作,提取能反映系统性能退化的特征参数;然后,利用机器学习、深度学习等智能算法,实时预测系统未来健康状态和剩余寿命;最后,基于预测的健康状态和寿命数据,以维护代价最小化为目标进行维护决策.在维护决策过程中,需要处理好维护活动安排(如维修类型和时机等)和相应资源投入(如维修人员与备件等)之间的配置关系,通过统筹规划得到最佳健康管理措施.

图4 数据驱动PdM 的一般步骤Fig.4 General steps for data-driven PdM

从数据驱动PdM 的一般步骤可知,预测建模是整个过程的关键步骤,它为维护决策提供了重要输入信息,预测信息的准确与否直接影响到维护策略的制定效果[70−75].图5 描绘了在线寿命预测与维护决策之间的关系.维护人员可根据剩余寿命预测信息在失效前的合适时间实施维护,避免重大事故发生的同时,减少维护与备件存储的损失并延长系统的使用寿命[76−78].而对于数据驱动的预测建模,机器学习及其在此基础上发展而来的深度学习是主流的技术,下面分别阐述其主要思想和在PdM 中的应用情况.

2.1 基于机器学习的PdM

图5 在线寿命预测与维护决策之间的关系Fig.5 Relationship between online life prediction and maintenance decision-making

目前,基于机器学习的故障预测和设备剩余寿命预测方法的研究成果十分丰富,如基于逻辑回归(Logistic regression,LR)的方法[79−82]、基于人工神经网络(Artificial neural network,ANN)的方法[83−86]、基于支持向量机(Support vector machine,SVM) 的方法[87−91]、基于决策树(Decision tree,DR)的方法[92−94]和基于随机森林(Random forest,RF)的方法[95−97]等.文献[98]详细介绍了几种常用的神经网络(多层感知器神经网络、径向基函数神经网络、极限学习机)以及SVM 算法在设备剩余寿命预测中的研究现状,分析了每种方法的优劣势.文献[99]则从具体的工业应用角度,深入讨论了LR、ANN、DR 和RF 这4 种机器学习算法的适用性情况.尽管诸多机器学习算法已成功应用于工业系统,但大多数的研究仅为了预测而预测,而忽略了预测的最终目的.预测与维护决策是一个过程整体,只有将数据驱动的故障/剩余寿命预测与维护决策联合考虑,才可从工程应用角度保证系统的安全性与可靠性.

最近,一些学者开始关注于基于机器学习的故障/剩余寿命预测与维护决策的集成方法研究,并取得了一些研究成果.这些研究成果主要以ANN和SVM 这两种机器学习算法为技术基础,将预测结果应用于故障件替换、备件订购、生产运营规划等维护决策活动,在维护成本、资源损耗与生产效益之间计算最优平衡点,达到减少损失、提高可靠性等目的.以下将重点阐述ANN 和SVM 在PdM中的应用情况.

ANN 模型具有并行分布的处理能力、高容错性、智能化和自学习等能力[100],在各个领域均有广泛应用.在PdM 领域,文献[101]针对旋转设备的预测维护问题,提出一种以ANN 为技术基础的综合决策支持系统.该系统由三部分组成:第一部分通过对滚动轴承的状态监测,建立了基于振动的退化数据库;第二部分开发了一个ANN 模型来估计滚动轴承的寿命百分比和失效时间,并构造了一个边际分布;第三部分构建了成本矩阵以及概率更换优化模型.另外,文献[101]通过一个启发式管理决策规则,处理了预测性成本和修复性成本构成的各种情形.跟随此研究,文献[102]开发了一种集成故障诊断与维护决策的智能操作系统,其智能诊断子系统利用ANN 评估系统在线的健康状况信息,而智能维护子系统则借助于专家系统将诊断信息转换为所需形式的维护信息.为了进一步提升ANN 的故障预测精度,文献[103]引入了模糊系统和元启发式算法,提出了一种混合模型以对炼油厂检修相关的事故进行预测.该混合模型能够实现炼油行业维护作业事故的早期预测,降低了决策不确定性.

另外,文献[104]深入探讨了ANN 的不同结构特性,分别利用自组织映射神经网络和标准反向传播神经网络获得风力涡轮机阵列之间的行为相似性,然后预测风电机组的期望功率,并基于获得的分类和预测信息,实现海上风力涡轮机的维护策略优化.同样针对海上风力涡轮机,文献[105]提出了一种最优机会状态维护策略,该策略通过ANN 预测风力涡轮机的寿命百分比,并从预测的失效时间分布中导出条件失效概率值,以刻画风力涡轮机的退化程度;基于此,定义具有两级故障概率阈值确定相应的维护策略,并通过优化成本决策函数确定最优阈值.相比于文献[104],该最优机会PdM 决策方案便于实施,且解决了不同部件之间的经济依赖性.为了避免风电机组检修资源管理中可能存在的"个人主义"和"片面性"问题,文献[106]提出了一种基于优势粗糙集和误差反馈神经网络的检修决策方法.该方法采用优势粗糙集理论对知识进行约简,获得检修决策规则集,并将提取的规则集作为神经网络输入样本进行模型训练,试验分析表明,优势粗糙集和神经网络的组合方法优于单一的优势粗糙集方法.

上述基于ANN 的PdM 文献,其预测模型仅是简单给出了寿命预测值,而没有考虑到预测问题中不可忽视的不确定性.在实际工程中,系统中存在着各种各样的不确定性,比如测量误差、内在随机性、模型不确定性等[107],这些不确定性会使得基于ANN 的点预测结果的可信度显著下降.针对不确定性问题,文献[108]给出了一种解决方案,利用ANN 在训练和测试过程中的寿命预测误差估计系统的不确定性程度,并利用失效概率阈值定义维护策略.在此基础上,文献[109]进一步研究了系统寿命预测精度不断提升下的不确定估算问题,通过建立预测误差均值、标准差与寿命百分比的关系模型量化预测不确定,之后同样利用失效概率阈值定义维护策略.

和ANN 相比,SVM 集合了最大间隔超平面、凸二次规划、核分析等多种技术[110],是一种更为高效的机器学习算法.它能够在高维特征空间中得到优化的泛化界超平面,可以利用核技术来避免局部最小值,并通过间隔和限制支持向量的数量来防止过拟合.考虑到SVM 配置参数对模型性能的较大影响,文献[111]提出利用粒子群算法对最小二乘SVM 模型进行优化,并将优化后的模型应用于建立设备状态风险评估指标体系,解决了真空断路器的状态检修问题.为了进一步提升最小二乘SVM的预测精度,文献[112]改用双层算法替代粒子群算法优化SVM 模型配置参数,在考虑成本效益的约束下,利用历史运行数据构建了断路器缺陷树,并预测方案优化前后的缺陷分布,通过对缺陷损失的量化,采用成本效益度量法确定最佳维护方案.

上述文献均是从参数微调角度增强SVM 的预测性能,以进一步提升PdM 的决策精度.除此之外,文献[113]深入考虑了SVM 中的决策边界距离以及工具变量在每个迭代过程中的知识,认为它们也为PdM 决策提供了重要信息.于是,针对半导体制造业中离子注入工具离子源中灯丝频繁断裂的问题,文献[113]提出利用SVM 区分灯丝的故障和非故障运行,并将决策边界距离考虑为与灯丝剩余寿命相关的信息,通过构建总的维护费用函数并基于蒙特卡洛(Monte Carlo)交叉验证方法确定了最优维护方案.文献[114]指出传统SVM 模型构建中每个样本点都被确定性分配给每一类的这种思想在实际工程中的应用效果并不理想,因此提出将模糊隶属度函数引入SVM,并基于层次思想构建了一种层次修正的模糊SVM.所提出的改进模型在联网车队运营管理与维护中得到了有效验证,在对车辆里程、年龄、车型等重要属性方面的变化趋势预测中,获得的预测精度显著高于传统SVM、逻辑回归(LR)和随机森林(RF)等机器学习算法.

机器学习为PdM 策略的制定和优化提供了重要技术支持.总结以上机器学习在PdM 中的研究,具备如下特点:1)机器学习模型较为简单,容易根据实际设计要求进行更改;2)机器学习模型对计算机硬件要求不高,计算成本低;3)机器学习模型的超参数调整技术较为成熟;4)机器学习算法中涉及直接的特征工程技术,而这些特征提取算法很容易解释和理解.

2.2 基于深度学习的PdM

随着大数据时代的来临,系统装备运行状态的监测数据呈现出容量大、多样性强、产生速度快等特点[115].传统的浅层机器学习算法很大程度上依赖于专家经验知识和信号处理技术,难以处理这些海量监测数据.而最近发展起来的深度学习技术能够在没有信号处理专业知识的情况下自动提取和构造有用信息,为海量监测数据的处理提供了一种解决思路.图6 描绘了传统机器学习和深度学习的数据处理流程.可以看出,深度学习避免了传统机器学习对原始数据的复杂特征工程(特征构建、提取与选择),它可以直接采用端到端的方式来学习,而这种对系统运行状况的表征学习可通过在原始数据和预测目标之间添加深层网络结构来实现.

深度神经网络是实现深度学习的一个载体,而它本身并非是一个全新的概念,可视为包含多个隐含层的神经网络结构.为了提高深层神经网络的训练效果,人们对神经元的连接方式以及激活函数等方面做出了调整[116].依据深度神经网络结构的不同,目前常用的深度学习模型主要包括以下三种:深度置信网络(Deep belief network,DBN)、卷积神经网络(Convolutional neural network,CNN)和递归神经网络(Recurrent neural network,RNN).

DBN 是一种典型的深度学习模型,它由多个受限波尔兹曼机(Restricted Boltzman machine,RBM)和单层反向传播(Back propagation,BP)神经网络组成,通过采用逐层训练方式,可为整个网络赋予较好的初始权值,并经过微调操作能够使网络达到最优解,从而解决了深层次神经网络的优化问题[117].DBN 依据堆叠RBM 能够完成对输入数据的特征提取,有效解决了人工特征提取与选择所引起的不确定性问题,实现了智能特征提取的目标,同时该方法下的时域信号无需满足周期性要求,因而在剩余寿命预测领域具有广阔的应用空间.文献[118]借助于DBN 的自动特征提取和预测能力,将其直接应用于轴承的剩余寿命预测上,但预测精度并不理想,远低于粒子滤波算法.在此基础上,文献[119]提出对传统DBN 进行改进,开发了一种多目标DBN 集成方法,每个深度置信网络的输出对网络集合的输出均占有一定权重,显著提升了DBN 的剩余寿命预测精度.另外,DBN 与其他算法的融合模型也相继被提出,它们均有效弥补了单一DBN预测模型的不足,代表性的融合模型有:DBN-前馈神经网络[120]、DBN-粒子滤波[121]、DBN-相关支持向量机[122].由以上文献分析可知,DBN 能够有效提取系统的退化特征,并能够应用于剩余寿命预测中,但它一般需要与其他方法进行结合或对其改进以达到预期的寿命预测精度.另外,基于DBN 的剩余寿命预测与维护决策的集成方法研究尚未见有相关报道,有待后续研究.

CNN 是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一.它一般包括卷积层、池化层和全连接层,具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类,早期主要被用于解决图形处理问题[123].由于其特殊的网络结构,CNN 不仅能够处理网格化数据,还可以输入序列数据.特别地,CNN 具有稀疏交互、参数共享、空间池化等诸多优良特性,能够为处理海量监测数据创造十分有利的条件.2016 年,文献[124]首次将CNN 应用于设备剩余寿命预测上,该方法通过利用两个卷积层和两个池化层提取原始信号特征,同时结合多层感知器神经网络实现了剩余寿命估计.紧接着,一些改进的CNN 相继被开发,它们进一步提升了寿命预测精度,比如,文献[125]为了保存更多有效信息,在CNN 构建中忽略了池化层;文献[126]将CNN 中的全连接层全部更换为卷积层与池化层,以减少神经网络需训练的参数.由以上文献分析可以看出,基于CNN 的剩余寿命预测研究已取得了一定突破,但由于起步较晚,当前基于CNN 方法的研究仍处于初步探索阶段.

图6 传统机器学习和深度学习流程Fig.6 Flow of traditional machine learning and deep learning

RNN 为一类包含前馈连接与内部反馈连接的前馈神经网络,主要用于处理具有相互依赖特性的监测向量序列.由于其特殊的网络结构,能够保留隐含层上一时刻的状态信息,因而对复杂动态系统建模表现出了强大优势[127].借助于RNN 的建模优势,文献[128]搭建了一种以RNN 为技术核心的智能预测决策支持系统,用于实现对复杂动态系统的故障诊断与劣化趋势预测.通过将这些有价值的结果作为集成维护管理系统的输入,以预先计划和安排维护工作,在某电厂关键设备上的测试和运行结果表明,该决策支持及管理系统能够降低备件库存成本,减少计划外强制停机,并将灾难性故障的风险降到最低.考虑到单一使用RNN 预测上的不足,文献[129]构建了一种RNN 和随机森林(RF)的融合模型用于铁路钢轨及几何缺陷的预测,该融合模型预测结果通过两个基准模型的加权运算得出,而权值系数则通过优化一个具有风险规避特性的目标函数确定,基于融合模型的预测结果,利用带折扣因子的马尔科夫决策过程模型确定最优检查和维护计划.

作为RNN 的重要分支之一,长短时记忆(Longshort term memory,LSTM)网络解决了由于重复使用递归权矩阵而引起的消失梯度问题[130].LSTM网络由多个单元块连接而成,而每个单元块内包含了输入门、输出门和遗忘门三个组件.输入门控制着外部信息的输入,输出门负责将单元块内重要信息进行输出,而遗忘门则决定着单元块内一些信息的保留或舍弃.在这三个门组件的相互协作下,LSTM 网络能够学习到长时间序列间的依存关系.借助于LSTM 网络在时间序列处理上的优势,文献[131]首次提出了一种基于LSTM 网络进行失效预测的动态PdM 框架:在数据驱动预测阶段,利用LSTM 网络来估计系统在未来不同时间窗内发生故障的概率;在维护决策阶段,通过快速评估维护成本和备件管理成本,实时决策是否采取维护活动或订购备件.为了解决了LSTM 模型预测中存在的不确定性问题,文献[132]引入了概率估计理论,将基于LSTM 网络的确定性寿命预测推广至概率性寿命预测,该方法首先分析LSTM 网络输入、输出变量之间的统计关系,然后利用概率估计理论推导出具有一定置信水平的寿命预测区间,基于获得的预测信息,构建了预防性和修复性维护成本模型,通过成本模型的优化与比较,最终确定了采取维护活动的类型和时间.为了解决现代高速铁路动力设备的维护问题,文献[133]创造性地将数据驱动的方法和基于模型的方法结合在了一起,提出了一种预测维护与主动维护相协作的方式,该方法搭建一种长短时记忆递归神经网络(LSTM-RNN)用于实现设备的预测;而对于主动维护问题,则设计了一种以设备物理退化和故障模型为基础的样本发生器,在气体绝缘开关设备上的实验结果表明,样本发生器与维护预测器之间的强力协作,不仅可以根据历史样本数据准确预测出开关设备的未来维护时间,而且可以主动丰富数据供应以应对潜在数据不足的问题.

通过以上基于RNN 以及变体LSTM 的PdM文献分析可知,RNN 在对复杂动态系统的建模表现出了强大优势,能够有效提升系统剩余寿命预测精度,并且具备较快的收敛速度和较高的稳定性.值得指出的是,以上关于RNN 在PdM 中的应用情况大多数是以构建维护成本函数为目标,并通过优化决策函数确定最佳维护方案,而对安全性和任务完成度有较高要求的系统而言,其剩余寿命预测与维护决策的研究仍有待更多关注.

2.3 一个面向PdM 研究的典型案例

航空发动机是一种高度复杂、精密的热力机械,作为飞机的心脏,不仅为飞机提供动力,同时也为航空事业的发展注入强大动力.为了研究航空发动机的退化建模和寿命预测,美国航空航天局使用CMAPSS 工具对发动机主要部件(如图7 所示)进行一系列运行到失效的性能退化仿真模拟,并公开了发动机性能退化数据集[134],以便学术界研究PdM相关技术.

图7 航空发动机主要部件简图[135]Fig.7 Sketch of main components of aero engine[135]

该数据集记录了航空发动机在每个飞行周期的24 个维度性能参数,包括3 个操作条件变量和21 个传感器测量变量.数据集可进一步分为训练集和测试集.训练集包括100 组运行到故障状态的单元,可用于建立寿命预测模型.测试集包括100 组停止于系统故障之前具有一定周期次数的单元,用于剩余寿命预测,还提供了测试单元的真实寿命,可用于预测模型性能评估.

图8 描述了航空发动机PdM 的基本框架,它包含了信号采集、信号处理、故障预测和维护决策4 个模块.从中可以看出,为实现航空发动机的PdM,需要解决两个核心问题:第一个是数据驱动的预测建模,它为维护决策提供了重要输入信息;第二个是基于预测信息的维护策略制定,它旨在给出实施维护和备件订购的最佳时机.

对于预测建模,C-MAPSS 数据集已被用于与预测相关的各个方面研究.文献[136−142]利用大量可用的运行故障数据,通过使用人工智能技术学习特征向量和剩余寿命之间的关系.文献[143−148]充分利用丰富的训练单元,开发了基于单元间相似性的预测方法.文献[149−151]利用特征的多样性,并基于多特征融合进行预测.文献[152]提出了一种考虑数据集时变操作条件的预测方法.文献[153]从降低预测风险方面,提出了一种混合模型预测方法.对于维护策略制定,文献[131]提出了一种动态PdM 框架,通过快速评估维护成本和备件管理成本,实时决策是否采取维护活动或订购备件.文献[132]构建了预防性和修复性维护成本模型,通过成本模型优化与比较,最终确定了采取维护活动的类型和时间.进一步地,以文献[131]为例,简要说明航空发动机的PdM 过程.

首先,在故障预测模块,21 个传感器测量值输入到LSTM 网络,网络输出发动机剩余寿命在未来不同时间窗口内的概率,如表1 所示.表中时间窗口1~ 3 分别表示发动机状态不同的退化程度:窗口1 表示轻微退化,窗口2 表示中度退化,窗口3 表示重度退化.其次,在维护决策模块,基于获得的预测信息,将做出是否订购备件和是否实施维护决策,见表2.

综合表1 和表2 可以看出,在运行周期为180 时(对应于第18 个决策周期),发动机剩余寿命落入时间窗口1 的概率比较高,表明发动机仍然能够正常工作,故此时刻并不需要订购备件也不需要维护系统.接下来,新监测的传感器数据输入到LSTM网络,更新相应的预测信息.在第19 个决策周期,最优维护建议是订购备件但并不需要维护系统,而可用备件将在两个决策周期后到达.同样地,在第20 个决策周期,也不需要维护系统.最终,当第21 个决策周期到来时,所订购的备件已经交付,同时考虑到发动机失效概率为100%,于是,最优决策是预防性更换发动机.

3 总结与展望

视情维护在保障系统安全性、可靠性和经济性方面具有十分重要的意义.本文对复杂工程系统视情维护决策的研究进展做了综述和总结.依据维护决策支持技术类型,将其分为基于随机退化模型的视情维护和基于数据驱动的预测性维护.在这两种研究分支下,分别梳理了现有模型和算法在视情维护中的应用情况.从现有文献回顾中,CBM 和PdM 仍然属于战略新兴方法,仍然存在一些明显的挑战性问题亟待解决.从工程实践的角度,当前视情维护决策面临着数据的有效性判定和面向视情维护的友好实用的计算机程序开发等挑战性问题,这两个方面深刻制约着视情维护决策理论方法向工程实践的转化.从理论研究的角度,当前视情维护决策研究需要进一步加强考虑相互影响的多部件系统的视情维护决策研究、考虑人为因素的视情维护决策优化研究、基于深度学习和退化过程模型的融合技术研究以及状态监测、寿命预测和维护决策的联合研究,这4 个方面则制约着所提出的视情维护决策方法在电气、电子、机电产品等复杂、敏感系统中的适用性情况.对于这6 个挑战性的问题,具体描述如下:

1)数据有效性.众所周知,数据对算法性能的重要性不言而喻.当前视情维护决策研究大多采用数值案例或某些平台提供的公共数据集进行方法验证,而来自实际运行设备的数据集较少.此外,数据采集系统的建设将是昂贵的,并且传感器本身也有可能发生故障.基于这些原因,需要可靠的信息物理系统和物联网技术来为视情维护决策研究提供低购置成本和高利用价值.此类措施将有助于研究人员充分利用实际运行设备而不是实验平台的数据,因而能够更好地解决工业过程中的实际问题.

图8 航空发动机PdM 的基本框架Fig.8 Basic framework of PdM for aero engines

表1 预测信息Table 1 Prognostic information

表2 动态预测性维护方案Table 2 Dynamic predictive maintenance scenarios

2)面向视情维护的友好实用的计算机程序开发.开发友好实用的计算机化视情维护程序是在实际工业案例中如何充分应用和实施视情维护的最后阶段.友好实用的计算机程序能够即时给出系统当前的运行状态和提供未来的故障信息,并引导用户采取相应的维护策略,从而保障系统安全可靠地运行.一个典型的例子是加拿大多伦多大学开发的EXAKT 软件[154],它能够实现旋转设备的监测和决策;随后,由中国香港城市大学开发的IPDSS 系统[128]、西班牙卡米亚斯大主教大学开发的SIMAP 系统[155]和美国纽约州立大学宾汉姆顿分校开发的PCBM系统[156]等也相继被应用于设备的视情维护.

3)考虑相互影响的多部件系统的视情维护决策研究.当前复杂工程系统往往是由多个机械单元或部件按照一定的连接方式所组成,而这些元部件之间的退化过程和失效模式往往是相互影响的.现有视情维护研究大多集中于单部件系统,而针对多部件系统的视情维护决策还没有得到充分解决.一个潜在方向是为具有不同部件类型(而不是相同类型)的多部件系统制定最优视情维护策略,并考虑部件之间的退化依赖性.

4)考虑人为因素的视情维护决策优化研究.在视情维护中,人为错误通常影响到系统的状态监测、维护活动等环节而降低维护策略的有效性.例如,实际维护实施中,因为维护人员技术技能、心理状态等因素,维护往往难以达到理想状态,可能存在维护没有效果,甚至损坏设备的情形发生;用于维护的资源包括了人员与备件等多种组成,那么考虑维护人员在内的资源调度问题必将对维护策略产生影响.因而,需要将人的可靠性集成到视情维护优化模型中,以研究存在人为干扰情况下视情维护策略的有效性.

5)基于深度学习和退化过程模型的融合技术研究.深度学习能够自动提取系统监测数据中的特征信息,进而刻画出特征信息与剩余寿命之间的非线性关系,在剩余寿命预测领域具有一定的普适性,但无法得到剩余寿命的解析概率分布,难以应用于维护策略的制定与安排;而以伽玛过程和维纳过程为代表的退化过程模型可根据系统退化轨迹估计出退化模型参数,推导出剩余寿命的解析概率分布,便于后续的维护决策,但剩余寿命预测精度受到所选退化模型的影响较大.因而在后续研究中,需要探索如何融合深度学习对复杂系统建模上的优势以及退化过程模型对剩余寿命预测表达上的优势,以做出精准可靠的维护决策.

6)状态监测、寿命预测和维护决策的联合研究.状态监测、寿命预测和维护决策是一个过程整体,这三个部分共同影响着复杂系统的安全运行,其联合研究具有十分重要的工程应用价值.由于综合考虑安全运行全过程的研究是一项非常庞大而复杂的工作,且在现有的研究成果中较少定量分析各阶段输入及输出之间的相互影响,使得关于状态监测、寿命预测和维护决策的整体联合研究进展极为缓慢.因而在后续研究中,需要准确刻画它们之间的定量关系,并充分考虑多目标、多决策变量的优化问题.

猜你喜欢

寿命决策建模
人类寿命极限应在120~150岁之间
为可持续决策提供依据
联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例
仓鼠的寿命知多少
决策为什么失误了
马烈光养生之悟 自静其心延寿命
基于PSS/E的风电场建模与动态分析
不对称半桥变换器的建模与仿真
人类正常寿命为175岁
三元组辐射场的建模与仿真