APP下载

深度学习在装备剩余使用寿命预测技术中的研究现状与挑战

2021-02-25刘振宇郏维强张栋豪谭建荣

计算机集成制造系统 2021年1期
关键词:特征提取神经网络领域

刘 惠,刘振宇,郏维强,张栋豪,谭建荣

(浙江大学 计算机辅助设计与图形学国家重点实验室,浙江 杭州 310027)

0 引言

故障预测和健康管理(Prognostic and Health Management, PHM)是指利用大量状态监测数据和信息,借助统计算法或模型来评估和管理装备健康状态的技术。PHM可以提前对潜在故障进行预测,并结合各种装备信息提供维护决策,实现视情维护,从而提高生产过程的安全性及降低维护成本[1-4]。近年来,PHM技术在航空航天、制造业等领域表现出了良好的应用前景,为生产活动提供了安全保障[2,5]。剩余使用寿命(Remaining Useful Life, RUL)预测技术是PHM的关键技术之一,可通过分析传感器监测的运行数据或建立合适的退化模型对系统或部件的RUL进行提前预测[6-8]。参考相关文献[3,8-9],RUL可定义为系统或部件可继续正常使用的时间长度,即当前时刻与失效时刻之间的时间间隔。

在工业生产中,对系统或部件的RUL进行准确预测能及时改进维护计划,以确保工业活动顺利进行,同时还能降低维护和生产成本,简化操作流程。与传统故障诊断相比,RUL预测技术可提前预测系统或部件的正常工作时间,对将发生的故障进行事先警报,较大程度上避免了生产事故的发生,因此更加实用[10-11]。本文研究对象为复杂装备及其关键零部件,发动机、数控机床和风力发电机等复杂装备在各行业中占据着重要地位。例如涡轮发动机是航空领域发展的核心装备,也是最容易发生故障的部件之一,其致命性故障会对飞行器造成不可挽回的损失[11-12]。而复杂装备的关键零部件的失效会导致复杂装备无法正常运行,例如滚动轴承[13]。基于上述情况,对复杂装备及其关键零部件进行RUL预测研究是必要且紧迫的。

基本的RUL预测技术主要分为两类[14-15],分别是基于模型的方法[16-17]和数据驱动的方法[6,18]。基于模型的RUL预测技术往往需要确定精确的物理或数学模型来描述系统退化过程。然而,很多复杂装备都难以建立精确的模型,对于难以确定具体退化模型的复杂装备而言,数据驱动的方法已成为一种重要的RUL预测手段[11,19]。通常,基于测试数据或者传感器数据进行预测的方法称为数据驱动的RUL预测技术,该方法通过对系统或部件各个阶段的测试数据、传感器历史数据进行融合与特征提取,得到上述监测数据和剩余使用寿命之间的映射关系[20]。该方法无需对象系统的先验知识,以现有采集的数据为基础,通过各种分析处理方法挖掘出数据中的隐含关联信息进行预测操作,是一种较为实用的方法[11,21-22]。

数据驱动的RUL预测技术最核心的任务在于建立一个有效的RUL预测模型对监测数据进行处理以实现RUL预测,主要包括以下流程:数据获取、数据预处理、特征工程、模型建立、模型训练与预测[20]。

目前适用于建立RUL预测模型的方法主要有3类:①统计模型方法,主要包括粒子滤波、卡尔曼滤波及其扩展算法等[23-26];②传统机器学习方法,主要包括隐马尔可夫模型、支持向量机、相关向量机和极限学习机等[27-31];③深度学习方法,主要包括各种神经网络算法及其拓展算法。

基于统计模型的方法通常需要足够的先验知识构建退化过程的经验模型。传统机器学习预测方法的特征提取工作较为复杂,需要丰富的先验知识。此外,传统机器学习方法的数据拟合能力有限,难以有效处理大数据问题。深度学习是机器学习的一个重要分支,是一种对人脑仿真的数学算法[32],主要基于各种人工神经网络对数据进行深度处理和特征提取。随着神经网络技术的发展,深度神经网络在各行业的应用已成为研究热点。与其他算法相比,深度神经网络具有非常强的数据处理能力。理论上,深度神经网络能以任意精度逼近任意连续函数,可以很好地实现对复杂高维函数的近似表示[33]。而且,随着网络层数的增多,深度神经网络的学习能力将增强。不过,深度学习所依赖的反向传播(Back Propagation, BP)算法可能导致梯度消失和梯度爆炸问题,这在一定程度上限制了深度学习的发展[34]。总而言之,深度学习能够对数据进行自动特征提取且不需要先验知识,是目前最有希望实现人工智能的方法。

当前深度学习在许多研究领域都取得了开拓性的成就,如自然语言处理[35]、图像处理[36]、故障诊断及健康监测[37-38]、RUL预测[39]等。现阶段深度学习获得广泛关注主要有以下原因:

(1)与传统机器学习方法相比,深度学习具有更强的特征提取能力,能提取到更多反应数据本质的有用特征。而且,这一特征提取过程不需要人工干预,可以实现自动特征提取和端到端的学习[40]。

(2)通常,传统机器学习方法难以有效处理大数据,而深度学习是目前处理大数据最有效的方法。理论上深度学习所提取的有效特征随着数据量的增加而变多,预测精度也随之提高。随着物联网(Internet of Things, IoT)及先进传感器技术的发展,工业大数据的逐步发展进一步促进了深度学习的应用[8,41-42]。

(3)随着计算机硬件技术的不断发展,先进的图形处理器单元、张量处理单元和中央处理器等硬件都为深度学习算法的实现提供了所需要的算力资源。

由于深度学习无可比拟的优势,其为RUL预测技术的进一步发展带来了机遇。一方面,在基于深度学习的RUL预测技术的主要流程中,特征工程不是必需的。这是因为基于深度学习的RUL预测技术可以实现退化特征的自动提取,进而实现端到端的RUL预测。这种革新在一定程度上有助于降低对RUL预测领域先验知识的依赖,提高RUL预测方法的适用性[22]。但值得关注的是,端到端的预测并非基于深度学习的RUL预测的唯一选择。在近年来的一些研究中[13,43],特征工程与深度学习的结合也取得了较好的预测效果。这类方法结合了手动特征提取和深度学习的优势,在一定程度上也促进了深度学习在RUL预测中的应用。另一方面,随着工业4.0的到来,工业大数据的逐步发展必然导致对RUL预测算法算力要求的提高。而深度学习由于具有强大的计算能力,恰好满足了上述需求。综上所述,研究基于深度学习的RUL预测技术具有现实意义。

参考近年来的文献可知,基于深度学习的RUL预测方法已成为学术界和工业界共同的研究热点[41]。目前,RUL预测领域常用的深度学习方法主要包括各类神经网络模型及其变体,如卷积神经网络(Convolutional Neural Networks, CNN)[40]、循环神经网络(Recurrent Neural Networks, RNN)[44]、自编码器(Autoencoder, AE)[43]和深度置信网络(Deep Belief Network, DBN)[34]等。基于其强大的数据处理能力,上述深度学习方法在多个方面与RUL预测研究进行了深度结合,取得了较大成就。

本文主要总结了2015年1月~2020年6月期间前人在基于深度学习的RUL预测领域所做出的优秀成果,并在其基础上结合深度学习算法的基本原理,对该领域的研究现状进行了系统性总结。结合已有研究,思考并提炼出了当前基于深度学习的RUL预测所面临的一些挑战与难点,并探讨了未来该领域的发展方向。考虑到刀具磨损预测可转换成RUL预测问题,本文调研的文献也包括部分涉及刀具磨损预测的研究。

1 深度学习及其在剩余使用寿命预测领域的研究现状

近年来,深度学习算法在RUL预测领域中得到了广泛关注,各种新的研究成果不断涌现。本章将围绕几种主要的深度学习算法,对基于深度学习的RUL预测研究现状进行阐述与探讨。

1.1 全连接神经网络及其应用

全连接神经网络(Fully-Connected Network, FCN)是一种简单的前馈神经网络,也是最常见的神经网络之一。多层FCN又称为多层感知机(Multilayer Perceptron, MLP),采用单向多层的全连接结构,其中每层都包含若干神经元,因其具有较强的数据拟合能力,所以很早就被应用于RUL预测领域[7,45-47]。如图1所示为一个简单的多层FCN框架图。

Tian[46]开发了一种用于预测设备RUL的多层FCN模型,将多个状态监测量作为输入,并将设备寿命百分比作为输出。但参考图1可知,多层全连接神经网络仅是对数据在高维空间中做拟合,并没有考虑数据的时间特征,因此其效果并不是特别理想。Lim等[7]提出一种用于航空发动机RUL预测的框架,该框架通过时间窗口对传感器数据进行处理,以便提取时序特征,并使用多层全连接神经网络取得了相对较好的预测结果。但该方法没有充分挖掘传感器信号的时序特征,且容易出现过拟合的情况。此外,BP算法难以有效训练深层的全连接网络,限制了FCN模型的预测精度。在现阶段的RUL预测研究中,FCN很少被单独应用于建立RUL预测模型,通常是与其他深度神经网络进行联合应用[6]。

1.2 循环神经网络及其应用

循环神经网络(RNN)是一类流行的深度学习模型,对时序数据具有非常强的处理能力[44]。FCN在当前时刻的输出由当前时刻的输入决定,但RNN当前时刻的输出不仅依赖于当前时刻的输入数据,还依赖于之前时刻所提取的信息。在处理时序数据时,RNN通过信息流的方式将不同时刻的信息在同一层内进行传递,并利用记忆单元保留不同时刻的信息,进而学习到不同时刻信息之间的依赖关系,即时序特征。综上可知,RNN可以从时序数据中学习到与时间相关的特征信息[32]。

工业中的传感器数据本质上是时序数据[19],因此RNN可以用于处理RUL预测问题。Heimes[44]将循环神经网络应用于传感器数据的时间维度上,取得了较好的预测效果。但在监督学习任务中,RNN通过时序反向传播(Back Propagation Through Time, BPTT)算法进行训练的过程中存在梯度消失的问题。这意味着传统RNN无法捕捉长时间的依赖关系,极大地限制了其实际应用[19]。近年来,传统RNN算法几乎不再被应用于解决RUL预测问题。

长短期记忆网络(Long Short-Term Memory, LSTM)是RNN的一种重要改进形式,通过记忆体信息流和门结构的设计,在一定程度上解决了梯度消失问题[48],因而在各个领域都获得了广泛应用。如图2所示为单层LSTM的基本工作原理,图中cell代表记忆体,在每个cell中,有3个门控单元(分别为输入门it、遗忘门ft和输出门ot)管理信息流[48]。其在t时刻的工作原理表达如下:

it=σ(Uixt+Viht-1+bi),

(1)

ot=σ(Uoxt+Voht-1+bo),

(2)

ft=σ(Ufxt+Vfht-1+bf),

(3)

ct=ftct-1+it°tanh(Ucxt+Vcht-1+bc),

(4)

ht=ottanh(ct)。

(5)

其中:xt表示t时刻的输入;Ui,Uo,Uf,Uc∈m×l和Vi,Vo,Vf,Vc∈m×m分别表示输入权重矩阵和循环权重矩阵,b∈m表示偏置,m和l分别代表LSTM的隐藏层神经元数和输入数据特征维度;ct和ht分别表示cell状态和cell输出;σ和tanh表示激活函数,在大部分文献中,σ采用的是sigmoid激活函数。

通过上述结构,LSTM能很好地学习时序数据中的长期依赖关系,因此在RUL预测领域得到了非常广泛的应用。Zheng等[19]提出一种基于多层LSTM与MLP相结合的RUL预测方法,充分利用了传感器信号时序上的特征,取得了较好的预测结果;Wu等[49]结合LSTM和动态差分技术对航空涡扇发动机的运行数据进行处理,实现了较好的RUL预测;Wang等[50]从轴承振动信号中提取时域、频域、时频域以及相似度特征,经过特征筛选后利用多层LSTM进行处理以预测轴承RUL,实验结果表明,与FCN和支持向量机相比,LSTM的RUL预测效果更好。LSTM在RUL预测领域已经取得了较大成就,为进一步提高LSTM的预测性能和计算效率,业界学者对其进行了诸多改进,其中门控循环单元(Gated Recurrent Unit, GRU)就是一种比较流行的变体[51]。

与LSTM结构相似,GRU主要由记忆体和门控单元组成。与前者不同的是,GRU只有两个门控单元(重置门和更新门),这大大简化了其内部结构,降低了计算复杂度[51]。一些研究表明,GRU和LSTM在许多任务中可以实现相似的预测精度,但GRU的收敛速度更快,所需要的计算时间更少。基于上述因素,GRU在RUL预测中也得到了一定的应用[52-55]。Xu等[52]提出一种基于GRU的刀具磨损预测模型,发现GRU可以很好地处理时间序列数据并避免梯度消失问题,实验结果也表明GRU比支持向量回归和MLP效果都要好;Chen等[53]提出一种通用的RUL预测两步方案:第一阶段基于核主成分分析法对输入数据进行非线性特征提取;第二阶段基于GRU对RUL进行回归预测。

与LSTM相比,GRU在结构上有一定优势。不仅可以有效降低网络的计算复杂度,还在许多任务上取得与LSTM相近甚至更好的效果。从现有文献可以看出,基于GRU的RUL预测方法近两年受到了本领域研究者的关注。

双向网络是循环神经网络的一个重要发展方向。双向长短期记忆网络(Bidirectional Long Short-Term Memory, BLSTM)是LSTM的一种改进模型,在处理输入序列时,同时考虑了过去和未来的信息特征对当前时刻的影响,可以更好地学习时间维度上的长期依赖关系[6]。单层BLSTM网络的基本结构如图3所示。由于BLSTM具有很强的时序建模能力,近年来RUL预测领域的相关研究逐渐增多。Zhang等[56]利用感知机从多维传感器数据中提取与发动机RUL相关的健康指数,然后使用BLSTM对健康指数进行分析并预测发动机的RUL;Huang等[57]直接通过多层BLSTM对传感器数据进行分析,并以发动机运行过程的工况数据(如马赫数、海拔高度等)作为模型的辅助输入,对多工况下的发动机进行RUL预测;此外,BLSTM也被用于处理数控机床刀具加工过程中的传感器数据[20,58]。类似地,双向门控循环单元(Bidirectional Gated Recurrent Unit, BGRU)在RUL预测中也得到了应用[39,59-60]。总而言之,双向网络是当前研究的一个热点,在未来将会受到更多的关注。

近年来,循环类神经网络在RUL预测中越来越受重视,为了更清晰地了解循环类神经网络在RUL预测中的应用,表1对常用的几种方法进行了简单的比较与总结。

表1 RUL预测中的各种循环神经网络方法比较

1.3 卷积神经网络及其应用

卷积神经网络(CNN)是深度学习中最具有代表性的算法之一,被广泛应用于图像处理领域[1,32,67]。CNN主要包括两个重要结构层:卷积层和池化层。卷积层将多个卷积滤波器与输入数据进行卷积生成特征图,可以对高维输入数据进行降维处理,具有自动提取有效特征的优点;池化层又称下采样层,对各个维度数据进行采样,可以进一步降低数据规模并提高网络的泛化能力[40,67]。在调研的文献中,最常用的池化策略主要包括最大池化和平均池化。卷积层和池化层逐层对输入数据进行交替处理,可以对输入数据的空间特征进行有效表达。卷积层是CNN的核心,具有稀疏连接和空间权值共享两个重要特性,能对数据的局部特征进行有效挖掘。如图4所示为卷积操作的一个简单示例,其数学表达如下:

yj=φ(x*vj+b),

(6)

Y=[y1,y2,…,yj,…,yJ]。

(7)

其中:x表示输入特征,*表示卷积运算,vj表示第j个卷积核,b表示偏置项,φ表示激活函数,yj表示卷积层输出的第j个特征映射;Y表示卷积层的输出,由J个卷积核生成的J个特征映射所组成。

CNN自提出以来,在图像处理领域已经获得了成功应用[68]。近年来的一些研究成功地将CNN应用于序列数据处理,并取得了较好的效果,包括自然语言处理[35]和RUL预测[11,40]等。图5展示了一种多层CNN的典型结构图。在RUL预测中,CNN基于BP算法进行误差的反向传播,并结合梯度下降等优化方法训练每层的权重参数,可以实现输入数据的局部特征提取,并生成抽象的高维空间特征,然后由FCN进行拟合,进而实现对RUL的预测。目前,基于CNN及其变体的深度学习方法已经在RUL预测中得到了较好应用。

Babu等[40]提出一种基于多层CNN的回归预测方法,首次将CNN应用于复杂装备的RUL预测。该方法中的卷积操作和池化操作都是沿着传感器信号的时间维度进行的,以便学习原始传感信号中的时序信息。Li等[11]改进了文献[40]中的CNN模型,通过5个卷积层对传感器信号进行处理,获得了更好的效果。该研究表明,CNN的核心处理层是卷积层,池化层的作用主要是降低数据规模,若数据规模不大,池化反而可能破坏一些重要特征。上述结论对于CNN在RUL预测领域的发展具有一定指导意义。此外,针对轴承RUL预测问题,一些研究利用CNN对振动信号直接进行处理与分析,在应用中取得了良好的效果[69]。

总结文献可知,基于CNN的RUL预测实现方法主要可分为两种,如图6所示。第一种方法不需要经过额外特征提取,直接利用基于CNN的模型对预处理后的数据进行特征提取与预测,上一段介绍的研究主要是基于第一种方法;第二种方法首先需要基于一定先验知识进行一些特定的特征提取,然后再利用CNN进行深度特征挖掘。上述两种方法各有优势,第一种方法能实现自动特征提取,不需要额外的特征处理过程,可以实现端到端的RUL预测[6,69];第二种方法在结合一定先验知识的基础上对数据进行深度特征提取,在某些场景下能实现更高的预测精度[70-72]。目前,这两种方法的应用都比较广泛,如何进行选取需要根据具体场景决定。

第二种方法的代表性研究有:Ren等[70]通过快速傅里叶变换对轴承振动信号进行处理得到频谱特征,并利用多层CNN和FCN对频谱特征进行处理,以预测轴承的RUL;Yoo等[71]基于连续小波变换从振动信号中提取小波功率谱,并通过多层CNN和FCN提取功率谱中的健康指数,最后通过高斯过程回归实现轴承RUL预测;Huang等[72]对数控机床加工过程的多传感器信号进行处理,提取信号中的时域、频域和时频域特征作为刀具磨损的健康指数,然后通过CNN模型建立健康指数和刀具磨损之间的非线性关系。总结文献可知,常用的特征包括时域、频域和时频域上的各种统计特征,如峰值、均值、均方根值、频谱和功率谱等。主要特征提取方法包括各种信号处理手段,例如时域统计特征提取[20,72]、小波变换及小波包变换[71,73]、希尔伯特黄变换[74]、快速傅里叶变换[70]和短时傅里叶变换[13]等。

随着CNN在RUL预测领域中的深入应用,一些研究将CNN与其他方法结合起来处理RUL预测问题,如LSTM[75-80]、BLSTM[6,20,81]、GRU[82]、BGRU[39,83]、XGBoost[84]和支持向量回归[74]等。Kong等[75]和Yu等[76]都在CNN与LSTM结合的基础上进行了研究,并在发动机RUL预测中取得了较好的效果;此外,Zhao等[20]结合CNN和BLSTM对数控机床刀具加工过程的传感器数据进行处理;Chen等[83]结合CNN、BGRU和注意力机制对轴承振动数据进行处理以构建健康因子,并通过线性回归方法预测RUL。上述方法中两者的结合属于串行结构,都是先利用CNN对传感器数据进行空间局部特征提取,然后利用循环类神经网络进一步提取时序特征。Liu等[6]则是先利用BLSTM提取传时序特征,然后利用CNN进一步挖掘空间特征,最后通过多层FCN进行RUL预测。此外,也有研究者对并行结构进行了研究与分析[77-79]。Al-Dulaimi等[78]提出一种并行网络的框架,在该框架中CNN和LSTM分别由两个并行的路径提取空间特征和时序特征,能更充分地发挥各自的数据处理能力。

由上述研究可知,CNN与其他方法的有机结合可以取长补短实现优势互补,进一步提高RUL预测效果。目前,CNN与循环类神经网络的结合研究比较多,与其他方法的结合则有待进一步研究。笔者认为,既要重视不同方法之间的互补效应,也不能为提高预测效果盲目叠加多种方法组成复杂模型。因此,结合何种方法、如何结合以实现优势互补将是该领域未来的研究重点。

1.4 自编码器及其应用

上述方法均属于监督学习方法,而自编码器(AutoEncoders, AE)是一种典型无监督神经网络模型,其核心作用在于提取输入数据的深层表达[1]。AE主要由编码器与解码器两部分组成,如图7所示为一个典型的AE结构图,编码器的主要作用是通过编码函数f(x)对输入数据进行特征提取得到深层特征表达(H)。而解码器的作用与编码器相反,主要通过解码函数g(H)对深层特征表达进行数据重构。上述编解码函数可通过神经网络实现。在应用中,AE致力于使输出数据对输入数据实现最大程度的还原。通常可用均方误差来表示AE的损失函数,其数学表达式如下:

(8)

式中:x表示输入数据,x表示输出数据,n表示数据量。在该损失函数中,训练数据的标签为其本身,不需要额外标签,这也表明AE是一种典型的无监督学习方法。

在实际应用中,AE主要有特征提取和非线性降维两方面的重要功能。基于上述两个功能,AE在RUL预测中得到了较广泛应用。Yan等[42]利用集成的去噪自编码器对数控加工中心的工业数据进行处理,实现了退化特征的自动提取,并利用线性回归方法拟合特征以实现RUL预测;Ren等[44]基于深度AE模型对振动信号进行自动特征选择和数据压缩,并利用深度FCN对轴承RUL进行预测;Ding等[59]利用AE模型处理从原始信号中提取出的时域和频域特征,实现进一步特征提取和非线性降维,最后通过BGRU实现采煤机关键部件的RUL预测;此外,Yu等[58]提出一种基于BLSTM的AE模型,将传感器数据转换为一维健康因子以提取退化特征,该方法在发动机和数控机床刀具的研究中取得了较好的效果。上述研究中,AE起到的主要作用是对数据进行特征提取和非线性降维,为后期预测提供良好的特征表达。

堆栈自编码器(Stacked Autoencoders, SAE)是AE的一种重要应用形式,由多个AE堆叠而成。如图8所示为一个由l个基本AE所组成的典型SAE模型。在SAE的实现过程中,将多个AE进行串行叠加,利用上一个AE的特征表达(H)作为下一个AE的输入,而上一个AE的输出部分则被丢弃了。SAE通过多个AE进行多次特征提取,可以得到输入数据更抽象和更本质的特征表达,其输出可以视为输入数据经过特征提取后的深层特征表达[1,22]。

在实现过程中,SAE通常采用无监督逐层贪婪预训练方法[34]进行训练,该方法主要包括预训练阶段和微调阶段两个阶段。在预训练阶段,采用的是逐层预训练的方法。如图8所示,通过构建多个AE模型,每个AE模型对应于一个隐藏层。在逐层训练中,将上一个AE模型的特征表达作为下一个AE模型的输入,依次训练每个AE模型并得到最优权重参数;在微调阶段,将AE模型的最优权重参数作为SAE各层神经网络的初始化参数,并利用普通神经网络的训练方式进行微调训练。具体而言,基于BP算法计算训练误差,然后通过梯度下降等方法来最小化训练误差,以达到参数调节的目的[32]。

近年来,SAE由于其强大的深层特征表达能力,受到了RUL预测领域研究者的关注。通常,在工业活动中,传感器所采集的数据规模较大,且存在一定噪声,这可能会导致预测模型的计算复杂度增大,而预测精度降低。因此,在一些研究中,SAE常与其他特征提取方法相结合进行数据处理。Lin等[85]基于快速傅里叶变换提取传感器信号中的频谱特征,然后利用集成SAE对频谱特征进行处理得到轴承的一维健康因子;此外,Xia等[47]和Xu等[86]的研究也将快速傅里叶变换和SAE应用于轴承传感器信号处理中;在其他研究中,希尔伯特黄变换[87]、连续小波变换[88]等也被用于传感器数据的特征处理。

上述特征处理方法在一定程度上有利于提高RUL预测精度,但特征处理过程需要一定先验知识,而且不合适的特征可能导致较差的预测结果。因此,近年来也有部分研究者使用SAE直接对传感器数据进行深度特征提取。

针对航空发动机,Ma等[89]首先使用稀疏SAE模型处理传感器数据以提取深层退化特征,然后利用逻辑回归处理上述特征并进行RUL预测;Sun等[90]利用多层SAE模型对传感器数据进行特征提取,然后将学习到的特征权重迁移到新的SAE模型中,并结合非线性回归方法对刀具的RUL进行预测;此外,多层SAE被用于预测中碳钢的疲劳寿命[91],实现了从输入数据到预测值的端到端处理。通常,利用SAE直接对传感器数据进行处理,可以实现深层特征的自动提取,进而实现从原始数据到预测结果的端到端处理。因此,该方法可以减少对先验知识的依赖,更具实用性。

也有研究将上述两种SAE应用方式进行结合。Shi等[92]用快速傅里叶变换和小波包变换分别提取振动信号中的频域和时频域特征,然后利用稀疏SAE模型分别处理原始振动信号、频域特征及时频域特征,并进行特征融合,最后基于非线性回归函数进行刀具磨损预测。该研究为SAE在本领域的应用提供了一种新的思路,即将SAE直接处理原始数据、SAE处理初步特征提取后的数据这两种方式融合在一个框架下。

上述两种SAE应用方式具有各自的应用特点及应用场景,在RUL预测中应用较为广泛。笔者认为,一方面应该根据具体应用场景选择合适的处理方式;另一方面,可以考虑将基于先验知识的手动特征与基于深度学习的自动特征进行融合,尝试进一步提高预测模型的精度和可解释性。

1.5 深度置信网络及其应用

深度置信网络(DBN)是Hinton等[34]在2006年提出的一种神经网络算法,是最早实现深度结构训练的非卷积模型之一。DBN的提出具有阶段性意义,引导了当前深度学习的复兴[32]。本质上而言,DBN是一个典型的概率生成模型,其通过训练网络参数,建立标签和观测数据之间的联合分布,按最大概率来生成训练数据。DBN的基本组成部分是受限玻尔兹曼机(Restricted Boltzmann Machines, RBM),为了更好地理解DBN,先对RBM进行简单介绍。

RBM是一种常见的概率无向图模型,与AE相似,是常用的预训练模型和无监督学习模型。如图9所示,RBM由两个神经元网络层组成,即可视层和隐藏层。可视层又称为输入层,用于接收输入数据;隐藏层又称为特征检测器,用于提取输入数据的抽象特征表达。在常用的RBM中,状态的取值只有激活和未激活两种,分别用1和0来表示,其取值是根据概率统计法决定的[1,93]。RBM中的“受限”是指同层之间神经元互不连接。若同层之间也存在连接,则此时的模型为玻尔兹曼机(Boltzmann Machines, BM)。BM由于网络训练代价太高,较少使用。

RBM具有强大的无监督学习能力,能起到特征提取和数据降维的作用,因此在RUL预测领域也有所应用。Deutsch等[93]提出一种基于RBM的轴承RUL预测方法,该方法通过RBM进行特征提取,并在RBM后添加线性回归层,经过预训练和微调后进行RUL预测;Liao等[94]提出一种带有正则项的增强RBM模型,从振动信号提取轴承运行过程中的退化特征,并基于相似度的方法进行RUL预测;Ellefsen等[12]提出一种基于RBM和LSTM的RUL预测模型,首先无监督的RBM自动地从原始数据中提取退化特征并实现数据降维,然后再用有监督的LSTM对退化特征进行处理以预测发动机的RUL。

总结文献可知,RBM在RUL预测中的主要作用在于实现无监督的故障特征提取及数据降维,为解决RUL预测问题提供了一定帮助。但RBM作为一种比较早的深度学习方法,其功能逐渐被其他方法替代[12],目前直接应用RBM的研究比较少。

DBN是RBM的一个重要发展方向,近年来得到了广泛认可和应用。如图10所示,一个典型的DBN框架由若干个RBM和单层BP神经网络组成。与SAE的训练过程相似,DBN也是借助无监督逐层贪婪预训练方法进行训练的[34]。该方法主要包括两个过程:①逐层无监督地训练每一层的RBM。当上一层RBM训练好之后,其隐藏层特征作为下一层RBM的输入。当所有RBM训练完之后,就实现了对权重参数的初始化;②在DBN的最后一层设置BP神经网络。该BP神经网络的主要作用是处理上述RBM的输出特征,然后基于监督学习方法训练模型。虽然第一步中每个RBM都训练得到了最优权重,但该最优不是整个DBN网络的最优权重,依然需要基于BP算法进行微调。经过上述RBM预训练权重和反向微调之后,就得到了DBN预测模型。

近年来,DBN在RUL预测领域得到了较为广泛的应用。由于DBN具有很强的自动特征提取能力,所以常被用于退化特征提取与健康因子构建。Deutsch等[95]结合DBN和粒子滤波方法,对陶瓷轴承的RUL进行预测,其中DBN主要的作用在于挖掘退化特征信息;Peng等[96]利用多层DBN提取发动机传感器数据中的深层退化特征,并构建退化过程的健康因子,最后利用改进粒子滤波方法预测RUL;此外,Pan等[97]提出了一种基于DBN和自组织特征映射方法的性能退化评估方法,构建出风力发电机齿轮箱运行过程的健康因子,然后通过改进粒子滤波方法进行RUL预测。针对轴承RUL预测问题,Hu等[98]提出了一个基于两阶段的预测方法,第一阶段基于DBN提取高维退化特征,并基于局部线性嵌入算法进行特征筛选确定健康因子;第二阶段利用扩散过程对RUL进行预测。

上述方法将DBN作为特征提取器,对各种设备运行过程中的信号进行深层特征提取,并构建合适的健康因子以表征退化状态。基于DBN的特征提取可以有效地克服手动特征提取带来的不确定性,且不依赖于领域先验知识,对提高RUL预测精度具有促进作用。在完成特征提取之后,可借助相关统计方法对DBN所提取的特征进行处理,实现RUL预测,如粒子滤波及其改进算法、扩散过程和支持向量机等[95-99]。

另外一些研究将DBN同时作为特征提取器和预测器,不需要借助额外的统计方法进行预测[21,100-103]。Zhang等[21]提出一种基于多目标优化的DBN集成方法,该方法通过集成多目标优化下训练的DBN模型,提取传感器数据中的深层特征进行设备RUL预测;针对齿轮和轴承,Deutsch等[100]提出一种基于DBN的RUL预测方法,利用DBN提取深层特征,并在DBN的输出层使用FCN以进行RUL预测;此外,Zhao等[101]提出一种基于堆栈RBM和回归输出层的DBN模型用于特征提取及健康预测,该方法在2012年国际PHM挑战赛的轴承数据集上取得了较好的预测效果;针对液压泵,Li等[103]提出一种基于双谱熵特征提取和DBN的RUL预测方法,并引入量子粒子群优化算法对网络初始化参数进行优化。

总结文献[21]和文献[100-103]可知,第二种方法同时将DBN作为特征提取器和预测器。该方法充分利用DBN作为深度神经网络的优势,实现了深层特征的自动提取与端到端的RUL预测。基于上述原因,该方法在RUL预测中受到了研究者的重视。此外,对DBN模型参数的选择和进一步优化也是本领域的重要研究内容。目前,常用的优化算法包括粒子群优化算法、遗传算法和蚁群算法等[102-103],可以预见,随着DBN在RUL预测中的进一步应用,未来该方向的研究将会越来越多。

1.6 小结

本章介绍了5种应用于RUL预测的深度学习方法,并基于近年来本领域的文献调研情况,对所述方法的应用现状进行了分析。上述5种方法的共性在于,在实际退化模型及失效机理未知的情况下,利用其本身强大的数据挖掘能力,从监测数据中提取出与退化相关的特征信息,进而建立监测数据与预测目标之间的非线性关系。下面将对各种深度学习方法的优劣进行简单总结。

(1)FCN是最基础的神经网络,并且较早地被引入了RUL预测领域。但FCN难以有效处理时序数据,且深层的FCN难以进行有效训练,这限制了其在RUL预测领域的发展。但是FCN并没有被抛弃,现有的研究通常将FCN与其他深度神经网络联合进行使用。

(2)循环类神经网络可以挖掘信号之间的时序特征,从本质上而言非常适用于处理RUL预测问题中的时序数据。基于上述原因,循环类神经网络在RUL预测中得到了广泛应用,是处理RUL预测问题最常用的深度学习方法。但循环类神经网络的计算复杂度较高,当数据量非常大且存在噪声时,循环类神经网络的预测能力将受到一定限制。

(3)CNN可以实现局部特征的自动提取,具有权值共享和稀疏连接的特点,适合处理海量数据且具有降噪的功能,是实现大数据处理的重要方法之一。随着传感技术的发展,RUL预测领域工业数据将呈现海量化和高维化的特点。可以预见,CNN在RUL预测中将继续发挥重要作用。但CNN对传感器信号中时序特征的提取能力不如循环类神经网络,可能会丢失一些重要的时序特征。在一些新的研究中,CNN常与循环类神经网络联合使用。

(4)AE及SAE是典型的无监督学习方法,具有高效的特征学习能力,其本质作用在于提取输入数据的深层表达。SAE可以通过无监督逐层贪婪预训练方法进行深度神经网络的参数初始化及预训练,用来规避有监督学习中难以有效训练深层网络的缺点。然而,近年来日渐成熟的正则化方法在一定程度上已经克服了该缺点,如随机失活(dropout)和批标准化。此外,该训练方法使用了两个单独的训练阶段,训练过程相对复杂,要训练出一个有效的RUL预测模型比较困难。

(5)DBN属于概率生成模型,擅长分析数据中的概率分布,其算法本质是从数据中学习到相关的特征。与SAE相同,DBN也是通过无监督逐层贪婪预训练方法进行训练的,其训练过程相对复杂。此外,DBN本身没有学习数据中的时序特征的能力,在处理RUL预测中的时序数据时受到一定限制。相比于CNN和LSTM,近年来DBN在RUL预测中的应用较少,但仍是一个重要的研究方向。

2 应用案例及分析

2.1 数据集介绍

本章使用美国国家航空航天局(NASA)的C-MAPSS数据集[104]来比较和总结各种深度学习剩余使用寿命预测方法的有效性。C-MAPSS涡扇发动机运行数据集在RUL预测领域被广泛使用,该数据集是通过使用NASA开发的商用模块化航空推进系统(C-MAPSS)进行仿真得到的模拟运行数据。表2记录了该数据集的一些基本情况。根据运行状态和故障模式的不同,可以进一步分为4个子集,每个子集包含一个训练集和一个测试集,且每个子集都包含了监测发动机运行的21维传感器数据以及3维的操作设置数据。数据中的21维传感器数据主要包括风扇进气口总温度、低压压缩机出气口总温度和高压压缩机出气口总温度等。此外,3维操作设置数据指飞行海拔、马赫数和海平面温度。上述3种操作设置的组合构成了6种运行模式。该数据集的更多详细内容可在文献[104]中进行查询。

表2 C-MAPSS数据集基本情况[6]

在仿真程序中,训练集包括在不同运行条件和故障模式下收集的多个涡扇发动机运行至故障的监测数据记录。随着时间的推移,发动机单元不断退化,直到程序认为发动机不能再使用,即发生系统故障。与训练集不相同的是,测试集的发动机从生命周期的某个点开始记录数据,在退化过程中的某个时间点停止运行,相当于截取了发动机全生命周期的一段数据。在模型训练中,可将发动机运行数据样本作为训练样本,每个样本对应的RUL作为训练标签。训练好模型后,对测试集中每个涡扇发动机的RUL进行预测,并将预测的RUL与数据集提供的实际RUL值进行比较,以验证预测模型的有效性[6,11,40]。

2.2 评价指标

为评价模型的有效性,本文采用两个常用的评价指标进行评估,分别是均方根误差RMSE和评分函数Score。

2.2.1 均方根误差

RUL预测属于典型的回归问题,而RMSE是回归问题中最常用的评价指标之一,常被用于反映真实值和预测值之间的偏差,

(9)

Δ=RULpredicted-RULactual。

(10)

其中:N表示测试样本的总数,RULactual表示测试数据样本的真实标签值,RULpredicted表示模型的预测值。

2.2.2 评分函数

在RUL预测领域中,许多研究都采用评分函数作为评价标准[11,19,40],而且该评价指标也被2008年国际PHM数据挑战大赛采用。如图11所示,与RMSE相比,评分函数的最大特点是对预测值过大的惩罚较为严重。这是满足实际工程要求的,因为

在航空航天等领域,预测的故障时间晚于实际故障时间可能会导致错误的维修决策,进而造成非常严重的损失。评分函数的数学表达式如下:

(11)

(12)

2.3 结果分析

为进一步了解深度学习技术在RUL预测领域的应用情况,表3总结了近年来在C-MAPSS数据集上进行验证的一些深度学习方法,并给出了各种方法在第一个子集(FD001)上的实验结果。同时,表3也对这些具有代表性的深度学习方法进行了简要的介绍。虽然各种方法在数据处理过程中不尽一致,但C-MAPSS数据集指定了训练集和测试集,因此基于不同深度学习的RUL预测方法可在该数据集上进行比较。下面将介绍不同方法的使用情况,并进行简单的应用分析。

表3 基于深度学习的RUL预测代表性方法及其在C-MAPSS(FD001)数据集上的表现

表3共提供了17种在C-MAPSS数据集上应用的深度学习方法。由表3可知:第1章提到的5种深度学习方法在该数据集上均有所应用,其中应用最为广泛的是循环类神经网络与CNN。表3中涉及循环类神经网络的方法有11种,涉及CNN的方法有8种,其他几种方法在该数据集上的应用则相对较少。上述情况与第1章对各种方法在RUL预测领域的应用总结基本一致。通常在工业领域采集到的传感器信号都是时序数据,而循环类神经网络在时序数据建模中展现了独特的优势和潜力,是处理时序数据的最合适的方法,因此在该数据集上应用较多;CNN具有强大的特征提取能力,适合处理数据规模较大且具有噪声的传感器数据,因此在该数据集上也得到了广泛应用;此外,DBN等方法虽然可以提取数据中潜在的深层特征,但其模型训练过程较为复杂,因此应用相对较少。

从表3也可看出,结合不同方法的优势,学习到更多与退化相关的深层特征表达,进而提高预测精度是本领域的一个研究热点,如CNN与LSTM、RBM与LSTM、BGRU与注意力机制等。值得注意的是,表3中结果显示各种模型结合对RUL预测精度的提升效果是有限的。笔者认为,多种方法简单结合组成复杂模型并不是提高预测性能的关键,而如何灵活地利用不同方法进行优势互补,进而有效提高模型的RUL预测性能才是值得研究的问题。在未来的研究中,不仅可以考虑不同深度学习方法之间的互补性,还可以考虑传统方法对深度学习方法的促进作用。

3 挑战性问题及展望

随着深度学习技术的蓬勃发展,基于深度学习的RUL预测技术也成为了学术界近年来的研究热点。相比于传统方法,深度学习方法凭借本身卓越的数据处理能力可以实现更精确、更鲁棒的RUL预测效果。可以预期的是,对于RUL预测问题而言,深度学习方法将继续发挥重要作用,值得本领域的研究者进行深入研究。如图12所示,本文将从数据、模型及应用3个方面存在的一些问题进行总结,并讨论未来的发展方向。

3.1 RUL预测领域有效工业数据及数据集的缺乏

基于深度学习的RUL预测方法属于数据驱动型方法,因此数据才是本领域技术的核心支撑所在。虽然近年来先进传感技术的迅速发展为工业数据的采集提供了基础,从宏观角度来说,RUL预测领域的工业大数据是非常丰富的,但从应用的角度考虑,RUL预测技术的研究一直饱受有效工业数据不足的困扰[22,41,105]。总结文献可知,公开的RUL预测数据集较少且数据规模不大,这也在一定程度上限制了深度学习方法在RUL预测领域的进一步发展。

获取有效的工业数据及进一步设计大型RUL预测数据集也是本领域的重要研究内容。笔者认为,在获取有效工业数据的过程中应考虑以下实际问题:如何在不干扰正常工业活动的前提下采集数据?如何得到工业数据的准确标签?如何获得低噪声的工业数据?针对RUL预测数据集较少且数据规模不大的问题,笔者认为本领域的研究者可以与工业界合作尝试设计大型RUL预测数据集,从而有效促进深度学习在RUL预测领域的深入发展。近年来,有部分研究者已经对此进行了尝试。例如西安交大—昇阳科技联合实验室发布的滚动轴承加速寿命实验数据集,为本领域的发展提供了有效的数据支撑[105-106]。

3.2 退化机理与深度学习模型的可解释性

参考近年来RUL预测领域的文献可知,基于深度学习的方法往往更关注于预测精度,其中间过程的计算机理却难以解释。而且深度学习方法难以通过显式的关系函数进行表示,常被视为黑箱模型。这意味着深度学习方法难以对设备退化及失效机理映射做出相应的解释。而在实际应用中,研究者更倾向于得到设备监测信号、设备运行参数与具体退化之间的关联映射。随着深度学习在RUL预测领域的深入应用,退化机理与模型的可解释性问题已成为本领域极具挑战性的难题[107-109]。

在基于深度学习的RUL预测领域中,要实现退化机理与预测精度兼得,就必须提高神经网络模型的可解释性。笔者认为,深度学习方法是基于数学的统计方法,可以尝试结合RUL预测问题的特点从多个方面对模型的可解释性进行分析。首先是数据的可视化,必须先了解数据才能对问题进行解释。例如,对设备运行过程的监测数据进行预处理和可视化处理,了解监测数据与退化之间的关系,可提高对设备退化及失效的有效理解;其次是建立本身具有可解释性的模型,如在部分深度学习模型中可以提取到与预测结果具有单调性关系的特征,这将使模型更具可解释性。此外,建模的过程中,需要结合RUL预测问题本身对模型进行科学的解释,如对神经网络的各个隐藏层特征进行分析等[107,110-111]。最后则是将RUL领域的先验知识融入到深度学习方法中,在提高可解释性的基础上,实现对退化机理的进一步理解。

3.3 基于深度学习的RUL预测模型超参数的选择

深度学习模型的超参数选择对模型性能有着极其重要的影响,只有合适的超参数才能带来准确且鲁棒的RUL预测结果。目前,常用的超参数选择方法有手动调整超参数、网格搜索和随机搜索等[112],然而这些方法要么依赖人工经验,要么依赖计算机暴力枚举,不符合当下的实际需求。很多时候,这些方法无法获得与RUL预测问题相适应的超参数,容易导致欠拟合或过拟合等问题。

因此,研究出一套完备且适应RUL预测问题的理论来指导超参数的选择是一个有意义的研究课题,对于深度学习在RUL预测领域的推广应用有着十分重要的意义。一些研究者已经对该课题做了相关研究尝试,比如将超参数搜索问题转换为优化问题,利用遗传算法、粒子群优化算法等进行最优求解。但目前这方面的研究尚不完备,需要进行更多的深入探讨[101-102,113-114]。此外,笔者认为,在超参数选择的过程中可以考虑RUL预测的领域背景以及对象特点。例如,在建立轴承的深度学习RUL预测模型时,可以考虑轴承监测数据的特点,并参考本领域内其他针对轴承的深度学习RUL预测模型的结构和超参数设置,然后进行适应性选择与调节,进而提高超参数选择的合理性。

3.4 基于深度学习的RUL预测与先验知识结合

如引言中所述,目前基于深度学习的RUL预测方法属于数据驱动类方法,其核心在于构建预测模型对工业数据进行分析,并挖掘出与退化相关的特征信息进行RUL预测。因此,基于深度学习的RUL预测方法在一定程度上摆脱了对系统先验知识的依赖,更具有实用性[11,39]。但这种方法忽略了系统本身的一些先验知识和规则,常给人留下黑箱模型的印象。深度学习RUL预测模型的可解释性较低已经成为了备受关注的问题,该问题导致其泛化能力受到质疑。

基于模型的RUL预测方法依赖于系统的先验知识和规则,其实现过程较为复杂,但其可解释性和准确性较高,可以实现精确的RUL预测[6,19,115]。数据驱动和基于模型的方法各有优劣,笔者认为兼取两家之长进行优势互补,可进一步促进本领域研究的发展。一些研究也初步表明,将本领域的先验知识结合到深度学习模型中,有利于进一步提高模型的性能[14-15]。因此,未来在建立基于深度学习RUL预测模型的过程中,可以将系统的先验知识和规则考虑进去,进而提高模型的RUL预测精度和可解释性。基于上述因素,对先验知识的选择与应用或将成为本领域未来的研究热点。

3.5 RUL预测领域的不确定性问题

在RUL预测中,实际工程应用不仅对模型的预测精度有较高的要求,还期望模型可以提供预测结果的不确定性,如置信区间。在航空航天等对安全性要求非常高的领域,若可靠性较低的预测结果被维护系统采纳,将导致严重的工业事故,这在PHM中是不能接受的。然而,大部分现有的深度学习方法只能实现点预测,无法提供预测结果的不确定性,这极大地限制了深度学习在RUL预测领域的实际应用[63,116]。因此,如何利用深度学习解决RUL预测中的不确定性问题是一个具有挑战性的难题。

在调查的文献中,部分研究者尝试建立基于贝叶斯神经网络的RUL预测模型来解决不确定性问题[116-117]。贝叶斯神经网络将普通神经网络中的参数由确定的值转换为服从特定分布的随机变量,以估计模型的不确定性。通过贝叶斯神经网络可得到预测结果的分布,进而求得置信区间。虽然贝叶斯神经网络可用于解决RUL预测的不确定性问题,但训练代价过高等缺点限制了贝叶斯神经网络的实际应用。笔者认为,在未来的研究中,一方面可以进一步研究贝叶斯神经网络的应用,尝试解决贝叶斯神经网络存在的一些不足;另一方面,可以尝试将其他领域的基于深度学习的不确定性研究方法引入到本领域,如计算机视觉领域提出的蒙特卡罗dropout和损失函数改进法[118-119]。

3.6 变工况及多种失效模式下的RUL预测

设备的工况主要指的是其在运行过程中所处的环境条件和操作条件[120]。环境条件主要包括外在的温度、湿度和气压等;而操作条件则主要包括装备或零件本身的运行状态设置,如滚动轴承运行过程的转速及载荷,数控机床加工过程中的切削速度、进给量和主轴转速等。在实际工程应用中,复杂装备及其关键零件所处的环境条件可能发生实时变化,且其本身的操作条件也可能发生变化,即处于变工况运行状态。通常,工况条件的变化会对装备及零件的退化产生显著的影响。受到环境条件、操作条件等不确定性因素的影响,运行过程中可能会出现多种失效模式,其失效机理和失效时间也会呈现出一定随机性[121]。现有的研究多侧重于单一工况及单一失效模式下的RUL预测,在一定程度上忽略了对环境条件和操作条件的考虑,因此在实际工程应用中缺乏泛化性,进而影响了预测的有效性。为了更好地服务于工业生产,变工况及多种失效模式下的RUL预测值得深入研究[8]。

首先,深度学习是解决上述问题的一个重要途径。在提供足够有效监测数据的基础上,深度学习可以学习到内在失效机理并进行有效预测。简言之,当训练好的深度学习模型预测能力和泛化性足够强,可以在一定程度上降低多种失效模式及变工况带来的不确定性[122]。然而,在工业生产中难以获得大量有效监测数据,这限制了该方法的实用性;其次,可以考虑引进工况数据作为模型训练的辅助数据,所述工况数据既包括设备的操作条件参数,也包括外在环境条件参数。针对工况数据和传感器监测数据的差异性,运用不同神经网络进行处理,而后再将从两类数据中提取到的特征进行融合。该方法有助于提高模型对不同工况条件及失效模式的识别能力,进一步提高预测精度[57,63];最后,考虑将变工况及失效模式的先验知识与深度学习预测模型结合,在先验的基础上提高模型对变工况及多种失效模式的应对能力。

4 结束语

本文综述了近年来基于深度学习的剩余使用寿命预测领域的最新研究,并在总结与分析相关研究的基础上,对该领域的研究现状以及存在的挑战性问题进行了阐述。在此基础上,笔者为如何应对所面临的挑战和促进未来该领域的发展提供了研究思路与建议。

猜你喜欢

特征提取神经网络领域
神经网络抑制无线通信干扰探究
领域·对峙
基于Daubechies(dbN)的飞行器音频特征提取
Bagging RCSP脑电特征提取算法
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用
新常态下推动多层次多领域依法治理初探
基于支持向量机回归和RBF神经网络的PID整定
基于MED和循环域解调的多故障特征提取
肯定与质疑:“慕课”在基础教育领域的应用