采用残差网络与卷积注意力机制的设备剩余使用寿命预测方法
2022-04-02莫仁鹏李天梅司小胜朱旭
莫仁鹏,李天梅,司小胜,朱旭
(火箭军工程大学导弹工程学院,710025,西安)
设备或零部件的性能一旦退化至失效状态,轻者会阻碍正常的运行过程,更为严重的是将有可能造成难以承受的经济损失或重大安全事故[1-2]。根据监测数据预测设备的剩余使用寿命(RUL),并由此实施及时精准的预测性维护、提前规划维护资源配置,对于保障设备的运行安全性、可靠性与经济性具有重要意义[3]。设备的RUL预测技术已成为过去十多年的研究热点,其应用也已拓展到高速列车[4]、航空航天装备[5]、风电设备[6]等领域。
传统上对设备进行RUL预测的方法主要根据其失效机理来建立物理退化模型[7-8],但是这种方法需要对设备的物理结构和机理特性有着较深入的了解,且在实际应用中难度较大[9]。随着计算机科学和传感器技术的发展,数据驱动的RUL预测方法得到了广大研究者的关注,借助于传感器对设备的运行过程进行监测,可以得到大量反映设备健康状态的数据,而数据驱动的方法利用这些数据之间的隐藏退化信息来建立模型,进而预测设备的RUL。
近年来,以深度学习算法为基础的数据驱动方法以其强大的学习和拟合能力在语音识别、图像处理、故障诊断等领域取得了很好的效果[10],这也为设备的RUL预测提供了一种新的思路。各种深度学习算法中,卷积神经网络(CNN)的特征提取能力较强且具有一定的降噪功能[11],因此CNN在RUL预测领域得到广泛应用。例如,张钢等将轴承原始振动信号的时频图输入到多尺度AlexNet网络中构建健康因子,所得的健康因子具有较好的单调性与趋势性,但是并未进一步验证该方法在RUL预测时的效果[12]。Zhang等采用时间窗技术和改进的差分方法得到若干个退化特征,并将这些退化特征和原始数据一并输入到CNN中进行RUL预测,虽然具有良好的预测精度,但是其预处理步骤较为繁琐[13]。Zhu等将小波变换得到的轴承时频表示输入到CNN中进行自动特征学习,并在网络深层采取多尺度结构以同步学习全局信息和局部信息,进而提高RUL预测精度,然而该方法得到的预测曲线中蕴含噪声较大、抖动剧烈[14]。
此外,以上基于CNN的RUL预测方法还存在以下不足:首先,CNN网络利用多个卷积层从设备监测信号中提取得到的深层特征含有通道和空间两个维度,但是不同通道特征或不同空间特征之间所含的退化信息量是不一样的,因此对RUL预测任务的贡献度也是不一样的,而以往的方法往往忽视了这一点,这将对设备的RUL预测带来不利影响;其次,传统的CNN网络需要有足够的深度才能有较好的学习能力,但是当网络堆叠到一定深度时会存在梯度弥散以及网络退化现象,不利于预测任务的进行。
为了克服以上缺陷,本文提出一种结合残差网络与卷积注意力的端到端的设备RUL预测方法,所提方法直接将设备的原始监测信号输入到网络中进行RUL预测,并且利用卷积注意力对网络中的深层特征进行自适应的加权处理以强化重要的通道特征和空间特征,以及抑制相对不重要的特征。此外,通过嵌入残差模块来增加CNN网络的深度,可以在一定程度上缓解梯度弥散,避免网络退化现象的发生。最后,通过PHM2012轴承数据集验证本文方法的有效性与优越性,并对轴承的RUL预测曲线进行了平滑降噪处理。
1 残差网络
为了解决CNN网络过深导致的梯度弥散以及网络退化问题,He等将残差神经网络(ResNet)引入到CNN中[15],ResNet在多个非线性的卷积层之间增加了直连边,这种特殊结构具有缓解网络退化、避免梯度消失的功效[16]。
此外,由于非线性激活函数的存在,每层网络的特征学习都是不可逆的,因此退化信息在网络中传播时或多或少会存在一些丢失[17]。当网络加深时,过多的信息丢失甚至会影响到预测模型的准确性。残差模块的跨层跳跃连接直接将输入信息绕道传递给输出,有效缓解了退化信息在网络中的传播损耗,从而提高了网络对退化信息的利用效率。图1给出了本文所用残差模块的结构。
图1 残差模块的结构Fig.1 Structure of Residual module
在图1残差模块中,卷积层R1、R2、R3的核数分别为K/4、K/4、K,核尺寸分别为1×1、S×1、1×1,这种先缩后扩的结构和嵌入的1×1卷积核,将有助于大幅减少网络参数,提高模型的预测速度。
2 卷积注意力
深度学习中的注意力机制借鉴了人类视觉注意力的思想,将注意力集中在对目标任务更重要的信息上,同时抑制无用信息的干扰,以此来提高神经网络的效率。目前已有多个神经网络模型与注意力机制结合在一起使用,并且在各自的任务中都取得了较好的效果[18-20]。
鉴于此,本文亦在CNN中引入与设备RUL预测任务相适应的卷积注意力模块(CBAM)来进行特征重标定,以增强对预测任务贡献度更大的网络特征。CBAM主要由通道注意力和空间注意力组成[21],分别在深层特征的通道维度和空间维度上强化重要信息并抑制无效信息。
2.1 通道注意力
卷积层的每个输出通道对预测任务的重要程度是不一致的,因此有必要采用通道注意力机制对不同通道的重要性程度进行评估,并为更重要的通道特征赋予更大的权重,以加强这些通道的影响。通道注意力的原理如图2所示。
图2 通道注意力的原理Fig.2 Principle of Channel attention
设输入特征的维度为H×C,其中H为空间维度,C为通道维度。通道注意力首先同时使用全局最大池化(GAP)和全局平均池化(GMP)来聚合输入特征的空间信息,将每一个通道内的空间信息压缩为一个表示符,得到两个1×C的特征向量,再将这两个特征向量分别输入到共享网络中,然后使共享网络输出的两个1×C的一维向量相加合并,最后利用sigmoid函数进行归一化得到各通道的注意力权重。其中共享网络为一个多层感知器(MLP),共含有两个隐藏层,为了减少参数量,第1个隐藏层的神经元数设置为C/r,r为下降率,第2个隐藏层的神经元数再恢复为C。通道注意力的具体计算过程如下
Mc(F)=
δ[MLP(GAP(F))+MLP(GMP(F))]=
(1)
2.2 空间注意力
空间注意力关注输入特征空间维度上的重要信息,其原理如图3所示。
图3 空间注意力的原理Fig.3 Principle of Spatial attention
空间注意力在输入特征的通道轴上同时使用全局最大池化和全局平均池化,分别得到两个维度为H×1的特征向量,再将这两个特征向量沿通道方向拼接为H×2的特征向量,然后通过单核卷积层将其映射为H×1的特征向量,最后利用sigmoid函数进行归一化得到空间注意力权重,计算公式如下
Mh(F)=δ(conv((GAP(F);GMP(F))))=
(2)
2.3 混合注意力
通道注意力与空间注意力分别在输入特征的通道维度和空间维度上关注更有效的信息,两个注意力模块之间有着互补的作用,因此经常结合使用。通道注意力与空间注意力主要有3种组合方式[22],第1是先使用通道注意力对输入特征F进行加权得到F1,然后再针对加权后的特征F1使用空间注意力进行再次加权得到最终的输出F2,本文将这种组合方式简称为CBAM0,其计算过程如下
(3)
式中:⊙表示逐元素相乘。
第2组合方式为CBAM1,将空间注意力模块放在通道注意力模块之前使用,计算过程如下
(4)
第3组合方式为CBAM2,对输入特征F同时使用通道注意力和空间注意力,分别得到通道注意力权重Mc和空间注意力权重Mh,再将这两种注意力权重一并赋予原输入特征,表达式如下
F2=Mc(F)⊙Mh(F)⊙F
(5)
本文使用一维卷积来提取一维时序监测数据的深层特征,以识别设备的退化程度并进行RUL预测。与二维卷积不同的是,一维卷积中的“空间”维度只含有1个维度,对一维时序数据而言该维度亦可看作为“时间”维度。以设备的单个采样点数据序列作为网络的输入,在经过多个卷积层的映射后,所得到的深层特征仍保留了一定的时序性,即单个采样点内的短期时序性。
使用空间(时间)注意力模块,可以为更重要的时间点分配更大的权重,有利于模型预测性能的提高。如果采用CBAM0组合方式,先使用通道注意力进行加权,无疑会破坏输入特征的时序性,影响后面空间注意力的使用效果。此外,网络本身也具有一定的随机性,每次计算得到注意力权重也会有些许偏差,而CBAM2同时使用两种注意力权重与原输入相乘将放大这种偏差,具体表现为网络预测效果的稳定性欠佳。因此,本文最终采用了CBAM1的组合方式,先使用空间注意力模块来强调更重要的空间(时间)特征,再以通道注意力作为补充,强化重要通道并抑制相对不重要的通道,CBAM1的结构如图4所示。
图4 CBAM1模块的结构Fig.4 Structure of CBAM1 module
3 采用残差网络与卷积注意力的设备剩余使用寿命预测方法
3.1 整体网络模型
本文方法结合了残差网络与卷积注意力的优势,在缓解退化信息在网络传播过程中的丢失与损耗的同时,将网络资源集中在对设备RUL预测任务更重要的特征上。图5给出了所提方法的整体网络结构,主要包含降维网络、残差网络、注意力网络以及预测网络4个子网络。
图5 采用残差网络与卷积注意力的剩余使用寿命预测模型Fig.5 Residual life prediction model using residual network and convolutional attention
使用降维网络中的两个卷积层对设备的采样点数据进行初步的特征提取,并且通过两个最大池化层来压缩特征,以减少后续网络的计算量,从而提高模型的预测速度。其中卷积层的计算公式如下
社会信用体系涉及社会生活的各个方面,是所有个人、企业或政府的信用状况的总和,社会信用体系框架如图1所示(社会信用体系包含但不限于所列部分)。产品质量信用和企业质量信用既有区别,又有密切联系,两者均为社会信用体系建设不可或缺的部分[5-6]。
(6)
利用残差网络进行深层特征提取,该网络由3个残差模块叠加组成,残差模块中的跳跃连接可以有效缓解退化信息在网络中传播损耗。
将残差网络学习到的深层特征输入到注意力网络中的CBAM1模块,该模块先后使用空间注意力和通道注意力以强化深层特征中相对重要的空间信息和通道信息。
将经过注意力网络加权后的深层特征拉平,并输入到预测网络中进行RUL预测。预测网络由3个全连接层组成,计算公式如下
(7)
限定预测网络输出层的神经元数为1,因此当加权后的深层特征经过3个全连接层的映射后,最终会得到1个单值数据,即设备的RUL预测值。
3.2 参数优化
(8)
式中:f(·)为预测模型整体网络所代表的映射;θ为网络中可训练的参数;N为样本总数。
3.3 RUL预测流程
所提方法对设备进行RUL预测的流程如图6所示,首先将设备的监测数据分为训练集和测试集,再以训练集作为输入对模型进行多次训练,若干次迭代后得到训练好的网络模型,然后就利用训练好的网络模型对测试集设备进行RUL预测,而测试集的RUL预测值曲线与真实值曲线之间的拟合程度则反映了模型的预测效果。
图6 本文方法对设备进行RUL预测的流程Fig.6 Process of this method for RUL prediction of equipment
4 实验仿真与结果分析
4.1 实验数据
通过PHM 2012轴承数据集[23]来验证所提方法的有效性,该数据集包含3个工况下17个轴承的全寿命振动加速度数据。每个轴承内含有由正常阶段运行至失效过程中的若干采样点数据,其采样间隔为10 s,并且每个采样点内采集了2 560个振动加速度。选用轴承1-1、1-2、1-4、1-5、1-6作为训练集,轴承1-3、1-7、2-3、3-1作为测试集。
设训练集或测试集的样本为{(xi,yi)},样本序号i对应轴承的第i个采样点,xi为该采样点内的2 560个振动加速度。第i个采样点所对应的RUL为(N-i)×10,为了降低网络的训练难度,将采样点RUL归一化后再作为样本的标签,表达式如下
(9)
4.2 实验设置
网络参数包括可训练的参数,例如卷积核的权重和偏置,以及不可训练的超参数,例如卷积核的数量和尺寸。超参数需要提前设置,并且需要综合考虑其对网络预测效果及训练时间的影响,经过反复实验对比,最终确定的超参数设置为:降维网络中两个卷积层的核数分别为16、32,核尺寸皆为6×1,而两个池化层的长度皆为4;残差网络中3个残差模块的K参数分别为32、64、64,S参数皆为5;注意力网络中的r参数为2,而单核卷积层的核尺寸为5×1;预测网络中3个全连接层的神经元数分别为128、32、1。
需要说明的是,本文的网络模型基于Keras框架搭建实现,训练时选择Adam算法作为优化器,学习率为0.000 1,一共训练30次。
此外,为了量化模型的预测效果,采用测试集轴承的RUL预测值与真实值之间的均方根误差Ermse以及平均绝对误差Emae作为评价指标来评估模型的预测效果,表达式如下
(10)
(11)
式中:P为某测试轴承的样本总数。
4.3 结构分析
在第2.3节3种组合方式的CBAM中,选择了CBAM1作为预测模型中的注意力网络部分。为了验证该选择的合理性,在预测模型中分别加入CBAM0、CBAM1、CBAM2模块进行对比实验,此外,还额外增加了3个参照对象,分别是无注意力、只含通道注意力、只含空间注意力。为了减少实验复杂度,以轴承1-3为载体进行结构分析实验,观察含不同注意力模块的预测模型对该测试轴承的RUL预测效果,实验结果如表1所示。
表1 不同组合方式的CBAM的评价指标Table 1 Evaluation indicators of CBAM in different combinations
由表1可以发现,相较于无注意力模块的网络模型,含注意力模块的网络模型的预测性能都有一定的提高,特别是使用CBAM1时,相应的Ermse和Emae的下降幅度最大,分别为0.008 8和0.009 2。这验证了注意力机制对RUL预测任务的有效性,以及先使用空间注意力再使用通道注意力的策略的成功性。此外,CBAM1为一个轻量模块,带来的额外预测耗时仅为0.59 s,对RUL预测任务的时效性影响较小。
为了进一步观察注意力机制对模型训练的影响,分别对含有和不含有CBAM1的预测模型进行训练,并观察如图7所示两种模型损失函数(loss)在训练过程中的下降趋势。由图7可以看出,含有CBAM1的预测模型的损失函数下降得更快,尤其在训练的第一个迭代内,其损失函数就已经达到了一个较低的程度。这是因为在加入注意力机制后,预测模型可以将注意力集中在对RUL预测任务贡献度更大的特征上,所以能更快地校正更新网络参数,损失函数也就下降得更快。
图7 有无CBAM1的模型的损失函数下降曲线Fig.7 Loss drop curve of model with or without CBAM1
4.4 对比实验
将本文方法与深度神经网络(DNN)方法[24]、卷积神经网络(CNN)方法[25]以及去掉残差结构后的本文方法进行对比,这4种方法在4个测试轴承上RUL预测效果如表2所示。
由表2可知,去掉残差结构之后所提方法的预测性能有所下降,这从反面验证了具有缓解网络退化、减少信息传播损耗等功效的残差结构,对于改善模型预测性能有着积极的作用。结合残差网络与卷积注意力机制的优势,本文方法不仅可以有效克服特征信息在网络传播过程中的损失,并且将注意力集中在对RUL预测任务更重要的特征上,因此本文方法不仅在工况1中的轴承1-3、1-7上表现出了较好的预测效果,在工况2、工况3中的两个轴承上亦具有最佳表现,验证了所提方法的稳定性与鲁棒性。此外,虽然所提方法较其他方法结构更复杂,但是耗费的预测时间仅略微高于CNN方法,满足实时预测的要求,而CNN和DNN方法虽然耗时更短,但是预测效果不佳。
表2 4种方法在测试轴承上的预测效果Table 2 Predictive effects of four methods on test bearings
图8为本文方法、CNN方法以及DNN方法在轴承1-3上的RUL预测曲线,且都经过了加权平均方式的平滑降噪处理[26]。由图8可以看出,本文方法的RUL预测曲线与真实曲线之间的拟合程度最好,更直观地展示了本文方法在对轴承进行RUL预测时的有效性与优越性。此外,由于CNN网络本身具有一定的降噪能力,因此本文方法与CNN方法的预测曲线的抖动较DNN方法小。
(a)本文方法 (b)CNN方法 (c)DNN方法图8 3种方法在轴承1-3上的RUL预测曲线Fig.8 Three methods of RUL prediction curve on bearing 1-3
5 结 论
本文结合残差网络与卷积注意力的优势提出一种新的深度学习方法对设备进行RUL预测,并通过公开的轴承数据集对所提方法进行了验证,主要结论如下:
(1)所提方法为端到端的RUL预测方法,将原始监测数据直接输入到网络中便可得到设备的RUL预测值,无需提前手动计算退化特征。
(2)在深层网络引入卷积注意力先后在空间维度和通道维度上强化更重要的特征,不仅使模型在测试轴承1-3上的均方根误差和平均绝对误差分别下降了0.008 8和0.009 2,有效改善了轴承的RUL预测精度,而且可以显著加快模型的收敛速度。
(3)在不同工况轴承上的测试结果表明,所提方法的均方根误差和平均绝对误差的均值分别为0.107 9和0.083 1,远低于其他对比方法,验证了所提方法的优越性与鲁棒性。其中,去残差模型的均方根误差和平均绝对误差的均值分别为0.143 2和0.113 5,高于所提方法完整结构的两个评价指标,这从反面证明了残差结构对设备RUL预测任务有着积极的作用。此外,所提方法的平均预测耗时为2.90 s,满足实时预测的要求。最后,所提方法在轴承1-3上的RUL预测曲线与真实曲线之间的拟合效果最佳,更直观地展示了所提方法的有效性。