APP下载

基于MsTCN-Transformer模型的轴承剩余使用寿命预测研究

2024-03-02邓飞跃郝如江杨绍普

振动与冲击 2024年4期
关键词:时序卷积轴承

邓飞跃, 陈 哲, 郝如江, 杨绍普

(1. 石家庄铁道大学 机械工程学院,石家庄 050043;2. 石家庄铁道大学 省部共建交通工程结构力学行为与系统安全国家重点实验室,石家庄 050043)

随着机械设备趋于大型化、复杂化和智能化,其关键部件服役过程日趋呈现出多元化的特点。在变负载、强激励和大扰动等恶劣工况影响下,关键部件的服役性能不断恶化。如果能提前预知其使用寿命,便能够及时维护或者更换,有效避免事故发生和经济损失。因此,开展机械设备剩余使用寿命(remaining useful life, RUL)预测研究对于制定维修决策、确保机械系统健康运行具有重要意义[1]。

目前,RUL预测研究主要有基于失效机理模型与数据驱动两种方法[2]。鉴于机械系统复杂的结构、恶劣的工况,建立准确的失效机理模型难度很大,而数据驱动方法可以通过机器学习方法,研究数据特征与剩余寿命之间的映射规律,具有普适性好、经济性高等优点,因此成为当前RUL预测的热点[3]。基于浅层机器学习的数据驱动方法,如支持向量机(support vector machine,SVM)[4]、人工神经网络(artificial neural network,ANN)[5]、k-最近邻(k-nearest neighbor,KNN)[6]、马尔科夫模型[7]等,需要事先借助复杂的信号处理技术提取特征后才能获取故障演化与健康状态间的映射关系,在分析海量且复杂数据时力有未逮。而基于深度学习的深度神经网络模型,无需复杂的信号预处理技术便能深入挖掘海量数据中蕴含的特征信息。

当前,以卷积神经网络模型(convolution neural network,CNN)、长短时记忆网络(long short-term memory, LSTM)为代表的深度神经网络在设备RUL中应用最为广泛。Ren等[8]采用3个卷积层、3个池化层、1个全连接层构建了CNN用于轴承RUL预测。Wang等[9]结合深度可分离卷积与注意力机制建立的RUL预测模型,其运行效率更高、退化特征选取更准确。Zhu等[10]基于不同的卷积核尺寸构建了多尺度CNN进行设备寿命预测,相比采用单一尺度的CNN,它能够同时挖掘全局和局部特征信息,特征提取更为准确。蒋全胜等[11]构建了一种基于动态加权卷积LSTM网络模型用于轴承RUL预测,通过引入小波包系数矩阵动态加权算法,筛选出了更为敏感的轴承故障退化特征。Ma等[12]提出一种基于空间卷积LSTM的RUL预测方法,通过提取原始信号的时频特征来更好地分析滚动轴承全寿命数据的时空特性。Luo等[13]提出了一种CNN与Bi-LSTM联合的寿命预测方法,先通过CNN获取特征信息,后利用Bi-LSTM进行轴承RUL预测,通过联合网络模型将特征提取与RUL预测结合在一起。上述方法考虑的均是相同工况下的轴承RUL预测。然而,在实际工程中,一方面难以在同一工况下采集大量的样本数据,另一方面不同工况下设备故障退化过程各异,样本数据存在明显的差异性。因此,在变工况下进行设备RUL预测更为困难,针对该方面的研究仍鲜有报道。

Transformer是最新提出一种基于自注意力机制的sequence-to-sequence网络模型,它采用了平行计算方式,能够获取长时间序列中任意向量之间的依赖信息,在时间序列分析方面已经超越了CNN,LSTM[14-15]。然而,Transformer仍存在一些不足限制了其在机械设备RUL预测领域内的广泛应用:①Transformer的注意力机制结构,使其丢失了时间序列的位置信息,因此要通过位置编码添加位置信息,如果序列特征维度过大,将导致输入模型的参数量巨大,网络训练会十分困难,且容易出现过拟合等问题;②相比于传统的CNN,Transformer受限于自注意力机制结构,模型细节特征捕捉能力较弱,一定程度上影响了数据特征信息的准确提取。

为了解决上述问题,本文提出了一种基于多尺度时间卷积网络(multi-scale temporal convolutional network, MsTCN)和Transformer(MsTCN-Transformer)的融合网络模型用于变工况条件下滚动轴承RUL预测,该方法基于“时序特征挖掘+预测”的思想,主要创新点如下:

(1)本文通过融合不同尺度的膨胀因果卷积(dilated causal convolution, DCC),提出了一种新的多尺度膨胀因果卷积单元(multi-scale dilated causal convolution unit, MsDCCU)设计方法,能够准确挖掘不同工况下设备退化信号中的全局与局部特征。

(2)以MsDCCU为基本模块构建了MsTCN网络模型,可以自适应地提取变工况条件下轴承故障退化过程中的时序特征信息,有效消除了不同工况下数据分布差异的影响,并且对长序列信号进行了降维处理。

(3)构建Transformer模型对已提取的时序特征进行预测回归分析,通过深入挖掘时序特征与轴承RUL之间的映射规律,有效解决了长序列信号下轴承RUL预测不稳定的问题。

1 多尺度时间卷积网络(MsTCN)

1.1 膨胀卷积

CNN通常由卷积层、池化层、全连接层等构成,其中卷积层通过对上一层特征图进行局部卷积运算,将复杂的非线性特征提取到下一层,是CNN的核心操作。卷积操作中感受野范围定义为输出特征图上一点对应输入特征图上映射区域的大小,是影响卷积结果的重要指标。标准卷积操作中,膨胀因子不变(d=1),进行卷积操作的特征图中各元素之间没有间隔,感受野的范围与卷积核大小相同。膨胀卷积中膨胀因子可以设置调整,因此感受野范围也会随d值增大而增大。图1(a)普通卷积中,d=1,卷积核大小为3×3,感受野范围也是3×3;图1(b)膨胀卷积中,d=2,感受野的范围增大为5×5。特别指出的是,膨胀卷积虽然增大了感受野的范围,但参与卷积运算的特征图中元素数量不变,因此不会带来额外的计算量和参数量。

图1 不同膨胀因子的卷积操作

1.2 时间卷积网络

时间卷积网络(temporal convolutional network, TCN)的卷积运算具备时域因果关系,可用于时间序列预测任务,其膨胀因果卷积(dilated causal convolution, DCC)结构如图2所示。设定输入的时间序列为X={x1,x2,…,xT},对应输出的预测序列为Y={y1,y2,…,yT},其中某一时间节点对应的yt值仅与当前时间节点与之前时间节点的输入数据有关,即

图2 膨胀因果卷积结构

yt=f(x1,x1,…,xt)

(1)

上述操作杜绝了卷积操作对未来信息的泄露,严格执行数据序列在时间方向上的约束。图2中堆叠的3个DCC的膨胀因子分别为d=1, 2, 4,随着d值的增大,通过较少的网络层数便可获取较大的感受野范围,使得输出序列的Y值尽可能多的与输入X值关联,从而能够较为准确地抓取了时间序列中长时间依赖关系。此外,为了消除深度神经网络的梯度消失和爆炸问题,TCN还采取了残差连接方式,设定x为残差块输入,o为残差块输出,TCN中残差函数表达为

o=Activate(x+Γ(x))

(2)

1.3 多尺度时间卷积网络模型

机械故障信号是典型的非线性、非平稳信号,组成成分非常复杂,特征信息分布在不同的频段范围内,因此提取多尺度特征信息可以更好地研究其服役性能退化规律[16]。Jia等[17]研究证实,CNN中卷积层相当于带通滤波器,通过卷积运算可以提取不同频段内信息。卷积操作中感受野范围不同,提取的特征信息尺度也会不同,较大感受野可以获取全局性的特征信息,而较小感受野则反映了局部的细节特征信息。因此,Li等[18-19]通过构建多尺度CNN模型来增强网络的特征信息学习能力。然而,传统的多尺度网络模型均是由多个不同尺寸的卷积核构成,随着卷积核尺寸不断地增大,模型参数数量及卷积运算量会急剧增加,严重限制了其在实际工程中的应用。

从图2 DCC结构可知,虽然堆叠的卷积层感受野范围逐渐增大,但在每一个层DCC中膨胀因子并不变,感受野范围固定,每层DCC只能提取特定尺度的特征信息。此外,TCN基于前馈网络框架,虽然顶层卷积可以在较大的感受野范围内捕捉时序特征信息,但是随着逐层DCC中膨胀因子不断增大,前向传递过程中特征层越来越多的元素不再参与卷积运算,特征信息不可避免的被遗弃,这无疑丢失了诸多的数据特征信息。因此,如果能在每层DCC中同时挖掘不同尺度的全局与局部特征信息,会更为准确地表征设备服役性能退化状态。

为解决上述问题,本文提出了MsDCCU构建方法,其结构如图3所示。MsDCCU以传统DCC结构为基础,采用残差块连接。主连接中,输入数据首先经过ReLU激活层及BN批量归一化层处理,之后分别经过3个不同膨胀因子d=1, 2, 3的DCC层,分别提取不同尺度的时序特征信息,通过Concatenate操作融合成一个新的特征层,然后再次重复上述操作。最后,为了降低模型计算量,使用尺度为1×2,Step=2的最大池化(max polling)层来减小特征图维度。为了能与主连接中输出张量维度匹配,残差连接中加入了一个尺度为1×1,Step=2的普通卷积。本文以MsDCCU为主要组成部分,构建了MsTCN用于提取设备退化序列时序特征,结构如图4所示。输入样本数据首先经过时间步嵌入处理,通过参考文献[9],这里取时间步长等于5,之后是一个参数为64@1×49的普通卷积层和1×3的最大池化层;然后依次连接3个MsDCCU,其中MsDCCU1与MsDCCU2中每个DCC参数为16@1×3,MsDCCU3中每个DCC参数为32@1×3;接着通过Flatten层将所有特征图折叠成一维数组,利用全连接层输出样本维度为8的时序特征;最后使用全连接层求解模型输出与真实输出的误差得到损失函数,利用反向传播与随机梯度下降方法得到最终的MsTCN模型。

图3 多尺度膨胀因果卷积单元结构

图4 多尺度时间卷积网络结构

2 Transformer网络预测模型

以LSTM为代表的循环神经网络模型存在串行运算、捕捉长期依赖关系不佳等问题,制约了其运行效率与预测精度的进一步提升。而Transformer模型基于并行运算方式,符合当前计算机图形处理器(graphic processing unit, GPU)环境,GPU以核为单位进行并行运算,可支持上百个线程并行操作。多头注意力机制可以有效获取长序列间依赖关系,有效克服了预测序列的记忆力退化问题,因此在预测任务中展现出了巨大潜力。Transformer模型主要由编码器与解码器两大部分构成,编码器模型结构如图5所示。已提取的样本时序特征首先要经过位置编码处理,标识出每一个特征向量的位置信息,具体表示为

图5 编码器模型结构

(3)

式中:pos为序列中某个特征向量的位置;dx为添加的特征向量维度,一般取dx=512。位置信息是由不同频率的正、余弦函数交叉组成,通过特征向量与相应位置信息叠加,得到了位置编码后的特征向量序列。需要特别指出的是,输入序列的维度经过位置编码后会急剧增大,例如:初始维度为M×N×1,M为序列中样本数,N为样本中点数,位置编码后序列维度增加为:M×N×dx,假定M=5、N=4,位置编码后维度增加过程如图6所示。设备退化序列通常为长时间样本数据,M和N值往往较大,经过位置编码后输入Transformer模型的数据量迅速增大,模型参数量也相应激增,网络训练会十分困难。为此,本文提出采用MsTCN提取设备长时间退化序列中时序特征向量,有效降低输入Transformer网络的数据维度。

图6 维度增加

编码器第一层为多头注意力机制,利用缩放点积注意力来实现查询矩阵Q到键矩阵K和值矩阵V的映射,从而得到特征矩阵Xf的注意力值

(4)

(5)

式中,WQ、WK、WV、d分别为Q、K、V对应的权重矩阵及维度。首先Q与K点积,再使用Softmax归一化计算权重系数,最后权重系数与V进行点乘得到最终值。多头注意力机制通过拼接多个单一注意力机制,分别学习不同子空间内注意力值,最终经过并行运算得到所有子空间中注意力信息并输入至第二层前馈神经网络。

解码器模型结构如图7所示,首先将设备的剩余使用寿命与全寿命的比值作为样本的标签数据,经过位置编码后输入至遮挡多头注意力机制,通过在多头注意力机制中增加遮挡操作,屏蔽当前时刻以后的未来标签数据信息。之后,通过相加与层归一化处理后作为查询矩阵Q,前面编码器的输出作为键矩阵K和值矩阵V共同输入多头注意力机制,最后经过前馈神经网络处理后输出。此外,编码器和解码器各个子层均采用了残差连接方式,并且叠加多次使用。在Transformer网络输出端,添加一个线性全连接层,通过Softmax函数输出一维序列的预测结果。整个网络训练过程相当于一个有监督的多分类问题,选择均方误差(mean squared error, MSE)作为损失函数,采用Adam优化算法进行模型训练与优化。

图7 解码器模型结构

3 试验分析与讨论

3.1 轴承全寿命数据集

为了验证本文所提方法的有效性,试验针对IEEE PHM2012轴承全寿命公共数据集进行分析。该数据取自PRONOSTIA试验台,如图8所示。试验中,采样频率为25.6 kHz,采样时间是0.1 s,每间隔10 s采样一次,测试过程包括了3种不同工况,共进行了17组全寿命周期试验,具体试验工况见表1。

表1 PHM2012轴承数据集

图8 PHM2012轴承试验台

3.2 寿命预测结果

本文首先进行全一法下轴承RUL预测,考虑3种不同的工况,将其全部综合在一起,选取其中16个轴承全寿命数据作为训练集,剩余一个作为测试集。本次试验分别在每一种工况中选取测试集,依次为轴承1_3、轴承1_7、轴承2_3、轴承2_7、轴承3_3。以轴承1_3为例,一次样本记录时间为0.1 s,数据点为2 560个,全寿命周期内共采集了2 375个样本,设置时间步为5后,共计2 371个样本,据此判断轴承寿命为23 750 s。其余轴承均按照此方式进行数据样本整理及寿命预测。

利用本文构建的MsTCN网络,提取时序特征输入至Transformer网络,经过模型训练后,对测试轴承进行RUL预测,结果如图9所示。图9中实线表示RUL预测结果,虚线表示真实RUL结果。从图9中可以清楚地观察到,这5个轴承的RUL预测曲线与真实RUL结果相近,变化趋势相同,这证实了本文所提方法能够较为有效地预测轴承RUL。

图9 全部工况测试下轴承RUL预测结果

滚动轴承运行工况复杂且多变,往往难以获取特定工况下的样本数据,因此基于不同工况下的样本数据对特定工况下轴承的RUL进行预测,更符合实际工程需求。基于此,本文进行变工况下的轴承RUL预测,选取一种工况下的轴承全寿命数据作为测试集,将另外两种工况下轴承全寿命数据作为训练集,变工况试验中,PHM2012轴承全寿命数据的训练集及测试集情况见表2。利用本文所提方法,针对变工况下的轴承RUL进行预测,预测结果如图10所示。从图10中可知,在变工况条件下,所提方法依然达到了较好RUL预测结果,对比图9全一法下RUL预测的结果,两者的差别非常微小。

表2 变工况下滚动轴承训练集与测试集分布

图10 变工况测试下轴承RUL预测结果

为了能够更加详细地比较所提方法在全一法和变工况下轴承RUL预测结果的准确性,本文选取均方根误差(root mean square error, RMSE)与得分值(scoring function, SF)两个指标来定量分析RUL预测结果,RMSE与SF数值越小,表示RUL预测结果准确性越好,误差率越低。为了保障RUL预测结果指标评价的可靠性,每次测试分别进行5次,结果取均值。本文所提方法在全一法和变工况条件下RUL预测结果的RMSE及SF指标结果见表3。从表3中可知,在全一法和变工况两种测试条件下本文所提方法的RUL预测结果指标相差非常小,这说明所提方法能够有效提取表征轴承故障退化的时序特征信息,消除了变工况下轴承不同退化过程造成的数据分布差异性的影响。

表3 不同测试条件下RUL预测结果比较

3.3 时序特征的可视化分析

为了验证MsTCN模型在变工况条件下提取轴承不同故障退化过程时序特征的泛化性能,本文利用可视化t-SNE(t-distributed stochastic neighbor embedding)算法对MsTCN模型不同阶段所提取的特征信息进行降维可视化分析。在变工况条件下,分别选取轴承1_3和轴承2_7为测试对象。两轴承全寿命波形如图11所示,从图11中可知,两轴承全寿命时间相差较大,相比轴承1_3有着较为缓和且明显的故障失效过程,轴承2_7故障失效过程迅速而短暂,两轴承故障退化过程中所采集数据的差异性明显。

图11 轴承全寿命数据波形

原始信号数据经过时间步处理后,轴承1_3和轴承2_7分别包含2 371组、226组样本,按照故障失效的时间顺序将所有样本分为5组,然后分别对MsTCN输入层、首层卷积输出、MsDCCU1输出、MsDCCU3输出、提取时序特征输出共5个阶段的模型输出特征进行t-SNE可视化分析,结果分别如图12、13所示。图中不同颜色不同形状的点表示按照轴承故障失效时间顺序的样本数据分组。从图12和图13中可知,在网络模型输入(原始信号)时,轴承全寿命过程所采集的信号样本完全聚集并混淆在一起,样本信号数据和轴承服役时间并无对应关系,随着模型层数的增加,不同时间阶段的数据特征开始逐渐按照轴承服役时间进行排序。从模型最后提取时序特征输出可以清楚地看到,虽然轴承 1_3和轴承2_7输出后的可视化形状不同,但是数据特征都已经实现了较为清晰的分类聚集,并且按照各自轴承故障失效时间顺序彼此首尾相接。这说明本文所提出MsTCN模型在变工况条件下,能够有效克服轴承故障退化数据差异性的影响,所提取出的特征信息按照轴承故障失效时间顺序进行了排列,这证实了时序特征的有效性。因此,本文所提MsTCM在同载荷、不同转速下轴承全寿命数据中提取的时序特征具有较好的泛化性。需要指出的是,所提取的信号固有时序特征与轴承实际的故障退化特征并不相同,网络模型训练时由于时间标签的影响,学习得到的特征信息主要反映的是数据特征随时间的变化规律。轴承全寿命前期的正常状态数据变化虽然相近,但通过网络模型学习得到的时序特征仍然能够表征数据样本对应的时间顺序。

图12 轴承1_3时序特征可视化结果

图13 轴承2_7时序特征可视化结果

3.4 对比分析

为了更好地验证本文所提方法在滚动轴承变工况条件下的RUL预测效果,下面选取当前文献中常用多个的RUL预测方法:DSCN、MsDCNN、CLSTM以及DCNN[20]共4个网络模型与所提方法进行分析。在变工况条件下,选取上述方法分别对轴承1_3、轴承2_7进行RUL预测,并通过计算预测结果的SF与RMSE指标与本文所提方法进行对比,计算结果分别如图14、15所示。从图中可以清楚地观察到,在变工况测试条件下,与上述4种对比方法的结果相比,本文所提方法轴承RUL预测结果的SF与RMSE数值均最小。通过计算对比可知,本文方法RUL预测结果的SF值仅为上述4种对比方法SF值的13.5%、7.8%、10.15%、9.9%,RMSE值是15.05%、8.15%、11.85%、8.9%,本文方法的结果要远远小于上述4种对比方法。这充分说明本文所提出方法在变工况条件下的轴承RUL预测中具有更高的准确性,预测结果要远优于上述对比方法。

图14 轴承1_3 RUL预测结果对比

图15 轴承2_7 RUL预测结果对比

4 结 论

(1)本文提出一种新的MsTCN-Transformer网络模型用于变工况下滚动轴承RUL预测。该方法通过融合不同尺度的膨胀因果卷积,提出了一种新的MsTCN模型,能够自适应地提取变工况条件下信号中固有的时序特征信息,并基于自注意力机制构建了Transformer网络,准确识别了时序特征与轴承RUL之间的映射关系。

(2)在变工况条件下,所提网络模型能够较为准确地实现轴承RUL预测,通过有效提取全寿命信号中固有时序特征,克服了轴承故障退化过程中数据差异性的影响。通过与当前多种模型进行对比,所提模型RUL预测准确性更为优越。

猜你喜欢

时序卷积轴承
轴承知识
轴承知识
基于Sentinel-2时序NDVI的麦冬识别研究
基于3D-Winograd的快速卷积算法设计及FPGA实现
轴承知识
轴承知识
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
基于FPGA 的时序信号光纤传输系统
一种毫米波放大器时序直流电源的设计