基于多粗粒度与注意力网络的轴承剩余寿命预测
2021-11-12莫仁鹏司小胜李天梅胡昌华
莫仁鹏,司小胜,李天梅,朱 旭,胡昌华
(火箭军工程大学导弹工程学院,陕西 西安 710025)
0 引 言
在生产活动中,机械设备的安全可靠运行至关重要,对生产效益和生产安全有着重大影响。但由于内部损耗和外部环境的影响,机械设备在长期运行过程中不可避免地会发生性能退化现象,当退化到一定程度会彻底失效,进而影响生产活动的正常进行。而轴承作为机械设备的支撑部件,其退化现象尤为明显,因此有必要对轴承进行剩余使用寿命(remaining useful life,RUL)预测,实时掌握其健康状况,并进行适当的维修或替换,从而避免机械设备突然失效、对生产活动造成不必要的破坏。
目前流行的RUL预测方法主要包括统计数据驱动方法[1-3]和深度学习方法,但统计数据方法的预测效果受限于模型的选择是否合适,而深度学习方法具有对大数据和非线性信息的强大处理能力,且不需要复杂的先验知识,因此基于深度学习的RUL预测方法引起了广大研究者的关注[4]。Ambadekar等[5]以显微镜观察刀具的磨损情况并进行拍照,再将这些照片输入到卷积神经网络(convolutional neural network,CNN)中提取刀具的退化特征并进行RUL预测;Deutsch等[6]以深度置信网络学习得到具有代表性的健康指标,再基于前馈神经网络(feedforward neural network,FNN)预测 RUL,通过齿轮实例和轴承实例对所提方法进行了验证;Hinchi等[7]首先利用CNN网络提取局部特征,再引入长短期记忆网络捕获退化过程并预测轴承的RUL。
以上深度学习方法仅在单一尺度上学习机械信号的退化信息,没有考虑到机械信号所蕴含的退化信息往往分布在多个时间尺度上[8]。鉴于此,本文提出一种可以自动提取多尺度退化特征的RUL预测方法,所提方法通过对轴承的原始振动信号进行多粗粒度操作获得多尺度信号,再基于CNN网络进行深层特征提取与融合,并引入注意力机制进行特征重标定,以强化对RUL预测任务贡献度更大的特征,最后利用FNN网络映射得到轴承的RUL预测值。
1 基于多粗粒度与注意力网络的轴承RUL预测方法
本文所提方法的整体网络结构如图1所示,主要包括多尺度粗粒度层、多尺度特征融合层、注意力加权层以及RUL预测层。
图1 本文方法的整体网络结构
1.1 多尺度粗粒度层
对机械设备的振动信号进行多尺度粗粒度处理得到的多尺度特征,能更全面地表征机械设备的健康状态[9-11]。因此首先采用多尺度粗粒度层处理轴承振动数据,具体过程如图2所示。
图2 多粗粒度处理
设传感器对轴承监测得到的某样本数据为x={x1,···,xi,···,xN},其中xi为第i个振动数值,N为样本数据的长度。对振动信号进行多粗粒度处理,即分别以不同尺度的滑动窗在该振动信号上无重叠地移动,然后分别计算每个窗口内的均值作为新的信号数据,从而获得蕴含更丰富退化信息的多尺度信号,公式如下:
其中 τ为滑动窗尺度即粗粒度,本文使用了1、2、4三个粗粒度,粗粒度1即为原始振动信号,粗粒度2处理过后的信号长度为原信号的一半,粗粒度4处理过后的信号长度为原信号的1/4。在网络中,以多个尺寸的池化层来实现多尺度信号的自动提取。
1.2 多尺度特征融合层
CNN网络主要包括卷积层和池化层,卷积层的卷积操作可以很好捕捉到轴承监测数据的非线性退化信息,卷积层的计算公式如下:
⊗——卷积运算;
W——卷积核权重;
b——偏置;
σ(·)——非线性激活函数,通常选择为修正线
性单元(rectified linear unit,ReLU)。
本文采用大步幅的卷积层代替池化层进行特征压缩,可以降低网络的整体参数量,并提高预测模型的计算效率。不同粗粒度处理得到的多尺度信号长度不一致,因此在利用多个大步幅卷积层分别学习每个尺度信号的深层特征时,不同尺度对应的步幅组合亦有所不同,最终要确保三个尺度的深层特征在进行拼接时保持长度统一。此外,在本文中,将不同尺度的深层特征简单拼接后得到合并特征,再将其输入到一个公共的卷积层中进行融合,以学习不同尺度特征之间的潜在关系。
1.3 注意力加权层
本文在预测网络中引入改进的卷积注意力模块(convolutional block attention module,CBAM)[12]对深层特征进行特征重标定,CBAM包括通道注意力和空间注意力,分别在通道维度和空间维度上加强重要特征并抑制相对不重要的特征。传统的CBAM先以通道注意力强化重要通道,之后再以空间注意力为补充,为不同的空间位置赋予最佳权重。但考虑到轴承原始振动信号为一维时序数据,因此本文先使用空间注意力进行权重分配,再以通道注意力作为补充,避免通道注意力加权之后破坏时序结构,影响空间注意力的效果。改进的CBAM模块如图3所示。
图3 改进的CBAM模块
设待标定的深层特征为F,计算其空间注意力权重Ms(F),将该权重与F相乘得到加权后的特征F1;再针对F1计算得到相应的通道注意力权重Mc(F1),并与F1相乘得到最终的加权特征F2,计算公式如下:
其中 ⊙表示逐元素相乘。
空间注意力Ms(F)与通道注意力Mc(F1)的计算公式如下:
式中:conv——单核卷积层;
MLP— —单共享参数的三层感知器,两端的感知器神经元个数与通道数相等,中间层感知器神经元个数为:通道数/压缩率,这种瓶颈结构能有效减少模块参数量;
GAP和GMP— —单全局平均池化和全局最大池化,用来压缩通道信息或空间信息为一个表示符,以表征对应通道或空间所包含的退化信息量;
δ(·)——sigmoid激活函数。
1.4 剩余寿命预测
最后,将经注意力重标定的特征输入到FNN网络中进行RUL预测。FNN网络由多个全连接层组成,并且最后一个全连接层的神经元个数为1,如此便可映射得到一个单值数据,即为RUL预测值。全连接层的计算公式如下:
D——第l层的神经元总数;
Wi,j——两个神经元之间{的连接权重。}
设某轴承振动信号为X=X1,···,Xj,···,XV,Xj为第j个样本的数据,V为样本总数。将每个样本数据输入到预测网络中,经过多尺度粗粒度层、多尺度特征融合层、注意力加权层以及全连接层后,最终得到该样本对应的RUL预测值。
在训练网络时,以预测值和真实值的均方误差作为损失函数,并通过误差反向传播算法更新网络参数,以逐渐最小化损失函数、减少预测误差。经过多次训练后,损失函数将降低到很小的程度,此时网络能较好地捕捉到样本数据到RUL真实值之间的映射关系。当输入新的样本数据到训练好的网络中,便可准确地预测出当前的RUL值。
2 实验验证
2.1 实验数据
采用FEMTO-st研究所的PRONOSTIA轴承数据集[13]来验证所提方法的有效性。该轴承数据集的振动信号通过在加速度传感器上采样获得,采样间隔为10 s,每个采样点内有2560个数值。包含了3个工况下的17个轴承的全寿命振动信号,监测了每个轴承由正常状态退化至失效的振动加速度值,在这个过程中,振动加速度值逐渐增大。
本文选用工况1的7个轴承进行实验,每个轴承随机选取70%的采样点作为训练集样本,其余30%的采样点作为测试集样本。利用训练集训练好网络模型后,将测试集数据输入到网络中得到RUL预测值,以测试集RUL预测值和对应RUL真实值之间的均方根误差(RMSE)作为评价指标来评估所提方法的预测性能。
为了降低网络训练难度,对轴承每个采样点的RUL值进行归一化处理。例如轴承1-1一共包含2803个采样点,其全寿命为 28030 s,则在第 2000 个采样点对应的RUL为8030 s,对其进行归一化得到:RUL2000=8 030/28 030≈0.286 5。
2.2 实验设置
经过多次实验,网络超参数设置如表1时,所提方法会取得较好的预测效果。其余的实验设置如下:优化器为Adam,学习率为0.001,共训练30次。此外本文的实验环境为:Tensorflow2.0,keras2.3.1,python3.6。
表1 网络超参数
2.3 分析实验
在CBAM模块中,多层感知器的中间层压缩率ratio的大小决定了该模块的参数量,ratio越大则参数量越小,但过大的ratio可能会影响RUL的预测精度,为了在尽可能地减小模型参数规模的同时保证网络的预测精度,对ratio的选择进行了相关实验。
分别观察不同ratio情况下网络对轴承1-1的预测效果,此外,去除CBAM模块(MScale)、既无CBAM模块又不采用多尺度粗粒度策略(SScale)亦作为对照组参与实验,以验证注意力机制和多尺度策略对RUL预测任务的有效性。实验结果如表2所示。
表2 分析实验
由表2可以发现,ratio=16时网络的预测效果最好,且CBAM模块的参数规模亦比较轻量,当ratio继续增加时,模块参数的减少量不大,且预测效果反而下降,因此最终选择16作为CBAM模块的压缩率。此外,无论ratio取何值,含有CBAM模块的网络皆比MScale网络的预测效果要好,这说明在预测网络中引入了改进的CBAM模块后,注意力机制能根据对RUL任务的贡献度大小,自适应的为深层退化特征分配最佳权重,从而提高RUL预测精度;而MScale网络的预测效果又要强于SScale网络,验证了多尺度粗粒度策略可以从轴承原始振动信号中提取更丰富的退化信息,有利于RUL预测任务的进行。
确定网络超参数后,基于所提方法对轴承1-1、1-2的测试集进行RUL预测,结果如图4所示。
图4 所提方法对测试集的RUL预测结果
在轴承1-1和轴承1-2测试集上的RUL预测值与真实值较为接近,反映了训练好的预测网络能较好地捕捉到采样点数据和对应RUL之间的关系,验证了所提方法的有效性。
2.4 对比实验
分别以深度神经网络(DNN)[14]、卷积神经网络(CNN)[15]以及无注意力机制的多尺度粗粒度方法(MScale)对工况1的7个轴承进行RUL预测,并与本文方法进行对比。对比方法的实验条件与本文保持一致,同样随机划分每个轴承的70%采样点作为训练集,其余采样点作为测试集。实验结果(RMSE)如表3所示。
表3 不同网络在测试集上的RMSE
由于CNN网络的特征提取能力要强于DNN网络,因此CNN网络的预测效果比DNN网络更好;而MScale网络的预测效果又优于CNN网络,这体现了多尺度粗粒度操作获得的多尺度特征,可以捕获更多的轴承退化信息,从而提高网络对轴承的RUL预测准确度;最后,本文方法在所有轴承上皆表现出了最佳的预测性能,验证了本文方法在对轴承进行RUL预测时的优越性。
3 结束语
考虑到机械信号往往分布在多个时间尺度上,本文采用多粗粒度操作处理轴承的原始振动信号,以获得的多尺度信号蕴含更丰富的退化信息。此外,由于网络深层特征中的不同通道(不同空间)对RUL预测任务的贡献度不一致,在预测网络中引入改进的CBAM注意力模块对深层特征进行特征重标定,以增强重要特征并抑制无效特征。基于PRONOSTIA轴承数据进行了分析实验和对比实验,实验结果表明,所提方法能较好地捕捉到监测数据和RUL值之间的映射关系,且多尺度粗粒度策略和注意力机制可以有效提高轴承的RUL预测精度,与其他网络的对比实验表明,所提方法具有更佳的预测性能。