APP下载

基于CNN-LSTM和注意力机制的轴承故障诊断方法

2023-01-12陈轲黄民李一鸣

关键词:轴承故障诊断注意力

陈轲,黄民,李一鸣

(北京信息科技大学 机电工程学院,北京 100192)

0 引言

滚动轴承作为旋转机械的核心部件之一,其故障状态关乎整个机械设备的可靠性[1]。而由于长期处于复杂的工况下,滚动轴承不可避免地会发生损伤[2]。因此,为了避免事故发生以及减少经济损失,针对滚动轴承的故障诊断是十分必要的。

在轴承故障诊断中,振动信号能够很好地反映出故障状态,且振动信号的检测不受机械结构的影响,因此,如何从振动信号中提取特征信息是判断轴承故障类型的关键。常用的特征提取方法包括经验模态分解(empirical mode decomposition,EMD)[3]、小波变换(wavelet transform,WT)[4]、变分模态分解(variational mode decomposition,VMD)[5]等等。王一鹏等[6]将轴承的振动信号进行小波分解及重构,提取混合特征,通过t分布随机近邻嵌入(t-distribution stochastic neighbour embedding,t-SNE)方法将样本数据集降维,观测样本集的数据分布,最后通过支持向量机(support vector machine,SVM)进行故障分类。谷玉海等[7]将轴承的振动信号通过EMD转化为二值化图像,将二值化图像作为卷积神经网络(convolutional neural network,CNN)的输入得到训练模型,与训练好的模型作对比,确定故障类型。韩朋朋等[5]通过将峭度与包络熵组合得到遗传算法的适应度函数,进行参数寻优,对最优参数进行增强包络谱分析,提升轴承故障诊断的准确率。这类方法大多网络结构浅,在复杂的工况下,诊断效果较差。

近年来随着人工智能等技术发展,深度学习逐步应用于故障诊断领域。深度学习弥补了浅层网络模型难以从海量数据中挖取表征轴承状态的特征信息的不足,深度学习的深层网络结构能够直接从轴承的原始振动信号中提取特征,避免了手动提取信号特征的过程。谢锦阳等[8]将轴承特征信息进行注意力反向以及剪枝,凸显重要特征,再通过长短时记忆网络(long short-term memory network,LSTM)和全连接层进行故障分类。徐敏等[9]提出将反向注意力机制与LSTM相结合的轴承故障诊断方法,通过Inception网络完成信号预处理,再经过融合双向长短时记忆残差网络(fusion bidirectional LSTM residual network,FB-LSTM ResNet)完成故障特征的提取以及故障诊断分类。周俊宏等[10]将蝴蝶算法(butterfly optimization algorithm,BOA)优化后的深度置信网络(deep belief network,DBN)应用到轴承故障诊断中,提高模型故障诊断的精确度。茅健等[11]将卷积神经网络与双向长短时记忆网络(bidrectional LSTM,BiLSTM)相结合,对原始信号进行特征提取,并在BiLSTM隐藏层中加入注意力机制,提高了故障诊断准确率。姚齐水等[12]提出一种基于改进Inception V2模块和卷积注意力模块(convolutional block attention module,CBAM)的轴承故障诊断方法,可以优化网络结构并加快模型收敛速度。

尽管上述方法取得相对不错的诊断效果,但是轴承特征提取不充分,无法自适应提高模型对重要特征的关注程度,且故障诊断率有待提升。对此,本文提出一种融合CNN-LSTM和注意力机制的轴承故障诊断方法。轴承的原始振动信号作为模型的输入,通过CNN模块提取振动信号的特征信息,再通过注意力机制对特征信息分配权重,提高模型对关键信息的关注程度后输入LSTM模块,进一步提取时序特征,最后通过全连接层完成对轴承状态的识别和分类。

1 相关理论

1.1 CNN

CNN作为前馈神经网络,通过利用局部相关性以及权值共享的思想,减少神经网络的参数量,达到更高的训练效率。CNN主要由卷积层、池化层以及全连接层3部分组成。卷积层通过卷积核对每个通道的矩阵进行互相关运算来提取数据的特征信息,再通过非线性激活函数,增加模型的表达能力。卷积层的计算公式如下:

(1)

池化层的作用是减少特征图实现尺寸缩减,简化网络计算的复杂度;同时对特征进行压缩,保留显著特征,防止过拟合。池化层通常夹在连续的卷积层之间。全连接层的作用是将卷积层以及池化层计算得到的特征整合,映射到样本空间中。全连接层通常放在卷积神经网络结构的最后。

1.2 LSTM

LSTM由科学家Hochreiter和Schmidhuber[13]于1997年提出。作为循环神经网络(recurrent neural network,RNN)的优秀变种模型,LSTM继承了RNN的大部分特性。相对于RNN,其记忆力更强,更擅长于处理长序列信号数据。

LSTM引入门控机制,通过利用3个门控:输入门、遗忘门和输出门来控制信息的遗忘和刷新。其神经元结构如图1所示。

图1 LSTM神经元结构

ft=σ(Wf[ht-1,xt]+bf)

(2)

(3)

it=σ(Wi[ht-1,xt]+bi)

(4)

(5)

ot=σ(Wo[ht-1,xt]+bo)

(6)

ht=ot*tanh(ct)

(7)

式中:σ为Sigmoid激活函数;W和b为对应门的参数张量。

1.3 注意力机制

注意力机制是借鉴人类视觉的特有的信号处理机制。当人将注意力转移到图像重点区域时,会对该区域投入更多的注意力资源,并忽略无关部分。注意力机制本质上可以看成基于输入图像的特征动态调整权重的过程,通过相似度计算捕获每一个特征信息的重要程度,再通过分配权重让模型提高对重要特征的关注程度,并抑制无用特征。注意力机制已经成为计算机视觉、深度学习领域不可或缺的技术。

本文采用的注意力模型为高效通道注意力(efficient channel attention,ECA)网络。ECA网络由Wang等[14]首次提出。ECA模块通过Sigmoid函数学习通道注意力,通过快速进行大小为k的一维卷积来生成每个通道的权重值s,将归一化权重和原输入X逐通道相乘,生成加权后的输出Y。以此,让神经网络重点关注权重值大的通道,并抑制权重值低的特征通道。相比于SE模块,该模块避免了降维,并有效地捕获了跨通道之间的交互。计算公式如下:

s=FECA(X,θ)=σ(Conv1D(GAP(X)))

(8)

Y=sX

(9)

(10)

式中:s为ECA模块通道的权重值;X为输入;θ为通道数;σ为Sigmoid激活函数;Conv1D表示穿过通道域的核为k的一维卷积;GAP表示全局平均池化;Y为输出;k为局部跨通道交互的覆盖范围,通过通道维度C的映射自适应确定;γ和b为超参数;|·|odd表示求最近的奇数。

2 轴承故障诊断模型

整体模型由CNN模块、注意力模块和LSTM模块组成。传统的CNN模型尽管能从轴承的原始振动信号中提取形状特征,但是却难以捕捉振动信号在时间序列上的特性,从而丢失时间序列的相关特征。LSTM通过特殊的门控机制能有效处理与时序高度相关的问题,学习振动信号中的时序特征。同时,注意力机制能够对输入的特征动态赋予权重,提高重要特征的表达能力,抑制无用的特征。故本文将几个模块融合,提出基于CNN-LSTM和注意力机制的轴承故障诊断方法。

本文采用的模型包括2个卷积池化层,1个注意力层、1个LSTM层、1个全连接层以及1个Softmax层,模型结构如图2所示,其中BN层为批归一化层,ReLU为激活函数。输入信号长度为2 048,为了让模型获得较大感受野,将第一层的卷积步长设置为16,大小设置为64×1。为了抑制过拟合,将Dropout比率设置为0.5。Softmax层输出为10种故障类别的概率,具体参数如表1所示。

图2 模型结构

表1 模型的结构参数

3 实验验证和结果分析

本文仿真实验环境为Windows10,采用Tensorflow2.0学习框架,计算机配置为AMD R7-5800H CPU,内存为16 GB。

3.1 凯斯西储大学轴承数据集

实验数据来自凯斯西储大学(Case Western Reserve University,CWRU)轴承数据集。CWRU试验台主要由电机、扭矩传感器和测功机组成,如图3所示。本实验的实验对象为驱动端轴承,轴承型号为深沟球轴承6205-2RS JEMSKF。系统信号采样频率为12 kHz。实验轴承通过电火花加工而引入单点故障,故障类型分为滚动体损伤、内圈损伤以及外圈损伤3种,损伤直径分为0.178 mm、0.356 mm以及0.533 mm 3种,共计9种故障类别。

图3 CWRU轴承试验台

本实验数据集分别取电机转速为1 797 r/min、1 772 r/min、1 750 r/min及1 730 r/min下滚动体、内圈、外圈正常及故障数据,外圈损伤位置在6点钟方向。每个数据集包含7 000个训练样本、2 000个测试样本,每个样本包含2 048个数据点。其中,训练样本进行数据增强。数据集详细信息如表2所示。

表2 数据集描述

3.2 实验参数设置

实验采用小批量训练方法,将批大小设置为128,训练次数为60次。将Adam算法学习率设置为0.001。为验证训练结果的可靠性,将每个数据集训练20次,并取平均值作为最终结果。

3.3 实验结果分析

3.3.1 对比传统信号处理方法

如图4所示为滚动轴承滚动体、内圈和外圈故障原始振动信号的时域图和频谱图。

图4 轴承典型故障振动信号的时域图和频谱图

由图可以看出,在时域图和频谱图的波形中很难直接识别出故障冲击信号。通过传统信号处理方法如短时傅里叶变换、小波变换、魏格纳分布、自适应时频分析方法等实现振动信号的降噪以及分离,需合理选择某一分解后的分量,通过包络分析提取轴承的故障特征频率从而实现故障分类。而本文模型直接将原始振动信号输入神经网络中,避免了手动提取时域特征、频域特征。

3.3.2 模型稳定性

模型在不同电机转速下数据集的故障识别准确率如图5所示,由图可知,经过20次训练,模型的数据集识别率均超过99%,其中,模型在转速为1 750 r/min和1 730 r/min下故障识别准确率最高且最稳定,准确率均不低于99.9%。

图5 模型在不同电机转速下数据集的故障识别准确率

3.3.3 模型性能分析

以转速1 730 r/min最后一次训练为例,训练的准确率和损失如图6所示。在训练次数为4时,训练集的准确率达到100%,损失由0.847 2降到0.0048;测试集的准确率达到97.6%,损失由0.8749降至0.0614。在训练次数为7时,训练集的准确率达到100%,损失降至0.004 3;测试集的准确率达到100%,损失降至0.004 7。此时,模型收敛且趋于稳定。本文模型在经过较少的训练次数后,可达到较高的准确率和较低的损失值。

3.3.4 故障诊断结果对比

为了验证本文模型的优势,将本文方法与CNN、LSTM、CNN-LSTM诊断结果进行对比,将20次训练平均值作为最终结果,每次训练迭代次数设置为60次,如表3所示。本文方法平均准确率为99.83%,相对于CNN和LSTM模型,分别提高了11.63%和8.07%。本文模型拥有更高的故障诊断准确率,其综合性能更优秀。与未添加注意力机制的CNN-LSTM模型相比,本文模型平均准确率提高0.27%,说明注意力机制提高了模型的综合性能。

图6 故障诊断准确率和损失值

表3 对比实验结果 %

4 结束语

本文提出一种结合CNN-LSTM和注意力机制的端对端轴承故障诊断模型。该模型以原始一维振动信号作为输入,通过CNN和LSTM模块自动提取特征信息,基于注意力机制自适应分配权重,突出重要特征,抑制无用特征,有效提高了模型的故障诊断精度。端对端的模型结构具有良好的通用性,避免了手动提取特征。

通过与其他模型作对比,本文模型的故障诊断能力更优越,且诊断精度更高。与单一结构的算法如CNN和LSTM相比,本文模型具有更好的稳定性。同时,本文模型在经过较少的迭代次数后,可达到较高的准确率和较低的损失值,模型的收敛速度快且稳定。

然而,本文仅验证定负载下模型的故障诊断能力,对于变负载的诊断能力以及噪声环境的抗噪性能有待进一步研究。

猜你喜欢

轴承故障诊断注意力
轴承知识
轴承知识
让注意力“飞”回来
基于包络解调原理的低转速滚动轴承故障诊断
轴承知识
轴承知识
如何培养一年级学生的注意力
数控机床电气系统的故障诊断与维修
基于量子万有引力搜索的SVM自驾故障诊断
A Beautiful Way Of Looking At Things