基于CNN-LSTM-Attention的滚动轴承故障诊断

2022-08-11魏永合宫俊宇

沈阳理工大学学报 2022年4期

魏永合，宫俊宇

(沈阳理工大学机械工程学院，沈阳 110159)

滚动轴承可以将旋转机械的轴和轴座之间的滑动摩擦变为滚动摩擦，从而减少摩擦损失。一旦滚动轴承发生故障，可能造成经济损失甚至引起安全险情[1]。因此，对滚动轴承的工作状态及时诊断非常重要。

在轴承故障诊断领域中，根据数据处理的规模和学习能力的不同，可以将基于机器学习的故障诊断方法分为浅层机器学习和深度学习两种。多年来国内外众多学者对基于浅层机器学习的故障诊断方法展开了大量研究，取得了一些研究成果。姚德臣等[2]改进了支持向量机(Suport Vector Machine，SVM)算法，并用于轴承故障的诊断中。Yu J[3]提出将信号中时域和频域等作为特征指标，使用K最邻近法(K-Nearest Neighbor，KNN)进行故障诊断。Soualhi A等[4]应用希尔伯特黄变换提取健康指标，并结合SVM算法应用在故障的分类中。这些基于浅层机器学习方法的故障诊断流程需要先从振动信号中手动提取特征，再将处理后的特征输入到模型中，最后通过分类器完成故障的分类[5]。此类方法存在的问题主要有：

(1)面对不同型号的轴承和不同工况的信号，一般需要采用相对应的特征提取方法；

(2)实际诊断的过程中，采集到的信号往往噪声较大，故障特征提取较为困难。

以上原因导致此类方法过于依赖工作人员的专业知识与经验。

深度学习技术克服了浅层机器学习方法无法处理大规模数据的缺点，并且可以将特征提取和模式识别进行联合优化[6]。杨兰柱等[7]对振动信号使用离散小波变换后输入到卷积神经网络(Convolutional Neural Network，CNN)中提取特征，从而实现故障诊断。刘岚等[8]对残差网络进行了改进，建立了基于一维输入的故障诊断模型。CNN特点为局部连接、权值共享、池化操作等，可以大大降低网络的复杂度、训练参数的冗长现象。但是传统的CNN用于故障诊断时存在两点不足：一是特征提取时未考虑振动信号的时序关系；二是自适应提取特征时会将所有的特征视为平等，可能会忽略掉一些重要的特征，从而影响诊断效果。

长短时记忆(Long Short-Term Memory，LSTM)是一种适用于处理时间序列数据的网络模型，可以从数据的不同位置学习到输入数据中隐藏的特征。注意力机制(Attention Mechanism，AM)是深度学习算法中的一种特殊结构，可以用来自动学习和计算输入对输出的贡献大小。针对CNN在故障诊断领域的不足，本文在传统CNN的基础上，结合LSTM网络提取故障信号中时序特征，并添加AM模块，根据特征的重要程度进行权重分配，构建CNN-LSTM-Attention故障诊断模型。

1 基础理论

1.1 CNN

CNN是一种深层前馈神经网络，由卷积层、池化层和全连接层构成。

卷积层通过卷积核在特征图上滑动，与感受野内的数据卷积运算，将数据内部的结构特征提取出来[9]。卷积运算的表达式为

(1)

池化层在卷积层后进行特征选择，降低特征数量，减少训练参数，缓解过拟合现象[10]。典型的池化操作分为最大池化和平均池化。最大池化和平均池化的计算表达式分别为

(2)

(3)

式中：xl(i，t)表示第l层第i个通道的第t个神经元的值；S表示池化内核的大小；yl(i，j)表示第l层第i个通道的第j个神经元的值。

全连接层在卷积和池化后，其神经元与上一层的神经元全部连接，用于集成不同类别之间的差异化局部特征信息。全连接层一般选择的激活函数为ReLU，再与激活函数Softmax结合完成多分类任务[11]。

1.2 LSTM

LSTM网络结构中引入记忆单元，可以有效处理序列数据[12]。LSTM网络细胞结构如图1所示。

图1中，Ct-1代表前一个细胞状态，ht-1代表前一个细胞的输出，xt代表当前细胞的输入。其中ft、it、ot分别为遗忘门、输入门和输出门的结果。遗忘门由Sigmoid激活函数σ单独组成，输入门和输出门由σ和激活函数tanh组成。输入xt在LSTM网络中前向传播的过程如下。

图1 LSTM神经网络细胞结构图

(1)信息流入LSTM网络细胞前，首先经过遗忘门，其主要作用是有选择地对上一时刻传递来的信息遗忘，其更新计算式为

ft=σ(Wf·[ht-1，xt]+bf)

(4)

式中：Wf表示权值矩阵；bf表示偏置项。

(2)经过遗忘门的筛选后，信息传递到输入门，LSTM网络输入信号经输入门确定需要更新的信息以及要更新的内容，其更新计算式为

(5)

(3)输出门使用σ计算需要被输出的单元状态。输入信号经输出门确定用于输出的有用信息并立即更新当前LSTM神经网络细胞状态，其更新计算式为

(6)

式中：Wo表示权值矩阵；bo表示偏置项；ht表示隐藏层输出值。

1.3 注意力机制

神经网络中AM本质是一种资源再分配方案，一般对重要的对象赋予较大的权重，不重要的对象赋予较少或者不分配权重。在LSTM网络中，AM可以赋予每一时刻输出权重并通过求和得到最终的输出。计算公式为

(7)

式中：ai表示AM的权重分配；hi表示各隐藏层的输出。

2 CNN-LSTM-Attention故障诊断模型

本文针对传统故障诊断方法和CNN的局限性，结合LSTM网络的优势，提出了CNN-LSTM-Attention模型用于轴承的故障诊断，图2为模型结构图。

图2 模型结构图

卷积网络包括三个特征提取模块，每个特征提取模块含有两个卷积层和一个池化层，池化层均选择最大池化操作。三个特征提取模块叠加可以充分利用卷积网络强大的自适应提取特征能力，发掘振动信号中的隐藏规律。鉴于卷积网络只能提取数据的空间特征，而振动信号是一种时间序列信号，将卷积网络提取到的故障特征输入到LSTM网络中提取数据之间的时序规律。在LSTM网络后加入AM模块对不同时刻的状态进行筛选，最后将保留的特征送入全连接层，与Softmax激活函数结合完成故障分类。

图3 故障诊断流程图

3 实验验证

3.1 实验数据

本文实验数据选择美国凯斯西储大学电气实验室公开的滚动轴承数据集。深度学习框架为Pytorch，开发语言为Python，计算机硬件配置为Intel(R)Corei7-6700HQ CPU@2.60GHz，8GB内存。

西储大学滚动轴承故障实验平台由电机、扭矩传感器、功率测试计、电子控制器组成。驱动端的轴承型号为6205-2RS SKF，风扇端的轴承型号为SKF6203，均为深沟球轴承。选择被诊断的轴承包括4种状态，分别为正常状态、外圈故障、内圈故障和滚动体故障。电机转速为1797r/min，采样频率为12kHz，外圈、内圈和滚动体三者皆有三种不同的故障程度，分别为0.007inch、0.014inch、0.021inch，共计十种状态，如表1所示。

表1 轴承状态

3.2 网络参数选择

CNN部分包含三个特征提取模块，模块里卷积层和池化层的具体参数如表2所示。表中C表示卷积层，P表示最大池化层。

表2 CNN结构参数

将十种不同状态的数据分别裁剪为120个样本，每个样本的长度为2000。数据集按照7∶3的比例划分成训练集和测试集，训练集有840个样本，测试集有360个样本。每次训练输入的样本数为256，最大迭代次数选择100，选择优化模型算法Adam，学习率选择0.001。

3.3 结果分析

按照3.2中参数的设置，得到识别故障的准确率曲线如图4所示。由图4可见，测试集准确率达到97.53%，说明本文提出的CNN-LSTM-Attention故障诊断模型可以较为准确地诊断出十种健康状态。

图4 识别故障的准确率变化图

为了探究LSTM网络和AM对诊断效果的影响，将本文方法与CNN进行对比分析。数据和参数设置相同，验证得到两种模型的故障识别率如表3所示。

表3 两种模型的故障识别率对比

由表3可见，CNN网络具有强大的特征学习能力，故障识别率已达到92.92%。添加LSTM网络和AM模块后，故障识别率达到97.64%，提高了4.72%，故障诊断性能明显优于CNN模型。

本文所提模型故障分类的混淆矩阵如图5所示。

图5 CNN-LSTM-Attention混淆矩阵

图5中纵坐标为真实标签，横坐标为预测标签，纵坐标每行表示该种故障被错判为其他故障的百分比，横坐标每列表示十种样本中被判为此类故障的百分比。从图5中可以看出，故障直径为0.007inch的外圈故障识别率相对较差，为57%，其他类别识别率均较高，平均为97.64%。

4 结束语

提出了一种基于CNN-LSTM-Attemtion的滚动轴承故障诊断模型，该模型直接对振动信号预处理后作为模型的输入，实现端到端的故障诊断；引入了AM模块进行特征筛选，对更重要的特征赋予更高的权重；CNN-LSTM-Attention结合了CNN和LSTM各自的优势，相比传统CNN网络识别故障的准确率更高，能实现对故障的准确分类。