基于注意力机制胶囊神经网络的轴承故障诊断*

2022-09-30王志刚徐增丙

机械制造 2022年7期

□ 周航 □ 王志刚 □ 徐增丙

1.武汉科技大学机械自动化学院武汉 430081 2.武汉科技大学冶金装备及其控制教育部重点实验室武汉 430081

1 研究背景

滚动轴承是维持机械运转的重要部件,长期处于高速旋转和高温工作环境下,容易出现疲劳剥落、磨损、锈蚀等故障[1],严重影响设备的安全运行。故障诊断是确保机械设备安全运行的重要措施之一。

深度学习具有强大的特征参数提取能力,可以自行建立特征至故障类别的映射关系,在故障诊断领域中的应用迅速发展[2]。卷积神经网络采用权值共享、局部感受野、下采样策略,大大减少训练参数的数量,提升训练速度,已在故障诊断中被广泛应用。杨兰柱等[3]改进卷积神经网络,应用于轴承故障诊断,通过在卷积神经网络模型中添加归一化层和指数线性单元,提高模型识别的泛化性。周奇才等[4]为了适应时域信号的处理,提出基于一维深度神经网络的诊断模型,在经典卷积神经网络的基础上引入一维卷积层和池化层,实现原始故障信号的自适应学习。刘颖等[5]提出一种小波包与卷积神经网络相结合的诊断方法,先采用小波包分解提取轴承数据能量特征图,再结合卷积神经网络对特征图进行分类,实现故障分类。虽然以上方法在故障诊断中都具有一定的有效性,但是由于这些模型多为单输入单输出浅层模型,非线性能力较弱,因此在故障数据较少和信噪比低的情况下,难以取得理想的结果。另一方面,卷积神经网络的神经元都是标量,既无法考虑轴承数据的时序性关系,也无法表达底层特征与高层特征的位置关系,卷积神经网络中的池化层还会丢失大量有用信息。为了解决卷积神经网络的缺陷,Geoffrey Hinton提出胶囊神经网络,用向量代替标量,保留原数据的空间位置关系,舍弃池化层,应用动态路由算法,减少特征在网络中的损失,目前同样被应用于故障诊断[6-7]。

为了解决样本数量少、信噪比低情况下诊断准确率低的问题[8-9],笔者提出一种基于注意力机制胶囊神经网络的轴承故障诊断方法。这一轴承故障诊断方法对原始数据进行经验模态分解,得到多个本征模函数,作为多通道的输入[10]。在卷积层,引入卷积注意力模块,并加深卷积层,使模型具有更强的非线性能力。配合胶囊层优异的特征表达能力,使注意力机制胶囊神经网络在样本数量小、信噪比低的情况下识别能力更强。

2 胶囊神经网络结构

2.1 整体结构

卷积神经网络无法捕捉特征的空间信息,池化层会丢失部分有用的特征。为了弥补这一缺陷,Geoffrey Hinton于2017年提出胶囊神经网络,由卷积层和胶囊层组成。

胶囊神经网络结构如图1所示。

▲图1 胶囊神经网络结构

2.2 卷积层

胶囊神经网络的特征提取器是一个卷积层,通过权重矩阵滑动卷积的方式,实现权值共享。这种方式大大减少了权重参数及运算次数,再采用激活函数的非线性映射能力对输出值进行转换。

卷积运算式为:

(1)

为了解决线性不可分问题,在卷积后引入非线性激活函数,实现输入到输出的非线性映射,增强网络处理问题的能力。使用较多的激活函数有S型生长曲线、双曲正切函数、线性整流函数等,前两个函数存在反向传播梯度为0时权重无法更新的问题,因此使用线性整流函数作为激活函数。线性整流函数R(x)运算式为:

R(x)=max(0,x)

(2)

当卷积运算的输出值,即输入特征矩阵x小于0时,输出值为0。当输入特征矩阵x大于0时,输出值为x。因此,采用线性整流函数,反向传播梯度不会饱和,计算复杂度也比较低,可以大大提高计算速度。

2.3 胶囊层

胶囊神经网络将一组神经元合并为胶囊结构,通过仿射变换,将输入的标量转换为向量,向量在胶囊神经网络传递中使网络拥有提取空间特征的能力。舍去池化层,通过动态路由机制将低级胶囊的输出发送至高级胶囊。动态路由算法如图2所示。

▲图2 动态路由算法

卷积层第i通道的输出标量vi,通过与第i通道的权重矩阵Wi相乘,得到第i通道的预测向量ui,运算式为:

ui=viWi

(3)

(4)

低级胶囊通过加权求和的方式将第i通道的预测向量ui传递至高级胶囊层第j个胶囊sj,运算式为:

(5)

通过挤压函数,将高级胶囊层第j个胶囊sj的模压缩在[0,1)之间,保留向量的方向,得到动态路由算法下第j个胶囊的预测值aj,运算式为:

(6)

(7)

3 卷积注意力模块

为了使模型更加关注重要特征,抑制无用噪声特征,提高模型对轴承故障特征识别的准确率,应用卷积注意力模块,由通道注意力模块和空间注意力模块串联组成,对输入信号各个维度进行打分,按得分加权,突出重要特征对权重更新的影响。卷积注意力模块结构如图3所示。

▲图3 卷积注意力模块结构

在通道注意力模块中,将输入的特征矩阵按第一维度进行最大池化运算,按第二维度进行平均池化运算,送入两层感知器。将输出的元素逐个相加,通过S型生长曲线激活,得到最终的通道权值。将通道权值与输入特征相乘,得到新的特征矩阵。通道注意力模块流程如图4所示。图4中,L为特征的第三维度,r为缩放因数。

▲图4 通道注意力模块流程

在空间注意力模块中,将通道注意力模块输出的特征矩阵作为输入,按特征矩阵的第三维度分别进行最大池化和平均池化操作,得到两个W×H×1的权值矩阵。将这两个权值矩阵按照第三维度进行连接,通过卷积运算进行降维,再由激活函数得到最终的空间权值矩阵。空间注意力模块流程如图5所示。

▲图5 空间注意力模块流程

4 注意力机制胶囊神经网络

4.1 结构

为了从原始时域信号中提取出更加丰富的特征信号,提高模型对故障特征的识别能力,采用经验模态分解特征融合与卷积注意力模块相结合,改进胶囊层,得到基于注意力机制胶囊神经网络的轴承故障诊断方法。注意力机制胶囊神经网络结构如图6所示。

▲图6 注意力机制胶囊神经网络结构

注意力机制胶囊神经网络的输入是原始时域信号经经验模态分解的前三个本征模函数,每个本征模函数都包含原始信号的不同频段成分。将三个本征模函数重构、融合为三通道信号,不仅起到对原始信号降噪的作用,而且能使输入信号包含更为丰富的原始特征。特征融合后,输入卷积注意力模块,对关键特征参数进行加权,突出重要故障特征,使卷积层提取到更多的有用参数。加入两个卷积层提取特征,第二个卷积层步长设为2,代替池化层作为降采样层。每个卷积层的激活函数都是线性整流函数,不仅能防止梯度消失,而且能提高模型的非线性能力。后端动态路由算法将向量化的特征参数由主胶囊层传递至数字胶囊层,并使用挤压函数实现分类。

4.2 损失函数

模型在得到预测值时,需要与真实值进行对比,对真实值与预测值的误差进行反向传播,由此不断更新网络,以达到最优模型。真实值与预测值的误差需要通过损失函数进行计算,注意力机制胶囊神经网络采用边缘损失函数,运算式为:

(8)

5 轴承故障诊断案例

5.1 数据

采用凯斯西储大学公开的滚动轴承数据集进行试验,驱动端轴承型号为SKF6205,故障属于由人工电火花加工引起的单点损伤,除内圈故障、外圈故障、滚动体故障三类外,还有一类正常数据。

为了解决单通道信号不能全面表达故障特征,以及每类故障数据量过少导致数据不平衡出现过拟合的问题,通过经验模态分解对四类数据的所有数据点进行分解,提取每类数据的前三个本征模函数。通过滑动窗口重叠采样的方式,对数据进行扩充。从每个本征模函数信号的原点开始,每选取1 024个点作为一个样本,然后向后滑动100个点采样一次,直到选取1 000个样本为止。

5.2 诊断步骤

注意力机制胶囊神经网络采用监督学习,通过反向传播算法更新参数,具体步骤包括四步。

(1) 数据处理。对所有数据进行经验模态分解,通过重叠采样将数据划分为1 024×1×1 000的结构,对所有样本打标签,并按8∶2保存为训练集和测试集。

(2) 设计模型。卷积层使用9×9卷积核,第二层步长为2。主胶囊层有8×8×8×32个胶囊,数字胶囊层为16×4矩阵。

(3) 训练网络。通过训练集训练网络,不断调整参数,使模型识别效果达到最优。

(4) 检验网络。通过测试集检验网络的识别准确率,然后通过对比试验测试模型的性能。

5.3 诊断分析

单独检验注意力机制胶囊神经网络的性能不具有说服力,为此采用多个网络进行对比分析。为了消除试验结果偶发性的影响,进行多次对比试验。

模型一为卷积神经网络,前三层卷积核参数均为32×3×3,后两层卷积核数均为64,平均池化层大小为2×2,激活函数为线性整流函数,最后两层为全连接层,神经元数分别为200和4,分类函数采用归一化指数函数。使用Adam优化器,学习率为0.001,所有样本迭代次数均为10次。模型二为胶囊神经网络,胶囊层参数与图1相同,卷积层为32个6×6卷积核,激活函数为线性整流函数。使用Adam优化器,学习率为0.001,所有样本迭代次数均为10次。模型三为注意力机制胶囊神经网络。

试验结果见表1。由表1可以看出,三种模型在故障诊断中均表现良好,识别准确率都在95%以上。胶囊神经网络由于能识别轴承信号间的空间关系,识别准确率相比卷积神经网络提高1个百分点左右。注意力机制胶囊神经网络由于具有优异的特征提取能力,识别准确率高于其它两个模型,可以达到100%。

表1 轴承故障诊断准确率试验结果

5.4 抗噪性能分析

轴承的工作环境比较复杂,信号采集设备经常受到环境噪声的影响,导致采集到的故障信号淹没在噪声中,特征提取难度较大。由此可见,提高高噪声工况下的轴承故障诊断准确率十分重要。为了验证注意力机制胶囊神经网络的抗噪能力,向测试集数据中添加不同信噪比的噪声信号,测试识别准确率。

直接调用上述已训练好的模型,测试集分别添加信噪比为5 dB、2 dB、-2 dB、-5 dB的高斯白噪声,如图7所示。

▲图7 原始信号与添加噪声后信号

添加噪声信号后轴承故障诊断准确率如图8所示。由图8可以看出,在信噪比较高时,三种模型识别准确率都能保持在90%以上,注意力机制胶囊神经网络的识别准确率甚至能够达到100%。随着信噪比的降低,噪声信号占比较多,故障特征被淹没在噪声中,使特征提取较为困难,卷积神经网络和胶囊神经网络的识别准确率大幅度降低。当信噪比只有-5 dB时,卷积神经网络的识别准确率只有64.86%,胶囊神经网络的识别准确率为80.59%,证明胶囊层在特征提取方面具有优异能力。注意力机制胶囊神经网络在信噪比为-5dB时,识别准确率到达94.69%,可见注意力机制胶囊神经网络的抗噪能力较强,可以提取到更多有用的特征参数。

▲图8 添加噪声信号后轴承故障诊断准确率

5.5 小样本情况分析

深度学习网络过度依赖大量数据支持,而在现实工作中,复杂的工作环境导致不可能获取足够多的各类故障样本,出现数据量小且失衡的情况,过少的数据会导致网络过拟合。由此可见,提高小样本情况下的轴承故障诊断准确率同样十分重要。为了验证注意力机制胶囊神经网络在小样本情况下的轴承故障诊断准确率,减小数据量,进行对比试验。小样本情况训练集和测试集见表2。

表2 小样本情况训练集和测试集

设置三组数据,数据采用原始信号,第一组每类1 000个,第二组每类500个,第三组每类300个,试验结果如图9所示。由图9可以看出,当数据样本足够多时,三种模型识别准确率都很高,注意力机制胶囊神经网络的识别准确率甚至能够达到100%。当数据较少,只有300个时,卷积神经网络和胶囊神经网络的识别准确率大大降低,卷积神经网络甚至出现过拟合现象,注意力机制胶囊神经网络则仍然保持较高的识别准确率。

6 结束语

笔者通过研究深度学习在轴承故障诊断中的应用,针对卷积神经网络和胶囊神经网络的弊端,提出基于注意力机制胶囊神经网络的轴承故障诊断方法。这一轴承故障诊断方法结合经验模态分解,不仅可以对原始信号进行降噪,还可以融合多个本征模函数作为输入信号,得到三维数据,使数据含有的特征信号更加丰富。加入通道注意力模块和空间注意力模块,可以提取到数据中更敏感的特征参数。对比试验表明,注意力机制胶囊神经网络在抗噪能力和小样本情况下均具有较强的识别能力和较高的识别准确率。