融合注意力机制的二维CNN变工况轴承故障诊断

2022-09-08朱国庆谢由生

安徽理工大学学报（自然科学版） 2022年2期

张军，朱国庆，谢由生

(1安徽理工大学人工智能学院，安徽淮南 232001；2安徽理工大学机械工程学院，安徽淮南 232001)

随着工业的发展和智能制造的推进，现代工业趋于智能化、集成化、自动化。滚动轴承作为现代工业中关键机械设备，长期运行在高温、高强度、重负荷等恶劣环境下，若产生故障可能导致严重后果，造成严重的人员和经济损失。因此，滚动轴承的故障诊断具有十分重要的意义[1-2]。

传统的故障诊断主要使用基于知识的信号处理方法和基于机器学习的方法，信号处理的方法主要包括经验分解模型(Empirical Mode Decomposition，EMD)、傅里叶变换等[3-5]。这些方法虽然有进步，然而面对海量的数据及复杂的非线性关系时，由专家设计的信号特征提取到条件映射很大程度上取决于先验知识，无法自动分类和自适应的检测和分类，导致时间消耗大，效率很低，无法满足大数据时代下的需求。

随着人工智能的兴起，二十世纪九十年代，支持向量机(Support Vector Machine，SVM)[6]和K最近邻(K-Nearest Neighbor，KNN)[7]等分类算法在故障诊断方面得到快速发展，虽然可以实现批量处理数据，具有一定的非线性拟合能力，但是因其简单的网络结构难以提取到深层的特征信息而准确率较低，因此如何更准确且高效地诊断十分重要。

近年来，随着电子计算机硬件的提高，深度学习在2006a由文献[8]首次提出，由于其叠加多个非线性层，使其能够从原始数据中学习到更高级的特征，取得了前所未有的进步，因而得到蓬勃发展，已经席卷多个领域，包括自语言处理(Natural Language Processing，NLP)[9]、计算机视觉等领域[10]，由于其强大的特征提取能力和学习能力被应用到故障诊断方面。卷积神经网络(Convolutional Neural Networks，CNN)作为主流代表的算法之一，因其出色的表征学习能力非常适合大量数据的处理，在图片特征提取和分类方面发挥关键作用，最初用于一些二维图像分类中，近几年在滚动轴承的故障处理方面得到进一步应用[11]。其中，文献[12]及文献[13]分别应用短时傅里叶变换(Short-time Fourier Transform， STFT)和连续小波变换(Continuous Wavelet Transform，CWT)将采集到的一维振动信号进行前处理，变为二维灰度图像，将其输入卷积神经网络；文献[14]首次提出了一种轻量的注意力模块(Convolutional Block Attention Module，CBAM)，包含通道注意力模块和空间注意力模块。虽然上述文献相对于传统方法都取得了不错的故障识别，但也存在两个问题：一是未考虑在变工况时，同种故障存在不同的频率范围；二是对于微小的故障特征，卷积网络不能有效地提取。

对于上述不足，本文提出融合注意力机制的卷积神经网络，将采集到的一维信号用短时傅里叶变换处理成二维图像作为输入，能够更有效地利用时频结合挖掘故障特征信息，并在各卷积层内加入卷积注意力机制(Convolutional Block Attention Module，CBAM)，帮助提取更重要的特征信息，从而在变工况下提高识别准确率。

1 方法介绍

CNN因其具有良好的表征学习能力得到广泛的应用，故提出了一种融合注意力机制的改进CNN方法。

1.1 卷积神经网络

卷积层旨在提取图像特征，经过迭代不断提取更复杂的特征，卷积运算表达式如式(1)所示。

(1)

本文选择ReLu(Rectified Linear Unit)作为CNN的激活函数,表达式如式(2)所示。

yijm=max(0,xijm)

(2)

式中：xijm为第m张图片在(i，j)处的值。

池化层也称为下采样层，其目的是在保留主要特征的基础上减少图片的维度。本文采取最大池化方法，表达式如式(3)所示。

yijm=max(ypqm)

(3)

式中：ypqm为第m个图片在p.q窗口内的值。

softmax函数是逻辑分类器的推广，将多个神经元输出的样本集合映射到(0,1)区间内，得到集合中一类的概率，如式(4)所示。

(4)

式中：zi为第i神经元的输出；M为总类别个数；K为类别索引。

1.2 注意力机制

注意力机制(Attention Model)最早应用在机器翻译，一般采用自编码的方式进行序列的转换。注意力机制源于人类的视觉方式研究，后被广泛应用于自然语言的处理等方面。

CBAM包含两个子模块：通道注意力模块和空间注意力模块，依次进行通道和空间的“注意”。输入的图片F(高×宽×通道)分别经过最大池化层和全局平均池化层，得到高度和宽度均为1的特征图，接着输入两层共享感知机网络，然后将输出逐个加和，经过激活函数生成通道注意力特征；然后将其作为空间注意力模块的输入，通过全局最大池化和全局平均池化，得到高×宽×通道数的特征图，将其基于通道数融合，先经过卷积核为7或者3的卷积层，再经过激活函数之后，利用广播机制与输入对应相乘输出如式(5)和(6)所示

F′=MC(F)⊗F

(5)

F″=MS(F′)⊗F′

(6)

式中：F∈RC×W×H,MC∈RC×1×1，MS∈R1×H×W,为对应元素相乘，C、W、H分别代表通道数、宽和高；F′为经过通道“注意”模块图片；F″为经过空间“注意”模块图片。

1.3 多特征提取

在轴承的故障诊断中，不同的故障在频域上的特征受到噪声、故障类别和工况的影响，导致振动信号十分复杂，这对故障识别的难度加大。基于inception模块[15]，本文提出使用多尺度卷积神经网络改进CNN，从而构建多尺度卷积神经网络，并将其应用于轴承的故障诊断(见图1)。采用3个不同大小1×1、3×3、5×5的卷积核对短时傅里叶变换处理后的图像进行特征提取，比起以往卷积、池化再卷积的纵向加深，此方法可以在横向更多地提取细微的重要特征；之后经过融合层将特征汇集到一起，再经过CBAM注意力机制，对采取到的横向特征中最重要部分给予更多的“注意”，将这部分特征影响因子加重，从而提高模型的准确率，减少过拟合现象发生。再经过池化层，对图片下采样并输出到下一层。

图1 多特征提取模块

1.4 融合注意力机制的CNN网络框架

基于二维CNN卷积神经网络，原始数据经过短时傅里叶变换之后，进入多特征提取模块，分别经过3个并行的卷积核提取图像特征，经池化后融合成一个一维特征集，其主要目的是利用不同大小的卷积层将差别较大的重要特征部分提取出来。再经过注意力机制，对重要特征给予更多“注意”，下采样之后输出给卷积层。此处的多特征提取模块也相当于是一个卷积层。之后再经过反复的卷积池化(共4次)，传递给全连接层，用交叉熵损失函数计算模型预测值和真实值不一致的程度。

1.5 滚动轴承的故障识别过程

利用图2网络结构进行轴承数据集故障识别过程如下：

图2 融合注意力机制的改进CNN模型

步骤1 数据前处理，利用短时傅里叶变换将一维振动信号转换为二维图像，给图像设置好标签并分为训练集和测试集；

步骤2 初始化1.4所提网络结构，设置合适学习率及优化器等；

步骤3 将训练数据集导入所选的网络模型进行训练；

步骤4 利用验证集测试网络的故障分类性能。

2 实验验证

本文使用江南大学轴承数据中心的数据集作为实验数据。

2.1 故障数据集描述与处理

江南大学数据集由3个不同转速的轴承振动数据集组成，数据采集频率为50kHz，数据集包含一种健康状态和3种故障模式：内圈故障、外圈故障和滚动元件故障。

设计单工况模型验证。选择1 000r/min工况的数据集，按照3∶1划分为训练集和测试集，训练集每种故障类型选取480个, 测试集每种故障类型选取160个，每个样本包含1 024个点；设计变工况模型验证，如表1所示。根据不同的工作条件，按照训练集和测试集3∶1比例划分，训练集从1 000r/min工况下获取，每种故障选取480个，验证集从800r/min工况下获取，每种类型选取160个，每个样本包含1 024个点。

表1 变工况数据集的划分

重构输入数据格式。实验测得的原始数据是一维时间序列的振动信号(见图3)。为提高特征识别能力，引入时频域之间的关系，将一维时域原始信号映射到频域。将原始数据采样长度设置为1 024，以保证覆盖至少一个故障周期，然后对输入数据进行归一化处理,以加快训练的速度如式(7)所示。

图3 振动信号

(7)

式中：y为测量到的原始信号；x为归一化后的信号。进行短时傅里叶变换，重构为[33,33]的二维图像，如图4所示。

图4 短时傅里叶变换后图像

2.2 模型结构参数

实验在Windows系统，AMD锐龙AMD Ryzen 53550H处理器、16GB内存的计算机上，使用pytorch深度学习框架进行。batch-size取32，学习率取0.01。优化器选择常用的Adam优化器，网络具体参数如表2所示。

表2 模型参数

2.3 实验结果分析

将训练样本和验证样本输入到模型中，初始化参数训练，迭代15轮之后，达到稳定状态。随着训练的进行训练样本和验证样本的正确率如图5所示。

图5 准确率变化曲线

从表2和图5中可知故障分类的单工况下的平均准确率可以达到99.6%，变工况下的平均准确率可以达到98.41%。从图5中可以看出模型无论是单工况还是变工况均达到很高的准确率，说明加入多特征提取模块对特征的提取非常有效。

图6展示了变工况条件下，模型迭代第15次的混淆矩阵。从图6可以看出除滚动元件的识别误判为其他状态，其他3种状态的识别率很高，外圈故障达到100%。由此可见，利用多特征提取并融合卷积神经网络进行故障识别十分有效。

图6 混淆矩阵

2.4 对比分析

为了验证本文网络在变工况下的故障识别率，建立BP神经网络、SVM(支持向量机)和Alex网络，并与本文所提网络使用同一数据集进行对比试验。虽然前两者输入特征有区别，但采用同一数据集仍具有比较意义。各网络参数如下：BP神经网络选择4层神经网络，输入层神经元数为1 024，隐藏神经元个数为768和384，激活函数选择Relu；SVM依据论文[16]选择常见的特征参数，Alex网络选择与本文所提网络相同的参数，将输入的通道数改为图像通道数。为减小每次训练的偶然误差，重复3次实验取平均准确率，将每种类型的准确率绘成表格，结果如表3所示，图7对表3给出了更直观的表示。类别1～4分别代表健康状态、内圈故障、外圈故障和滚动元件故障。

表3 不同类别的准确率

图7 变工况下模型准确率对比结果

从表3中可以看出类别1的准确率最高，类别4的准确率相对最低，可能因为数据本身与其他种类的相似程度较高，较难分类。但本文所提方法在每种类型的分类中都高于对比网络，在类别1中准确率更是高达100%，相比标准卷积神经网络整体提高了3%的分类准确率，证明了多特征提取模块的有效性，取得较大的进步。传统BP网络可能因为网络层数和神经元的个数选择，导致准确率低。SVM由于需要构造特征向量，在对比网络中所选择的是常用的向量参数，可能由于信号特征不明显导致分类准确率不高。因此本文所提网络比传统机器学习模型先验知识要求更低、更稳定。相比而言，本文所提的方法在变工况条件下的故障分类的准确率更高、泛化性更好。

3 结论

本文提出了一种融合注意力机制的二维卷积神经网络，基于inception网络设计了卷积层，并融合CBAM(卷积注意力机制)。采用江南大学的轴承数据集进行验证，用短时傅里叶变换对原始一维信号进行处理，构造二维图像作为模型输入，得到以下结论：

(1) 融合卷积注意力模块的多特征提取卷积模型无论在单工况下还是变工况条件下模型平均准确率都很高，解决了变工况条件下泛化能力差的问题；

(2) 与其他模型相比，使用融合注意力机制二维卷积神经网络能够适应变工况下的故障识别。相比无多特征提取模块和注意力机制的卷积网络，融合卷积注意力机制和多特征提取模块更好地提取了故障的特征，增强了识别准确率。与传统BP网络和SVM相比，本文提出的方法故障识别率达98.41%，远高于前两种方法的79.6%和88.42%，且结果不依赖特征向量，易于训练，满足轻量化的要求，体现出方法的实用性和有效性。

本文的不足之处在于，对于网络的超参数，如学习率等选取未进行详细分析。因此，后续将针对网络的超参数进行进一步分析。