基于双注意力机制的MSCN-BiGRU的滚动轴承故障诊断方法
2024-04-11邓艾东马天霆张宇剑
王 敏, 邓艾东, 马天霆, 张宇剑, 薛 原
(1. 东南大学 能源与环境学院,南京 210096;2. 东南大学 大型发电装备安全运行与智能测控国家工程研究中心,南京 210096)
随着生产力需求的高速增长和科学技术的迭代升级,大型旋转设备逐渐向着智能化、精密化和集成化发展。轴承是现代旋转设备的重要组成部分,是机械设备故障诊断的研究重点[1]。轴承损坏进而导致设备发生故障、停机,造成经济损失和人员伤亡[2]。因此,开展轴承故障诊断研究对保障设备的安全稳定运行和减少生产事故具有重要意义。
针对滚动轴承的故障诊断方法从一开始的基于专家经验和知识的故障判断,逐渐发展到基于机理解析模型驱动和数据驱动的故障诊断方法。近几十年来,由于计算机技术的发展和人工智能的兴起,基于机器学习和深度学习的故障诊断方法受到了越来越多的关注,并被广泛应用于滚动轴承的故障诊断,常见的机器学习方法如K-近邻算法[3]、支持向量机(support vector machines, SVM)[4]和随机森林[5]等,已经取得了不错的进展,但它们通常需要一定的专家知识,泛化性能较差,很难满足复杂工业环境的需求[6]。
深度学习可以自动从信号中提取特征,相比前述方法降低了故障诊断对专业知识的依赖程度,通过历史运行数据就可以完成故障诊断任务,减少人为因素对信号特征提取过程的影响,逐渐成为智能故障诊断发展的基础。深度学习方法目前已在图像识别、自然语言处理等方面取得了突出成果,尤其是在解决各种分类问题方面具有显著优势,因此也被越来越多的研究人员引入故障诊断领域[7]。卷积神经网络(convolutional neural network, CNN)作为经典的深度神经网络模型之一,已经成为故障诊断领域的研究热点[8]。Eren等[9]将原始振动信号作为输入,并使用轻量自适应的1D-CNN诊断轴承故障。试验表明,CNN提取的特征比人工特征具有更高的诊断精度。Gao等[10]使用一种基于扩展的第一层宽核深度卷积神经网络和长短时记忆的新型混合深度学习方法,以提高复杂环境中旋转机械的故障诊断精度。Hao等[11]将ResNet用于轴承故障诊断,用全局平均池化层代替全连接层,解决了ResNet计算量大的问题,试验表明改进算法的故障诊断率可靠,训练时间缩短。Smith等[12]提出了一种基于CNN和信息融合的轴承故障诊断方法,利用CNN提取并融合电机电流多相特征,并用机器学习算法进行分类。Hasan等[13]提出基于1DCNN的微调网络模型,该方法将振动信号从时域转换到频域后输入到网络中完成变工况下的故障诊断。Szegedy等[14]提出了一种新的诊断框架,进一步深入设计卷积网络层模块,并将其应用于工况复杂变化情形下的故障诊断。可见,CNN具有强大的特征提取能力和有效的故障诊断能力。
尽管以上CNNs诊断模型在各自诊断领域均表现出可行性,但仍存在着以下几个问题:
(1) CNNs诊断模型为了降低网络参数量,提高计算效率,通常使用单一的小尺度的卷积核,无法捕获复杂振动信号的多尺度特性。
(2) CNNs诊断模型中不同通道的特征图对故障特征的识别程度有差异,并不是所有的特征图都能很好地表达故障类别特征,对通道的无差别利用导致了一定程度的特征冗余,这使得整个网络结构复杂且造成算力浪费。
(3) 振动信号是一种时域信息,仅使用CNN无法获得更丰富的多层次振动信号特征。
针对上述问题,考虑到滚动轴承运行工况复杂,提出一种基于双注意力机制的多尺度卷积网络(dual attention and multi-scale convolutional networks,DAMSCN)与改进的双向门控循环单元(bidirectional gated recurrent unit, BiGRU)组成的故障诊断模型 DAMSCN-BiGRU。该模型以原始振动信号作为输入,通过多尺度特征融合模块(multi-scale feature fusion module,MSF)提取振动信号的多尺度特征,然后通过注意力机制使模型专注于重点特征,接着利用改进BiGRU捕获振动的信号的时域特征,最后通过Softmax层实现故障诊断。
1 卷积神经网络
受生物学神经元结构启发,Logistic单元被用来模拟神经元,组成了人工神经网络。在此基础上,卷积神经网络通过直接输入原始数据图像进行特征提取,在图像识别和模式分类的任务中应用最为广泛。卷积神经网络一般由输入层、卷积层、池化层、全连接层以及输出层组成,其中卷积层和池化层交叉堆叠用于输入特征提取,而全连接层和输出层进行预测分类,在结构上具有局部连接、权值共享和汇聚的特征,其结构如图1所示。
图1 CNN结构Fig.1 Diagram of CNN
1.1 多尺度卷积神经网络
近年来,卷积神经网络在轴承故障诊断中得到了广泛应用。然而,单一尺度的卷积神经网络在卷积核尺寸过大时会丢失一些局部信息,在卷积核尺寸过小时又容易忽略全局特征。对于滚动轴承来说,其故障特征频率往往分布在不同尺度的振动信号中,且这种差异还会受到工况变化以及环境噪声的影响,为解决这个问题,多尺度卷积神经网络(multi-scale convolutional neural networks, MSCNN)[15]通过使用不同尺寸的卷积核对数据进行卷积提取多个尺度的特征,随后将其进行融合,以弥补各自尺度下对数据特征认识的片面性。其结构如图2所示。
图2 MSCNN结构Fig.2 Diagram of MSCNN
卷积核尺度的不同意味着卷积过程中感受野窗口的不同,也就是说可以得到粗粒度不同的特征。在MSCNN中,不同尺度的卷积核以并行的方式学习不同空间尺度上的故障特征。MSCNN结构可以通过1×1和3×1的小卷积核提取高频故障特征,利用7×1的大卷积核提取低频故障特征。从多个不同感受野提取的特征具有捕获全局和局部信息的能力。通过将多尺度特征进行融合能够得到丰富的表征轴承故障特征的信息。
1.2 双注意力机制
由于采集的振动信号中含有环境噪声、转速等信息,为了让模型重点学习与诊断识别信息强相关的特征,提高故障分类效果,引入注意力机制用于轴承故障诊断。本文采用通道注意力和空间注意力级联组成的双注意力模(dual attention module, DAM)分别对每个变量特征从通道和空间两个维度计算特征重要程度并分配权重,使故障诊断模型能有效区分和利用多尺度特征。
通道注意力(channelattention, CA)聚焦在有意义的输入图像,典型代表模型是压缩和激励网络(squeeze-and-excitation networks,SE)。SE分为压缩和激励两个部分,其中压缩部分的目的是对全局空间信息进行压缩,然后在通道维度进行特征学习,形成各个通道的重要性,最后通过激励部分对各个通道分配不同的权重。
CA模块的结构如图3所示,由一个全局池化、两个卷积层、一个ReLU激活函数和一个Sigmoid激活函数组成。全局池化采用平均池化,它的作用是在空间上把每个特征图将维数从H×W×C压缩至1×1×C,即把H×W压缩为1×1 维,而卷积层和激活函数则是给不同通道的特征图赋予不同权重值,得到各个通道的重要性。对于输入特征集合M={m1,m2,…,mi,…,mc},其中mi∈R1×W代表某个长度为W的特征图。特征集合M首先经过全局平均池化变为Z∈R1×c,即压缩每个通道的空间特征,如式(1)所示
图3 通道注意力结构Fig.3 Channel attention structure
图4 空间注意力结构示意图Fig.4 Diagram of spatial attention
(1)
输入特征集合M被压缩空间后变为Z,再经过两个卷积层和激活函数变为Z*,计算公式如下
Z*=δ{F2{σ[F1(Z)]}}
(2)
式中:F1、F2表示使用通道数为1,卷积核大小为1×1进行卷积运算;σ(·)为ReLU激活函数;δ(·)为Sigmoid激活函数;Z*为每个通道的重要程度,为每个通道赋予不同的权重值。Z*最终与输入特征集合M相乘,得到新的特征集合,如式(3)所示
(3)
为了保留原始信息,利用残差学习的思想,将残差连接引入到通道注意力的计算中,增加进一步优化的可能性。公式描述为
Y=G+M
(4)
式中,Y为富含权重信息和原始信息的特征集合。
空间注意力基于通道的方向,聚焦特征图上区域信息的重要性,是对通道注意力的补充。空间注意力模块的输入是通道注意力模块的输出,对输入特征图,在通道维度上分别进行全局池化和平均池化,得到压缩后的通道特征图,然后按照通道拼接全局池化和平均池化的结果,得到维度H×W×2特征图,最后进行卷积和激活得到H×W×1的空间注意特征图。其计算公式如下
Ms(F)=σ{f{[AvgPool(F);MaxPool(F)]}}=
σ(f([Favg;Fmax]))
(5)
式中:f为卷积操作;σ为ReLU激活函数。
1.3 双向门控循环神经网络
MSF能够提取振动信号的空域特征,为了捕获振动信号的时域特征,将GRU引入所提模型结构。GRU的结构如图5中所示,GRU有两个门控单元:重置门和更新门,以调节输入的信息流。重置门决定应该重置的先前时间步的数量,而更新门决定要更新到当前时间步的量。GRU的计算和更新过程可描述如下
图5 GRU结构Fig.5 Diagram of GRU
rt=σ(Wr·[ht-1,xt]+br)
(6)
ut=σ(Wu·[ht-1,xt]+bu)
(7)
(8)
(9)
单向GRU只能根据前一时间的信息预测当前时间的输出。而双向GRU(BiGRU)可以考虑到未来状态与当前状态的关系。其结构如图6所示,它由两个相互叠加的GRU组成,输出由两个GRU的状态决定。
图6 BiGRU结构Fig.6 Diagram of BiGRU
(10)
(11)
(12)
式中:U和W分别为隐藏状态和输入的权重矩阵;b为偏置项; 箭头为时间转移的方向。
2 故障诊断模型DAMSCN-BiGRU
DAMSCN-BiGRU的总体结构如图7所示。由多尺度特征融合模块MSF、双注意力模块DAM和改进BiGRU的混合网络组成。其中,MSF是对MSCNN的改进,改进BiGRU用于捕获时域信息,提取更丰富的特征。
图7 DAMSCN-BiGRU结构Fig.7 Diagram of DAMSCN-BiGRU
图8 多尺度特征融合模块(MSF)Fig.8 Multi-scale feature fusion module
图9 DAM示意图Fig.9 Diagram of DAM
首先,将轴承原始振动信号作为模型的输入,然后通过多尺度特征融合模块经历特征提取、选择和融合三个阶段来提取多尺度特征并进行融合。将融合的多尺度特征输入DAM模块,削弱冗余特征对模型性能的干扰,然后将高维多尺度特征进行全局平均合并以降低维数,再输入BiGRU层提取时域特征。最后,将特征输入到全连接层,以通过Softmax层进行分类。其中MSF模块分为三个步骤进行计算。
特征提取阶段使用三组尺寸为1×k的一维卷积对原始输入提取特征,以获取不同尺度的时序特征,公式如下
hn=X(i)(n)
(13)
(14)
(15)
(16)
(17)
特征融合阶段将权重与特征相乘并求和,完成特征自适应融合。
(18)
DAM模块由通道注意力和空间注意力级联得到,将MSF的输出通过卷积组提取特征作为模块的输入。
此外,在BiGRU层,为了聚焦重要时刻特征,添加注意力机制,改进后的BiGRU示意图,如图10所示。
图10 改进BiGRUFig.10 Diagram of improved BiGRU
为了降低计算量和避免训练过程中神经元死亡,本文对激活函数进行了修正,主要公式如下
(19)
当输入x>0时,输出等于输入,导数恒为1,保留了RELU函数计算简单,收敛速度快的特点。而当x≤0时,f(x)可微且非线性;f(x)无上界,而x→-∞时f(x)存在下界,使得模型拥有较强的抗干扰能力和正则性,同时避免了梯度消失的问题。
3 试验研究及分析
3.1 数据集描述
试验使用的滚动轴承数据集由凯斯西储大学的轴承数据中心提供。测试平台使用16通道采样频率为12 kHz的数据记录仪采集振动信号,并使用扭矩传感器测量负载和速度。测试平台示意图如图11所示。本文试验在Windows 10的64位操作系统下进行,内存为16 GB,处理器为Intel(R)Core(TM) i7-12700 CPU。所用深度学习框架为TensorFlow和Keras,编程语言为Python 3.6。
图11 CWRU滚动轴承测试平台示意图Fig.11 CWRU rolling bearing test platform
试验中使用电机驱动端型号为SKF6205的滚动轴承在负载为0.75 kW、1.50 kW、2.25 kW时采集的振动信号。通过电火花加工技术对轴承进行单点损伤加工,数据包含正常状态(Normal State)及三种不同故障状态,内圈(Inner Race),外圈(Outer Race)以及滚动体(Ball)的振动信号四种状态,每种故障状态又存在三种尺寸的损伤,分别为0.18 mm、0.36 mm和0.54 mm,因此每种负载下总共有10种轴承状态。试验中对每种负载下的每个样本取2 048个样本点的振动信号作为试验数据,其中每种负载的训练集为1 200个样本,测试集为300个样本。试验数据详细信息如表1所示。
表1 试验数据详细信息Tab.1 Details of the test data
3.2 恒定工况下故障诊断结果与分析
首先验证模型DAMSCN-BiGRU在恒定工况上故障诊断的有效性,分别使用BP网络、1DCNN、MSCNN、DAMSCNN、BiGRU进行比较。表2展示了各模型在不同负载下的精度,DAMSCN-BiGRU的诊断精度分别为99.2%、99.9%和99.9%。其诊断精度分别比BP神经网络高27.9%、40.9%、32.9%。结果表明,基于浅层网络的轴承故障诊断方法的性能不如基于深层网络的轴承故障诊断方法。基于时域特征的BiGRU平均诊断精度为92.4%,总体不如基于空域特征的深度学习方法。在恒定工况下,基于混合网络的DAMSCN-BiGRU优于其他模型,能够实现对轴承振动信号的故障精确诊断。
表2 不同负载下模型诊断精度Tab.2 Model diagnostic accuracy under different loads 单位:%
为进一步证明DAMSCN-BiGRU的有效性,将0.75 kW、1.50 kW、2.25 kW的轴承振动数据组合起来,构造一个新的混合负载数据集。各模型在混合负载测试集上的可视化诊断结果,如图12所示。DAMSCN-BiGRU在迭代的初始阶段就达到99%诊断精度,经过六次迭代后能够稳定保持100%诊断精度。MSCNN和1DCNN经过不断迭代,诊断精度也能达到100%,但不如DAMSCN-BiGRU稳定。BiGRU和BP模型的总体诊断精度低于95%。证明了DAMSCN-BiGRU在恒定工况下故障诊断任务中的有效性。
图12 各模型诊断结果Fig.12 Figure of the diagnosis results of models
3.3 变工况下故障诊断结果与分析
工况变化是常见的生产需求,为了模拟轴承设备工况变化情形,通过设工况的负载A-B为一组变工况诊断任务,表示源工况是从电机负载为A的轴承状态信号中采集,目标工况是从电机负载为B的轴承状态信号中采集。六组变工况任务详细描述,如表3所示。
表3 变工况任务详细描述Tab.3 Detailed description of the variable condition task
为了验证本文所提模型在变工况任务下的诊断能力,用不同工况下的数据分别进行训练和测试。在图13中对源工况和目标工况时域信号的数据分布差异进行可视化。
图13 源工况和目标工况时域信号可视化结果Fig.13 Time domain signal difference between source and target operating conditions
可以看出不同工况中相同轴承状态的轴承时域信号幅值变化有较强的随机性,且数据分布因负载和速度的变化而存在周期性差异,导致故障诊断模型在变工况下泛化能力急剧下降。
将BiGRU、1DCNN、MSCNN和DAMSCNN与DAMSCN-BiGRU在变工况任务下做比较,试验结果如表4和图14所示。多尺度卷积能有效弥补单一尺度卷积的不足,提高故障诊断精度。然而,在变工况任务中1DCNN和MSCNN的表现相似,这说明MSCNN虽然能够提取源工况的丰富的特征却无法完全应用到目标工况。DAM模块能够使DAMSCNN专注于故障特征,弱化工况敏感的冗余特征,因此诊断性能与MSCNN相比提升显著。本文模型在所有对比模型中表现最好,平均诊断精度达到98.3%,比仅使用单一网络结构的BiGRU和MSCNN分别高出17.6%和12.1%。这是由于DAMSCN-BiGRU结合了二者捕获空域和时域特征的能力,在变工况情形下具有更强的泛化性和鲁棒性。
表4 变工况任务试验结果Tab.4 Details of the test data 单位:%
图14 变工况任务试验结果Fig.14 Figure of the diagnosis results of models
为进一步分析DAMSCN-BiGRU在变工况下的特征提取能力,使用t-SNE对各模型的输出层特征进行可视化展示,如图15所示。t-SNE能够将高维数据降低至2维,其中,数字和颜色代表样本的类别,具体可在表1中找到类别的详细信息。不同颜色的点越分离,同种颜色的点越聚集,代表模型对不同故障类型的可识别程度越高。观察发现,MSCNN虽然能将不同故障类型分离,但同一类型故障特征较为分散,这是由于在变工况下多尺度融合后的特征冗余现象更加突出,对模型的学习造成干扰。因此,MSCNN在变工况下诊断性能反而不如1DCNN。添加DAM模块后的MSCNN同一故障特征显著聚集,特征重叠现象减少。与其他模型相比DAMSCN-BiGRU能够通过学习源工况的信息使目标工况不同故障类型特征汇聚在一起,几乎没有离散点,表明DAMSCN-BiGRU在变工况下能够有效区分目标工况的故障特征,具有良好的泛化性。
图15 t-SNE可视化结果Fig.15 Feature classification map for t-SNE visualization
3.4 抗噪性能分析
工业生产中滚动轴承的运行条件经常变化,传感器采集到的振动信号包含环境噪声,而且在轴承故障发生早期,振动特征表现不明显,噪声对振动信号的干扰不可忽视,因此针对滚动轴承的故障诊断模型需要具备稳定可靠的抗噪声干扰能力。工程中,通常使用信噪比衡量信号与背景噪声的强弱,用于比较信号的强度与背景噪声的强度,其定义式如下
(20)
式中:Psignal为信号功率;Pnoise为噪声功率;Asignal为信号幅度;Anoise为噪声幅度。
本文试验使用信噪比从-10~10 dB的高斯白噪声来模拟实际工业生产中的环境噪声,将其加入到原始振动信号中得到含噪声的模拟信号,为了验证DAMSCN-BiGRU模型的抗噪能力,对比了传统机器学习模型SVM,和其他深度学习模型:深度神经网络DNN、深度残差收缩网络(deep residual shrinkage network,DRSN)、第一层宽卷积核深度卷积神经网络(deep convolutional neural networks with wide first-layer kernel,WDCNN)以及基于训练干扰的卷积神经网络(convolution neural networks with training interference,TICNN),同时分别对深度学习模型进行优化,其中DNN中添加Dropout层,TICNN和WDCNN引入AdaBN,DRSN使用降噪编码器来提高各模型的抗噪声干扰能力。试验结果如图16和表5所示。
表5 不同噪声强度下各模型测试结果
图16 不同噪声强度下各模型分类精度Fig.16 Classification accuracy of each model under different noise intensities
图17 注意力机制对模型抗噪性能影响Fig.17 Influence of attention mechanism on anti-noise performance of the model
进一步验证注意力机制对噪声环境下模型诊断性能的影响,使用未添加注意力模块的MSCNN-BiGRU模型进行消融试验。试验数据为10次测试结果平均值,由试验结果可知,随着噪声强度增大,各个模型的准确率明显下降,然而本文所提模型在-10 dB的强噪声条件下仍有着较高的准确率(85.3%),在所有噪声强度下高出五种故障诊断型,且当信号强度大于噪声强度时能够稳定保持在96%以上的准确率。
通过消融试验可知,添加双注意力机制的网络可有效抑制噪声干扰,对模型的抗噪声性能起到了正向增益。分析结果验证了DAMSCN-BiGRU模型具有较好的抗噪性能和稳定性。
3.5 模型复杂度评估
时间复杂度和空间复杂度是衡量模型的两个重要指标,时间复杂度反映了算法的运行速度,决定了模型的训练及预测时间。空间复杂度决定了模型的参数数量,主要衡量算法临时占用存储空间的大小。模型的参数越多,训练模型所需的数据量就越大,当数据集较小时,容易导致模型的训练过拟合。一般用模型计算量(FLOPS)和访存量来度量时间和空间复杂度。主要计算公式如下
FLOPs=(2×Ci×K2-1)×H×W×Co+
(2I-1)O
(21)
式中:Ci为输入特征图通道数;K为过卷积核尺寸;H、W、Co为输出特征图的高度,宽度和通道数;I为全连接层输入层的维度;O为输出层的维度。
Bytes=Ci×K2×Co+Co+2×Ci+
Ti×To+To
(22)
式(22)第一项是卷积层参数量,第二项为BN层参数量,第三项为全连接层参数量,其中Ti为输入向量的长度,To为输出向量的长度。本模型以及经典卷积神经网络模型的计算量和访存量对比,如表6所示。
表6 模型复杂度对比Tab.6 Comparison of model complexity
可以看出,相比于经典的小卷积核神经网络模型,本文所提模型在加入大尺寸卷积核之后,通过对多尺度特征融合模块的优化,消耗更少的内存访问,具有更高的FLOPS,在保证模型优异性能的同时实现更快的执行速度和更低的延时。
4 结 论
针对故障诊断模型在变工况下诊断性能降低问题,提出了一种新的滚动轴承故障诊断模型DAMSCN-BiGRU。通过混合的网络结构,利用MSCNN提取空域特征,引入通道注意力和空间注意力组成双注意力DAM模块去除多尺度融合特征中的冗余特征,采用改进的BiGRU提取时域特征。其主要优势与特点如下:
(1) 设计的多尺度特征提取与融合模块能充分捕获振动信号的多尺度特征,同时在保证充分提取信号特征的前提下,减少了网络堆叠层数,降低了模型参数量和计算次数,提高计算效率。
(2) 融入双向门控循环神经网络,最大限度上利用振动信号的时域信息。
(3) 模型多处使用注意力机制,有效去除冗余特征,提高故障分类效果。
经过凯斯西储大学公开数据集验证,在恒定工况下DAMSCN-BiGRU能够达到接近100%的诊断精度。与其他模型相比,DAMSCN-BiGRU在六组变工况任务中的诊断性能是最好的,平均诊断精度达到98.2%,在强噪声干扰下诊断准确率能保持在85%以上。试验结果有效表明DAMSCN-BiGRU在变工况任务和强噪声下具有良好的泛化性和鲁棒性,对滚动轴承智能故障诊断系统的发展提供了新思路。
在实际工程项目中,应首先对电厂历史运行数据进行预处理,提取有效的正常和故障状态数据,将其按照工况划分数据集,用以训练本模型学习轴承各种状态下的振动特征,然后将各个工况下训练好的模型与其他机器学习算法结合用于在线智能故障诊断,一般方法是采集运行数据,经过数据清洗和特征提取后作为本模型的输入,通过模型输出结果判断轴承状态,实现故障诊断功能。
虽然DAMSCN-BiGRU在变工况下取得了有效的诊断结果,但仍有一些不足:
(1) 所提模型仅使用MSCNN对轴承振动信号进行多尺度特征提取,但没有考虑MSCNN-BiGRU对模型的影响。因此,后续研究的会对MSCNN-BiGRU组合模型进行尝试。
(2) 实际工程环境中各类故障随机发生,样本数据缺失,不平衡的情况不可避免,为了更好地贴合实际,后续将考虑采用数量不平衡的故障数据进行训练和测试。