不同转速下基于深度注意力迁移学习的滚动轴承故障诊断方法
2022-06-29陈仁祥唐林林胡小林杨黎霞
陈仁祥, 唐林林, 胡小林, 杨黎霞, 赵 玲
(1. 重庆交通大学 交通工程应用机器人重庆市工程实验室,重庆 400074;2. 重庆工业大数据创新中心有限公司,重庆 400056; 3. 重庆科技学院 工商管理学院,重庆 401331)
滚动轴承是旋转机械中广泛应用的关键机械零部件,其运行状态直接影响机械设备的整体性能。实际工作中轴承运行工况复杂多变,测试得到的信号易被调制呈现出明显的非线性与非平稳性,难以提取故障特征,同时轴承往往在不同转速工况下运行,所带来的数据分布差异使得轴承故障诊断变得愈加困难[1]。
近年来,深度神经网络能进行特征自提取的优势在故障诊断领域得到了成功应用。如栈式自编码(stacked auto encoder,SAE)[2]、深度置信网络(deep belief network,DBN)[3]、卷积神经网络(convolutional neural network,CNN)[4]等被国内外不少学者应用于机械故障诊断领域。但SAE和DBN对数据的局部特征和移变特征处理不足,无法捕捉数据的局部特征和移变性,而CNN作为当前深度学习的代表,具有参数共享性和平移不变性的特点,能够提取更为鲁棒的特征[5]。王震等[6]利用卷积神经网络构建自适应特征提取器,提取轴承的深层特征,实现故障类型的分类。荆云建等[7]将卷积神经网络与支持向量机结合,实现特征提取与故障识别。尽管CNN 取得了很好的效果,但CNN在轴承故障诊断领域面临如下两个问题:①CNN所使用的最大池化或者平均池化直接将信息合并会导致关键信息无法被识别出来;②必须满足训练集和测试集具有相同的概率分布,但实际工程中工况复杂多变,这一假设很难满足,当面对转速差异较大的工况时,CNN模型的识别效果显著下降[8]。
针对问题①,可引入空间域注意力机制[9]来解决,它将通道的空间域信息进行对应的空间变换,能提取出通道的关键特征,但它将每个通道中的特征同等处理会忽略通道域中的信息。同时通道域注意力机制[10]对一个通道内的信息直接全局平均池化,而忽略每一个通道内的局部信息。即将空间域与通道域注意力机制结合就能有效提取关键信息。针对问题②,可引入迁移学习(transfer learning,TL)思想,TL可以解决跨域分布差异的问题而被广泛应用于故障诊断领域[11]。康守强等[12]将SSTCA(semisupervised transfer component analysis)应用于交变工况下滚动轴承的故障诊断,通过适配两域边缘概率分布来减小数据分布差异,然而该方法需人工提取特征,缺乏自适应性。
基于此,提出一种不同转速下基于深度注意力迁移学习(deep attention transfer learning,DATL)的滚动轴承故障诊断方法。首先,利用小波变换实现振动信号的时频表达;其次,结合空间域和通道域注意力的各自优点,搭建融合空间和通道的注意力卷积神经网络(attention convolutional neural network,ACNN),将每个通道的空间域信息作对应的空间变换,从而提取出每个通道的关键特征信息,以避免关键特征的丢失;然后,通过领域适配方法对源域和目标域数据的特征知识进行近似度量和适配,将一种转速的滚动轴承特征知识迁移至另一种转速,从而实现不同转速下的滚动轴承故障诊断。
1 深度注意力迁移学习模型
该模型通过源域带标签数据和目标域无标签数据对DATL进行训练,从而实现目标域无标签数据的智能故障诊断,主要包括两个模块:特征提取模块和领域适配模块。其结构如图1所示。
图1 DATL结构Fig.1 The structure of DATL
1.1 特征提取模块
特征提取模块主要由深度注意力卷积神经网络构成,其中,第一个卷积层有16个卷积核,第二个卷积层有32个卷积核,卷积核的大小均为5×5,两个池化层,池化区域均为2×2,且均采用最大值池化方式,一个通道注意力层,一个空间注意力层,卷积核的大小为7×7,一个全连接层。
(1) 卷积层
在卷积层,前一层的特征图与卷积核进行卷积运算,然后经过激活函数得到本层的特征图,每一个卷积核对应一个特征图。使用的激活函数为ReLU函数,其函数表达式为
(1)
(2) 池化层
池化层是对上一个卷积层得到的特征进行缩放映射,以降低维度,在一定程度上保证了特征尺度的不变性。经过池化区域大小为n×n的池化运算后,输出的特征图边长变为原来的1/n,特征图的个数不变。
(3) 通道注意力层
当X经过两层卷积池化之后得到B,首先通过注意力模块学习出每个通道的权重得到权重矩阵Ø,然后将Ø与B进行相乘从而产生通道域的注意力,得到新的特征U,其中通道注意力机制包括式(2)挤压函数(全局平均池化)、式(3)激励函数和式(4)尺度函数3个模块。
(2)
式中,u为新产生的特征信号,有c个通道。
s=Fex(Z,W)=σ[g(Z,W)]=σ[W2δ(W1Z)]
(3)
式中:δ为ReLU; 而σ是一个sigmoid激活函数;W1,W2为权重参数,通过训练学习这两个权重,得到一个1维的激励权重来激活每一层通道。
(4)
(4) 空间注意力层
将上一层的输出U作为输入,通过定位网络学习到一组参数θ,然后利用网格生成器生成采样信号Y,再与U相乘,得到变换矩阵V。空间注意力通过Transformer找出图片信息中需要被关注的区域,同时又具有旋转、缩放变换的功能,所以图片局部的重要信息能够通过变换而被提取出来。结构如图2所示。
图2 空间注意力机制Fig.2 The spatial attention mechanism
(5) 全连接层
将前一层所得到的所有特征图的每个像素依次展开,排成一列,构成特征向量。特征向量与输出层全连接,构成全连接层。
1.2 领域适配模块
最大均值差异(maximum mean discrepancy,MMD)是衡量两个数据集分布差异的非参数距离指标,用于判断两个分布是否相同,源域数据与目标域数据通过ACNN特征提取后,两域的分布差异滞留在全连接层。假设源域和目标域的特征集合分别为As和At,则存在再生核希尔伯特空间[13](reproducing kernel Hilbert space, RKHS)H,有映射函数Ø(·)∈H将ACNN所提取特征由原特征空间投影至再生核希尔伯特空间。因此,源域与目标域之间的MMD可定义为
(5)
将数据映射到再生核希尔伯特空间进行MMD度量,其度量方式为
(6)
式中: ‖·‖H为再生核希尔伯特空间;S和T分别为源域数据和目标域数据;n和m分别为S和T中的数据个数。
1.3 深度注意力迁移模型的训练
所提模型DATL训练过程中,需要满足两个优化目标:①最小化特征提取模块在源域数据上的分类损失;②最小化源域数据与目标域数据深层次特征知识的概率分布差异。因此,优化目标函数可以表达为
(7)
式中:Lc(θf,θc)为特征提取模块在源域数据上的识别误差;D(θf)为源域数据与目标域数据深度特征知识的概率分布差值;μ为惩罚项系数且μ>0。
2 不同转速下基于深度注意力迁移学习的滚动轴承故障诊断流程
所提出的不同转速下基于深度注意力迁移学习的滚动轴承故障诊断方法流程图如图3所示,具体步骤如下:
步骤1采集数据样本,利用小波变换计算时频图,一种工况作为训练样本(源域),其余工况作为测试样本(目标域),构建不同转速下的数据集。
步骤2初始化深度注意力迁移学习网络参数,以批量的方式将源域数据和目标数据输入到DATL中。
步骤3利用融合空间域与通道域的注意力卷积神经网络提取出源域和目标域的关键特征。
步骤4在注意力卷积神经网络中添加的适配层对所提取的源域和目标域特征进行领域适配,以减小不同转速所带来的域分布差异。
步骤5得到训练好的迁移诊断模型,输入测试集,利用Softmax分类层输出诊断结果,完成不同转速下滚动轴承的故障诊断。
图3 方法流程图Fig.3 The flow chart of method
3 试验与分析
3.1 试验数据
试验数据来自机械故障综合模拟试验台,试验台主要由电机、联轴器、滚动轴承、加速度传感器等组成,如图4所示。
将加速度传感器置于轴承座上,并采用磁座将其固定。试验轴承为er-16k型深沟球轴承,节径38.5 mm,包含9个滚动体,接触角9.08°,使用电火花加工技术在轴承的内圈、外圈、滚动体上布置单点故障,并模拟两种不同故障程度。故障直径约为0.2 mm和0.4 mm,深度均约为0.2 mm,其中直径0.2 mm故障标记为早期故障,直径0.4 mm故障标记为中期故障,共模拟6种故障状态,如表1所示。
图4 试验台Fig.4 The test station
表1 故障类型Tab.1 The fault types
采集时运行转速分别为工况A:800 r/min,工况B:1 000 r/min,工况C:1 500 r/min,加载负荷均为5 kg。采样频率均为25.6 kHz,采样时间为10 s,每种故障信号采样4次,以减小数据采集系统中的随机误差。
3.2 建立数据集
从采集到的振动数据中以1 024个点截取样本,每类故障共1 000个样本,对每个样本进行小波变换获得时频图样本,因Morlet小波波形与轴承故障产生的冲击特征相似,且cmor小波是Morlet小波的复数形式,自适应性能更好,故选用cmor小波变换,再从每类时频图样本中随机选取200个样本,7类故障共1 400个样本作为训练集。随机选取200个样本,7类故障共1 400个样本作为测试集。
限于篇幅,仅展示如图5所示几种工况的原始信号图,从图5可知,仅依靠原始信号波形很难判断出不同转速下轴承的损伤程度和故障类型。图6为图5所对应的小波变换时频图,不难看出,当故障程度越严重,其时频图中的振动能量越大,随着转速的增高,振动能量也随之增大,时频图中具有明显的变化趋势,所展现的信息大于原始信号波形图,表明相较于时域波形,小波变换时频图从时域和频谱两个方向更能全面的展现轴承故障特征。
图5 原始信号Fig.5 Original signal
图6 时频图Fig.6 The time-frequency diagram
3.3 试验结果分析
本节试验旨在展现所提方法对不同转速下滚动轴承故障诊断的能力,并探索学习率、批量以及惩罚项系数对DATL迁移故障诊断结果的影响。以工况B→A的迁移故障诊断试验为例,设置学习率为[0.01,0.05,0.001,0.000 1],重复10次试验,试验结果如图7所示。
由图7可知,学习率对模型诊断结果影响较大,当学习率为0.001的时候,取得了较好的迁移故障诊断结果。设置批量大小为[40,60,80,100],重复10次试验,结果如图8所示,不同批量情况下,对诊断结果影响较小,当批量为80时,取得了最好的诊断结果。设置惩罚项系数为[0,0.01,0.5,1,10]和变化惩罚项系数2/[1+exp(-10×k)]-1,其中k为当前训练的次数与总训练次数的比值,每种系数重复10次试验,试验结果如图9所示,在所有的惩罚项系数中,变化惩罚项系数取得了最好的迁移诊断结果。因此,本文方法的故障诊断模型参数设置为学习率0.001,批量80,惩罚项系数采用变化惩罚项系数。
图7 不同学习率的迁移故障诊断精度Fig.7 Transfer fault diagnosis accuracies with different learning rates
图8 不同批量的迁移故障诊断精度Fig.8 Transfer fault diagnosis accuracies with different batch size
图9 不同惩罚项系数的迁移故障诊断精度Fig.9 Transfer fault d1iagnosis accuracies with different penalty coefficient
为验证所提方法的有效性,将所提方法与CNN、ACNN、CNNM(CNN+领域适配)、深度迁移学习方法DAN[14]、原始时域信号+DATL(SY+DATL)和人工提取特征(包括时域特征16个、频域特征12个共28维特征)+TCA(transfer component analysis)进行对比,为保证算法的公平性,CNN和ACNN的网络超参数与DATL保持同步,且对每种工况重复10次试验取平均值,对比结果如表2所示。
表2 不同方法准确率Tab.2 The accuracy of different methods %
由表2可以看出,DATL在7种迁移故障诊断工况下平均诊断精度到达了95.2%,且相较于其他方法,DATL在每种工况试验下都取得了最高的诊断精度。其中转速差异较小的工况A和工况B之间的迁移效果较好,到达了96%以上,而对于转速差异较大的工况C与工况A和B进行迁移诊断时,识别精度略微下降,但都到达了92%以上。结果表明:DATL能在一定程度上完成对不同转速下不同故障程度的轴承故障特征知识的学习与迁移适配任务。为进一步说明所提方法的优势,对比分析了如下6种方法。
(1) CNN,该方法为普通的5层卷积神经网络,陈仁祥等提出的滚动轴承智能故障诊断模型,以时频图作为输入,利用CNN实现对低层信号特征抽象表达成深层特征,从而实现滚动轴承故障诊断。对于工况A→A,该方法到达95.6%的诊断精度,标准差为1.95%,诊断效果良好,但面对不同转速之间的迁移诊断任务时CNN识别效果显著下降,不同转速迁移诊断几乎都低于80%。结果表明:基于普通CNN的智能诊断模型在同种转速下取得了比较不错的诊断效果,但对不同转速下滚动轴承故障状态识别精度不佳。
(2) ACNN,该方法与所提方法具有相同的网络结构,但缺乏故障特征的分布适配过程。平均诊断精度为79.5%,整体高于CNN,对于工况A→A,该方法到达98.2%的诊断精度,但面对不同转速之间的迁移诊断任务时该方法诊断精度急剧下降。结果表明:基于ACNN的智能故障诊断模型诊断效果优于普通的CNN,注意力机制有助于提高模型对滚动轴承故障特征的表征能力,但不同转速下诊断效果依然不佳,其原因在于不同转速下轴承的数据集之间存在显著的分布差异。
(3) CNNM,该方法是在CNN的全连接层中添加领域适配模块,但缺乏注意力机制。平均诊断精度为91.8%,整体高于CNN和ACNN。结果表明:CNNM的诊断效果优于未进行领域适配的CNN和ACNN,表明领域适配方法可以缩小轴承在不同转速工况下的特征分布差异,从而提高不同转速轴承故障诊断的识别率,但由于缺乏注意力机制,使得CNNM在特征提取模块中丢失了特征信息导致识别精度低于所提方法。
(4) DAN,该方法为经典的深度迁移学习方法,其平均诊断精度为85.8%,低于CNNM,究其原因是该方法没有注意力机制提取关键特征,导致网络在特征提取过程中特征丢失,从而影响故障诊断结果。
(5) SY+DATL,该方法以原始时域信号为输入,输入到DATL中,平均诊断精度仅为56.8%。结果表明:从时域信号中学习到的特征并不能有效表征不同故障程度轴承的故障。
(6) TCA,该方法以人工提取时域和频域共28维特征作为输入,将一种转速与另一种转速的数据特征降维投影到同一特征空间,并最小化不同转速数据特征之间的概率分布距离。该方法平均诊断精度仅为28.1%。结果表明:TCA诊断精度最低,究其原因是TCA缺乏深层特征提取能力,人工特征不能表征不同转速下不同故障程度轴承的故障。
综上所述,本文所提方法具有更高的特征表征能力且具有一定的迁移诊断精度。一方面,针对采集到的轴承振动信号呈非平稳信号,利用小波变换得到轴承信号的时频表达,从时域和频域两个方面全面刻画轴承信号的时频特征,并通过深度注意力卷积神经网络从时频图中提取出更稳健的故障特征;另一方面,所提方法利用领域适配学习可以缩小不同转速数据域之间的分布差异。
3.4 迁移结果可视化
为直观分析本文所提DATL方法对于滚动轴承智能故障诊断的有效性,可视化不同转速数据的特征知识,以迁移故障诊断试验工况B→C为例,利用 t-分布邻域嵌入(t-distribution stochastic neighbor embedding, t-SNE)[15]算法将提取的故障特征降维至2维平面,并以散点图的方式呈现出不同转速下不同故障程度数据的特征知识,如图10所示。
图10 特征可视化Fig.10 The feature visualization
由图10可知,人工提取特征效果最差,不能有效表征滚动轴承的不同故障状态。观察图10和图11,CNN和ACNN虽展现出一定的特征表征能力,但训练集和测试集所处的空间位置距离较远,且训练集和测试集的概率密度分布差异较大。DAN方法其训练集与测试集基本重叠,表明迁移学习方法可以有效拉进不同转速之间的特征差异,但类与类之间的特征并不能有效区分,究其原因是DAN的特征提取模块网络层数太深,在特征提取过程中造成了特征损失,不能有效提取不同故障程度的轴承故障特征。从图10(d)和图11(d)可以看出,DATL所提特征的训练集和测试集在7种故障状态下的特征分布更加容易区分,且训练集和测试集在不同故障状态数据的特征分布处于几乎相似的空间位置,这种数据分布促进了对不同转速下滚动轴承的迁移故障诊断识别效率。由此可以看出,所提方法在有效保证数据类别间可分性的同时匹配了不同域数据间的分布差异,从而可以提高迁移故障诊断的识别率。
图11 概率密度Fig.11 Probability density
3.5 噪声试验
考虑到实际工程中,轴承的运行环境十分恶劣,不可避免会受到噪声的影响,因此本节试验用于验证所提方法在环境噪声下的鲁棒性和适应性。在试验数据中添加模拟环境噪声的高斯噪声,得到10 dB和20 dB的不同信噪比[16](signal-to-noise ratio, SNR),从而提高轴承迁移故障诊断难度。以A→B和C→B工况为例,对比CNNM和DAN方法,采用3.3节试验所用参数,每组工况试验重复8次取平均值,迁移故障诊断结果如图12所示。可以看出,所提方法在信噪比为10 dB时依旧有很高的诊断精度,A→B和C→B平均诊断精度分别为95%和90.7%,CNNM方法受噪声影响较大,在信噪比为10 dB时A→B和C→B平均诊断精度分别为91.1%和83.9%,DAN方法受噪声干扰最为严重,在信噪比为10 dB时A→B和C→B平均诊断精度分别为71.3%和68.4%。结果表明:所提方法在噪声环境下具有较强的抗噪声能力,即使是在强噪声环境下,所提方法依然能表征不同转速下滚动轴承的深层故障特征,并完成特征知识的迁移适配。
图12 噪声环境下分类结果Fig.12 Classification results in noise environment
4 结 论
提出了不同转速下基于深度注意力迁移学习的滚动轴承故障诊断方法,将时频图作为输入,利用空间域注意力和通道域注意力的各自优点,将二者结合在一起融入到卷积神经网络中,构建注意力卷积神经网络作为特征提取器,提取出轴承的关键特征,然后在网络的全连接层添加领域适配层,减少不同转速下数据的分布差异给故障诊断带来的影响,并在数据集上进行了对比验证,通过试验对比证明:①深度注意力卷积神经网络所学习的深层隐含特征相较于普通卷积神经网络所提特征和人工提取特征具有更好的轴承故障表征能力,能有效提升不同转速下滚动轴承的迁移故障诊断准确率;②领域适配学习可缩小不同转速数据域之间特征知识空间内的分布差异,可有效提高迁移故障诊断精度;③在噪声环境下所提方法能有效的提取出轴承的关键特征,具有较强的抗噪能力,更有利于适应实际工程中轴承智能故障诊断的应用。