混合注意力机制的旋转机械故障诊断方法
2022-11-08付忠广高玉才王诗云谢玉存翟世臣
付忠广,高玉才,王诗云,谢玉存,翟世臣
(1.华北电力大学电站能量传递转化与系统教育部重点实验室,北京 102206;2.南京航空航天大学计算机科学与技术学院,江苏 南京 210016)
旋转机械广泛应用于各种工农业生产场合,工作环境复杂多变,故障发生率相对较高,容易造成重大经济损失和人身伤亡事故,因此研究旋转机械的故障诊断具有十分重要的意义[1]。
传统的故障诊断方法需要依赖专家经验人工提取故障特征,效率低下。大数据和人工智能技术的发展为智能化故障诊断技术开辟了一条新路径,尤其是神经网络技术,能够自动地学习数据之间的相关性,实现端到端的智能化故障诊断[2],可以利用计算机系统实现旋转机械运行状态的实时监测。梁睿君等[3]利用连续小波变换处理振动信号并构造其时频图,然后利用二维卷积神经网络进行图像识别,成功将卷积神经网络运用到齿轮箱故障诊断中,取得良好效果。注意力机制[4]是深度学习研究中的重点课题之一,对于目标任务,其能够有针对性地选择有利用价值的信息,提高信息处理的效率与准确性,进而提升算法性能。本文将注意力机制与卷积神经网络相结合,将其运用到旋转机械故障诊断中,实验结果表明该方法有很大的优越性。
1 数学方法原理
1.1 连续小波变换
小波变换的理论来源为傅里叶变换,广泛应用于信号处理与分析领域[5]。在连续小波变换中,信号用小波函数系表示,函数f(t)∈L2(R)的连续小波变换定义为
式中:参数a、b分别为尺度因子、平移因子;ψa,b(t)为小波基函数。
Morlet小波是高斯包络下的单频正弦函数,其形状对称、光滑,具有显式解析方程,且相似系数较大,选择Morlet小波作为基函数。振动信号通过连续小波变换产生小波时频图,图像描述了振动信号的能量信息在时域和频域上的分布情况,因此可以将小波时频图作为表征旋转机械运行状态的特征图,将旋转机械的运行状态以三维图像的方式展现出来。
1.2 LeNet5卷积神经网络
卷积神经网络模型源于科学家提出的感受野概念[6],其通过共享卷积核的形式降低了模型复杂度,可以有效减轻过拟合并降低计算量,同时具有很强的鲁棒性和容错能力。LeNet5网络属于经典的卷积神经网络,最初用来进行手写数字识别,参数较少,能够很好地利用图像的结构信息,是一种非常高效的网络模型。LeNet5网络结构如图1所示,前5层由卷积操作和池化操作交替进行,然后输出到全连接层,最后通过Softmax分类器输出分类结果。将最后一层输出节点数由10改为5,对应旋转机械5种不同的运行状态,为防止模型过拟合并提高网络参数收敛速度,在传统LeNet5网路的基础上作改进:
图1 LeNet5卷积神经网络结构Fig.1 The structure of LeNet5 convolutional neural network
(1)将传统LeNet5网络的所有激活函数均由饱和激活函数“sigmoid”改为非饱和激活函数“Leaky ReLU”,负值部分斜率固定为0.1,能够解决神经网络训练过程中的“梯度消失”问题,加快网络参数的收敛速度。
(2)将所有池化层由均值池化改为最大值池化,从而保留图像更多的纹理信息,减弱背景噪声所带来的不利影响。
(3)在所有全连接层的激活函数之后加入Dropout[7]层,将其比率设置为0.2,同时使用L2正则化对损失函数进行修正,正则化参数设置为0.01。Dropout层的加入减弱了神经元之间的联合适应性,从而很大程度上提高了模型的泛化性能。
1.3 混合注意力机制
提出的混合注意力机制是空间注意力机制和通道注意力机制的模块组合,此方法能够同时捕捉图像的空间维度和通道维度中的全局特征依赖关系,从而有利于实现更精确的分割结果。通道注意力模块和空间注意力模块的结构分别如图2、图3所示。
图2 通道注意力模块Fig.2 Channel attention module
图3 空间注意力模块Fig.3 Spatial attention module
在通道注意力模块中,输入特征分别通过全局最大池化和全局平均池化转换为两项一维向量,再将其分别输入到一个共享多层感知器(multilayer perceptron,MLP),然后将两项输出进行逐元素求和,最后通过激活函数得到通道特征。MLP由3层神经网络组成,输入层和输出层节点数相同,均为输入特征的通道数。所提出的通道注意力机制中间隐含层节点数设置为10,激活函数为“sigmoid”函数。每个通道的结果特征,就是所有通道特征在空间维度上与输入特征进行元素乘法,实现了对特征图之间的长程语义依赖关系建模,有助于提高特征的辨别性。
在空间注意力模块中,将输入特征沿着通道方向分别进行最大池化操作和平均池化操作,将两项输出在通道维度上进行拼接,然后利用尺寸为7×7的滤波器进行卷积操作,最后通过“sigmoid”激活函数生成一张与输入特征宽高尺寸相同的二维空间注意力图。每个位置的结果特征,是所有位置特征在通道维度上与输入特征进行元素乘法,能够根据图3有选择地聚合上下文。
2 实验数据验证
2.1 实验数据集
实验设备为北京东方振动和噪声技术研究所制造的INV612型多功能柔性转子实验系统,转轴径向位置的固定支架上安装有传感器,能够检测并收集转子的振动位移值并存储到计算机系统中,也可以对频率、幅值和转子转速等基础信号进行在线分析。实验过程中设置转子系统运行频率为50 Hz,传感器采样频率为1 000 Hz,实验所获得的数据集包含转子正常运行状态、质量不平衡、碰摩、支撑松动、油膜失稳共5种运行状态的样本,每种状态样本为400个,每个数据样本包含100个数据点,每个数据点表示运行转子水平方向的振动位移值。
2.2 实验数据集的小波时频图
通过连续小波变换将数据样本的振动信号转换为32×32的三维小波时频图,使其符合模型的输入格式要求。旋转机械5种运行状态的小波时频图像如图4所示。
图4 小波时频图像Fig.4 Wavelet time-frequency graph
2.3 基于混合注意力机制的旋转机械故障诊断模型架构
在LeNet5网络Pool1层(对照图1)之后添加混合注意力模块,Woo等[8]研究发现,在通道注意力模块和空间注意力模块的所有组合方式中,串行排列的结果比并行排列的效果好,通道模块放在前面优于空间模块放在前面。因此选择通道注意力模块放在空间注意力模块前面的串联组合方式,混合注意力模块如图5所示。
图5 混合注意力模块Fig.5 Hybrid attention module
2.4 模型超参数的选择
采用Tensorflow[9]设计了所提出的基于混合注意力机制的旋转机械故障诊断模型,优化算法采用自适应动量法,即Adam[10]算法,损失函数为交叉熵损失与正则化损失之和,初始学习率learn_rate=0.01,每批训练样本的数量batch_size=256,最大迭代次数为300 epochs。随着训练次数的增加,模型的参数不断得到优化,故障识别准确率不断得到提高。
2.5 实验结论及对比分析
采用的评价指标为转子系统运行状态识别准确率,模型训练前需要将模型参数进行随机初始化,按一定比例在数据集中抽取的训练样本和测试样本也具有一定的随机性。为消除这些随机性影响,采用5折交叉验证法进行模型的训练和测试:将所有数据样本平均分成5份,轮流将其中一份作为测试集数据检测模型效果,其余4份作为训练集数据集训练模型,实验结果取5次实验的平均值。
为证明所提方法的优越性,将其与传统的无注意力机制的LeNet5网络进行对比,LeNet5网络输入为振动信号的小波时频图,参数设置与所提方法相同。两种模型某次训练过程中在测试数据集上故障识别准确率的变化情况如图6所示。可以看出,在LeNet5网络中间加入混合注意力机制之后,模型的训练速度和故障识别准确率均得到提高。
图6 准确率变化曲线Fig.6 Accuracy change curve
传统的机器学习方法如支持向量机、K近邻和决策树模型在故障诊断领域中应用也十分广泛。选择原始振动信号的14个时域特征参数指标:最大值、最小值、平均幅值、峰值、方差、均方根幅值、方根幅值、歪度、峭度、裕度因子、波形因子、峰值因子、歪度因子和峭度因子。将这些时域特征参数作为K近邻模型和决策树模型的输入特征,通过遗传算法搜索最佳超参数,从而达到最高的故障识别准确率。各种模型在测试集上的表现见表1,表中数据均为5次实验结果的平均值。
表1 各模型实验结果对比Tab.1 Comparison of experimental results of each model %
2.6 数据可视化
为了查看所提方法在网络中间层中区分旋转机械不同运行状态的效果,采用t分布随机邻域嵌入(t-distributed stochastic neighbor embedding,t-SNE)[11]方法将测试集数据在模型中间层的输出结果进行可视化展示。测试集数据的原始振动信号、池化层2、全连接层1和全连接层2的输出特征经t-SNE降维后的三维分布情况如图7所示。由图可知,随着信息在模型中向前传递,不同故障类型信号所对应的特征在三维空间的区分度逐渐增大,相同故障的信号在三维特征空间逐渐聚合,说明本文的方法能够有效地提取故障特征,从而实现旋转机械故障的聚类和诊断。
图7 故障特征三维空间可视化Fig.7 3D spatial visualization of fault characteristics
3 结论
旋转机械运行环境复杂多变,振动信号易受外界噪声干扰,传统的故障诊断方法存在特征提取困难和诊断精度低等问题。通过小波变换将振动信号转换为小波时频图像,然后利用加入混合注意力机制模块的LeNet-5网络识别图像,从而进行旋转机械故障诊断。实验结果表明该方法切实可行,并得出以下结论:
(1)相比于传统的基于机器学习的故障诊断方法,如K近邻、决策树模型,提出的基于混合注意力机制的旋转机械故障诊断方法无需人工提取故障特征,输入为原始振动信号,输出为旋转机械的运行状态分类,能够实现端到端的智能化故障诊断,同时相较于K近邻和决策树模型故障识别准确率分别提高13.75%和12.25%。
(2)混合注意力机制能够同时捕捉每张特征图任意两个位置之间的空间依赖关系和任意两个通道图之间的通道依赖关系,将两种注意力机制进行串联组合,从而进一步增强了特征表示,相比无混合注意力机制的LeNet5网络模型,所提方法的整体故障识别准确率提高6.75%,诊断精度和训练速度都得到提高。
(3)提出的方法是基于大数据和人工智能的智能化故障诊断方法,充分发挥计算机系统的数据处理和计算能力,能够及时发现并反馈故障类型,实现对旋转机械运行状态的实时监测,从而避免重大经济损失和人员伤亡事故。