APP下载

基于改进深度残差网络的旋转机械故障诊断

2022-05-23侯召国王华伟

系统工程与电子技术 2022年6期
关键词:齿轮箱残差特征提取

侯召国, 王华伟, 周 良, 付 强

(南京航空航天大学民航学院, 江苏 南京 211106)

0 引 言

旋转机械是工业应用中的关键部件,已广泛应用于电机、直升机、航空发动机、水轮机和其他类型的复杂机械设备[1]。大型旋转机械设备工作环境极为恶劣,具有负载重、转速快、运行时间长等特点,容易出现各种故障,最终导致不必要的停机时间、经济损失甚至人员伤亡[1]。因此,及时准确的故障诊断对于旋转机械系统设计、智能运维和安全可靠运行至关重要。传统上,旋转机械故障诊断主要包括3个阶段:数据采集、特征提取与选择、故障分类。当前旋转机械故障特征提取主要面临三大挑战:工况复杂且多变;振动信号具有极强的非线性;采集的数据样本存在不平衡性,体现在正常与故障样本的数量级不平衡。目前,传统的特征提取方法主要有小波变换(wavelet transform,WT)、经验模态分解(empirical mode decomposition,EMD)和集成经验模态分解(ensemble empirical mode decomposition,EEMD)等[2]。传统的特征提取与故障分类方法对于人工特征工程和专家知识的依赖较为严重。特别是,随着工业大数据时代的到来和传感器技术的发展,传统的特征提取与故障分类方法已经无法满足海量数据的诊断需求。在此背景下,智能故障诊断开始发展与推广,智能故障诊断是指将人工神经网络、支持向量机和深度神经网络等机器学习理论应用于机器故障诊断[3]。然而,基于人工神经网络、支持向量机等传统的机器学习智能诊断方法,由于网络结构较浅,限制了其对复杂故障特征的提取能力。近年来,深度自动编码器、深度卷积神经网络等深度神经网络被广泛用于构建端到端智能诊断模型,减少了对人工劳动和专家知识的依赖,极大地推动了智能故障诊断的发展[3]。由于能够直接从原始数据或低层次特征数据中挖掘代表性信息,以及强大的多模式分解能力,基于深度学习的智能诊断引起了越来越多的国内外学者的关注[4]。

Shao等[5]提出了一种基于压缩感知的改进卷积深度信念网络方法,大大提升了模型的特征提取能力和泛化性能。Li等[6]提出了一种基于残差连接自适应一维可分离卷积的混合工况齿轮点蚀故障诊断方法,并验证了其良好的诊断性能。Zhang等[7]通过突出小波系数的本质频带和卷积通道的故障特征,提出了一种基于混合注意力改进残差网络的风电齿轮箱故障诊断方法,并在传动系统诊断模拟器仿真数据集和风电场实测数据上验证了该方法的有效性。Hoang等[8]提出了一种基于深层卷积神经网络的轴承故障诊断方法,并验证了其较高的诊断精度和强大的抗噪能力。Yu等[9]提出基于一维残差卷积自动编码器的齿轮箱故障诊断特征学习方法,在行星齿轮箱数据集上表现出良好的信号去噪和特征提取性能。Mao等[10]提出了一种融合多种故障类型判别信息的深度自动编码器方法,并用于轴承故障诊断。Lu等[11]提出了一种基于分层卷积神经网络健康状态分类的滚动轴承智能故障诊断方法,并验证了其在滚动轴承故障分类中的有效性。Jia等[12]提出了一种新的深度神经网络智能诊断方法,并在轴承和行星齿轮箱数据集上验证了其良好的性能。针对现代机械设备复杂多样、信号源多、类型差异大、耦合性强、动力学建模困难、非线性强以及不确定性干扰强等问题,仍需要故障诊断理论进一步深入研究[13]。当前的智能诊断模型在融入工业实际需求与模型动态优化更新方面还存在很大不足,实现智能故障诊断真正落地还有很长的路要走。因此,随着机械设备向着更加复杂化和智能化的方向发展,在更好地满足工业实际需求与融入工业实际应用方面,必将为当前的智能诊断模型的性能改进提出更加严峻的挑战。面向未来工业实际,亟需更加精准且高效的智能故障诊断方法。

深度残差网络(deep residual network, DRN)是为了解决卷积神经网络的梯度消失现象而提出的一种深层神经网络,不仅保留了卷积神经网络强大的故障特征提取能力,而且有效缓解了网络退化现象。为了进一步改善深度残差网络的特征提取能力和收敛速度,本文提出了一种改进深度残差网络(improved DRN, IDRN)。在深度残差网络中引入长短时记忆(long short-term memory, LSTM)网络可以最大限度地考虑到故障的时序信息,在残差块中加入Dropout层可以有效缓解过拟合并提升诊断效率,通过改进深度残差网络可以实现端到端的故障诊断,通过与当前广泛使用的几种网络模型的对比实验,验证了该方法的有效性和可行性。

1 深度残差网络原理

针对卷积神经网络随着层的堆叠容易出现梯度消失的问题,He等[14]首次提出了深度残差网络,并将其用于图像识别任务,表现出了较高的分类精度。深度残差网络由多个带有跳跃连接线的残差块构成,残差思想的引入大大缓解了深层神经网络的梯度消失问题。其中残差块的结构如图1所示。

残差块包含两种映射:一种是恒等映射;另一种是残差映射。假设要求的最优解为H(X)=X,残差映射是指映射H(X)和X的残差值,用F(X)表示,即F(X)=H(X)-X。当F(X)无限接近于0时,网络达到最佳状态,继续加深网络深度,网络也将一直处于最优状态[15]。当残差块的输入为Xn时,可得计算后的输出[15]为

Xn+1=f(Xn+F(Xn,Wn))

(1)

式中:F(·)为残差映射;Wn为相应的权重参数;f(·)为激活函数。由图1可知,不同残差块之间可能存在维度不匹配的情况,此时只需要对恒等映射Xn做一个线性变换Ws[15]即可:

Xn+1=f(WsXn+F(Xn,Wn))

(2)

式中:Ws为权重参数。

残差结构具有两个结构优势:第一,网络前向传播时浅层的特征可以在深层得以重用;第二,网络反向传播时深层的梯度可以直接传回浅层。因此,带有快捷连接的残差块可以在网络的输入与输出之间有较大的重构误差时,直接通过快捷连接将误差信息反馈给前面的网络层,这种结构设计不仅提升了模型训练速度,而且有效缓解了网络退化问题。

2 基于IDRN的故障诊断模型

2.1 Dropout层工作原理

Dropout是Hinton等[16]于2012年提出的处理过拟合问题的方法,常用于深度网络的优化中,其中Dropout前的深度前馈网络至Dropout后的深度前馈网络的原理过程如图2所示,其中虚线圆表示被删除的神经元,与其连接的边也被删除了。

Dropout层的工作过程如下:首先,随机“丢弃”网络中的一部分隐藏层神经元,构造新的隐藏层,同时保持输入输出神经元不变,并将小批量训练输入样本通过新构造的隐藏层进行前向传播;然后,根据返回的损失函数结果进行反向传播。通过优化算法更新未隐藏的神经元参数,最后恢复“丢弃”的神经元,并重复Dropout过程直至训练完成[17]。

经过添加Dropout层,网络的计算公式可以表示为

(3)

2.2 改进残差块

为了避免网络在层数较深时,出现过拟合的现象,对残差块的结构进行了改进。其中标准的残差块结构如图1所示,改进的残差块结构如图3所示。

图1中,残差块仅仅包含卷积层和批量标准化层,在网络堆叠过多的层时很容易出现过拟合现象。为了缓解残差块的过拟合现象[18],在残差块中引入了丢弃层,其结构如图3所示。丢弃层可以舍弃网络的一些随机单元和冗余单元,使网络在提取主要特征信息的同时简化计算量,而且也有效缓解了网络的退化现象。因此,丢弃层的这一特性特别适用于处理冗余信息较多的旋转机械振动信号。

2.3 改进残差块与LSTM网络的融合

2.3.1 CNN基本原理

卷积神经网络(convolutional neural network, CNN)具有强大的特征提取能力,它包含卷积层、激活层、池化层、批量标准化层、全连接层和分类层,其中分类层由多层感知机组成[19]。

卷积层进行深层特征提取,其中卷积过程[19]可以描述如下:

(4)

池化层通常连接在卷积层之后,它利用下采样操作减小了特征和网络参数的空间大小,其中最大池化操作[19]可以描述如下:

(5)

2.3.2 LSTM基本原理

LSTM是循环神经网络(reccurrent neural networks, RNN)的变体,其经过结构的改进,有效缓解了RNN的梯度问题。LSTM的结构主要包括遗忘门、输入门和输出门[20]。

LSTM的遗忘门决定信息的通过量,其计算过程[20]如下:

ft=σ(ωL1·[ht-1,xt]+bL1)

(6)

式中:σ是sigmoid函数;ωL1和bL1分别是权重和偏置;ht-1是前一个单元的输出;xt是当前输入。

LSTM的输入门决定了新信息能否被细胞单元记忆,其计算过程[20]如下:

it=σ(ωL2·[ht-1,xt]+bL2)

(7)

(8)

(9)

LSTM单元的最终输出ht由输出门的输出οt与记忆单元输出Ct决定,具体计算[20]如下:

οt=σ(ωL4[ht-1,xt]+bL4)

(10)

ht=οt·tanh (Ct)

(11)

式中:ωL4、bL4分别是输出门的权重和偏置。

2.3.3 IDRN模型

考虑到不同模型具有各自的优势,模型融合可以优势互补、取长补短。CNN具有强大的特征提取能力,可以提取更深层次的故障特征,能够捕捉故障发生的属性信息[21]。LSTM具备长短时记忆的能力,能够捕捉故障发生的时序信息[22]。因此,为了最大程度地保留振动信号的时序特征[22],本文设计了融合改进残差块和LSTM层的IDRN作为旋转机械故障诊断模型,不仅可以直接处理原始机械信号,而且在提取故障属性信息的同时也可以将故障发生的时序信息融入到模型之中。IDRN结构如图4所示,包括两个初始卷积层、一个池化层、一个LSTM网络层和3个改进残差块,然后经过卷积层、全局平均池化层、展开层、全连接层和分类层进行故障分类。以初始卷积层为例描述参数,(Conv1D,32,3)表示模型是一维卷积神经网络,滤波器尺寸为32,卷积核大小为3;(MaxPooling,3)表示最大池化操作,池化块尺寸为3;(LSTM,32)表示模型是LSTM网络,神经元个数为32;(Dropout,0.25)表示丢弃层,丢弃率为0.25;(Dense,64)表示全连接层,神经元个数为64;Flatten表示展开层;ReLU表示整流后的线性单元激活函数;Softmax表示分类层激活函数。LSTM层被设计用来进行时序特征提取,多层残差块被设计用来进行深层故障特征提取,全局平均池化层被设计为处理所学习的特征,其将每个特征图视为一个区域来执行池化操作,并且其输出大小等于特征图的数量[23]。分类层中的神经元个数与故障类别个数相同。

2.4 IDRN故障诊断流程

针对旋转机械工况复杂多变、振动信号具有极强的非线性和有标签样本不足而导致的故障特征提取困难等问题,本文提出了一种用于旋转机械故障诊断的IDRN。基于IDRN的旋转机械故障诊断流程如图5所示。通过对滚动轴承和齿轮箱振动信号进行分析,发现其中存在大量的噪声和冗余信息。因此,在数据处理阶段,首先需要进行数据采样和数据标准化处理,然后划分训练集、验证集和测试集的比例,最后对数据标签进行one-hot编码处理。在模型训练阶段,首先初始化网络参数,然后将预处理之后的训练集数据输入到融合LSTM层和Dropout层的IDRN进行训练,并利用验证集进行参数调整,训练完成之后可以得到故障诊断模型。在故障诊断阶段,将测试数据输入到故障诊断模型之中,输出故障诊断结果,完成故障诊断流程。

3 实验验证与结果分析

3.1 实验数据与参数设置

滚动轴承与齿轮都是旋转机械的关键部件,其运行状态直接关系到旋转机械的安全可靠运行。因此,为了测试该故障诊断方法的性能并验证其有效性,在滚动轴承单工况、变工况和齿轮箱三个数据集上进行了实验。此外,还进行了对比实验,以比较现有方法的分类精度。

3.1.1 滚动轴承实验数据描述

滚动轴承实验利用文献[24]中的凯斯西储大学轴承数据进行验证。该数据采样频率设置为12 kHz和48 kHz,采用电火花技术来加工轴承故障。轴承故障分为内圈故障、外圈故障和滚珠故障。每种故障类型包括7 mils、14 mils和21 mils 3种故障直径。电机负荷包括0 HP、1 HP、2 HP和3 HP 4种状态;电机转速包括1 797 rpm、1 772 rpm、1 750 rpm和1 730 rpm 4种状态。

3.1.2 齿轮实验数据描述

齿轮实验利用文献[25]中东南大学齿轮箱数据集进行验证,该数据是从东南大学齿轮箱实验平台驱动系统动力学模拟器中收集的。在转速系统负载设置为20 Hz-0 V或30 Hz-2 V的情况下,该平台研究了两种不同工作条件下的多种故障模式。

3.1.3 实验数据设置

滚动轴承单工况实验数据组成如表1所示,其中故障标号N为正常样本,F1~F5为故障位置不同的5种故障样本。单工况的轴承故障诊断实验中故障直径、电机负荷和电机转速都是保持同一条件,不能很好地展示模型在变工况下的诊断性能,为了验证模型的泛化能力,又进一步设置了变工况下轴承故障诊断实验,针对故障直径、电机负荷和电机转速都不同的故障类型进行识别。其中变工况轴承数据包括1种正常样本N′和3种不同类型的故障样本F1′~F3′,其组成如表2所示。

表1 单工况轴承故障数据组成

表2 变工况轴承故障数据组成

为了验证模型对多种旋转机械的故障诊断性能,进而在工业应用领域进一步推广,又设置了齿轮箱故障诊断实验。齿轮故障诊断中选用同一电机负荷下的5种运行状态进行实验,其中H代表健康状态,G1~G4代表4种不同类型的故障状态,其组成如表3所示。

表3 齿轮故障数据组成

3.1.4 实验参数设置

实验设置训练批次大小为128、周期大小为20、样本长度为2 048,其中每种故障类型采集1 000个样本,训练集、验证集和测试集的比率为0.7、0.2和0.1,如表1、表2和表3所示。以轴承单工况故障诊断为例,IDRN的模型参数如表4所示,以改进残差块1为例,(32,3)表示滤波器尺寸为32、卷积核大小为3。实验中,学习率设置为0.001,损失函数采用交叉熵损失函数,优化器采用Adam,分类层激活函数采用Softmax分类函数。

表4 IDRN模型参数

3.2 实验结果分析

3.2.1 实验模型评价

为了显示模型在测试集中对各个故障类型的详细识别效果[26],引入了多分类混淆矩阵对轴承单工况和变工况以及齿轮箱故障诊断的实验结果进行更加精准全面的分析。多分类混淆矩阵详细展示了所有故障类型的分类结果,既包含正确分类信息,也包含错误分类信息。混淆矩阵的纵轴代表分类的实际标签,横轴代表预测标签。因此,混淆矩阵主对角线位置上的值代表每种故障类型正确分类的比例,而非主对角线位置上的值代表一种故障类型被误分类为其他故障类型的比例。颜色条显示从0到1的值和颜色之间的相关性。其中轴承单工况和变工况的以及齿轮箱的诊断模型测试结果混淆矩阵分别如图6、图7和图8所示。

由图6~图8可知,模型对轴承单工况和变工况的每一类故障样本都没有出现误分类的情况,但在齿轮箱故障诊断中大部分样本标注正确[27],除了故障类型G4准确率为66%之外,其余故障类型分类准确率都在85%以上,说明了本文所提出模型在轴承故障诊断中表现出了比齿轮箱故障诊断更高的精度。这可能是由于齿轮箱故障特征微弱或不同故障类型之间的故障特征较为相似。

3.2.2 实验结果可视化

为了验证该方法自适应挖掘故障特征的能力,引入了流形学习中的t分布随机近邻嵌入(t-distributed stochastic neighbor embedding, t-SNE)算法对模型隐藏层提取的高维特征进行降维可视化分析[28]。其中轴承单工况和变工况以及齿轮箱的隐藏层输出特征t-SNE可视化结果分别如图9~图11所示。由图9~图11可知,该模型具有强大的特征提取能力,在轴承故障诊断中,类间的样本被完美地分离,类内的样本被完美地聚类[29],在齿轮箱故障诊断中,除了G4、G2和H 3种故障类型之间略微有些重叠之外,其余相同故障类型之间可以很好地聚类,不同故障类型之间可以很好地分离。结果表明,该方法能够自适应地挖掘旋转机械在不同工况下的故障特征。

3.2.3 对比实验结果分析

为了更加全面地验证本文所提出模型的性能,分别与反向传播神经网络(back propagation neural network, BPNN)、多层感知机(multilayer perception, MLP)、堆叠自编码器(stacked auto-encoder, SAE)、CNN、RNN、DRN等当前广泛使用的故障诊断模型进行了对比实验。以单工况实验为例,各对比实验模型的参数设置如表5所示。各对比实验模型诊断精度如表6所示,表6中IDRN(本文所提方法)是本文所设计的IDRN模型,针对3个故障诊断实验的测试集及测试集平均中精度最高的值都进行了加粗表示,各诊断模型在3个实验的测试将重复5次,5次测试样本的平均诊断精度作为各诊断模型在3个实验的测试集诊断精度,为了使对比实验更有说服力,同时避免偶然误差,再取3个实验测试集的平均诊断精度[30]作为各模型最终诊断结果对算法性能进行评价。由表6可知,IDRN模型在轴承单工况和变工况以及齿轮箱下的测试集故障诊断精度及测试集平均故障诊断精度都达到了最高,从而验证了本文所提方法的有效性。

表5 对比模型训练参数

表6 模型对比实验精度

4 结 论

本文针对旋转机械工况复杂多变、振动信号具有极强的非线性以及有标签样本不足而导致的故障特征提取困难等问题,提出了一种用于旋转机械故障诊断的IDRN,主要得到了以下结论。

(1) 将该模型在轴承与齿轮箱数据集上进行了验证,在轴承单工况、变工况及齿轮箱3个实验中的测试集平均诊断精度达到了96.83%,高于当前广泛使用的其他诊断模型。

(2) IDRN在旋转机械智能故障诊断实验中,展示了强大的自适应挖掘故障特征的能力和稳定的识别性能。

(3) LSTM具有长短时记忆的能力,能够捕捉故障发生的时序信息,对于时序型振动信号,可以获得更加丰富的特征表示。

(4) 残差块中引入Dropout层可以丢弃网络中的一些冗余信息,防止网络过拟合,提升诊断效率。

为了提升模型的诊断性能,并进一步推广到工业实际应用中,应该充分考虑各模型的优势,实现多种模型之间的相互融合与协调,充分发挥多模型融合的优势。

猜你喜欢

齿轮箱残差特征提取
基于残差-注意力和LSTM的心律失常心拍分类方法研究
基于双向GRU与残差拟合的车辆跟驰建模
CJ-1型齿轮箱箱体强度分析
风力发电机组齿轮箱轴承故障诊断分析
风力发电齿轮箱设计制造技术
基于残差学习的自适应无人机目标跟踪算法
基于深度卷积的残差三生网络研究与应用
空间目标的ISAR成像及轮廓特征提取
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于特征提取的绘本阅读机器人设计方案