基于动态加权的多尺度残差网络旋转机械故障诊断算法

2022-12-15史红梅郑畅畅陈晶城

振动与冲击 2022年23期

史红梅，郑畅畅，司瑾，陈晶城

(北京交通大学机械与电子控制工程学院，北京 100044)

旋转机械被广泛应用于风力发电机、直升机、汽车、高速动车组和其他机械设备中[1]。滚动轴承和齿轮箱作为旋转机械设备中的重要零部件，一旦发生故障轻则造成严重的经济损失，重则甚至造成人员伤亡[2]。因此，进行旋转机械故障诊断算法的研究对于机械设备的安全运行和维修维护具有重要意义。

几十年来有大量学者研究齿轮箱、滚动轴承等旋转机械的故障诊断方法，其中大部分研究是采用信号分析的方法，利用信号处理技术对机械的振动、温度、声信号等进行时域、频域或时频域分析，取得了大量研究成果[3]。Hu等[4]采用小波包变换和集成固有时间尺度分解算法，提取齿轮箱故障特征。Xu等[5]提出了一种基于双树复小波变换和形态成分分析的去噪方法，将该方法用于提取齿轮在强噪声下的故障特征频率。Li等[6]使用小波变换处理声发射信号，以定位行星齿轮箱中的齿轮故障。周小龙等[7]提出一种改进希尔伯特黄变换方法能够较好地抑制模态混叠问题并有效剔除同故障无相关的虚假模态分量，实现对旋转机械故障的有效诊断。但信号处理技术高度依赖特定领域的专业知识，诊断结果易受到人的主观因素影响。

随着人工智能和深度学习的快速发展，机械智能故障诊断取得了巨大进步，近年已经提出大量基于深度学习的故障诊断方法，并且达到了较好的诊断效果[8]，例如自编码器、卷积神经网络、循环神经网络等[9]。Wen等[10]提出了一种基于LeNet-5的卷积神经网络模型进行故障诊断，该方法在三个数据集进行测试都取得了良好的效果。Han等[11]提出了一种具有扩大感受野的增强卷积神经网络，将此模型用于行星齿轮箱故障诊断。赵光权等[12]提出一种基于深度置信网络的诊断方法，并在仿真信号数据和轴承数据集上进行了试验验证。Jiang等[13]提出了一种新的多尺度卷积神经网络架构用于行星齿轮箱故障诊断。Peng等[14]提出了一种新的一维残差网络，在高铁轮对轴承实验台上进行试验，取得了良好的试验效果。

旋转机械设备往往结构复杂，工作环境恶劣，因此采集到的振动信号包含大量噪声。另外，齿轮箱的振动信号成分更为复杂，包括转频及其高次谐波、齿轮啮合频率及其高次谐波、由于调制现象产生的边频带等[15]。目前大多数深度学习网络对样本中的所有信息利用率基本相同，而采集的振动信号中只有部分信息对故障诊断任务有利，因此需要将注意力更多的集中在与故障相关的信息中。

本文针对上述问题，提出一种基于动态加权多尺度残差网络(multi-scale residual network based on dynamic weighting, DWMR-Net)的端到端模型。针对人工从振动信号中提取故障特征困难问题，该模型以原始信号作为输入，考虑到振动信号固有的多尺度特征，结合多尺度学习的思想，分别从三个尺度进行特征提取，以获取互补的故障信息，其中，网络的基础结构为残差块结构。接着设计动态加权层，通过学习的方式来自动获取每个特征通道的重要程度系数，依据该系数对特征通道进行重标定，提高对故障诊断有利信息的注意力，减小或者抑制冗余信息对故障诊断结果的影响。

1 基于动态加权的多尺度残差网络模型设计

1.1 残差网络

随着网络深度的增加，深度学习模型可能会出现性能退化问题，即训练的准确率趋于平缓，训练误差增大，为解决这个问题残差网络[16]被提出，残差网络一般由残差块堆叠而成，如图1所示为一种简单的残差块结构，其通过加入恒等映射解决深层网络的退化问题，并且可以防止出现梯度消失，计算过程以如下公式表示

y=f(F(x)+x)

(1)

式中:f(·)表示激活函数；x为输入；F(x)为卷积层的输出；y为残差块的输出。

残差块中一般包括卷积层、激活层、池化层等结构。DWMR-Net模型以一维信号作为输入，下面以一维卷积层为例，假设第l层的卷积核宽度为K，第l-1层输出M个特征向量，用xl(i,j)表示第l层输出的第i个特征向量的第j个特征值，卷积层的计算过程可描述为下式

(2)

y=ReLU(x)=max{0,x}

(3)

1.2 基于动态加权的多尺度残差网络模型设计

DWMR-Net模型的结构如图2所示，以1×l的一维振动信号作为网络的输入，其中l是样本中的数据点个数，也称样本长度。首先输入信号经过具有宽卷积核的宽卷积模块进行初步的信息融合，将所输出的特征图作为后续多尺度结构的输入，以扩大DWMR-Net模型的感受野。其次从三个不同的尺度提取信号中的深层故障特征，并且设计动态加权层引入网络的注意力机制使网络具有更好的性能。

图2 DWMR-Net模型结构

多尺度集成方案已经在计算机视觉领域得到了广泛的应用，其中Inception网络中的并行多分支结构较为常见。本文所设计的DWMR-Net模型结合了多尺度学习的思想，为网络设计了三个并行分支，用三个不同宽度的卷积核分别从三个尺度提取故障特征。如图3所示，每个分支网络都是由三个不同的残差结构堆叠而成。每个残差块均由卷积层、批归一化层和激活层组成。其中批处理归一化层[18](batch normalization, BN)一般在激活层前面，可以改善深层网络的过拟合问题，降低内部协变量偏移带来的影响，提高深层网络的收敛速度，本文所设计的模型也采用这种方式。BN层的计算过程如下式

(4)

(5)

图3 分支网络结构

如图2所示，三个并行分支网络提取出三个特征图后，继续经过动态加权层的处理，对每个特征图的特征通道进行重标定。Hu等[19]提出了对卷积神经网络进行改进的SEnet(squeeze-and-excitation networks，SEnet)关注的是特征通道之间的关系。结合SEnet的思想，在DWMR-Net模型结构中引入动态加权层，动态加权层的结构如图4所示，首先特征图经过全局平均池化的处理，完成特征压缩，将每个通道的特征压缩成一个实数，得到维度与输入的特征通道数一致的一维向量；然后利用一维卷积层将特征维度降到输入的1/16，经过ReLU激活，再利用一维卷积层将向量升回原来的维度，经过先降维再升维的步骤，可以具有更多的非线性，更好的拟合特征通道之间的复杂相关性；接着通过Sigmoid激活函数获得(0,1)之间的归一化系数[19]，计算过程如式(6)；最后将系数向量加权到输入的特征图上，就完成了对输入特征图的特征通道重标定操作。

(6)

图4 动态加权层结构

接下来将三个特征图经过全局平均池化处理获得全局信息，进一步经过特征融合输入到全连接层以及分类器中输出分类结果。DWMR-Net模型采用Softmax[20]分类器，Softmax分类器的每个节点输出一个(0,1)之间的值，分别对应输入样本属于每一个类别的概率，所有节点的输出值加起来等于1。Softmax分类器的计算过程可描述为下式

(7)

式中：yi代表输出层第i个节点的输出值；c代表分类数。

2 基于动态加权的多尺度残差网络旋转机械故障诊断方法

2.1 数据准备

本文所提出的DWMR-Net模型以旋转机械的一维原始振动信号作为网络输入。如图5所示为构建样本库示意图，用长度为l的窗口截取数据段作为一个样本，窗口滑动步长为l，截取下一个数据段，以保证每个样本之间的数据不重叠。最后将截取到的数据段随机划分为训练集和测试集。

图5 构建样本库

2.2 模型训练

表1展示了性能较好的网络参数设置。其中输入样本大小为1×2 048，三个尺度的卷积核宽度分别为11、13、15，@32表示有32个特征通道，s表示卷积核的移动步长，num_class是分类数。训练时采用Adam[21]优化算法，设置初始学习率为0.005，训练过程中加入学习率衰减策略，经多次试验最终选择每30个循环学习率衰减一次，衰减系数设为0.1。采用交叉熵损失函数，交叉熵可以用来衡量同一随机变量X的两个概率分布P(X)和Q(X)之间的差异。交叉熵损失计算公式如下式所示，其中xk∈X

(8)

表1 DWMR-Net网络参数设置

3 试验结果及分析

3.1 转子齿轮综合故障模拟实验台数据集试验

在HD-FD-H-03X转子齿轮综合故障模拟试验平台上进行了齿轮和滚动轴承复合故障模拟试验。该试验台结构简单、操作方便、性能稳定。如图6所示，该试验系统由原动力三相变频电机、转矩转速仪、单跨转子轴系、滚动轴承座、轴系负载盘、径向加载装置、平衡轴一级减速齿轮箱、制动加载器、联轴器、系统控制柜、故障套件等组成。齿轮箱是由一个太阳轮三个行星轮组成的行星齿轮箱，在行星齿轮箱上方安装一个三轴加速度传感器，采集振动加速度信号。

图6 转子齿轮综合故障模拟实验台

齿轮箱故障失效形式主要包括齿轮失效、轴承失效、箱体疲劳裂纹、润滑失效等。滚动轴承故障主要包括内圈故障、外圈故障、滚动体故障和保持架断裂。试验中主要采集了6种齿轮单故障、6种齿轮和滚动轴承复合故障的故障样本。表2中列出了故障类型，采样频率为20 kHz，转速分别为750 r/min、1 000 r/min、1 250 r/min、1 500 r/min、1 750 r/min、2 000 r/min、2 250 r/min、2 500 r/min、2 750 r/min、3 000 r/min，每种工况采集时间为10 s。

表2 故障类型设置

如图7所示为试验中人工模拟的几种故障齿轮和故障轴承。在模型验证试验中选用垂直方向振动加速度信号作为网络模型输入，样本中包括10种工况的数据，总共分为13类。

将在转速2 500 r/min下采集的振动信号进行可视化，结果如图8所示，图(a)是采集的原始信号，图(b)是对原始信号进行快速傅里叶变换得到的频谱图。从图中可以看出设备无故障时振动信号噪声较小，可以看出信号的周期性。而有故障的振动信号噪声较大，周期性不明显，频谱图中包含多种频率成分以及高频噪声，难以直接提取故障特征。

利用该试验台数据集对DWMR-Net进行试验验证。训练集包括10 296个样本，测试集包括2 574个样本。DWMR-Net模型训练过程中训练集和测试集的准确率和损失曲线如图9所示。训练前期准确率曲线振动较为频繁，幅度较大，但准确率仍是逐渐上升的趋势，随着训练次数的不断增加，加之采用了学习率衰减策略，训练曲线最终趋于稳定。训练次数为20次时，分类准确率已经超过80%，训练30次之后准确率基本稳定，最终的准确率基本达到99%。从损失曲线也可看出，训练30次之前，虽然训练集损失逐渐下降并趋于平稳，但是测试集损失曲线出现的波动较多，训练30次之后测试集损失也基本降到最小，并且不再出现大的波动。DWMR-Net模型故障诊断的测试集混淆矩阵如图10所示，测试集的每类样本基本都能被正确识别。

图9 准确率曲线与损失曲线

图10 测试集混淆矩阵

深度学习中的优化器可以优化损失函数，优化器通过优化策略更新模型中可学习参数的值。常见的优化器包括随机梯度下降(stochastic gradient descent，SGD)、Adagrad、RMSprop、Adam等。下面对使用不同优化器对训练过程的影响进行了试验，如图11所示。图11可视化了使用不同优化器时训练集损失函数曲线，从图中可以看到使用Adam优化器损失曲线下降最快，训练过程中损失曲线波动较小，收敛快。Adam使用梯度的指数加权平均和梯度平方的指数加权平均来动态地调整每个参数的学习率，在试验中也表现出了优良的性能，因此在整个试验中均使用Adam优化器进行训练。

图11 不同优化器的训练损失曲线

为验证DWMR-Net模型中多尺度学习和残差结构的有效性，进行消融试验。将所提出的DWMR-Net模型与一维卷积神经网络(one-dimensional convolutional neural network, 1D-CNN)、多尺度卷积神经网络(multi-scale convolution neural network, MCNN)和一维残差网络(one-dimensional ResNet, 1D-ResNet)进行对比。四种深度学习模型的测试集准确率曲线如图12所示，DWMR-Net模型和1D-ResNet模型效果较好，训练30次之后准确率曲线基本稳定不再波动，而MCNN和1D-CNN在准确率上升到一定程度后还是有些许波动，这说明残差结构一定程度上可以提高深度学习模型的稳定性。从试验结果可以看出多尺度学习和残差结构在一定程度上都可以提高模型的诊断性能，DWMR-Net模型结合了多尺度学习和残差结构，在各种试验条件下均表现出了相对更好、更稳定的诊断效果。

图12 不同深度学习模型测试集准确率曲线

在原始数据集上四种深度学习模型的诊断效果较好，为更好的模拟旋转机械实际工作环境，通过对原始数据集叠加随机噪声进行加噪处理，构建具有不同信噪比的噪声信号。信号的信噪比(SNR)计算过程如下

(9)

式中，P是功率，对于离散信号，功率计算过程如下

(10)

四种深度学习模型在原始数据集和加噪数据集上的试验结果如表3所示，在原始数据集上四种模型的故障诊断性能差别不明显，但是在加噪数据的试验中加入了多尺度学习和残差结构的网络表现出了更好的性能，其中残差结构对网络性能的提升具有更大的贡献，本文提出的DWMR-Net模型相比于其他三种深度学习模型具有更强的抗噪能力，但是总体来说该数据集故障类别较多，工况更为复杂，对噪声较为敏感，当噪声加到-2 dB时准确率已经降到90%以下。

表3 消融试验结果

接下来分别对有动态加权层和无动态加权层的模型进行试验，试验结果如图13所示，在原始数据和信噪比分别为4 dB，2 dB，0，-2 dB的数据上有动态加权层的模型比没有动态加权层的模型诊断平均准确率分别提高了0.42%，0.40%，0.48%，0.46%和0.70%。

图13 有无动态加权层对比试验结果

动态加权层必然会带来一定的参数量和训练时间的增加，具体情况见表4。有动态加权层的网络相比于无动态加权层的网络参数量只增加了0.48%，在转子齿轮综合故障模拟实验台数据集上的训练时长增加了1分14秒，动态加权层仅引起了少量训练成本的增加。试验结果说明动态加权层对于模型性能的提升有一定作用，这是由于动态加权层在以增加少量训练参数为代价的情况下，可以使模型自适应的选取对故障诊断更有利的信息。

表4 网络的参数量和训练时间

为进一步理解所提出的DWMR-Net模型，分别对测试集样本、DWMR-Net模型从训练集和测试集样本中抽象出的故障特征向量、三个并行分支网络从三个尺度提取出的特征向量进行t-SNE[22]降维可视化，为方便观察，选取其中6类样本进行可视化，结果如图14所示。图14(a)是原始数据，原始数据堆叠在一起无法区分。图14(b)～(d)是从三个不同尺度提取出的特征向量，已经基本分离，但仍有部分混叠在一起。图14(e)、(f)是对训练集和测试集的特征向量进行可视化，从图中可以看出经过训练好的DWMR-Net模型提取出的特征向量已经明显区分开。通过特征可视化试验证明了多尺度学习的必要性以及进一步证实了所提出的模型具有强大的特征提取能力。

3.2 2009PHM齿轮箱数据集试验

2009PHM齿轮箱数据集是一种典型的通用工业齿轮箱数据集，数据集中包含正齿轮和斜齿轮数据集。试验中使用正齿轮数据，如表5所示总共包括8种健康状态。转速有1 800 r/min、2 100 r/min、2 400 r/min、2 700 r/min、3 000 r/min，负载有高负载和低负载，组合后共10种工况，将所有工况的样本放在一起训练，提高模型的泛化能力。

表5 2009PHM齿轮箱数据集故障类型

DWMR-Net、1D-CNN、MCNN和1D-ResNet四种模型在原始数据和加噪数据上的试验结果如表6所示，在加噪0的信号上，DWMR-Net模型的准确率仍在98%以上，其他三种深度学习模型准确率已经降到97%甚至更低，通过齿轮箱公共数据集进一步验证了DWMR-Net模型在旋转机械故障诊断上的有效性和优越性。进一步在该公开数据集上进行了相关试验，试验结果如表7所示，验证了动态加权层对模型诊断性能的提升具有普适性影响。

表6 2009PHM齿轮箱数据集试验结果

表7 动态加权层试验验证

3.3 高速动车组轴承数据集试验

本节试验采用高速动车组牵引电机轴承实验台数据集进行，所用轴承型号为NU214，采样频率为10 kHz，包括正常、内圈故障、外圈故障和滚子故障四类，故障通过线切割机人工引入，故障深度为0.15 mm，故障宽度为0.2 mm，如图15所示。该数据集工况包含三种转速，分别对应于高速动车组运行于150 km/h、200 km/h和250 km/h，包括三种径向负载分别为2 800 N、2 600 N和2 400 N，如表8所示总共三种工况。

表8 高速动车组牵引电机轴承实验台数据集工况

在该轴承数据集上的试验结果如图16所示，由于工况和故障类别较少，DWMR-Net在该数据集上准确率能达到100%，在加-4 dB信噪比的噪声数据上准确率仍能达到96.47%，取得了良好的诊断效果。

图16 高速动车组轴承数据集试验结果

同样在该高速动车组轴承数据集进行了有无动态加权层对诊断结果的影响的试验，试验结果如表9所示，在该数据集上有动态加权层的模型表现出了相对更好的诊断性能，进一步验证了动态加权层以较少的代价提升了网络的性能。

表9 动态加权层试验验证

4 结论

针对旋转机械设备结构复杂、工作环境恶劣导致振动信号的故障特征提取困难问题，提出了一种端到端的DWMR-Net故障诊断模型。DWMR-Net模型以残差块结构为基础结合了多尺度学习的思想，利用并行分支网络结构分别从三个尺度进行数据挖掘，提取互补的故障信息。通过加入动态加权层学习特征通道之间的相互关系，引入特征通道的注意力机制，使模型自适应的选择更有利于故障诊断的信息，提高模型对故障信息的敏感性。分别在转子齿轮箱综合故障实验台数据集、齿轮箱公共数据集和高速动车组轴承数据集上进行了试验验证，证明了所提方法在旋转机械故障诊断任务中具有相对较高的准确率、较强的抗噪性和泛化性。