动态自适应学习率优化的卷积神经网络轴承故障诊断方法

2023-07-27高淑芝裴志明张义民

机械设计与制造 2023年7期

高淑芝，裴志明，张义民

（1.沈阳化工大学装备可靠性研究所，辽宁沈阳 110142；2.沈阳化工大学信息工程学院，辽宁沈阳 110142）

1 引言

滚动轴承作为旋转机械支撑和减摩部件，其故障诊断对于机械设备的安全性和可靠性起着至关重要的作用。意外的轴承故障会使整个机械系统瘫痪，停机时间和维护成本大大增加了运行成本。因此，对轴承故障的检测至关重要。

由于故障诊断可以看作是一个模式识别问题，人工智能在学术研究和工业应用方面都显示出巨大的潜力。在基于人工智能的轴承故障诊断方法中，人工神经网络被研究并应用于故障特征提取和故障分类。文献［1］利用时域提取的特征识别轴承的状态，并利用人工神经网络和支持向量机对轴承故障进行分类；文献［2］利用小波包变换将加速度信号分解得到的特征作为三层神经网络的输入，对滚动轴承故障进行识别、诊断。

在上述方法中，神经网络作为分类器，仍然依赖于时域和频域信号处理方法提取的特征。采用基于人工神经网络的故障诊断方法有两个主要缺点。首先，这种方法依赖于人工特征提取，而人工特征提取很大程度上依赖于对信号处理技术的先验知识。其次，神经网络结构较浅，缺乏足够的能力来学习故障诊断问题中存在的复杂非线性特征之间的关系。

随着深度学习的出现和发展，这些问题在一定程度上得到了解决。近年来，基于深度学习的故障诊断方法越来越受到重视，其中最具代表的就是卷积神经网络。文献［3］将卷积神经网络引入轴承故障诊断领域，并得出结论：在不需要大量的信号处理知识的情况下，利用卷积神经网络进行故障诊断也可以取得很好的分类结果；文献［4］提出了一种利用快速傅里叶变换将信号转化为振动频谱和卷积神经网络的轴承故障分类方法；文献［5］提出了一种基于二维时频表示和迁移学习的卷积神经网络的轴承故障诊断框架，并用于识别轴承在噪声环境下的运行状态。然而，目前多数基于卷积神经网络的故障诊断文章只关注学习率的改变，对于学习率和动量同时做出改变的较少。对此，提出基于Nesterov动量的自适应卷积神经网络轴承故障诊断方法。该方法使用误差变化率对学习率进行自适应调整并使用Nesterov动量对网络进行优化。

2 卷积神经网络（CNN）及优化方法概述

CNN是一种具有独特网络架构的深度学习网络。与全连接神经网络不同，CNN只对局部感受域敏感，并利用共享权值和空间池化操作来约减网络参数，加速网络训练。一个典型的CNN通常由一个或多个卷积层和池化层的多重组合。

2.1 卷积层

在卷积层中，利用不同的卷积核（滤波器）逐层对输入信号进行卷积运算，输入的信号经过卷积运算后会表现出不同的特征，称为特征图。将得到的特征图加上一个可以训练的偏置量后，利用非线性激活函数对运算后的数据进行非线性变换，提高特征的线性可分性。卷积过程的数学模型为：

2.2 池化层

池化操作的本质上是约减空间维数，降低计算复杂度，有效控制过拟合风险。常用的池化方法包括平均池化和最大池化。最大池化在故障诊断文章中应用最多，其数学模型可表示为：

式中：P(l)—池化操作降维后的输出；x*y—进行池化操作时池化区域大小，一般设置为2*2。

2.3 Nesterov动量法

CNN一般选用随机梯度下降法进行训练。然而，随机梯度下降法通常在最优值附近呈”Z”字型震荡，逐渐向最优值靠拢，导致网络训练较慢。动量法可以有效地改善随机梯度下降法的训练速度并减缓振荡。然而，动量梯度下降是盲目的，它不能根据参数的变化对下降速度进行调节，只会一直加速下降，这将导致网络在收敛时跨过最优解。文献［6］提出了一种Nesterov 动量法，可以很好的解决上述问题。Nesterov动量法可以看作是动量法的变体，其利用修正因子对相关参数进行修正，得到最终的更新方向。其公式如下：

式中：di、di-1—第i次和i-1 次的更新方向；g(θ)—目标函数在θ处的梯度；β—修正因子；通常是0 到1 之间的常数；η—学习率。

2.4 自适应学习率

传统的神经网络训练方法中，学习率通常为一个全局常数。然而，学习率的选择是一个难点，学习率较大，网络收敛速度较快但可能出现过拟合的现象。反之，学习率较小，网络收敛慢。为了更好的训练网络，提出了一种根据误差变化率动态调整学习率的自适应学习率规则。设置阈值因子α对误差变化率较小的批次进行筛选，保持学习率不变。其他情况下，通过误差变化率对学习率进行动态调整。同时，为了防止学习率变化过快，设置惩罚因子减缓学习率的增加。此自适应策略的规则如下：

式中：β(q)—误差变化率；err(q)—q-th误差；γ(q)—q-th学习率；α—阈值因子，属于（0，0.2）；δ—惩罚因子，属于（0，0.1）。

2.5 批量归一化

批量归一化（BN）［7］可以保证网络在训练时非线性输入的稳定分布，可以是归一化的神经网络的操作的任何中间层的，减少因饱和而产生的梯度消失或梯度爆炸等问题，同时可以加速网络的训练。该论文中只在卷积层和池化层之间加入BN层。BN层的数学公式如下：

式中：Xlij、Nlij—第l层的输入和响应输出；m—批量归一化的样本数；γl、βl—针对每一个特征映射图的缩放和平移的参数。

3 基于Nesterov动量法的自适应卷积神经网络

在经典CNN的基础上结合误差变化率动态调整学习率的自适应学习率、BN以及Nesterov动量对CNN进行了优化。使用传统动量法训练网络时，梯度下降是盲目的，利用Nesterov动量法对网络进行训练可以克服这一问题。同时，为了提升网络的收敛速度，设计了一种根据误差变化率动态调整学习率的自适应学习率规则，并且在卷积层和池化层之间加入BN层，详细的参数设置参考了LeNET-5网络［8］，如表1所示。提出方法的流程图，如图1所示。卷积层和池化层的步长分别设置为1和2。提出的方法的详细结构参数在表1给出。初始学习率为0.02，批次大小为10，网络训练次数为150次。具体步骤文字描述如下：

表1 提出的卷积神经网络的结构参数Tab.1 Structural Parameters of the Proposed CNN

图1 提出方法的流程图Fig.1 The Flow Chart of the Proposed Method

（1）利用加速度传感器对轴承振动信号进行采集；

（2）将一维振动信号转换二维信号图（32*32）；

（3）构造CNN，并初始化参数（权重，偏置量，卷积核大小等）；

（4）将训练样本输入到网络中，利用自适应学习率和Nesterov动量对网络进行训练；

（5）将测试样本输入到训练好的模型中，获得最终诊断结果。

4 实验验证

为了验证基于Nesterov动量法的自适应卷积神经网络故障诊断方法对轴承故障诊断的分类效果，利用采集的轴承故障数据进行了验证。

4.1 数据描述

数据集来源于课题组在自己搭建的轴承寿命试验台所做的实验。轴承寿命试验台，如图2所示。轴承寿命试验台由机架，试验头壳体，驱动装置部件，液压加载装置，润滑系统部件，上位机，数据采集装置组成。驱动装置部件使用功率15kW的电主轴（200MDF04Z15）作为驱动电机，通过联轴节与试验轴连接。润滑系统部件由润滑油箱、抽油油泵机组、冷却风扇及过滤器组成，对被试轴承和承载轴承进行润滑。试验轴承（6306）安装在试验头上。将PCB356A16型加速度计垂直安装在损伤轴承的轴承座上，其采样频率为10kHz。每次采样时间为10s，即采集102400个数据点。

图2 轴承试验台Fig.2 Bearing Test Bench

本次试验中，测试轴承包含三种损伤状态和一种正常状态，即：正常状态（N），外圈单点故障（ORF），内圈单点故障（IRF），球单点故障（BF）。展示了三种损伤轴承，损伤是利用电火花加工制成，如图3所示。实验中电机速度为1500r/min，轴承载荷设置为4kN。每种状态取90个样本，以2：1的比例划分，即每种状态60个训练样本，30个测试样本。

图3 轴承的三种损伤状态Fig.3 Three Damage States of Bearings

4.2 实验结果及分析

利用实验室采集的振动数据对基于Nesterov动量的自适应卷积神经网络故障诊断方法进行了验证。主要从算法的损失函数收敛速度，训练误差以及对分类精度上与传统的CNN做了对比。传统CNN在训练初期训练误差基本保持不变，收敛曲线无法收敛，且在中期时误差曲线有较大的波动，不利于神经网络的训练，如图4所示。

图4 CNN与提出的方法收敛曲线图Fig.4 The Convergence Curve of CNN and the Proposed Method

然而，提出的方法收敛速度较快且误差曲线在下降过程中波动较小。当迭代次数为150时，传统CNN的训练误差为0.052，而提出的方法训练误差为0.004。对两种方法的识别精度进行了对比，如表2所示。提出的方法的总体识别精度为99.5%，CNN的总体识别精度为92.5%。从表中可以看出，提出的方法对正常工况，内圈故障，外圈故障的是识别精度均为100%。CNN对每一类的识别精度都要弱于提出的方法。

表2 轴承工况分类精度（%）Tab.2 Classification Accuracy of Bearing Working Condition（%）

为了进一步了解每种方法的误分类情况，分别绘制了两种方法结果的混淆矩阵，如图5、图6所示。从图5中可以看出，提出的方法对正常，内圈，外圈的识别精度均为100%，而对单点球故障的识别精度仅为98%，有2%的测试样本误分类到内圈故障。从图6可以看出，传统的CNN对每一种工况均存在误分类。正常的样本有10%误分类到球故障中。球故障的样本有3.33%的样本误分类到正常样本中，6.67%的样本误分类到内圈故障中。内圈故障中6.67%的样本误分类到球故障中。外圈故障的样本中有3.33%的样本误分类到内圈故障中。