基于多输入卷积神经网络的轴承故障诊断方法

2022-09-08凌六一黄凯文

安徽理工大学学报（自然科学版） 2022年2期

凌六一,吴起, 黄凯文

(1.安徽理工大学人工智能学院,安徽淮南 232001; 2.安徽理工大学电气与信息工程，安徽淮南 232001)

滚动轴承广泛使用在各种机械设施中[1]。滚动轴承作为机械设备的易损件，其健康程度对机械设施的效率、稳定性和工作寿命有极大影响[2]。如果滚动轴承失效，则会加速其他相邻部件和机器的失效。因此，有必要对其健康状况进行预测，以防止轴承失效引起的事故。

Hinton于2006a首次提出深度学习相关理论，如今深度学习已被广泛应用于轴承故障诊断领域[3]。与传统的诊断方法[4]相比，深度学习不需要诊断经验和大量的信号处理，能提高分类或预测的准确性。在轴承故障诊断领域卷积神经网络能通过不同尺寸的卷积核和池化层来提取不同维度的特征。与传统的手动特征提取相比，卷积神经网络不需要先验知识且有更高的准确率。近年来硬件计算能力大幅提高使神经网络的训练时间大幅下降，一些研究人员使用卷积神经网络进行轴承故障诊断并取得了诸多成果。文献[5]提出了一种通过原始时间信号进行轴承故障诊断的一维CNN，该CNN在噪声环境下表现良好。文献[6]提出了一种用于轴承故障诊断的自适应分层次深度CNN，将原始时间信号转换为32×32矩阵作为输入。文献[7]提出了一种用于轴承可靠性评估和剩余寿命预测的CNN，将频域信号转换为32×32矩阵作为输入。文献[8]提出了一种基于卷积神经网络的轴承故障诊断模型，利用短时傅里叶变换将故障信号转换为时频图像。文献[9]提出了一种基于连续小波变换的滚动轴承故障诊断的方法。尽管上述方法能够有效地实现轴承故障诊断，但由于只使用了一种特征提取方法，诊断过程中会丢失故障信号的部分信息。

因此，为了更好地提取故障信号的特征，避免遗漏重要信息、提升模型的故障分类精度，本文提出一种基于多输入卷积神经网络(multi input convolution neural network，MI-CNN)，该方法分别通过短时傅里叶(STFT)和连续小波变换(CWT)将一维原始振动信号转化为时频信号并保存为图片作为模型的输入，通过调整模型的超参数，实现轴承故障诊断。

1 相关理论

1.1 短时傅里叶变换

短时傅里叶变换是一种分析方法，它使用带有时间窗口的傅里叶变换，可以在时间维度上移动，从而在时间和频率域上提供更好的局域性。STFT是一种针对时变非平稳信号的时频联合方法。基本运算公式定义如下

(1)

式中：x(t)为原本的时域信号；h(t-τ)e-j2πft是STFT的窗函数；参数f是傅里叶变换的频率，Hz；通过将窗函数移动，对原信号逐段进行分析。

1.2 连续小波变换

在任意的空间中的函数,其CWT的定义为

W(a,τ)=[h(t),ψa,τ(t)]=

(2)

(3)

式中：a为尺度因子；τ为平移因子；ψa,τ(t)为小波基函数。

1.3 卷积神经网络

卷积神经网络通常由输入层、卷积层、池化层、全连接层和输出层等构成，分为特征提取和分类两个阶段。在特征提取阶段由不同尺寸的卷积核以及不同大小的池化窗口提取不同的特征；分类阶段由几个全连接神经网络和Softmax组成。接下来将介绍各层的基本结构。

1)卷积层卷积层具有局部连接和权值共享等特点从而极大地减少了参数的数量。卷积计算公式为

(4)

式中：hj代表当前卷积层的第j个输出特征图；Xi表示前一卷积层的第i个输出特征图(当前层的卷积层输入)； *表示进行卷积操作；Wij表示第i层输入特征映射对应当前第j层输出特征映射的卷积核；bj表示当前卷积层对应的第j个输出特征的偏移量，是一个非线性激励函数。本文的激活函数选择ReLU(Rectfied Linear Unit)激活函数，其公式为

(5)

2)池化层 pooling层也称为下采样层。池化层在一定程度上起到更深层次特征的作用。常用的池化方法包括最大池化、平均池化和随机池化。其中最大池化被广泛使用。其计算公式为

xj=down(xi)

(6)

式中：xj表示当前池化层第j个输出特征图；down(·)表示下采样操作；xi表示上一层第i个输出特征图。

3)全连接层全连接层由几个全连接神经网络组成，不同于卷积神经网络，全连接网络的主要作用就是对数据进行降维，通过几层全连接网络叠加直到能输出一个理想维度的数据并在最后的输出层连接一个Softmax分类器。Softmax分类器是分类任务中最常见的分类器。设训练数据集中的输入样本为xm，每一个输入样本有一个标签ym且y∈(1,2,…j)，分类器试图估计每个标签的可能性p(y=j|x)，因此可以通过降低目标函数的损失来训练Softmax层。其计算公式[10]为

(7)

式中：zi为第i个神经元的logits值；M为所需进行分类的种类数。

4)损失函数在每一次训练集输入到模型后，就要对模型的参数进行调整，最常用的方法是利用反向传播，计算最后一层预测标签与真实标签之间的误差，以此来更新模型内部参数的权值和偏移量，获得更小的输出误差。误差计算公式[11]为

(8)

式中：L是损失函数；θ表示权重和偏移量，θ的更新公式为

(9)

式中：η是反向传播过程中的学习率。

2 CNN模型的搭建及诊断过程

2.1 输入图像的构造

为了充分利用卷积神经网络在处理图片上的优势，本文使用两种时频转换方法STFT和CWT将原始信号转化为二维时频图像。由于原始一维振动信号长度有限，本文采用重叠采样扩充数据集和避免过拟合，最后可得样本的数目为m，m的求取公式[12]为

(10)

式中：L为原始信号总长度；l为单个样本长度；滑动窗口的步长为。

由于输入数据来自两种不同的时频图，为了加快训练的速度和提高模型的精度，本文对输入时频图进行归一化，其计算公式[13]为

(11)

式中：x′为归一化后的数据；x为初始数据；μ为初始数据的平均值；σ为初始数据的标准差。

2.2 网络的搭建

为了更加全面的提取轴承故障信号中的特征，本文基于卷积神经网络，批标准归一化(BN)等技术搭建了一种新的卷积神经网络模型多输入卷积神经网络(MI-CNN)，网络结构图如图1所示。本网络由输入层、特征提取层、特征叠加层、分类层组成。输入层是短时傅里叶和连续小波变换转换后的二维时频图，两张时频图同时输入进网络；特征提取层由两个通道组成，两个通道分别提取不同尺度的特征，并通过pooling层进行下采样，对特征图进行降维，最后输出两个尺寸一样通道数不同的特征图；特征叠加层通过将两个特征图在通道数维度上叠加，方便分类层提取来自不同特征图的混合特征；分类层由两个卷积层、两个池化层、1个全连接层、1个Softmax分类器组成。为了增强模型的泛化性，提高模型的训练速度，在每一层卷积层和池化层后面添加批标准归一化层(Batch Normalization，bn)。

图1 MI-CNN网络结构图

2.3 轴承故障诊断过程

本文利用2.2节搭建的网络模型实现了轴承的故障诊断，诊断具体流程如图2所示，具体步骤如下：

图2 诊断具体流程图

1)通过2.1节介绍的方法将原始振动信号处理为两种时频图像，并将两种时频图像混合起来划分为训练集和测试集；

2)初始化神经网络的参数，将卷积核、偏置和权值等初始化为一个随机数，再设置学习率，迭代次数等超参数；

3)训练样本按照提前设置好的数量传入网络进行前向传播，经过分类层后获得预测值，再计算出预测值与真实值的损失，利用优化算法将误差反向传播，更新网络参数；

4)重复步骤3，直到迭代次数i达到提前设置好的N次，得到训练好的网络；

5)将测试集输入到训练好的模型，得到诊断结果，完成轴承故障诊断。

3 实验验证与分析

3.1 实验数据

实验数据来自东南大学齿轮箱数据集[14]，实验平台为动力传动系统动态模拟平台，由齿轮箱、电机、制动控制器等组成。通过加速度传感器采集多种运行状态下的轴承信号。

本节所使用的数据是在转速为20Hz(1 200rpm)-无负载0V(0Nm)下采集到的。共有5种轴承故障种类：滚珠故障(BF)、无故障(NO)、内圈故障(IF)、外圈故障(OF)和内外圈混合故障(CF)，分别标记为0～4。每个样本选取1 024个采样点，利用2.1节所述方法将其转换为时频图，每类样本共500个样本(其中400个为训练集，100个为测试集)，具体如表1所示。

表1 数据集具体组成

3.2 模型参数

在本文提出的模型中CWT通道采用尺寸较大的卷积核，STFT通道采用较多的通道数，经过多次实验，最终确定模型参数如表2所示。此外模型的超参数设置如下：学习率设为0.005；训练轮数为50；每轮64个样本随机打乱抽取为一批；优化算法选取Adam优化算法。

表2 模型具体参数

3.3 实验结果分析

为了充分验证本文提出的模型在东南大学轴承数据集上的诊断效果，采用五折交叉验证的方法将数据集随机抽取分为5份，每次选取1份作测试集，剩下4份作训练集，每次做5次试验，一共做了25次试验，试验结果如图3所示。

图3 试验结果

从图3可知，试验准确率最高可达100%，最低为99.2%，平均值为99.6%。图4为其中一次训练过程准确率曲线，由图4可知，在第2轮测试集准确率就已经达到90%以上，在第8轮测试集已经收敛，且未出现过拟合现象，说明本文提出的模型取得了不错的故障诊断效果。

图4 训练过程准确率曲线

3.4 对比研究

由于本文提出的模型是利用STFT通道和CWT通道来分别提取原始信号不同维度的特征，本节主要利用以下几种方法来与本文提出的方法进行对比：方法1为本文提出的方法MI-CNN；方法2为只使用CWT对原始信号进行转换；方法3为只使用STFT对原始信号进行转换；方法4为使用普通2D-CNN进行故障诊断；方法5为使用MLP(Multilayer Perceptron)对原始1D信号进行故障诊断。图5为5种方法训练过程准确率曲线，为保证实验的公平性，方法2(CWT-CNN)、方法3(STFT-CNN)、方法4(2D-CNN)模型的深度和卷积核参数都与方法1(MI-CNN)一样。由图5可知，方法1收敛速度最快，准确率最高可达100%且稳定性最好；方法2的效果次之，收敛速度不如方法1；方法3准确率先升高再降低，效果一般；方法4比较稳定，但诊断效果不如方法1和方法2；方法5(MLP)由于是对1D信号进行诊断，没有进行处理包含很多噪声，所以模型一直无法收敛。

图5 对比分析结果

3.5 可视化分析

为了更加直观地体现本文所提出的方法在提取轴承故障特征上的优越性，将采用t-SNE技术对方法1～5进行可视化分析。首先将5个模型分别训练至收敛并保存训练好的模型参数，再将训练好的模型最后一层的数据通过t-SNE技术[15]进行特征降维并可视化，各模型可视化结果如图6所示。

图6 可视化结果

图6中(a)为未经过模型的输入层特征，(b)～(f)为方法1至方法5的输出层特征。由图6(a)可知，未经特征提取的输入层5种故障信号的特征分布没有规律且混在一起无法有效地进行故障诊断；由图6(b)可知，经过5种方法进行特征提取后，方法1明显地将故障信号分为5类，OF和BF两类故障特征较其他几种特征之间的距离更近，说明OF和BF故障特征很相似；由图6(c)可知，方法2能将5种故障大致地分清，但NO和CF故障之间距离过短，在实际诊断过程中可能会出现误判；由图6(d)可知，方法3能将NO、CF、IF故障明显分清，但BF和OF故障特征仍混在一起；由图6(e)可知，IF、CF、NO故障特征分散不够聚集，OF和BF故障混在一起无法有效地进行故障诊断；由图6(f)可知，方法5特征提取效果不佳，无法有效地进行故障诊断。综上所述方法1在提取故障特征上相比于其他4种方法能使5种故障特征明显分离且相同故障间更加聚集，所以能更好地进行下一步的故障分类。

4 结论与展望

本文提出了一种基于多输入卷积神经网络的轴承故障诊断方法(MI-CNN)，通过实验表明相较于单独使用STFT和CWT以及其他传统故障诊断方法，MI-CNN的收敛速度最快且故障诊断准确率均值为99.6%，验证了本文方法的准确性和在提取轴承振动信号特征上的优越性。所提方法克服了使用单一时频转换方法所带来的特征丢失问题。

本文方法仅使用了一种位置的轴承信号，而不同位置上采集到的轴承信号所包含的信息不同，在今后的研究中可将不同位置采集到的轴承信号结合提高轴承故障诊断效果。