改进MoblieNet网络在轴承轻量化诊断中的应用

2024-01-22朱富刘畅王贵勇杨永灿

机械科学与技术 2024年1期

朱富,刘畅,王贵勇,杨永灿

(1. 昆明理工大学机电工程学院,昆明 650500; 2. 云南省先进装备智能制造技术重点实验室,昆明 650500; 3. 内蒙古第一机械集团有限公司,内蒙古包头 014000)

近年来,随着智能制造的深入,机械设备的状态监测在国家的先进装备制造业中起着举足轻重的作用,其通过对关键部件的状态监测与评估来保证设备的可靠与安全运行。滚动轴承作为旋转设备的核心部件,其状态直接决定了整个设备的性能、稳定性和寿命周期,因此对轴承进行准确、高效的实时故障诊断对于保证生产可靠性和促进安全具有重要意义。传统上,人们常借助于信号变换提取特征,利用特征来进行故障诊断。例如,李道军等[1]对所采集的轴承振动信号进行局部均值分解成若干乘积函数,把乘积函数的能量作为故障特征输入到支持向量机(Support vector machine, SVM)中对轴承故障状态进行识别;Chen等[2]用经验模态分解(EMD)对滚动轴承振动信号进行分解得到固有模态函数,然后再经过分位数排列熵算法得到分位数排列熵作为特征输入到粒子群优化算法中实现故障诊断;Yuan等[3]利用采集到的对原始信号进行小波变换,提取特征,然后采用聚类方法进行故障识别。上述方法的诊断效果很大程度上取决于前期提取的故障特征是否有效,因此受人为因素影响较大,并且在数据量较大时很难有效地表征特征与健康状态之间的映射关系。

随着人工智能的快速发展,深度神经网络在故障诊断领域得到了广泛的研究,利用神经网络在层与层之间深入挖掘信号故障特征并对其进行学习,精确地对轴承状态进行识别,实现从特征提取到故障识别整个过程自动进行,从根本上解决了传统方法受人为因素干扰大、效率低等问题。Khorram等[4]将原始信号的时域特征作为一种新型卷积长短时记忆递归神经网络(CNN+LSTM)的输入,得到了较高的轴承检测精度;Wang等[5]提出了一种基于多头注意机制的卷积神经网络,利用空间变换将一维信号转变为二维灰度图像实现了端到端的轴承故障诊断;Zhang等[6]提出了一种宽核深度卷积神经网络WDCNN,利用第一卷积层中的宽核来提取特征和抑制高频噪声,实现了正常轴承信号的100%故障分类诊断;Ye等[7]提出了基于深度学习提出了一种带干扰的卷积神经网络(TICNN),其可以在不依赖于任何自适应算法的情况下对噪声环境、变工况轴承数据进行高精度诊断,并且具有很好的泛化性能。

MoblieNet是一种轻量化的网络结构,在图像处理领域取得了不错的效果。文献[8]研究发现,在图像处理领域相比于AlexNet[9]、VGG 16[10]等这种经典网络,MoblieNet不论从诊断精度还是模型的运行效率等方面都展现出了极好的性能;但MoblieNet在设备故障诊断领域中的研究较少,Yu等[11]将一维振动信号转成二维信号作为网络的输入,利用MoblieNet网络实现故障自动分类,并在浏览器中实现轻量化部署。综上所述,以深度学习为代表的智能诊断方法能够准确有效地实现在变工况等复杂条件下轴承的故障识别,解决传统诊断方法的不足,但由于模型参数量巨大,对设备的硬件资源提出了更高的要求,增加了模型部署难度和成本,影响诊断的实时性,难以满足工业现场的要求。

针对上述传统模型参数量大、实时性差以及MobileNet网络无法处理一维信号的问题,本文提出了一种基于一维卷积神经网络改进的MobileNet网络(One diamension CNN MobileNet,1D-CMN)的故障诊断方法。该方法利用深度可分离卷积搭建了网络,在保证准确率的同时,使模型的参数量和诊断效率极大地提升;并通过西储大学公开滚动轴承数据集和QPZZ-Ⅱ型故障模拟试验台的数据对模型进行了验证。实验结果证明了该方法的有效性,为轻资源嵌入式系统中实现轴承的实时状态监测提供了一种可行的方案。

1 背景理论

1.1 一维卷积网络

卷积神经网络[12](Convolutional neural network, CNN)是一种带有多层卷积结构的神经网络,采用局部连接和权值共享的方式对输入的数据进行反复自适应学习和多层表示来提取相关的特征,并将学习到的特征不断传入下一高层进行多层表示,利用多层的高层次特征来有效表示数据的抽象信息,最后采用分类器对最后的高层特征进行处理实现对输入数据的分类预测。

一维卷积神经网络(1D-CNN)[13]在自然语言处理(NLP)[14],一维时间序列数据集分析、信号处理等领域广泛应用,它从数据片段中沿正方向进行局部特征提取来获取感兴趣的特征;其输出特征图的计算式为

Yi=f(Wi*x+bi)

(1)

式中:Yi为第i层卷积的输出;Wi为第i层卷积的权重矩阵;x为第i层卷积层的输入,即第i-1层卷积的输出;bi为第i层卷积的偏置参数;f(·)为该层卷积层使用的非线性激活函数,一般常见的有Rule、tanh等激活函数,能够使神经元提取数据的非线性特征,增加表达能力。

1.2 MobileNet网络

MobileNet网络是2017年由谷歌提出的一款轻量级网络机构,其最大的特点就是利用深度可分离卷积(Depthwise separable convolution)替代传统的标准卷积,在保证模型精度的基础上,以更小的空间代价(参数减少)和更少的时间代价(计算量更少)实现与标准卷积层一样特征提取的功能,降低对设备硬件资源的要求和模型运行时间。

深度可分离卷积[15](Depthwise separable convolution,DSC)由深度卷积(Depthwise convolution, DW)和逐点卷积(Pointwise convolution, PW)构成,如图1所示。DW卷积和标准卷积有较大的不同,其只有一维的卷积核,每个卷积核只对一个通道的特征进行卷积操作,在完成深度卷积操作之后无法对通道进行扩展,即输出特征通道数与输入特征通道数保持一致。由于每个卷积运算都是在每个通道之间独立进行,得到的特征图各通道之间是不关联的,因此需要PW卷积来将DW卷积生成的特征重新进行排列组合生成新的特征图,将其与各通道关联起来。PW卷积与标准卷积唯一的不同就是利用1×1卷积核每次对一个像素区域进行卷积,对各通道的特征进行组合,以较少的计算量对数据的维度进行改变。

图1 深度可分离卷积结构图Fig.1 Depth-separable convolution structure

2 基于MoblieNet的网络结构与训练

2.1 模型概述

本文以深度可分离卷积为模块,构建了一种基于1D-CNN改进的MobileNet的轻量化网络模型(1D-CNN),其结构如图2所示。由于振动数据为一维的,不能直接应用于标准MobileNet网络,故本文对标准的MobileNet网络利用1D-CNN进行了改进,使其能够直接适应于一维信号。模型由输入层、特征提取模块层和融合分类层组成,其第一层是一个卷积核为64×1的标准卷积层,然后接4个深度可分离卷积层来自适应提取特征,并对每个通道输出的特征进行最大池化处理,最后使用全连接层对所提取到的特征进行全连接并通过Softmax函数输出信号属于各类别的概率分布,实现轴承的故障分类识别,其模型的具体参数如表1所示。

图2 1D-CNN网络结构图Fig.2 1D-CNN network structure

表1 1D-CNN网络参数设置Tab. 1 1D-CNN network parameters

2.2 数据预处理

2.2.1 归一化

为了降低数据分布变化的影响、提高模型的收敛速度和诊断精度,对数据进行归一化预处理,通过线性变换将结果映射到[0～1]区间,其转换公式为

(2)

式中:yi为进行归一化后的结果;xi为每一个样本数据;max{xj}为样本数据中的最大值;min{xj}为样本数据中的最小值。

2.2.2 数据增强

在数据驱动的深度学习领域,拥有足够大的训练样本是提高模型的精度,有效减少模型过拟合的关键。本文提出使用移动滑窗重叠采样的方式来增加训练样本,具体如图3所示。该方法可以有效地增加训练样本,同时保持一维时序振动信号的周期性和连续性,避免等距采样、抽样采样造成信号丢失等问题。

图3 数据增强示意图Fig. 3 1D-CNN network structure

由图3可知:若某种状态下数据的总长度为L,每个样本的数据长度为l。若不采用增强方式,当前振动信号可分割的样本数量A为

(3)

式中⎣·」为向下取整运算符,下同。

采用移动滑窗重叠方式,以偏移量α进行数据采样,则重叠部分的数据长度为1-α;当前信号可分割得到的样本数量为

(4)

采用数据增强后样本扩充的倍数γ为

(5)

2.3 模型训练

数据集在经过预处理之后,按7∶2∶1的比例划分训练集、验证集和测试集。模型使用训练和验证精度最高的参数作为最终参数,优化器选用收敛速度较快且稳定的Adam优化器,损失函数为交叉熵损失函数(CrossEntropy loss),学习率为0.001,使用Batch normalization 批标准化处理,以加速神经网络收敛速度,简化超参数调节,消除过拟合,其大小设置为70;最后使用Softmax函数对目标进行分类,输出各个类别的概率分布。

3 实验分析与讨论

3.1 实验环境

本文通过西储大学公开的轴承数据集和QPZZ-Ⅱ型机械振动分析及故障模拟试验台,实验配置如下:

1) 硬件环境: CPU 为 Inter core i5-10400@

2.90 Hz,运行内存为16 G,GPU为GTX2060。

2) 软件环境:操作系统为Windows10 64bit,编程语言为Python3.7,深度学习框架为TensorFlow+keras。

3.2 实验1

3.2.1 数据描述

本实验的数据来源于西储大学公开的轴承数据集,实验台如图4所示。左端为一个1.5 kW(2 HP)的电机,中部为一个扭矩传感器/编码器,右侧为一个功率测机,其电子控制器在图中没显示。为了更好地说明该方法的有效性,本文选择处于驱动端的6205-2RS JEM SKF 深沟球轴承实验对象,在1.5 kW负载、轴承转速为1 772 r/min、采样频率为12 kHz的条件下采集的数据,其数据包括正常、滚动体故障、内圈故障和外圈故障4类状态,而每种故障类别又包含0.007 mm、0.014 mm、0.021 mm这3种不同故障直径的等级共10组数据,如表2所示。

图4 西储大学轴承实验台Fig. 4 Western Reserve University bearing test bench

表2 实验1数据集Tab. 2 Experiment 1 data set

3.2.2 实验结果

将得到的数据按7∶2∶1的比例划分为训练集、验证集和测试集。将训练集和验证集送入网络进行训练,在训练前对数据进行了归一化和数据增强预处理操作,训练过程中学习率设置为0.001,使用交叉熵损失函数来优化训练过程中的参数,训练次数设置为25次,批处理大小设置为70,其训练过程如图5所示。由图5可知:模型在训练15次之后便能很好的收敛并保持稳定,其训练精度和验证精度都能达到99.5%以上。

为了更加清晰地展示模型在测试集上对各类信号的识别结果,引入了混淆矩阵对实验结果进行分析。由图6可知:模型除了对故障直径分别为0.007 mm、0.014 mm的滚动体故障有较少的识别错误外,对于其他8种状态都能达到100%的识别准确率,展现出了极好的性能。

图6 混淆矩阵Fig. 6 Confusion matrix

T-SNE作为一种数据可视化和探索高维数据特征非常有效的算法,能够将高维数据映射到三维或者二维空间进行可视化。为了进一步表征模型对不同类别特征的学习能力,本文使用T-SNE对模型最后全连接的结果进行可视化分析,如图7所示。由图7可知:网络能够将各种特征信息清晰准确地分辨出来。

图7 全连接层T-SNE可视化结果Fig. 7 Fully connected layer T-SNE visualization results

为了进一步验证所提方法的有效性,本文选取了标准CNN、传统的SVM机器学习方法与所提出的方法进行了对比分析,其中标准CNN模型的层数和各层之间的参数设置都与本文所使用的模型相一致,实验结果如表3所示。从实验结果可以看出,利用深度学习的诊断方法不论是从诊断的精度和诊断效率都相较于传统的机器学习方法有较大的提升;对比标准的CNN可以看出,本文所提出的方法和标准卷积神经网络的识别准确率都能达到99.6%以上,但在模型的大小(模型的参数量)方面,本文所提出的参数量只有标准卷积神经网络的一半左右,从61 190降到了30 998,在保证诊断准确率的前提下大大降低了模型的复杂程度。

表3 不同模型性能对比Tab. 3 Comparison of different model performances

3.2.3 模型抗噪性能验证

为了使数据更加符合实际的工况,验证模型的抗噪性能,本文在原始数据上加上了不同信噪比(Signal noise ratio, SNR)的高斯白噪声,并通过上述的标准CNN、SVM来和本文所提出的方法进行对比实验,其实验结果如图8所示。实验结果表明:在加上噪声干扰之后,譬如支持向量机这种传统的机器学习方法已经很难满足诊断要求,其准确率从不加噪声的88%下降到了加噪声后的最高51%;而对于深度学习所使用的两种方法都能在噪声干扰情况下很好地将故障识别出来,其准确率都高达99%以上,表现出了良好的抗噪性能。

图8 模型抗噪性能对比Fig. 8 Comparison of model anti-noise performance

3.3 实验2

3.3.1 数据集描述

为了进一步地验证本文所提出的方法,证明其泛化性能,本文进一步利用QPZZ-Ⅱ型故障模拟试验台进行了实验,结构如图9所示。

图9 QPZZ-Ⅱ型机械振动分析及故障模拟试验台Fig. 9 QPZZ-Ⅱ mechanical vibration analysis and fault simulation test bench

实验台通过电机进行驱动,所测轴承类型为圆柱滚子轴承N205EN,选取了包含正常状态、内圈故障、外圈故障和滚动体故障4类轴承状态。其滚动轴承的转速为1 200 r/min,采用NI-9234采集卡采集轴承的振动信号,采样频率为25.6 kHz,传感器垂直安装在轴承座的上方。本文选取每种状态的样本1 000个,共计4 000个样本量。实验数据如表4所示,信号的时域波形图如10所示。

表4 实验2数据表Tab. 4 Experiment 2 data set

图10 信号时域波形Fig. 10 Signal time domain waveform

3.3.2 实验结果

将所得到的数据集按7∶2∶1的比例划分训练集、验证集和测试集。在经过数据预处理后将训练集和验证集送入到模型进行训练和验证,其中训练参数按上述实验的参数设置,其训练过程如图11所示。由图11可知:模型在训练13次之后就收敛稳定了,训练和验证的精度都接近于100%,不存在过拟合的情况,取得了良好的效果。

图11 模型训练情况Fig. 11 Model training

利用T-SNE对最后全连接层学习的特征进行降维可视化,结果如图12所示。由图12可知:模型能够准确地将特征分开,充分展示了所提方法的有效性。

图12 T-SNE可视化结果Fig. 12 T-SNE visualization results

在本实验中,同样利用了标准CNN模型、传统SVM方法和本文所提方法进行了对比分析,其实验结果如表5所示。相较于传统的SVM机器学习算法,利用深度学习搭建的神经网络更能准确有效地将各类特征识别出来,而与标准的卷积神经网络相比,本文所提出的方法在准确率高达100%的前提下,大大降低了模型的复杂程度,极大地提升了运行效率。