一种基于新型轻量级神经网络的滚动轴承故障诊断方法
2022-11-21陈洪明孟威谭力王建景林群煦
陈洪明,孟威,谭力,王建景,林群煦
(五邑大学轨道交通学院,广东江门 529020)
0 引言
滚动轴承是机械设备中的一个重要组成部分,它的状态对机械设备的安全运转起到至关重要的作用,因此非常有必要对滚动轴承进行状态监测与故障诊断。通常而言,轴承故障诊断主要分为以下4个步骤:1)收集振动信号;2)信号处理;3)从信号数据中提取特征;4)构建模型并进行故障诊断[1]。传统的故障诊断方法包括经验模式分解(Empirical Mode Decomposition, EMD)[2]、支持向量机(Support Vector Machine, SVM)[3]、信念网络(Belief Network, BN)[4]等,这些方法应用于数据量较少的数据集时,它们通常能够取得良好的效果。但是当它们应用于大量数据的数据集时,通常需要经验丰富的专家提取特征用于故障诊断,耗时费力。而且,由于这些网络模型层数较浅,难以处理大量的计算,因此往往诊断效果不佳。
针对传统故障诊断方法存在的不足,深度学习(Deep Learning)方法被提出,深度学习具有从振动信号中自动提取特征的能力,因此使用深度神经网络进行轴承故障诊断能够实现端到端的故障诊断。卷积神经网络(CNN)作为应用较为普遍的深度神经网络,它在图像分类和视觉识别的任务中表现卓越,由于卷积层的存在,CNN模型具有共享权值和局部连接的特点。这些特点也使CNN模型与传统的浅层神经网络相比,能够更好地泛化,并且在网络深度增加时避免过拟合。然而,虽然CNN可以有效地对轴承进行故障诊断,但是通常情况下需要长时间的模型训练和大量的参数,因此容易导致模型的诊断效率低下。
基于上面所述,轻量化模型的概念被提出,轻量化模型能够降低对内存的需求与提高模型效率。由于轻量化模型的网络参数较少,因此模型的计算速度也会更快。常用的轻量化模型主要包括SqueezeNet[5]、Xception[6]、MobileNet[7]和ShuffleNet[8],这4种轻量化模型分别以不同的方法网络参数,与传统的模型相比,它们在处理海量数据时,计算量和网络参数都大幅减少,因此它们的损失精度也大幅减少。
为减少模型的网络参数并加快其运行速度,本文提出一种智能化的轴承故障诊断方法,即以轴承的一维原始振动信号作为输入,在模型的前两个卷积层中采用宽卷积核,宽卷积核对一维数据做卷积处理时,能够以较少的参数获得更大的感受野[9],感受野越大,获得的全局性信息也就越多,因此也更加有利于学习轴承信号的特征信息,从而有利于提升模型的诊断性能。而且,对于深度网络而言,感受野越大,特征信息也就越不容易丢失,因此采用前两层宽卷积核的卷积神经网络不仅能够有效使模型轻量化,而且能够提升模型的诊断性能。
1 基于1D-TWCNN模型的故障诊断方法
1.1 卷积神经网络
卷积神经网络是一种前馈的深度网络模型,它主要包括卷积层、池化层和全连接层这三大部分。其中,卷积层的主要操作为权值共享和局部卷积,池化层的主要操作为下采样降低特征维度,而全连接则是起到“分类器”的作用。CNN模型的原理如图1所示。首先,卷积层通过权值共享的方式对输入数据做局部卷积处理操作,然后将卷积得到的特征图输入池化层中,经过几次反复的卷积-池化后得到特征图作为全连接层的输入,特征图经过展平处理后全连接输入全连接层,最后在全连接层中由Softmax函数分类输入分类结果。
图1 CNN的工作原理
1.2 宽卷积核的卷积运算
宽卷积核在提取特征时,旨在以较少的参数获得较大的感受野。感受野的定义是特征图上的一个像素点所对应到输入图上的区域。由于本文以一维振动信号作为输入,因此下面将介绍一维卷积运算过程的工作原理。以宽度为3的卷积核为例介绍卷积运算过程,如图2所示,前两层的卷积核宽度均为3,那么第二个特征图上的像素点对应到输入上的感受野是5,即两个卷积核的参数量为(3+3=6)得到的感受野大小为5。但是如果第一个卷积核的宽度为5,那么在第一个特征图上的一个像素点对应到输入上的感受野也是5,那么这个卷积过程是以5个参数也是获得5个感受野。以此类推,加大卷积核宽度,能够以较少的参数获得较大的感受野,大幅减少网络的连接参数,有助于抑制模型过拟合,实现轻量化。同时,一维卷积运算的原理为
图2 一维卷积运算过程
1.3 1D-TWCNN模型的工作原理
1D-TWCNN模型的结构与结构参数如图3所示,图中的括号中的数字代表对应层级结构参数,如卷积层中的(64, 32, 2)分别代表(卷积核数量,卷积核宽度,步长),而池化层中的(2, 1)则代表(池化窗口大小,步长)。在1DTWCNN模型提取特征的前馈传播过程中,首先,第一层宽核卷积层对输入信号做卷积处理,提取出输入信号的泛化特征,接着由最大池化层对泛化特征进行下采样操作降维,提取出泛化特征中更具有代表性的特征。然后,经过两次“宽核卷积-池化”后,输出的泛化特征输入卷积核尺寸为3的卷积层中,这是因为经过两层宽核卷积后,模型学习到了输入信号的全局特征,为保证模型提取到特征的多样性,还有学习到更多的局部细节信息,在宽卷积核之后采用小的卷积核去做卷积处理。最后,经过4次“卷积-池化”后,提取出的特征经过批标准化就进行展平,输入全连接层进行分类输出结果。
图3 1D-TWCNN模型结构
经过模型的前馈传播后输出分类期望结果,通过损失函数与目标结果对比后,得到损失值并进行反向传播,不断地调整模型的权重参数,直到损失值降到最小。
2 实验验证
2.1 实验数据介绍
在本节的实验验证中,采用的数据集来自美国凯斯西储大学(Case Western Reserve University, CWRU)轴承数据中心[10],该数据集被视为世界上验证轴承方法的权威数据集之一。产生轴承数据的试验台如图4所示,主要由一个2马力(hp)的电动机、一个转矩传感器,一个功率测试计和电子控制器构成。在试验台上,采用型号为SKF6205的深沟球轴承作为加工对象,且由电火花加工的单点损伤作为轴承故障损伤,损伤的位置主要包括内圈、外圈和球体,其中外圈故障又分为3点钟、6点钟和12点钟3个位置的损伤,且6点钟位置的损伤最为常用。在本节的实验中,还有采样频率为12 kHz,电动机载荷为3 hp,电动机主轴转速为1730 r/min,来自驱动端(DE)的轴承数据。实验中采取了10种故障类型的轴承数据来进行验证,它们的具体信息如表1所示。实验数据分为训练集和验证集,训练集和验证集的样本个数分别有1500个(包含10种故障类型样本,每种故障类型的样本数量为150)。
图4 CWRU数据集的试验台
表1 实验数据集的具体信息
2.2 实验对照方法
做滚动轴承故障诊断时,为验证基于1D-TWCNN模型相对于基于其他轻量化模型做故障诊断的优越性,本文将轻量级模型MobileNetV3(7BN)和ShuffleNetV2作为1D-TWCNN模型的对照模型。其中,1D-TWCNN模型以轴承的一维的原始振动信号作为输入,实现端到端的轴承故障诊断,而MobileNetV3(6BN)模型和ShuffleNetV2模型则是以二维的连续小波变换(Continuous Wavelet Transform, CWT)时频图作为输入,实现端到端的轴承故障诊断(CWT时频图是由轴承的一维振动信号通过CWT函数变换而来)[11]。而且,MobileNetV3(6BN)模型是由MobileNetV3(Small)模型改进而来,MobileNetV3(Small)模型中包含11个瓶颈(BottleNeck)结构,由于本文采用二维CWT时频图的尺寸为32×32,包含的数据量不大,为避免MobileNetV3(Small)模型处理本文实验数据时相对过于复杂,使模型过拟合而导致性能下降,本文将MobileNetV3(Small)模型中的11个瓶颈结构改为6个瓶颈结构的MobileNetV3(6BN)模型,且在处理本文实验数据时,它的性能不降反升。还有ShuffleNetV2模型是由经典的轻量化模型ShufflenetV1的基础上改进而来。
2.3 实验设置和结果分析
在实验中,将损失函数设置为交叉熵函数,优化器设置为Adam,训练批次设置为10,训练的迭代次数设为50个epochs。而且在模型的训练过程中,采用自适应学习率,它可根据模型收敛快慢自主调整增大或减少,初始学习率设为0.0001。
模型的大小一般由参数量(parameter)来衡量,模型的总参数量越大,说明模型所需的内存存储空间也就越大,且模型的可训练参数越多,说明所需的计算量越大,那么运行时间也就越久。如表2所示,在3种轻量化模型中,1D-TWCNN模型的总参数为82 026个,可训练参数为81 962个,两者在3种模型中不仅都是最小值,而且还分别远远小于其他2种模型中的总参数个数和可训练参数个数。这充分说明了1D-TWCNN模型比MobileNetV3(6BN)模型和ShuffleNetV2模型占用的内存更小,且运行速度更快。也就是说1D-TWCNN模型比MobileNetV3(6BN)模型和ShuffleNetV2模型更加轻量化。
表2 模型的参数比较
在滚动轴承故障诊断中,通常以 诊 断 精 度(Accuracy)和函数损失(Loss)值这两项指标作为诊断方法的评价指标,诊断精度越高,说明模型对故障类型的分类更加准确,函数的损失值越低,说明模型输出的期望结果与目标结果的差距越小,模型的性能也就更好。如图5所示,3种轻量化模型在训练过程当中的验证精度变化分别由3种不同特征的曲线表示,可以明显看出,代表1DTWCNN模型的曲线不仅在充分迭代后验证精度最高,达到100%,而且它的收敛速度最快,仅在模型训练迭代达到6个epoch后就基本收敛。然而,对于MobileNetV3(6BN)模型,它的收敛速度不仅落后于1D-TWCNN模型,而且它在充分迭代后所达到的验证精度也不高,仅有96.5%左右。还有,对于ShuffleNetV2模型,虽然充分迭代后它的验证精度能够达到99.4%左右,与1D-TWCNN模型的验证精度非常接近,但是它的收敛速度在3种轻量化模型中最慢。之所以发生上述现象,究其原因发现,与其他模型相比,1D-TWCNN模型的参数更少,它的运行速度也就更快,因此收敛速度也就更快。而且由于1D-TWCNN模型的拟合程度更好,得到的验证精度也就越高。所以,我们可以得出结论,1D-TWCNN模型不仅更加轻量化,而且它的性能也更好。
图5 3 种轻量化模型的验证精度
同样,如图6 所示,在3种轻量化模型中,可以清楚地发现,与其他模型相比,代表1D -TWCNN 模型验证损失值的曲线最接近于底线,几乎等于0。而且,它的收敛速度比其他2种轻量化模型的收敛速度快。上述现象也充分说明了在3种轻量化模型中,通过充分训练迭代后,1D-TWCNN 模型能够输出与目标结果相差无几的期望值,而且所需的充分训练迭代时间更短。换句话说,与其他优秀的轻量化模型相比 ,1D -TWCNN 模型做轴承故障诊断时的速度更快、精度更高。
图6 3 种轻量化模型的验证损失值
3 结论
本文提出一种新型的轻量化神经网络模型(1D-TWCNN),可用于滚动轴承的故障诊断。该模型针对轴承原始振动信号具有一维时序性的特点,在模型的前两个卷积层上使用宽卷积核,由于模型在处理轴承信号的过程中,宽卷积核不仅能够抑制高频噪声干扰,而且还能够以较少的参数获得更大的感受野,因此,与其他轻量化模型相比,1D-TWCNN模型不仅占用内存更少(总参数更少),而且诊断性能更高。因此,针对于滚动轴承的故障诊断,1D-TWCNN模型在轻量化方面取得了一定的进步。