APP下载

基于Laplace小波卷积和BiGRU的少量样本故障诊断方法

2023-01-03路颜萍

振动与冲击 2022年24期
关键词:训练样本小波故障诊断

罗 浩, 何 超, 陈 彪, 路颜萍, 张 欣, 张 利

(1. 辽宁大学 信息学院,沈阳 110036;2. 东北大学 材料科学与工程学院,沈阳 110819)

机械旋转设备故障诊断已步入智能化、自动化时代。其中,滚动轴承扮演着重要角色,其健康状态直接影响设备的稳定性、可靠性[1]。然而,滚动轴承往往在复杂条件下工作,受到材料退化、温湿度等多种要素影响,故障后轻则影响工厂效益,重则导致人员伤亡。因此,对其健康状态监测是极具研究意义的课题。

过去基于信号分析、群智能进化、机器学习的故障诊断方法不断涌现[2-4]。然而相关算法依赖专家先验知识,难以处理高维数据;群智能优化的寻优结果难以稳定且时间复杂度高。随后,深度学习智能故障诊断如火如荼。或多角度分析旋转机械振动信号特征,或改进深度优化算法,或设计新颖高效的网络结构[5]。

近些年,少量样本故障诊断成为研究热点。有的利用模型特征提取优势和正则化策略,例如Han等[6]提出基于双向长短时记忆(bidirectional long short-term memory, BiLSTM)和胶囊网络少量样本故障诊断方法。振动信号经卷积神经网络(convolutional neural network,CNN)和BiLSTM去噪融合后,胶囊网络对少量样本故障诊断有着良好性能。Saufi等[7]提出基于谱峰度滤波和粒子群优化堆叠稀疏自编码器少量样本诊断方法,当每个故障类型训练数为100时,取得较高精度。有的依据数据分布生成多而高质量样本,例如Li等[8]提出条件Wasserstein生成对抗网络(conditional Wasserstein generative adversarial networks, CWGAN),利用源域大量标签数据训练CWGAN生成大量样本。针对有限标签目标域数据,加载预训练参数并微调CWGAN实现少量样本迁移,取得良好效果。有的应用元学习、迁移学习等新兴机器学习技术实现诊断,例如Zhang等[9]提出基于孪生神经网络的小样本故障诊断方法,输入相同或不同类的样本对,计算两者特征向量的L1距离,判断是否同属一类来训练模型,最后将支持集与查询集作为特征对并计算相似度来实现故障诊断。Wang等[10]在此基础上,利用全连接来模拟特征对相似性度量,并添加正则化手段提升效果。Wu等[11]比较了基于特征迁移、微调、元关系网络三者间小样本迁移性能,得出当样本较少或源域、目标域相似性较大时,元迁移占据主导地位;反之,特征迁移优势逐渐明显。

针对模型特征提取优势和正则化策略,除上述胶囊网络外,沈涛等[12]探究CNN-LSTM(convolutional neural network-long short-term memor)对少量样本表达能力,选择训练集比例0.3来探讨模型应对各种复杂工况能力。然而单尺度单向的CNN-LSTM,没有充分挖掘模型性能,并且批归一化和Dropout等都略常规。Yang等[13]提出一种基于1DCNN和BiGRU框架损害检测方法,将多传感器信号组成信号矩阵输入模型中,融合两者提取的特征实现故障诊断,但未探究少量训练样本下BiGRU效果。另外,双路Laplace小波卷积和双向门控循环单元(dual Laplace wavelet convolution bidirectional gated recurrent unit, DLWCB)每类训练数是Saufi等研究的60%为60个,泛化难度更大。

在上述分析基础上,研究内容总结如下:

(1) 从拓扑结构和正则化出发,提出一种少量样本故障诊断思路,设计一种端对端融合双路Laplace小波卷积核和BiGRU的故障诊断方法。首先提出Laplace小波卷积核,并和平均能量池化共同作用于所设计模型,提取多尺度特征,大卷积核具有强鲁棒性[14]。然后,BiGRU学习隐藏信息进一步提取高级特征。设计全局平均池化(global average pooling, GAP)增强通道间联系并提高BiGRU的特征利用率。

(2) 引入故障诊断不常见的手段标签平滑正则化(label smoothing regularization, LSR)和流形正则化并结合批归一化(batch normalization, BN)、PReLU动态激活、AdamP等来改善DLWCB泛化性,缓解少量样本下模型的过拟合现象。

(3) 针对噪声样本,提出具有参数传递的故障诊断框架,经少量样本微调模型便具备更高的效率。探究了BiGRU和GAP在少量样本故障诊断应用中的性能。实验表明,该方法具有较高诊断效率。

1 相关理论基础

1.1 卷积神经网络

卷积神经网络(convolutional neural network,CNN)一般由滤波块和分类诊断块两个模块组成。一般故障诊断CNN,如图1所示。

图1 故障诊断CNN结构Fig.1 CNN for fault diagnosis

信号处理领域,一般应用具有相同内核的一维卷积计算信号的延迟累积。输出y如式(1)所示

(1)

式中:kw和bw为卷积核和偏置;xt-w+1为输入振动信号信号; *为卷积; PReLU(·)为神经网络激活函数。

池化对特征进行选择并降低模型参数量防止过拟合,故障诊断中常用最大池化。激活函数可以增强神经网络的表示和学习能力,提高计算效率。BN不仅可以提高优化效率,而且由于其随机选择批次,可以增强模型的泛化能力。全连接将振动信号分布式特征表示映射到样本标记空间,最后应用SoftMax激活函数进行故障诊断。

1.2 双向门控循环神经网络

门控循环神经网络(gate recurrent unit,GRU)由更新门zt和重置门rt组成。BiGRU由双向多个GRU组成,如图2、图3所示,信号通过不同且不共享参数的隐藏层将前后向输出连接到相同层以提取过去和未来的特征。如式(2)~式(4)所示

(2)

(3)

(4)

式中:wt,vt为前向和后向的状态权重矩阵;xt为输入信号;bt为偏置。

然而,深度故障诊断中,一般取最后一个隐藏神经元细胞输出作为BiGRU学习到的振动信号特征并作为后续输入,忽略了其他GRU细胞,在DLWCB中,将在BiGRU后连接GAP解决。

图2 GRU细胞Fig.2 GRU cell

图3 DLWCB智能故障诊断模型Fig.3 DLWCB intelligent fault diagnosis model

2 Laplace小波卷积

2.1 Laplace小波卷积定义

受Morlet小波[15-16]启发,将Laplace小波思想融入卷积核中,提出并定义Laplace小波卷积核。

在时域中,小波基本字典ψu,s(t)定义如式(5)

(5)

式中:ψ(·)为小波基函数;t为时间;s为尺度因子,u为平移因子;s,u为自适应可调节参数。

考虑到滚动轴承的机械振动信号属于实信号,故采用实Laplace小波基函数分析信号,如式(6)所示

(6)

式中:f为信号频率;ξ为黏性阻尼比;τ为时间参数;A为小波归一化函数。

由式(5)、式(6)可得实Laplace小波卷积字典ψL,u,s(t)如式(7)所示

(7)

将式(7)代入式(1),得到Laplace小波卷积核输出yL,如(8)式所示

(8)

2.2 Laplace小波卷积参数量

暂不考虑偏置,普通卷积参数量为卷积核尺寸与卷积核个数的乘积,而Laplace小波卷积核仅s,u需调整,参数量是卷积核个数的二倍。DLWCB中,第一层参数量为50×2=100,而普通卷积核参数量为50×18=900。显然卷积核尺寸越大,参数减少越明显。

2.3 参数s和u更新

s和u更新依据反向传播算法,在第一层Laplace小波卷积中,参数更新可以描述为

(9)

(10)

同时,根据链式求导法则可以得到两个参数的偏导数如式(11)和式(12)所示,并将式(11)、式(12)代入式(9)、式(10)中对两个参数进行更新。

(11)

(12)

3 DLWCB故障诊断模型

CNN-RNN(convolutional neural network-recurrent neural network)已取得一定应用[17-18]。但少量样本下其性能表现却鲜有研究,而且优化算法和训练方式较为常规,潜在性能未能得到进一步挖掘。为此,提出一种少量样本智能故障诊断方法——DLWCB,具体结构见图3。DLWCB由数据增强层、双路Laplace小波卷积层、特征融合层、BiGRU、GAP和诊断层组成。

图3结构中,将Laplace小波思想融入卷积过程中,并应用于首个卷积层。

GAP则解决了1.2节所提问题,通过计算各个GRU提取的特征矩阵作全局平均池化,综合考虑各个GRU的特征输出,降低了诊断层的训练压力并提高特征利用率。DLWCB相关结构细节参数,如表1所示。

表1 DLWCB结构细节Tab.1 Structure details of DLWCB图层类型

4 实验结果与分析

4.1 数据描述与实验配置

本节将结合两个轴承故障诊断案例,以证明所提方法性能、效率和应用价值。实验应用pytorch 1.8.0,运行在GTX970M GPU上。采用平均功率池化,PReLU动态激活函数,AdamP反向传播算法[19]和带有流形正则项的标签平滑损失函数[20]来训练DLWCB。

数据集S1-凯斯西储大学滚动轴承数据[21]。采样频率12 kHz,负载0~2.237 1 kW。电动烟花引起单点故障。加速度传感器位于电机外壳驱动端,收集加速度数据。据负载不同,划分ABCD 4组,如表2所示。

表2 数据集S1描述Tab.2 Data set description of S1

数据集S2-为验证算法的有效性和可靠性,搭建的轴承故障实验平台,如图4所示。该平台由电机、齿轮箱、联轴器、轴承座、操作柜和操作台等部分组成。采集频率为50 kHz,使用加速度计采集1 000 r/min下振动信号。采集单元为德国Bruel & Kjaer Vibro公司的一款用于振动分析的VDAU-6000,具有16个可以实现同步数据采集的输入通道。根据不同位置的不同状态将振动信号分为4类。如表3所示。

图4 机械故障模拟实验台Fig.4 Mechanical fault simulation test bench

表3 数据集S2描述Tab.3 Data set description of S2

实验中,S1,S2均采用滑动窗口采集样本,窗口大小为400,样本长度为1 024。两个数据集学习率分别为0.001,0.000 4,最大迭代次数epoch=150, 丢弃率Dropout=0.2, 权重衰减系数为0.000 1。采取早停策略(patience=10)。训练样本比例是0.1(20)~0.5(100)。

4.2 少量样本问题描述

少量样本的概念很难统一准确定义,这与数据和诊断模型复杂度有关。通常,机器学习中“少量样本”会导致模型过拟合。当训练数据不足时,网络学习到特征表示是有限的,只能很好地拟合训练数据,导致训练集精度高,测试集精度低。当训练数据充足时,算法可以有效提取整个数据集特征,在训练和测试集上都取得良好性能。因此,其在两个案例中描述如下:训练数据较少,以训练一个足够泛化的模型,可以在测试集上实现有效故障分类。

4.3 batch_size参数选择

批处理(batch_size, b)会影响模型训练效率和泛化性。针对数据集S1-B,训练集比例为0.3(60),仅改变b,实验结果如图5所示。

当b≤100时,b越大,DLWCB收敛时需要的epoch越多,单个epoch较短的训练时间并不能使得整体收敛速度提高。至于收敛损失,lb=32,80,100<0.56,相对其他情况收敛损失更低。三者验证集准确率基本相同。另外,从时间来看,tb=32=75.71 s,然而tb=80,100>100 s,当b=32时,达到与b=80,100相似的准确率所需时间更少。综上,b=32具有最佳诊断效率。

图5 不同批次训练结果比较Fig.5 Comparison of training results of different batch_size

4.4 Laplace小波卷积核性能

CNN的第一个卷积层影响着整个模型的性能[22]。因此将第一层普通卷积核替换为Laplace小波卷积核,与信号卷积达到小波分析的效果。这样使得时域信号转换到频域,更有效地识别轴承状态[23]。实验中,f=100,ξ=0.03,τ=0.1,A=0.08,s∈[1,100],u∈[0,100],s,u向量维度为输出通道数大小。

采用数据集S2,每类训练样本20~100,对比DLWCB和DCB(dual convolution bidirectional gated recurrent unit)(第一层未使用Laplace小波卷积)的性能表现,相关结果如表4所示。

表4 数据集S2性能表现Tab.4 Performance of S2 data set

随着训练样本数增加,模型性能逐渐提升。由于采用正则化策略,当训练样本数大于60时,取得较高精度。即使这样,DLWCB相较于DCB准确率更高、方差更小、更稳定。当样本数少于40时,由于训练样本数太少导致正则化方法更难泛化网络。此时,DLWCB在收敛损失上更低;当样本数为20或40时,DLWCB达到87.56%和94.15%,相较于DCB提升17.33%和7.79%。但DLWCB的时间复杂度较高。

4.5 少量样本参数选择

在S1-B,b=32下,进行5次实验取平均值,得到训练时间和测试集准确率,如图6所示。

图6 S1不同训练集比例下性能Fig.6 Performance of different training proportion in S1

结合表4和图6,轴承数据集S2由于信号特征不够明显,达到与S1相似性能需更多训练样本。

针对数据集S2,据4.2节所述,同时考虑正则化的影响,采用训练集比例0.3(60)建立少量样本,因为此时训练样本数对模型的影响还没达到最大,可以体现正则化对模型的作用;至于数据集S1,当训练集比例大于0.3(60)时,随着训练样本数增加,准确率提升不足1%且时间基本呈线性增加;当训练集比例为0.3(60)时,DLWCB达到99%以上。权衡两者,选择0.3(60)为训练集比例,建立少量样本。

同样,针对轴承数据集S1,在0.3(60)下,得到是否应用Laplace小波卷积的准确率,如表5所示。

表5 Laplace小波卷积Tab.5 LW convolution

少量样本下,训练样本数对模型的影响较低,此时观察Laplace小波卷积的作用具有较大参考价值。从表5可以看到相较于原始卷积,Laplace卷积最终收敛损失减少了约0.02,准确率提升2%。

综上,针对少量样本故障诊断,将信号处理领域中Laplace小波思想融入卷积核中也是一种应对思路。

4.6 正则化分析

采用数据集S2,如4.5节分析,将训练集比例设置为0.3(60),建立少量样本。验证正则化方法的收敛性。

4.6.1 AdamP收敛性分析

几种梯度下降算法在验证集上的表现,如图7所示。SGDM收敛损失最大且收敛速度最慢。Adam,AdamP有着较快的收敛速度。RMSprop损失收敛曲线波动相对较大。反观AdamP则兼具平缓、较快收敛,在epoch=57时收敛于0.64,这使得DLWCB更具稳定性。

图7 不同算法损失值对比图Fig.7 Comparison of loss values of different algorithms

4.6.2 PReLU和ReLU泛化性分析

ReLU和PReLU两种激活函数在不同epoch下的收敛曲线,如图8所示。结果显示了在每个训练阶段后训练过程的训练准确率和误差。可以看出,与ReLU相比,PReLU-DLWCB准确率更高并且收敛损失更低。由图8(b)可知,PReLU相较于ReLU训练过程更加平滑,在epoch=72时,收敛到最低损失。表明PReLU-DLWCB更能学习到信号特征且更具稳定性。

图8 不同激活函数下DLWCB 性能对比Fig.8 Comparison of different activation functions

4.6.3 目标函数泛化性分析

针对少量样本,仅改变损失函数,LSR与CrossEntropy, Focal Loss[24]和GHMC(gradient harmonizing mechanism classification)[25]损失收敛曲线,如图9所示。当训练集比例为0.3(60)时,CrossEntropy达到97.32%,GHMC达到97.32%,LSR达到98.04%。在数据集S2下,LSR在eopch=72时最早完成收敛,收敛速度更快,准确率曲线波动较小。

图9 不同损失函数下DLWCB准确率对比图Fig.9 Accuracy comparison of under different loss functions

显然,少量训练样本下,LSR促使模型更快、更好地学习数据特征,具备良好的稳定性和训练效率。

4.7 DLWCB消融实验、通用性分析

为进一步分析DLWCB各部分作用,使用轴承数据集S1-B,在训练样本比例0.3(60)下与DCNN,BiGRU,BiLSTM进行性能对比。对比结果如表6所示。

表6 DLWCB消融实验Tab.6 DLWCB ablation experiment

在对比实验过程中,单层LSTM(long short-term memor)和GRU处理少量的高维原始故障样本振动信号的效果不理想,故对原始振动信号采用主成分分析(principal component analysis, PCA)降维。图6中,DLWCB精度达到99.86%。表6表明,GRU由于参数较少,相比于LSTM提升约0.17%,BiGRU相比于GRU提升约1.3%。

另外,BiGRU使得DLWCB学习到振动信号不同隐藏位置特征,准确率提升约8%。DCNN学习到少量样本高低频信号,提升约10%。两者对于少量样本都有不错的性能表现。

同样,为验证DLWCB在不同负载下通用性,以数据集S1-B为训练集。将其迁移至数据集S1下A, C,D进行故障诊断,得到混淆矩阵如图10所示。

原始振动信号中,负载越低,信号中包含脉冲信息越少;负载越高,则信号包含噪声越多。由图10可知,DLWCB在不同负载下仍具有较高识别率,在A,C,D下准确率分别是99.62%,99.50%,98.35%,说明DLWCB具有较好域适应能力。同样,观察到在不同负载下,对于4,5,8部分样本识别不敏感,还需进一步研究改善,但整体上对正常和故障样本都得到明确区分,各类诊断准确率在98%以上。

图10 不同负载下域适应实验Fig.10 Domain adaptation under different loads

上述相关实验和分析表明,DLWCB具有较高的故障识别率和定位表现,可以为轴承实际工作中的故障快速定位诊断和维护提供一定指导。

4.8 可视化分析

为进一步揭示所提方法的特征提取和识别过程,针对轴承数据集S2,使用T-SNE将DLWCB提取的特征降至二维。相关结构特征表示,如图11所示,不同灰度描述不同状态。图11(a)~图11(e)依次为输入振动信号,大卷积核提取的低频特征,小卷积核提取的高频特征,BiGRU只保存最后一个GRU提取的特征,以及添加GAP后BiGRU保存各个GRU输出特征。

可以发现,图11(b)、图11(c)对部分混乱样本进行初步学习,虽然大卷积核特征分离不明显,但可以有效应对噪声;小卷积核卷积越深,特征分离越明显。经特征融合后,相较于只关注最后一个隐藏GRU单元(图11(d)),关注所有GRU单元使得DLWCB利用了更丰富的信息,提高了特征利用率,更有利于其从少量样本中分离出各类故障(图11(e))。这正是设计GAP的结果,反映出利用GAP针对少量样本故障诊断具备先进性能。

图11 不同结构输出T-SNE可视化图Fig.11 Visualization of T-SNE with different structures

综上所述,DLWCB可以更好地将特征从不同类中分离出来,也暗示DLWCB具有较强泛化性能。

4.9 抗噪鲁棒性分析

实际工厂信号多含有噪声,为此,分析不同信噪比条件下,DLWCB抗噪能力。将高斯白噪声与原始样本混合形成新的含噪声复合样本,如式(13)所示。

(13)

式中:Psignal为原始信号功率;Pnosie为噪声功率。

与以往研究直接将含噪信号输入模型不同,DLWCB训练和测试均使用图12所示的故障诊断框架。此框架由离线预训练和在线测试组成。离线框架用于训练DLWCB所需预训练参数,在线框架主要用于泛化性测试和快速训练以应对噪声样本的故障诊断。

图12 基于参数传递的DLWCB故障诊断框架Fig.12 DLWCB fault diagnosis framework based on parameter transfer

实验将对数据集S1-B和S2下的预训练参数进行微调。由于权重参数接近,这将减少DLWCB训练时间,提高诊断效率,以便快速应对各种噪声,实现故障定位。

将信噪比(signal-noise ratio,SNR)=-4~10 dB的高斯白噪声添加到原始信号中,其他设置一致,加载训练比例为0.3(60)下预训练参数,使用相同比例含噪样本微调DLWCB[26]。

针对轴承数据集S1-B,表7中,当SNR≥2 dB时,DLWCB取得较高的诊断精度,训练时间在10~40 s。与图7比较,诊断时间缩短约1/2。随着SNR降低,信号中噪声占比越来越高,对DLWCB的鲁棒性提出更高的要求,诊断精度有所降低,但依然达到90%左右。一方面是由于Laplace小波卷积和大卷积核对噪声强抗性,过滤部分噪声并有效地提取信号特征;另一方面则是BiGRU提取少量噪声样本下不同位置隐藏信息,并通过GAP使得DLWCB关注到更多有用信息。

表7 S1下DLWCB不同SNR抗噪声能力Tab.7 Anti-noise capability of different SNR of DLWCB in S1

与F方案相比,加载预训练参数的E方案对含噪样本诊断效率取得提升。信噪比越高,F所需诊断时间越长,但是E仅仅35 s就可以完成诊断;并且在各种SNR下,E都取得约1%~5%领先,可以看出在噪声环境下,此方法可以取得较高的效率。

此外,针对数据集S2也做相同实验,数据处理方法与S1相同,也是利用含噪声样本微调。以进一步证明所提方法的泛化性和可靠性。除学习率变为0.000 4外,其他设置相同,得到相关结果如表8所示。

表8 S2下DLWCB不同SNR抗噪声能力Tab.8 Anti-noise capability of different SNR of DLWCB in S2

由表8可知,随着信噪比增加,DLWCB的准确率逐渐提升,其在干扰场景下也具有相当高的性能表现,最高达到98.21%,表明了该方法具备良好的鲁棒性。同样可以看到,加载预训练参数在时间和准确率上都取得提升。以上两种数据集的实验充分说明E方案具备较高诊断效率。

5 结 论

针对少量样本的故障诊断问题,提出一种端到端融合Laplace小波卷积的DLWCB故障诊断模型,无需额外降噪算法,便可实现高效故障诊断。首先,提出Laplace小波卷积核并评估其性能。其次,通过LSR多重目标函数、引入AdamP、PReLU等在故障诊断领域不常用正则化进一步提高泛化性。最后,使用可视化手段初步理解DLWCB。实验主要从准确率和时间复杂度等方面验证该方法的可靠性,表明在少量样本下,DLWCB取得优势,具备一定应用价值。

然而,各个故障类别训练样本数量平衡,在实践中,可能会遇到类别不平衡的数据集。针对少量不平衡数据集,在未来的工作中,考虑从生成对抗网络、时间卷积网络、注意力机制等拓扑结构或者元学习、小样本学习、迁移学习、集成学习等机器学习技术方面入手扩展该方法的应用,探究它们的性能表现。

猜你喜欢

训练样本小波故障诊断
基于多小波变换和奇异值分解的声发射信号降噪方法
基于包络解调原理的低转速滚动轴承故障诊断
构造Daubechies小波的一些注记
人工智能
基于MATLAB的小波降噪研究
数控机床电气系统的故障诊断与维修
基于小波神经网络的网络流量预测研究
宽带光谱成像系统最优训练样本选择方法研究
基于量子万有引力搜索的SVM自驾故障诊断
青蛙历险