基于卷积神经网络的滚动轴承故障诊断研究综述*

2024-03-11赖荣燊闫高强

机电工程 2024年2期

赖荣燊,闫高强

(厦门理工学院机械与汽车工程学院,福建厦门 361021)

0 引言

智能制造背景下,机械设备正在沿着一体化、自动化、智能化趋势不断向前发展。在机械设备的发展过程中,旋转部件的结构越来越精密。滚动轴承是旋转部件中最常见的零件,它经常因为长时间高速旋转而产生磨损,所以在生产活动中更容易发生故障。研究显示,滚动轴承产生的故障是很多重大安全事故的导火索,一旦出现故障,轻则使生产机器受损,重则可能造成生产人员伤亡。因此,滚动轴承故障诊断研究具有重大意义。

经过国内外研究学者的努力,滚动轴承故障诊断技术发生了巨大变革,从传统的人工提取数据并分析故障原因,到现在的依靠人工智能领域的深度学习进行自主诊断。40年来的研究探索从未间断,为滚动轴承故障诊断贡献了大量实用方法。

在多种故障诊断研究中[1-4],比较常见的一种方法是基于深度学习框架的滚动轴承故障诊断方法,它包括故障轴承数据采集、数据预处理、对故障数据特征提取和识别故障类型四部分。传统故障诊断技术需要依赖技术人员的经验和专业知识进行故障识别,这极大限制了滚动轴承故障诊断的发展。首先,特征提取必须依赖工程师的经验和专业知识,微小的故障特征易被误删或被噪音掩盖,存在较大的主观性和盲目性;其次,提取到的特征主要用于解决特定的故障问题,方法通用性较差;另外,在实际工作环境下,轴承通常是变负载、变转速的,如大货车载重和速度变化、水利发电机组水流速度变化等。这导致系统采集到的轴承振动信号存在脉冲间隔变化、特征提取困难、信号噪声污染等问题,仅靠人工进行故障诊断的传统方法无法解决这些条件下的轴承故障诊断问题。

2006年,HINTON G E等人[5]提出了深度置信网络的方法,采用无监督预训练中间层的方法,使得深度学习(DL)不再受限于手动选择的特征;但该方法的泛化性较差,无法应用于其他方面。DL利用深层神经网络结构对输入样本数据进行逐层特征提取,摆脱了对专家经验的依赖,实现了自主诊断和故障分类的目的。其中,卷积神经网络(CNN)因其强大的数据挖掘能力及特征自适应学习能力在机械状态监测领域受到研究人员的极大关注,将CNN应用到故障诊断领域的研究成果颇丰。

CNN作为一种深度学习网络模型,可以自主学习不同故障信号的故障特征,实现高准确度滚动轴承的故障诊断目的。曲建岭等人[6]较早提出了一维CNN滚动轴承故障诊断方法,此后将CNN用于轴承故障诊断的研究成果大量问世,促进了轴承故障诊断技术的发展;但该方法存在诊断精度不高的缺点。目前,在CNN应用于滚动轴承故障诊断方面,还存在数据不平衡、信号噪声使模型性能减弱、模型特征提取能力不足以及泛化性不强等需要解决的问题。

笔者回顾近5年来CNN用于轴承故障诊断领域的研究进展,从深度特征提取、超参数调整、网络结构优化等角度阐述CNN应用于轴承故障诊断的优化路径,并对几种经典CNN模型、特征提取优化方法和超参数优化算法进行比较,最后,指明后续研究工作应聚焦于多源数据融合、模型性能优化以及多方技术结合等方向。

1 卷积神经网络

CNN结构简单但具有强大的特征提取能力,通过构建多个卷积层和池化层可以将输入数据的深层特征提取出来,有效减少模型训练参数量,避免算法过拟合。此外,网络层数越深,非线性拟合能力越强,则能够处理更高维度的数据,因此,CNN在轴承故障诊断领域得到了广泛应用。

1.1 网络结构

CNN的网络结构主要由卷积层、激活函数、池化层、全连接层和输出层的SoftMax分类器五部分组成。通过组合交替和堆叠多个卷积层、激活函数和池化层就可以设计出更深层的CNN结构。

CNN模型的基本架构如图1所示。

图1 CNN模型的基本架构

卷积运算是CNN的核心部分,CNN应用矩形卷积核遍历输入数据的每一个特征数值,将计算后的数值作为下一层卷积层的输入数据。激活函数引入非线性表达,增加了网络的表达能力和学习复杂模式的能力。池化层的主要功能是降低特征图的空间维度,提取主要特征并减少计算量。

全连接层是卷积网络部分与输出层(SoftMax分类器)的连接过渡结构,全连接层通过进行特征融合和分类,将卷积层输出映射到最终的输出类别。全连接网络的层与层之间的所有神经元相互连接,负责将卷积输出的特征图转化成一维向量,实现CNN端到端的学习过程。SoftMax分类器将网络输出转化为概率分布,用于多分类任务的概率预测和决策。

1.2 经典CNN模型

CNN自被提出以来,经过不断的发展演变,产生了多种经典的模型,如LeNet、AlexNet、GoogleNet、ResNet、Vgg以及DenseNet等。这些模型具备稀疏交互、参数共享等特点,可以有效简化故障诊断流程,减少训练参数数量,提高边缘检测效率,既可降低训练难度,又可以提高识别准确率。由于这些出色的特性,CNN的信号处理能力优于其他网络。

赵小强等人[7]采用改进LeNet-5模型提出了不依赖预处理复杂信号的方法,改进卷积后的LeNet-5可以直接从原始信号中端到端高效地提取到更完整、更精准的深层特征信息。徐卫鹏等人[8]采用经典AlexNet模型的方法,建立了一种由池化层和多级交替卷积层组成的一维CNN模型,采用滑窗法可完成对原始输入信号特征的自适应提取。姚齐水等人[9]以GoogleNet经典模型为基础,改进了Inception V2对输入信号特征提取的过程,提出了一种改进Inception V2模块和CBAM注意力机制的滚动轴承故障诊断方法。姚立等人[10]采用格拉姆角场编码的方法,将一维轴承振动信号进行了整合,将处理后的信号输入Vgg16模型,进行了充分的特征提取。姜家国等人[11]提出了将马尔可夫转移场与DenseNet模型结合的方法,保留了原始振动信号时序信息之间的时间相关性,使得DenseNet转向更适合处理的图像数据。高峰等人[12]提出了利用经典模型自身为特征提取器的方法,以原始振动数据为输入,充分发挥CNN的特征提取能力。樊星男等人[13]认为Hankel矩阵可以和CNN模型互相取长补短,采用区间归一化方法,既保持了特征信号之间的连续性,又可以充分发挥经典模型的特征提取能力。

总体而言,经典CNN模型在轴承故障诊断问题上具有较好的表现,能够从原始数据中学习特征并进行故障分类。然而在实际应用中,需要根据具体的问题和数据集进行模型选择、数据处理和模型调优等步骤,以获得更准确和可靠的故障诊断结果。应用CNN处理滚动轴承故障诊断问题的过程如图2所示。

图2 应用CNN处理滚动轴承故障诊断问题的过程

2 深度特征提取

特征提取质量的关键在于输入信息特征的优劣、信号处理方法的选择和模型自身的特征提取能力。通过对采集到的振动信号进行一系列处理、转换和分析,能够将原始振动信号转化为时域和频域信息,从而更好地理解和利用信号的信息。

这种信号处理过程能够深入挖掘振动信号中的特征和模式,为进一步的数据分析和应用提供了有力的基础。

经典CNN模型比较如表1所示。

表1 经典CNN模型比较

2.1 信号处理方法

当前,大多数对于优化特征提取的研究思路是应用信号分析和数值计算等方法对采集到的原始数据进行处理,再将其作为CNN卷积操作的输入数据,通过提高信号提取精度和减少模型计算量,进行滚动轴承故障的分类。特征提取中的时频分析可以揭示非平稳振动信号的动态特性,时频分析方法包括短时傅里叶变换(short-time Fourier transform, STFT)、经验模态分解(empirical mode decomposition, EMD)、变分模态分解(variational mode decomposition, VMD)、小波变换(wavelet transform, WT)和小波包分解(wavelet packet decomposition, WPD)等。

STFT是一种线性的时频分析方法。朱沁玥等人[14]在研究中采用STFT的方法来变换和估算旋转设备的转速信息。由于STFT的窗口大小固定,无法针对不同信号频率进行自适应,因此STFT无法从非平稳的信号中精确提取到瞬时信号特征,致使STFT的精确性相对较低。EMD无需借助小波基函数,只针对信号本身进行分解,避免了WT的局限性。

此外,为解决小波基函数造成的信号降噪效果降低和信号有效成分丢失的问题,田少宁等人[15]提出了CNN与VMD结合的方法,采用可变尺度的非递归信号处理方法提取了非平稳信号的特征信息,其具有较小的端点效应、较高的运算效率和良好的噪声鲁棒性。WT的本质是采用小波基函数对信号进行各种加权和滤波操作,因此包含各种尺度下的信号特征信息,故能处理突变和非稳定信号。WPD作为一种多时间分辨率的时频分析算法,通过对信号进行小波包变换,将其转化为低频带的近似系数和高频带的细节系数。

2.2 特征提取优化

信号的输入特征直接影响CNN的故障诊断和预测结果。信号特征提取的方法不同,获取的信息不同,同一信号提取到的特征参数不同,故障诊断的结果也会有所差异。

WANG H等人[16]针对信号特征精度提取困难的问题,提出了一种STFT与多同步压缩变换相结合的信号特征提取方法,建立了局部特征空间与故障空间之间的映射。BAI R等人[17]采用多尺度剪切融合数据增强的方法对故障信号进行了增强,通过STFT转化后利用多通道CNN进行了数据融合和故障分类。YAO P等人[18]采用梅尔频率倒谱技术的方法提取振动信号不同频段的特征,通过倒拍光谱举升技术的特征增强过程,提高了信号提取精度和方法的适应性。丁春嵘等人[19]和陈晓雷等人[20]提出了应用长短时记忆网络模型,考虑了CNN对于提取序列数据和信息数据的顺序性并在此基础上进行了优化,提高了信息的提取精度。董绍江等人[21]和DING C等人[22]为避免丢失微弱信号的故障细节特征,采用将带噪声信号经奇异值分解的方法,消除了噪声模态混叠后再将其用于分解原始振动信号,保证了CNN特征提取的适应性、全面性和多样性。李魁等人[23]提出了一种融合VMD和CNN的滚动轴承故障诊断方法,该方法不仅去除了信号中的噪声成分,还将相关系数作为参考指标以优化模态分量选取个数。陈仁祥等人[24]和王妮妮等人[25]采用WT获取振动信号时频图的方法,将时频图像作为CNN的输入,充分提取了轴承振动信号的关键故障特征。LI J等人[26]认为故障信号中信息最丰富的部分只占时频域信号的小部分,提出了基于反向传播神经网络(back propagation, BP)的多尺度局部特征学习法。SONG X等人[27]提出了BP神经网络与粒子群算法结合的方法,先对振动信号进行了EMD分解,再利用算法优化的BP神经网络对滚动轴承故障进行了分类。

WPD技术不仅可以根据需要调整时间分辨率的大小来提取不同频率的信号,还能够同时获取低频和高频信号,从而更全面地分析振动信号的特征。

楼剑阳等人[28]采用WPD对振动信号进行了预处理,获得了表征信号相似的小波系数的方法,再将其输入CNN进行特征提取,实现了轴承故障分类目的。杨蕊等人[29]采用计算原始时域信号频谱在不同偏移点数下的相关峭度值,将其作为新的样本数据方法,使得数据之间的差异更加显著。牛锐祥等人[30]构建了多尺度卷积层,充分捕捉了信号特征的过程,增强了特征的复用性。雷春丽等人[31]则利用马尔可夫转移场编码方法,使振动信号的时间相关性特征得以保留。张珂等人[32]提出的多模态注意力技术和丁雪等人[33]提出的多尺度注意力方法,都使得CNN可以更加充分地完成故障信号的特征提取。刘伟等人[34]提出了由两个通道组成的并行一维CNN模型,该模型可以用于分别获取轴承振动信号的时域信息和频域信息。赵小强等人[35]采用带跳跃连接线的卷积模块融合CNN的方法,防止提取到的丰富信号特征在卷积层向前传递时丢失。古天龙等人[36]利用深层多尺度卷积操作过程,提高了CNN对故障信号挖掘的深度和精度。蒙志强等人[37]在CNN中采用多尺度卷积核并联的方法对轴承振动信号进行了更充分的故障信息提取。金江涛等人[38]对信号处理方法进行了创新,提出了基于混沌理论的相空间重构法,进一步推动了轴承故障诊断研究。

特征提取的重要性是将滚动轴承的故障诊断问题聚焦为轴承故障特征信息的提取问题,采用各种信号处理方法可以减少噪声和干扰,CNN可以提取有区分性的特征,并使模型能够更好地学习和识别轴承故障模式,解决了轴承故障诊断中信号包含噪声、数据难以采样和数据分布差异较大的问题。

然而,当轴承工况差异较大且信号含有高噪声时,特征提取性能会显著下降。

信号分析方法比较如表2所示。

表2 信号分析方法比较

3 超参数调整

CNN的模型包含的参数通常可以分为一般参数与超参数。其中一般参数是模型经过不断地训练自动调整的,不需要人工进行设置。而对于超参数,模型无法通过训练来调整,一般是在模型训练前就设定好,如设置学习率0.1、0.001和训练批量大小64、128。

超参数的设定值通常依赖过去的经验,但是依靠经验来设定数值的方法在用于解决具体问题时通常效果不佳,因此,对于超参数的优化调整是基于CNN的滚动轴承故障诊断研究的重要组成部分。

3.1 调整方法

近几年来,国内外研究学者开始以调整CNN中的最优超参数来进行CNN故障诊断的创新,随后各类算法的创新应用大量涌现。其中包含贝叶斯优化算法、差分进化算法、布谷鸟搜索算法、最大相关峭度反卷积算法以及稀疏搜索算法等,这些调整方法都为CNN用于滚动轴承故障诊断提供大量研究支持。

贝叶斯优化算法(Bayesian optimization, BO)是利用高斯回归过程搜寻目标函数最优值的算法。BO不是使用穷举搜索算法,而是针对成本函数f(x)值密度较高的区域进行搜索,这大大减少了计算工作量。采集函数和概率代理模型是贝叶斯优化的关键组成部分。采集函数由目标函数的后验概率组成,用于选择评估点以最小化总损失。

差分进化算法(differential evolution algorithm, DE)是一种基于种群的优化算法,相比其他优化算法,DE具有较高的可操控性。它仅有三个控制参数需要调节,具有简单结构和易于实现的优势,同时具备良好的全局搜索能力。

布谷鸟搜索算法(cuckoo search algorithm, CSA)是一种模拟布谷鸟寄生孵化行为的优化算法,它被广泛应用于解决各种优化问题。CSA具有强大的全局搜索能力,可以发现最佳的超参数设定值,从而提升CNN的性能和效果。

参数优化的最大相关峭度反卷积算法(maximum correlated kurtosis deconvolution, MCKD)是通过迭代选择一个有限脉冲响应滤波器,滤波器利用故障的周期性,突出被强噪声覆盖的信号中的连续脉冲。MCKD具有多个输入参数,并对它们有严格的要求。除原始信号和原始采样率外,滤波器长度、故障周期、最大迭代次数以及位移顺序等都对MCKD滤波器的函数有很大的影响。这些参数的选择必须合适和精确,以突出MCKD算法的优越性。

除此之外,还有稀疏搜索算法(sparse search algorithm, SSA),SSA模仿麻雀觅食的过程对CNN的最优参数组合进行搜索,通过快速搜索和收敛的过程确定适合的参数,然后建立一个CNN故障诊断模型。

3.2 调整超参数

针对调整超参数的优化方法,LU Y等人[39]和汤亮等人[40]提出了BO与CNN进行结合的诊断方法。该方法通过对CNN的学习率等超参数进行调整,提高了CNN对于故障类型的分类能力。孙祺淳等人[41]采用DE算法的优势来调节CNN中的学习率、卷积核大小和数量等6个超参数,降低了网络波动,将模型的诊断精度和稳定性一并作为算法优化的目标。XIAO M等人[42]利用CSA的全局搜索能力,不断搜索CNN的输入层、隐层和输出节点数目的最优组合。GAO S等人[43]提出了MCKD和CNN的滚动轴承复合故障诊断方法,利用该算法对CNN的卷积核大小和迭代次数进行优化,最后,将处理后的信号输入CNN模型中进行训练和测试。DONG S等人[44]提出了与稀疏搜索算法相结合的新方法,利用SSA搜索出CNN的学习率等最优超参数集合,再利用预处理后的数据集作为CNN的训练和测试样本。ZHUO P C等人[45]提出了Elman神经网络模型,结合遗传算法的全局寻优与Elman神经网络的局部寻优能力,构建出了新超参数集合的Elman神经网络模型,提高了轴承故障诊断的精度。XU Q等人[46]通过预训练Off-CNN的过程得到了全连接层的源域特征和参数集合,再初始化On-CNN的批处理大小和学习率等超参数,提高了故障诊断的准确率。AN F等人[47]提出了重叠群稀疏模型,通过分析信号突出特征来设置CNN的卷积核数目等超系数,可以更快地判断出轴承的故障类型。王亚辉等人[48]采用粒子群算法的方法搜索出CNN的层数、CNN层的类别、池化层的类型、卷积核的尺寸、卷积核的个数、全连接层神经元的个数等最优参数集合,提高了基于CNN进行轴承故障诊断的准确率。

利用调整CNN超参数的方法包括调整网络结构、学习率、批量大小、正则化方法、优化器选择、数据增强策略和交叉验证等,增强了网络模型特征提取精确度和抗干扰能力,为研究复杂工况下滚动轴承故障诊断增加了理论支持,进一步提高了滚动轴承故障诊断和CNN的研究精度与深度。

超参数优化算法比较如表3所示。

表3 超参数优化算法比较

4 网络结构优化

在故障诊断应用中,为了解决LeNet、AlexNet、GoogleNet等经典网络模型在变工况复杂条件下诊断精度不高、泛化性差的问题,诸多学者从CNN模型结构出发,结合实际数据和训练效果,对经典网络模型进行了优化和创新,结合多种方法进行了滚动轴承故障诊断,挖掘轴承振动信号数据下隐含的故障特征,有效检测了轴承工作状态,使模型训练速度更快、诊断结果更可靠。

目前,优化网络结构的研究取得了许多突破性进展,HE D等人[49]提出了一种新型轻量级CNN模型,模型主体以倒残差块构建,通过嵌入挤压激励块和引入轻量化概念,大幅减少了模型计算量,减少了降维过程中的特征损失。LIU X等人[50]提出了结合1D-CNN和2D-CNN构建故障诊断模型,在其双域特征信息中提取了故障特征。XUE F等人[51]采用CNN模型对故障信号特征提取的过程,将特征融合策略进行连接,使模型整体特征提取效率大大提高。XU Y等人[52]提出了一种轻量级梯度提升机制(light gradient boosting machine, LGBM),关键是结合基于梯度的单侧采样和排他性特征绑定两种新方法,利用LGBM代替SoftMax分类器,提高了模型诊断的稳定性。ZHAO X等人[53]采用基于多尺度学习的多尺度残余收缩层和残余收缩块的方法,叠加了多个多尺度残余收缩层,从输入数据中自主学习振动信号的特征。刘洋等人[54]提出了双池化层取代传统CNN中的全连接层的方法,进行了故障信息整合和数据特征再提取,最后经过SoftMax层完成了轴承故障状态分类。朱奇先等人[55]采用三个连续的卷积层代替残差神经网络的数据池化层的方法,不仅增强了特征信息在密集块中的流动,还增强了特征信息的重复利用。王琦等人[56]采用1×1的卷积核的方法,在提高一维CNN非线性表达能力的同时,将传统CNN中的全连接层替换为全局平局池化层,大大降低了模型计算量,不仅防止了模型过拟合,还提高了故障诊断效率。LIU Y等人[57]采用优化网络结构的方法,用胶囊网络取代CNN中的部分功能层,保持模型训练过程的平稳性。金江涛等人[58]提出了一种混沌特征融合方法,将支持向量机作为分类器代替全连接层。昝涛等人[59]提出了基于多输入层CNN的滚动轴承故障诊断模型,相比传统CNN诊断模型具有多个输入层,使得该模型可以更充分地提取原始信号的特征信息。XING Z等人[60]提出了一个多通道并行CNN模型,将在各并行信道中引入注意机制,提取具有较强冲击特性的故障特征。宫文峰等人[61]针对传统CNN模型全连接层存在训练参数量过多导致模型训练时间较长的缺点,提出了将传统CNN的全连接层部分引入全局平均池化的方法。CHAO Z等人[62]提出了多尺度级联中点残差CNN的方法,将网络的学习目标更改为使用中点剩余块中的快捷连接,解决了梯度消失和梯度爆炸问题。WU Z等人[63]提出了深度强化传递神经网络模型,利用深度Q网络的自学习能力来训练一个对轴承故障分类的智能诊断代理。金江涛等人[64]采用引入支持向量机的方法,考虑到故障信号的时间和空间尺度,将故障信号的时间序列作为输入源,以挖掘振动信号中隐藏的非线性信息。

为解决基于卷积神经的滚动轴承故障诊断与分类问题,一些研究学者在原有CNN结构上进行大胆改进和创新,构建新的深层次网络结构,使故障诊断有更高的效率和精确度[65]。

在轴承故障诊断中,调整CNN结构是一种常见的方法。以下是对轴承故障诊断中调整CNN结构常用方法的总结:

1)多尺度卷积层。引入多尺度卷积层可以同时提取不同尺度的特征,从而更全面地描述轴承信号。这种方法能够增强模型对不同频率故障的识别能力,提高诊断的准确性;

2)注意力机制。通过引入注意力机制,可以自动学习和选择重要的特征,提高模型对故障信号中关键部分的关注度;

3)全局平均池化层。使用全局平均池化层可以将特征图的空间维度压缩为一个单一的数值,减少模型的参数量和计算复杂度。这种方法可以防止过拟合,并提高模型的泛化能力;

4)残差连接。采用引入残差连接的方法可以直接将输入信号与输出信号相加,从而保留原始信号的信息,避免信息损失和梯度消失问题,有助于提高模型对轴承故障的捕捉能力和表示能力。

5 结束语

为高效准确地完成滚动轴承故障诊断工作,笔者首先对CNN的结构进行了简单介绍,并研究了近年来经典CNN模型用于滚动轴承故障诊断的重要进展;然后,从深度特征提取、超参数调整和网络结构优化等角度,对各种优化CNN的方法原理进行了简单介绍,详细探讨了将CNN应用于滚动轴承故障诊断的优化途径;最后对几种典型优化方法的优势与不足进行了比较。

通过笔者分析论述,得到的结论如下:

1)早期经典模型存在一些局限性,如特征提取精度和效率较低、模型泛化性能较差以及学习率不高等问题[66];

2)采用基于深度特征提取的各种信号处理方法可以减少噪声的干扰和影响,更利于CNN提取差异性的特征;

3)采用调整超参数提高模型学习率的方法可以将研究重点转移至模型自身的提取精度,通过调整超参数来提高模型的诊断准确率;

4)采用优化模型结构的方法可以使模型的提取精度和泛化性能得到增强,提高了轴承故障诊断分类的准确率,但需要在数据量较大的情况下,模型的分类性能才能更佳。

尽管基于CNN的滚动轴承故障诊断研究取得了十分显著的进展,但仍有需要改进和发展的空间。例如,需要解决数据不平衡、模型特征提取能力不足和泛化性不强的问题。因此,后续的相关研究工作应聚焦于多源数据融合、模型性能优化以及多方技术结合等方向。