面向轴承故障诊断的深度学习方法
2022-05-30柳秀马善涛谢怡宁何勇军
柳秀 马善涛 谢怡宁 何勇军
摘要:近年来,深度学习技术在基于振动信号的轴承故障诊断中表现出了巨大的潜力。然而,在基于深度学习的故障诊断方法中,传统单一的网络拓扑结构特征提取的区分性弱和噪声鲁棒性低,故障诊断的准确率不高。此外,目前大多数的研究方法在变负载环境下故障识别率低。针对以上问题,提出了一种改进的神经网络端到端故障诊断模型。该模型将卷积神经网络(convolutional neural networks, CNN)和基于注意力机制的长短期记忆网络(the attention long short-term memory, ALSTM)相结合,借助ALSTM捕捉时间序列数据中的远距离相关性,有效抑制输入信号中的高频噪声。同时,引入多尺度和注意力机制,拓宽卷积核捕捉高低频特征的范围,突出故障的关键特征。经多个数据集测试,并且与现有方法进行比较,实验表明,该方法在准确率、噪声鲁棒性及变负载下的故障识别率方面表现突出。
关键词:故障诊断;卷积神经网络;长短期记忆网络;多尺度特征提取;注意力机制
DOI:10.15938/j.jhust.2022.04.015
中图分类号: TP315.69
文献标志码: A
文章编号: 1007-2683(2022)04-0118-07
Deep Learning Method for Bearing Fault Diagnosis
LIU Xiu MA Shan-tao XIE Yi-ning HE Yong-jun
(1.School of Computer Science and Technology, Harbin University of Science and Technology, Harbin 150080, China;
2.College of Mechanical and Electrical Engineering, The Northeast Forestry University, Harbin 150080, China)
Abstract:In recent years, deep learning technology has shown great potential in bearing fault diagnosis based on vibration signals. However, in the fault diagnosis method based on deep learning, the traditional single network topology feature extraction has weak discrimination and low noise robustness, and the accuracy of fault diagnosis is not high. In addition, most of the current research methods have a low fault recognition rate in a variable load environment. In response to the above problems, this paper proposes an improved neural network end-to-end fault diagnosis model. The model combines convolutional neural networks (CNN) and the attention long short-term memory (ALSTM) based on the attention mechanism, and uses ALSTM to capture long-distance correlations in time series data , Effectively suppress the high frequency noise in the input signal. At the same time, a multi-scale and attention mechanism is introduced to broaden the range of the convolution kernel to capture high and low frequency features, and highlight the key features of the fault. After testing on multiple data sets, and comparing with existing methods, experiments show that the method in this paper has significant performance in accuracy, noise robustness, and fault recognition rate under variable load conditions.
Keywords:fault diagnosis; convolutional neural network; long and short-term memory network; multi-scale feature extraction; attention mechanism
0引言
隨着现代计算机技术的进步和发展,机械部件的生产和维护更加趋向于智能化、系统化和自动化。其中滚动轴承是机械设备中不可或缺的部件[1],一旦发生故障,不仅会导致更高的维护成本,而且还可能导致严重的生产安全事故。据统计,在发动机等旋转设备的事故中,约有40%是由滚动轴承故障所引起的[2]。因此,轴承的故障诊断成为一项关键的任务。
目前,对电机轴承的故障诊断主要是利用加速度传感器采集电机轴承处的振动信号,然后利用智能算法对信号进行诊断[3]。其中诊断算法主要基于传统故障诊断方法及深度学习故障诊断方法。传统的方法主要采用特征提取、降维、分类,获取诊断结论。其中,常用信号处理方法包括频谱分析[4]、经验模态分解[5]、小波变换[6]等。特征降维方法主要有主成成分分析(principal compon- ents analysis, PCA)[7]和独立成分分析(independent components analysis, ICA)[8]。分类模型常有人工神经网络(artificial neural networks, ANN)、支持向量机(support vector machine, SVM)、隐马尔可夫模型(hidden Markov model, HMM)[9-11]。目前主要存在的问题是特征提取对人工的依赖较高、需要专业的经验知识、过程复杂,无法满足现实中的要求。
深度学习方法在一系列自然语言处理和计算机视觉任务中一直优于其他技术[12-13],其端到端学习的特点克服了传统诊断方法提取特征时的繁琐,可以直接从原始振动信号中提取特征。多采用卷积神经网络和循环神经网络(recurrent neural network, RNN)。Eren等[14]使用一维CNN直接从振动信号的时域实现故障诊断。Jing等[15]首先对信号进行傅里叶变换以获得频谱样本,然后采一维CNN学习频谱样本的特征,最后利用齿轮箱数据进行测试,获得较高的识别率。Karim 等[16]提出长短期记忆网络和全卷积神经网络结合的方法,在时间序列分类的数据集上有较好表现。上述方法都是采用固定尺寸的卷积核,卷积核大小对特征提取的性能有非常重要的影响,核宽度越窄,时间分辨率越高,频率分辨率越低。因此,Zhang等[17]提出具有第一层较宽卷积核的深度一维卷积神经网络模型(deep convolutional neural networks with wide kernel, WDCNN),利用较大尺度的卷积核来增强低频故障相关特征的学习能力,实现基于原始信号的故障诊断,同时该模型具有显著的抗噪性能。缺点是该方法未考虑使用不同尺度的卷积核来提取特征。近年来多尺度方式被更多地应用在故障诊断领域里,Jiang等[18]提出一种多尺度CNN的方法(multi-scale convolutional neural networks, MSCNN)。该方法首先对信号进行多尺度下采样来获取不同尺度的特征表示,然后用CNN提取特征,最后由全连接层和多分类函数进行分类。缺点是没有考虑振动信号中的时序信息以及不同尺度的关联性,这将导致提取特征不全面。
针对以上问题,提出了一种将基于多尺度和注意力机制的WDCNN (multi-scale attention WDCNN, MACNN)和ALSTM结合的故障诊断模型(MACNN-ALSTM),用于时序数据的故障诊断,解决了目前故障诊断技术中的问题。主要贡献有:①提出了一种新的深度学习的模型,用于时间序列数据的故障诊断,该模型将卷积神经网络和长短期记忆网络结合,以获取丰富的时序信号故障特征;②引入多尺度特征提取和注意力机制,使卷积神经网络能够提取到丰富且重要的多尺度故障特征,从而在变负载和噪声环境下提高故障识别率。
1算法实现
1.1CNN模型
传统的CNN一般包含4个部分,分别是卷积层、激活层、池化层和全连接层。其优点是权值共享,即相同的卷积滤波器将以不变的步长遍历上一层的输出。从而可以很大程度地减少网络参数,减少网络架构在训练时所需要的计算量。卷积层中一个滤波器对应于下一层中的一个帧,帧的数量即为该层的深度。第一层采用宽卷积核深度卷积神经网络模型参数,其卷积过程描述如下:
1.2LSTM模型
长短期记忆递归神经网络(long short-term memory, LSTM)通过引入记忆单元和门控机制来提高长输入序列的学习能力,从而克服了训练普通神经网络的一些困难,如图1所示。存储单元提供了网络的连续路径,允许多个LSTM单元连接在一起,减少RNN的“梯度消失”和“梯度下降”的可能性。
LSTM使用输入门、输出门与遗忘门实现对信息的控制。①遗忘门,通过遗忘门的计算来控制上一层的输出是否保留到当前输入的神经元状态中,来实现对网络记忆信息的筛选。②输入门,将当前输入值输入到激活函数中,得到一个重要度值来决定信息的更新情况,再通过Tanh函数来处理前一时刻的状态值和输入信息得到候选单元状态。③输出门,控制单元状态的最终输出,单元状态通过输出门的过滤,经由Tanh函数压缩得到单元最终输出。
1.3MACNN-ALSTM故障诊断模型
提出了一种改进的卷积神经网络端到端故障诊断模型MACNN-ALSTM,它结合了深度卷积网络和长短期记忆网络模型,并融合了多尺度和注意力机制,将其应用于滚动轴承的故障诊断中,模型结构如图2所示。
传统CNN模型卷积核小,感受野小,导致特征提取不全面。针对此问题,MACNN-ALSTM方法中第一層采用Zhang等[14]中提出的宽卷积核,以代替相对较浅的卷积路径,增强低频故障相关特征的学习。然而上述方法除第一层之外均使用固定长度的小卷积核,在高负荷、高转速的条件下,含有故障信息的振动信号的尺度难以测量,没有考虑用不同尺度卷积核来提取丰富的特征。因此,MACNN-ALSTM方法中第二层采用融合注意力机制的多尺度卷积核,对故障信号进行多尺度特征提取,拓宽卷积核捕捉高低频特征的范围,使得卷积神经网络能够提取到更丰富、更重要的多尺度故障特征。
CNN模型虽然有着强大的特征提取能力,但是不具有记忆能力,所以在处理时序信号的问题上准确率和效率没有LSTM高,因为LSTM可以学习到历史信息,并且一定程度上克服了RNN梯度消失的问题,更适合处理时间序列。因此,为了最大程度地保留振动信号的时序特征,提出使用ALSTM对特征做进一步提取。
1.3.1注意力加权机制
当电机轴承发生局部故障时,故障位置对接触滚动轴承的其他部位产生脉冲激励,使整个系统都产生高频共振衰减振动,这导致不同信号段的振动信号对故障识别的帮助是不同的,有些特征可能与故障信息相关,有些可能带来干扰。针对上述情况,采用了注意力特征加权机制,将注意力机制加到不同尺度的卷积层中,获取每个尺度下有用的故障特征,对其进行加权处理,筛选并抑制用处不大的故障特征,以此获得网络中具有判别性的故障特征。
注意力加权结构如图3所示。其中:Z表示原始输入特征;Z′表示经过注意力加权处理之后的输出特征;L表示每个通道的特征值数目;C表示卷积之后得到的特征通道数。
对原始输入特征做3种并行处理:对输入的特征进行权重的重新标定,首先将原始特征Z输入到一维卷积中做卷积操作,得到每个信号段上特征的重要程度,最后通过Sigmoid函数调整生成的特征权重。具体计算见式(4)。其中:σ代表Sigmoid函数;f代表卷积操作;α为生成的特征调整权重,其取值范围为[0,1]。
为了能够进一步提取故障特征和避免注意力过度的问题,这里对输入特征再做一次卷积操作。实现如式(5)所示,δ代表ReLu函數,f′代表卷积操作,M为输出特征。
进行特征重标定操作,如式(6)所示,这里直接使用特征权值α与M进行匹配相乘得到输出O即可。计算过程如下。
值得注意的是,特征权重α的取值范围为[0,1],重复使用注意力模块,可能导致后续特征响应值不断降低,反而影响网络的故障识别性能。因此借助残差学习[19]思想,在保留重标定特征O的同时,引入残差连接来提升MACNN-ALSTM方法的性能,如式(7)所示,直接用原始输入特征Z与重标定特征O相加,得到注意力机制下最终学习到的新特征Z′。
1.3.2多尺度特征提取
传统CNN的卷积拓扑结构中,每层卷积核的尺寸是固定的。随着负载的变化,单一尺寸的卷积核无法适应各种负载的特征提取任务。针对此问题,提出了一种基于多尺度的卷积神经网络,从时域信号上提取丰富的多尺度特征。
如图4所示,在第一层采用宽卷积核,作为低频滤波器。为了获取较大的感受野,首先将原始信号输入到第一层宽卷积核中来识别低频且短时的特征,抑制噪声。利用尺度不同的卷积核作为高低频滤波器,从不同的角度提取上一层输出的特征来获取信号中不同频率的特征。此外,选用3个不同尺度的卷积核,以并行方式提取特征,以此获取不同尺度的振动信号特征。同时在各多尺度模块中加入注意力机制,对特征信息进行加权处理,获得更具代表性的多尺度故障特征。3个尺度的卷积输出的特征大小均为L×C,对所提取的特征进行堆叠,形成大小为L×3C的多尺度特征集,为后面的卷积层提供更丰富且互补的故障特征。
2实验和结果分析
2.1MACNN-ALSTM及训练参数设置
在实验中,MACNN-ALSTM方法第一层卷积采用16个大小为64×1的卷积核;第二层有3条多尺度分支,3条多尺度分支采用相同的注意力卷积结构,卷积核大小分别为11×1、7×1、5×1,每个卷积核数量为16;第三层卷积使用64个大小为6×1的卷积核;第四层卷积使用64个大小为10×1的卷积核,LSTM的单元设置为64。为出于鲁棒性考虑,模型在改进的卷积神经网络与ALSTM之间添加了Dropout层,并设置Dropout为50%来防止过拟合现象。实验训练使用后端为Tensorflow。实验平台是在Ubuntu 18.04.2,含4个RTX 2080Ti显卡,本实验中,用到3个。
2.2对比方法
为了验证MACNN-ALSTM方法的优越性和有效性,将MACNN-ALSTM方法与以下方法进行对比分析:
1)ALSTM-FCN[20]目前在时间序列分类数据集上表现最好的方法。该模型通过ALSTM和全卷积神经网络(fully convolutional network,FCN)结合,实现端到端的分类;
2)WDCNN是在第一层使用宽卷积进行特征提取,然后使用小卷积进一步特征提取,最后使用多分类函数计算概率的方式进行故障诊断;
3)MSCNN是一种多尺度卷积神经网络故障诊断方法,利用多尺度特征表示,特征提取之后使用全连接层和多分类函数实现齿轮箱故障诊断;
4)多层感知神经网络(multilayer perceptron, MLP)具有5个全连接层,分别是1024,512,256,128,64。使用交叉熵损失函数(CE loss);
5)支持向量机(support vector machine, SVM)是机器学习中经典的分类器,使用径向基核函数。
2.3凯斯西储大学轴承数据集实验分析
2.3.1数据集介绍
美国凯斯西储大学轴承(case western reserve university, CWRU)数据集是世界公认的轴承故障诊断标准数据集,为了评价算法的优越性,最客观的方式是使用第三方标准数据集与当下流行算法比较,因此本实验用CWRU数据集进行验证。
CWRU数据集的采集系统如图5所示,包括风扇端轴承、电机、驱动端轴承、扭矩传感器及编码器和测功器。采用加速传感器分别从风扇端轴承和驱动端轴承采集数据,轴承故障是使用电火花加工单点时损伤而致。驱动端轴承、扭矩传感器及编码器是用来添加负载的。采样频率分别是12kHz和48kHz。本实验采样频率为12kHz,驱动端轴承有4种不同的状态:健康、滚动体、外圈、内圈,每种负载选取的训练和测试样本数量见表1。
2.3.2变负载下的故障识别
基于数据驱动的故障诊断模型大多面向单一负载,而实际的工业应用中,机械设备运行的环境是多种多样的。例如不同转速、不同负载等,这样会造成振动信号的特征不同,幅值不同,波动周期和相位差别也很大。
为了验证MACNN-ALSTM方法在变负载情况下的故障识别能力,实验选用CWRU轴承故障数据集在负载1hp、2hp、3hp下进行训练,利用其余2种负载进行测试,如第一行源域为A时,目标域为B,C。变负载问题的具体描述如表2所示。
实验结果如图6所示,其中‘A-B代表训练集使用A数据集,测试集使用B数据集,A和B是不同负载下的数据集。从图中可看出,MACNN-ALSTM方法远高于WDCNN、ALSTM-FCN、MLP和SVM方法,与MSCNN方法比较也有显著优势。
其中MSCNN方法使用的是多个不同尺度卷积核提取故障特征,因此在变负载下表现突出,但在‘C-A负载差异较大的情况下准确率降到89.97%,而MACNN-ALSTM方法使用融合注意力加权机制的多尺度进行特征提取,在‘C-A情况下其准确率达到92.34%,比MSCNN高出2.37%。此外,MACNN-ALSTM方法在所有变负载实验中的识别准确率都在90%以上,证明了在不同负载下MACNN-ALSTM方法有较优的故障识别能力。
2.3.3噪声环境下实验分析
在实际的工业生产环境中,振动传感器采集的振动信号容易受到工厂振动噪声的污染,因此,如何在含有噪声的振动信號中对轴承的故障进行诊断具有重要意义。为了验证MACNN-ALSTM方法的噪声鲁棒性好,实验取信噪比为-4、-2、0、2、4、8dB的高斯白噪声加入到测试样本中,模拟工业环境中的噪声污染。实验结果如图7所示,在高信噪比的环境中,各个算法都表现良好。然而,当信噪比为4dB或更小时,随着噪声水平的增加,MACNN-ALSTM方法准确率明显优于其他方法。
从上述变负载实验、噪声环境实验来看,目前当下流行算法的模型均在特定环境下表现良好,而在多变的环境下表现较差。MACNN-ALSTM方法在上述实验环境下均表现突出,具有很好的变负载下故障识别能力和噪声鲁棒性。
2.4旋转机械设备试车台数据分析
为了进一步验证MACNN-ALSTM方法的泛化能力和可靠性,进行了旋转机械设备试车台实验数据(自采集)分析。试车台实验数据集来自中国航发东安发动机有限公司,采集设备是“XXX”型号推进减速器,推进减速器安装在试车台上,试车台通过电机带动转轴来推进减速器转动,试车台实验数据采集现场如图8所示,试车台共设有4个振动测点,振动传感器安装在设备表面,分别位于设备的左面、右面、上面和下面,进行振动信号的采集。
实验采用的是慧石科技的电压传感器,型号为CA7002A,采样频率为25600Hz,传感器灵敏度为1V/g,共采集了7种不同的转速和功率状态下的振动数据,如表3所示,实验选取设备第X个测点的振动数据进行测试。
实验结果如表4所示,MACNN-ALSTM方法的准确率为86.62%,远高于上述对比方法。表明MACNN-ALSTM方法在实际复杂工况下仍然有很高的准确率。结合2.3节在CWRU数据集上的实验对比来看,WDCNN方法因采用了第一层宽卷积核进行特征提取,在上述对比方法中表现突出,但是由于其未考虑多尺度特征提取以及振动信号中的时序特征,所以与MACNN-ALSTM方法的比较中没有优势。这也验证了MACNN-ALSTM方法中的融合注意力机制的多尺度特征提取和长短期记忆网络的有效性。此外,ALSTM-FCN方法最初被提出应用在时间序列分类数据集上,其表现效果突出,但在基于振动信号的故障诊断方法中,该方法缺乏适应性,针对变负载及实际工况,其故障识别能力明显下降。
3结论
针对电机故障诊断过程中特征提取的复杂性及在变负载下识别率低的问题,提出了一种改进的卷积神经网络端到端故障诊断模型,通过卷积神经网络和长短期记忆网络的结合,有效提取了振动信号的时序特征;又通过融合注意力机制的多尺度提取故障特征,拓宽了卷积核捕捉高低频特征的范围。经实验验证,MACNN-ALSTM方法具有较高的变负载下的故障识别能力和噪声鲁棒性。
参 考 文 献:
[1]王亚萍, 李士松, 葛江华, 等. 等距离映射和模糊C均值的滚动轴承故障识别[J]. 哈尔滨理工大学学报, 2019, 24(3): 41.
WANG Yaping, LI Shisong, GE Jianghua, et al. Rolling Bearing with Isometric Feature Mapping and Fuzzy C means Fault Identification Method[J]. Journal of Harbin University of Science and Technology, 2019, 24(3): 41.
[2]雷先华, 杨启正, 叶幸. 现代汽油发动机燃油喷射技术综述[J]. 机电工程技术, 2020, 49(6): 19.
LEI Xianhua, YANG Qizheng, YE Xing. Summary of Fuel Injection Technology of Modern Gasoline Engine[J]. Mechanical and Electrical Engineering Technology, 2020, 49(6): 19.
[3]陈珊珊,杨耿杰.水电机组振动故障诊断方法综述[J].电气技术, 2019, 20(6): 1.
CHEN Shanshan, YANG Gengjie. Review of Vibration Fault Diagnosis Methods for Hydraulic Turbines[J]. Electrical Technology, 2019, 20(6):1.
[4]LIU T, CHEN J, DONG G M. Rolling Element Bearing Fault Diagnosis based on Frequency Bandentropy[J]. Journal of Vibration and Shock, 2014, 33(1): 77.
[5]俞啸. 数据驱动的滚动轴承故障特征分析与诊断方法研究[D]. 北京:中国矿业大学, 2017.
[6]邓飞跃, 强亚文, 杨绍普, 等. 一种自适应频率窗经验小波变换的滚动轴承故障诊断方法[J]. 西安交通大学学报, 2018, 52(8): 22.
DENG Feiyue, QIANG Yawen, YANG Shaopu,et al. A Fault Diagnosis Method of Rolling Element Bearings with Adaptive Frequency Window Empirical Wavelet Transform[J]. Journal of Xi′an Jiaotong University, 2018, 52(8): 22.
[7]RAUBER T W, LOCA A , BOLDT F, et al. An Experimental Methodology to Evaluate Machine Learning Methods for Fault Diagnosis based on Vibration Signals[J]. Expert Systems with Applications, 2020: 114022.
[8]SIKDER N, BHAKTA K,NAHID A A, et al.Fault Diagnosis of Motor Bearing using Ensemble Learning Algorithm with FFT-based preprocessing[C]//2019 International Conference on Robotics, Electrical and Signal Processing Techniques (ICREST). IEEE, 2019: 564.
[9]LIAO Y, ZHANG L, LI W. Regrouping Particle Swarm Optimization based Variable Neural Network for Gearbox Fault Diagnosis[J]. Journal of Intelligent & Fuzzy Systems, 2018, 34(6): 3671.
[10]PALCIOS R H C, SILVA I N D, GOEDTEL A, et al. Diagnosis of Stator Faults Severity in Induction Motors Using Two Intelligent Approaches[J]. IEEE Transactions on IndustrialInformatics, 2017, 13(4): 1681.
[11]黄丽梅, 张旗. 基于数据驱动的变换器故障诊断综述[J]. 电气技术, 2019, 20(2): 1.
HUANG Limei, ZHANG Qi. Review on FaultDiagnosis of Converter based on Data Driven[J]. Electrical Technology, 2019, 20(2): 1.
[12]SZEGEDY C, IOFFE S, VANHOUCKE V, et al.Inception-v4, Inception-Resnet and the Impact of Residual Connections on Learning[C]//Proceedings ofthe AAAI Conference on Artificial Intelligence,2017, 4:12.
[13]MERITY S, KESKAR N S, SOCHER R. Regularizing and Optimizing LSTM Language Models[J]. arXivpreprint arXiv: 1708.02182, 2017.
[14]EREN L, INCE T, KIRANYAZ S. A Generic Intelligent Bearing Fault Diagnosis System Using Compact Adaptive 1D CNN Classifier[J]. Journal of Signal Processing Systems, 2019, 91(2): 179.
[15]JING L, ZHAO M, LI P, et al. A Convolutional Neural Network Based Feature Learning and Fault Diagnosis Method for The Condition Monitoring of Gearbox[J]. Measurement, 2018,111: 1.
[16]KARIM F, MAJUMDAR S, DARABI H, et al.LSTM Fully Convolutional Networks for TimeSeries Classification[J]. IEEE access, 2018, 6: 1662.
[17]ZHANG W, PENG G, LI C, et al. A New Deep Learning Model for Fault Diagnosis With Good Anti-Noise and Domain Adaptation Ability on Raw Vibration Signals[J]. Sensors, 2017,17(2): 425.
[18]JIANG G, HE H, YAN J, et al. Multiscale Convolutional Neural Networks for Fault Diagnosis of Wind Turbine Gearbox[J]. IEEE Transactions on Industrial Electronics, 2019, 66(4): 3196.
[19]HE K, ZHANG X, REN S, et al. Deep Residual Learning for Image Recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 770.
[20]KARIM F, MAJUMDAR S, DARABI H, et al.LSTM Fully Convolutional Networks for TimeSeries Classification[J]. IEEE Access, 2017(99):.
(編辑:温泽宇)