APP下载

多尺度多任务注意力卷积神经网络滚动轴承故障诊断方法

2024-09-04王照伟刘传帅赵文祥宋向金

电机与控制学报 2024年7期
关键词:注意力机制故障诊断

摘 "要:针对振动信号时间尺度不一、故障特征分布差异及信息冗余等问题,提出一种多尺度多任务注意力卷积神经网络(MSTACNN)的滚动轴承故障诊断方法。该方法首先在参数共享单元构建多尺度卷积神经网络,提取多任务之间共享信息的多尺度通用特征;其次,利用多任务学习机制对故障类型、故障尺寸以及运行工况同时训练,规避单任务学习效率低下问题;然后,采用注意力机制对多尺度特征信息进行筛选,识别并保留有效特征;最后,设计了一种自适应损失权重算法,动态调整子任务的损失权重,控制不同任务的学习进度,实现了对轴承故障类型、故障尺寸以及运行工况同时识别的目标。分别在西储大学数据集和帕德博恩大学数据集对该方法的有效性进行验证,其中故障类型的识别准确率分别达到了99.95%和98.41%。实验结果表明:本文所提方法均展现出较高的识别准确率、良好的收敛速度和稳定性,证明了该方法具有较强的特征提取学习能力和泛化性能。

关键词:多尺度卷积;注意力机制;多任务学习;自适应损失权重;故障诊断

中图分类号:TM34 " " " " " " 文献标志码:A

Rolling bearing fault diagnosis with multi-scale multi-task attention convolutional neural network

WANG Zhaowei, LIU Chuanshuai, ZHAO Wenxiang, SONG Xiangjin

(School of Electrical and Information Engineering, Jiangsu University, Zhenjiang 212013, China)

Abstract: Aiming at the problems of different time scales, inconsistent characteristic distribution, and information redundancy of vibration signals, a rolling bearing fault diagnosis method with a Multi-scale Multi-task Attention Convolutional Neural Network (MSTACNN) is proposed. Firstly, a multi-scale convolutional neural network is constructed in the parameter sharing unit, and multi-scale common features containing information shared between different tasks in vibration signals are extracted. Secondly, the multi-task learning mechanism is employed to simultaneously accomplish three tasks, fault localization, fault size, and operation conditions. Thus, the inefficiency of single-task learning is solved. Then, the attention mechanism is used to enhance the feature expression and the influence of useless information is eliminated. Finally, an adaptive loss weight algorithm is designed to dynamically adjust the loss weight and the learning progress of three tasks, the goal of simultaneously identifying bearing failure types, fault magnitudes, and operating conditions is achieved. The effectiveness of the proposed method was verified in the dataset of Western Reserve University and the University of Paderborn, respectively. The experimental results show that the proposed method shows high recognition accuracy, good convergence speed and stability, which proves that the proposed method has strong feature extraction learning ability and generalization performance.

Keywords: multi-scale convolution; attention mechanism; multi-task learning; adaptive loss weight; fault diagnosis

引言

轴承作为电机设备的关键基础部件,多服役于高转速、变载荷的复杂工况下,运行过程中极易因疲劳、磨损、点蚀等情况而损坏,其故障发生概率高达40%左右[1]。一旦轴承发生故障,将导致电机噪音增强、振动加剧以及温度升高等,进而影响整个机械系统的精准可靠运转。因此,对电机轴承故障进行及时准确的诊断是保证机械系统安全高效运行的重要技术手段[2-4]。

基于机器学习的故障诊断方法关键在于手工设计特征,利用时频域统计分析[5]、经验模态分解[6-7]和小波包变换[8]等方法,从传感器信号中提取敏感故障特征,并输入支持向量机[9-10]、随机森林[11-12]、多层感知机[13]等模型进行训练,实现轴承故障的智能诊断。但是,手工提取的故障特征作为轴承故障分类依据,严重依赖领域知识和专家经验,增加了诊断过程难度。此外,特征提取和模型学习相互独立,不能联合优化[14],导致模型泛化能力较差。

深度学习克服了手工特征提取的缺陷,凭借优秀的泛化能力和强大的特征提取能力,使得故障诊断更加便捷和智能。其中,卷积神经网络(convolutional neural networks, CNN)的局部连接、权重共享以及池化操作等特性,可有效降低网络的复杂度和参数数量,是一种轴承故障诊断领域广泛使用的结构。例如,Xing等[15]通过CNN自动提取可分离和判别特征,实现了智能机械故障诊断,并且解决了数据不平衡的问题。Dibaj等[16]提出一种基于微调变分模态分解和CNN的端到端故障诊断方法,在复合故障诊断和存在较严重故障时对次要故障的特征提取和分类具有较高的准确性。然而,实际工况条件下,振动信号[17]往往呈现出多尺度特征,现有的全局性或单一尺度下的特征提取难以捕获互补且丰富的诊断信息,在一定程度上降低了模型的诊断能力。因此,一些学者利用多尺度特征的提取和建模充分提高网络的特征学习能力,以实现更好地诊断性能。例如,Jiang等[18]提出一种新的多尺度卷积神经网络架构,能够提取并学习不同尺度下的故障特征信息,增强了特征学习能力。王妮妮等[19]通过建立集特征提取与模式识别于一体的多尺度卷积神经网络模型,利用多尺度特征融合模块自适应提取故障样本不同层级特征,以此实现样本不同尺度特征的充分提取。此外,考虑到工程现场采集的振动信号通常包含大量背景噪声及冗余信息,丁雪等[20]提出一种多尺度注意力卷积神经网络模型,通过注意力机制对数据不同维度的特征赋予不同的权重,使模型更关注于最具类别区分度的区域,从而提高模型的特征学习能力。

上述方法虽然通过多尺度学习策略提取的信息之间具有互补性,在一定程度上提高了模型的特征学习能力,但主要目的在于实现故障类型的准确识别任务上,对于可能帮助优化故障分类指标的其他信息未加以利用,仍存在特征提取不全面的问题。此外,在工业应用中,希望模型实现故障种类准确识别的同时,对故障损伤程度和运行工况(例如电机转速、负载等)也具有良好表现,进而在合理安排电机运行方式和检修时间的同时又能最大程度提高经济效益。为实现故障类型、故障尺寸和运行工况多任务识别,单任务学习只能逐一训练多个模型,不仅增加了设备开发、部署与维护的成本,也极大地限制了智能方法的实用性。多任务学习符合工业中同时对多个目标任务学习并识别的要求,并且构建多任务学习框架对多个任务同时训练,不同任务之间相互促进,可进一步提高故障诊断性能。例如,康玉祥等[21]采用残差网络提取深层特征、共享主框架,建立能够同时进行故障状态识别、故障部位识别以及故障程度识别的多任务模型。然而,模型中每个任务的权重一致,这很容易导致多个任务的学习进度不一致,出现过拟合或欠拟合现象。

本文针对振动信号时间尺度不一、故障特征分布差异及信息冗余等问题,提出一种多尺度多任务注意力卷积神经网络(multi-scale multi-task attention convolutional neural network,MSTACNN)的滚动轴承故障多任务诊断方法。首先,在参数共享单元构建多尺度卷积神经网络,提取振动信号中包含多任务之间共享信息的多尺度通用特征;其次,利用多任务学习机制对故障类型、故障尺寸以及运行工况同时训练,规避单任务学习效率低下问题,促进不同任务之间从通用特征中进一步学习互补信息,使得特征学习更加全面;然后,引入注意力机制对特征进行筛选,识别并保留具有交互关系的有效特征并剔除无关特征,提高运算速度和识别效率;最后,设计一种自适应损失权重算法,联合优化控制不同任务学习进度,把计算资源放在更难识别的任务上。在凯斯西储大学(CWRU)和帕德博恩(PU)大学轴承数据集上,对建立的多任务模型进行实验验证。在CWRU数据集[22]上,三个任务识别准确率均达到98%以上,并验证了所提方法具有良好的收敛性。同时,在PU数据集[23]上,所提方法在三个任务的识别准确率方面较其他方法具有明显优势,实验结果充分表明所提方法具有很强的故障多任务诊断能力。

理论背景

卷积神经网络

卷积神经网络的局部连接、权重共享以及池化操作等特性,可有效减少训练参数数量,被广泛应用于计算机视觉[24]、自然语言处理[25]和故障识别等领域[26-27]。卷积神经网络的一般结构包括输入层、卷积层、激活层池化层以及分类层。为增强模型的泛化能力,经常采用批归一化、随机失活以及正则化等技术手段。

卷积层

卷积层具有稀疏连接、参数共享的优点,利用卷积核对特征信息进行卷积运算,完成局部特征提取。假设Kl i代表着第l层的第i个卷积核, 表示第l层的第j个局部区域,则卷积运算过程表示如下:

(1)

其中,yl(i,j)代表核与其感受区域的点积,W表示卷积核的宽度,Kl i(j)表示卷积核l在第j个区域中的权重。

通常在卷积层后添加激活层,利用激活函数增强输入信号的非线性表达能力。整流线性单元(Rectified Linear Unit, ReLU)以其能加快网络训练和抑制过拟合的优点,成为卷积神经网络最常用的激活函数。ReLU激活层运算过程如下:

(2)

其中,zl(i,j)是CNN的输出序列,al(i,j)是对zl(i,j)激活后的结果。

批归一化层

批归一化(batch normalization, BN)是由Ioffe和Szegedy于2015年提出的,其目的是对模型中任意一层的输出进行归一化处理,减少内部协变量偏移的同时,加快模型训练速度,并且在一定程度上缓解过拟合及梯度弥散问题,从而使模型训练更加容易和稳定。

BN层通常放置在卷积层之后,运算公式如下:

(3)

(4)

(5)

其中,dl(i,j)表示某个神经元的输出,μ和σ2分别是yl(i,j)的平均值与方差,ε为常数,用于在方差为0时防止无效计算。

池化层

在卷积批归一化之后,通过池化操作降低卷积层输出的特征信息维度,减少训练参数和计算成本。典型的池化操作包括最大池化和平均池化[28]。最大池化和平均池化计算过程如下:

(6)

(7)

其中,al(i,t)是第l层第i个视野范围内第t个神经元的值,Wm是最大池化窗口的宽度,Wa是平均池化窗口的宽度,pl(i,j) m是最大池化处理之后的结果,pl(i,j) a是平均池化处理之后的结果。

随机失活(dropout)

dropout作为一种常见的正则化方法,通过在训练阶段随机地使一定比例地节点失活,从而抑制网络出现过拟合现象。dropout通常被放置在CNN中参数较多的全连接层。而在MSTACNN中,dropout被放置在批归一化层之后,其目的是通过其使节点随机置零,改变信息尺度的特点,与平均池化一同获取不同尺度的特征信息。

注意力机制

注意力机制[29]在深度学习领域被广泛应用,它可以理解为针对原本平均分配的资源根据注意力对象的重要程度重新分配资源,着重关注需要重点使用的地方,得到更多的特征信息。随着通道注意力和空间注意力的提出,不同的注意力机制被运用到故障识别的网络中,如特征金字塔注意力网络(pyramid feature attention network, PFANET)[30]对不同层级的特征添加注意力并结合全局平均池化与金字塔融合模块提高网络的分割精度。注意力机制的引入增加了特征提取的丰富程度,但伴随着注意力机制的添加,模型的参数量也随之增加。

多尺度多任务注意力卷积神经网络故障诊断模型

为获取更全面特征,增强诊断模型性能,本文提出多尺度多任务注意力卷积神经网络MSTACNN,从原始振动信号中提取不同时间尺度特征信息,采用有监督学习的多任务联合训练,实现故障类型、故障部位与运行工况的识别。模型由共享网络、注意力机制模块与分支网络三部分构成,其具体结构如图1所示,其中,Conv c@i×j表示卷积核为i×j且卷积核个数为c的卷积模块,Maxpool(i)和avgpool(i)分别表示池化窗口为i的最大池化和平均池化,dropout(i)表示使节点失活。

共享网络

电机在客观自然环境下运行时,时域振动信号往往呈现出多时间尺度特性。滚动轴承失效时,故障特征也通常表现出多尺度性质。为有效提取故障特征成分以增强诊断模型效果,在共享网络框架中,构建多尺度卷积神经网络提取包含有多个任务之间共享知识的多尺度通用特征。共享网络以CNN为基础,通过卷积、批归一化、激活函数及池化等操作实现多尺度通用特征提取,主要由4个普通卷积模块和4个多尺度卷积模块构成。其中,普通卷积模块包含1个卷积层、1个BN层与1个ReLU激活层;多尺度卷积模块,并行包含1个dropout层和2个不同池化窗口的池化层,其特征信息提取操作如图2所示。特征信息经过多尺度卷积模块后,经过concatenate堆叠处理之后传入最大池化进行降采样。搭配多对多尺度卷积模块和最大池化操作,在保证网络轻量化的同时,增强了对多尺度信息的挖掘和学习能力。

注意力机制模块

电机运行过程受到力、电、热、磁等多物理场耦合效应影响,会产生大量振动噪声。此外,滚动轴承某一部位失效时,除了产生包含故障特征分量的低频振动外,还会产生高频固有振动。因此,通过加速度传感器拾取的振动信号往往具有一定程度冗余信息。为衡量不同信息的重要程度,引入注意力机制模型以获取多尺度通用特征的权重向量,并根据具体任务需求来确定保留或舍弃哪些特征。

本文的注意力机制模块中,首先采用全局平均池化(Global Average Pooling, GAP)按通道对多尺度通用特征进行压缩。接着,使用卷积层对通道进行先降后升处理,降低特征信息噪声干扰后,经过sigmoid函数输出不同特征的权重系数。然后,将权重系数和输入相乘后再与输入叠加作为模型的输出。最终,既筛选出重要特征,又避免了特征衰减。

分支网络

共享网络中提取的多尺度通用特征经过注意力机制模块筛选后,输入到不同的任务模型进一步获取更深层次的特定特征,并计算各个任务的损失函数大小。通过有监督的多任务同时训练,自动探索多尺度通用特征和特定特征的最佳组合,从而实现故障类型、故障尺寸和运行工况识别。共享网络和分支网络采用并联连接方式,最大化利用共享网络的通用特征。此外,在四个多尺度卷积设置共享网络与分支网路的连接点,学习特征过程不同任务之间相互促进,相互补充,提升彼此的性能。

每个分支网络由4个注意力机制模块、4个卷积模块、4个池化模块以及1分类模块组成。其中,卷积模块包括1个卷积层、1个BN层与1个ReLU激活层,分类模块包括1个全局平均池化层、1个

全连接层与1个softmax激活函数层。模型损失函数为三个任务损失函数的线性加权,其表达式为:

(8)

其中,λi为第i个任务的损失权重,Li为第i个任务的损失函数,i=1,2,3。

三个任务的损失函数均为交叉熵损失函数,其表达式为:

(9)

其中,Pj为第j个真实one-hot编码标签,P* j为第j个输出类别,n=4。

其他细节

本文模型由Keras和python3.7.7实现,网络的训练和测试均在Windows系统的工作站上完成。训练时学习率为0.001,batch_size为64。在此使用准确度指标来评估模型性能。

自适应损失权重算法

模型训练过程中,前向传播过程与普通CNN相同。反向传播过程中,为避免因损失权重固定导致某些任务过拟合时其他任务处于欠拟合状态,本文提出一种自适应损失权重算法。通过计算子损失占总损失比重动态调整相应子任务的损失权重,并将每个损失权重乘以不同的系数,来更佳的控制每个任务的学习进度,以此来根据总损失计算梯度、反向传播、更新参数,保证三个分类任务具有相似的收敛速度。具体步骤如下:

1)初始化训练步数k=0和损失权重[λ1, λ2, …, λi] = [1, 1, …1];

2)获取分类层输出output[i];

3)当k∈1,2,…,n时;

计算各任务的损失:

L_i=Loss(labels[j],output[j] );

计算每个任务的损失权重:

λ_i=λ_s L_i/∑_(i=1)^n▒L_i ;

4)计算总损失L_all:

L_all=∑_(i=1)^n▒〖λ_i L_i 〗;

5)计算每个任务的梯度,根据梯度反向传播更新参数,每更新一次后,k=k+1;

6)当k=n+1时,算法结束。

实验验证

为验证本文所提诊断模型的准确性和泛化能力,利用美国凯斯西储大学(CWRU)轴承数据集和德国帕德博恩(PU)轴承数据集进行,构造多种场景以分析多尺度卷积、自适应损失权重算法以及多任务学习的有效性,同时进行多种方法的对比试验,并通过T-SNE技术可视化模型内部的特征变化。

数据集1:CWRU轴承故障数据集

数据描述

选择CWRU轴承故障数据集的驱动端数据为实验数据,其对应的轴承型号为SKF6205。轴承包括四种状态:正常状况、外圈故障、内圈故障和滚动体故障,其中每种故障类型包含了0.007英寸、0.014英寸、0.021英寸三种损失尺寸。分别在0hp、1hp、2hp、3hp四种负载下通过加速度计拾取振动信号,采样频率为12kHz。为增加样本数量,在保证训练集和测试集数据独立性的情况下,将振动信号中每1024个数据点进行重叠切割形成一个样本。同时,为了模拟轴承运行过程中背景噪声干扰,在振动信号中添加-2dB高斯白噪声进行分析。诊断模型共设置三个任务,分别对应故障类型、故障尺寸以及运行工况识别。表1描述了本文对CWRU轴

承故障数据集的分类设置。

多尺度卷积有效性验证

所提出诊断模型中,可对共享网络中的多尺度卷积模块进行设置,获得有多尺度卷积(All-MS)和无多尺度卷积(NO-MS)两种网络结构。将添加噪声的样本输入到模型中,验证多尺度卷积的有效性,实验结果见如表2所示。

由表2可知,在处理CWRU数据,含故障类型、故障尺寸与运行工况的4种状态时,2种不同的网络结构在低信噪比下(-2dB)准确度分别是96.45%、98.11%、87.51%和99.95%、99.98%、98.7%。随着共享网络中多尺度卷积模块的引入,准确度分别提高了3.5%、1.87%、11.19%。可以看出,与单尺度卷积相比,使用多尺度卷积模块的网络在低信噪比下的准确度显著提高。在多尺度卷积模块中大池化窗口通过其感受野的优势在全局信息上的提取能力更强,但特征分辨率较低,且包含较多的无效信息。相比之下,小池化窗口的特征分辨率更高,对特征信息的处理更细致,特征种类更丰富。同种工况下不同故障类型其故障特征分量大小也不同,进而对不同尺度信息的敏感度不同。采用多个尺寸的池化窗口提取出不同尺度的故障特征供给模型学习,模型在遇到不同故障频率的故障时也能很好的区分开。因此,多尺度卷积模块可以为分支网络提供多任务之间共享知识的多尺度通用特征,扩展特征学习过程深度,提高分支网络识别性能。然而,不同任务受多尺度卷积模块影响不同。其中,CWRU数据集工况差异较小,没有多尺度特征信息情况下分类性能不佳,利用多尺度卷积模块提取多尺度特征后,运行工况识别性能得到大幅提升。

自适应损失权重算法有效性验证

为进一步验证自适应损失权重算法的有效性,利用CWRU实验数据构造损失权重固定和动态调

整不同的场景,获取诊断模型训练过程中的损失曲线,实验结果如图3所示。损失权重固定时,模型训练约90个epoch才达到收敛。此外,三个任务的收敛速度存在较大差异。加入自适应损失权重算法之后,模型训练约50个epoch就可以收敛,并且三个任务具有相似的收敛速度。

在多任务学习中,不同任务学习的难易程度也不同,从而导致不同任务可能处于不同的学习阶段。当使用固定权重时,会出现任务A接近收敛,任务B仍然没训练好的情况,从而限制了不同任务的学习。通过自适应损失权重算法使更难的任务分配的权重更大,很好地协调了各个任务之间的学习进度,得到了各个任务具有相似收敛速度的结果。当进一步深入分析后发现,加入自适应损失权重算法后还消除了简单任务过拟合、困难任务欠拟合的现象。因此,通过采用自适应损失权重算法,在训练过程中不断动态调整损失权重,可有效提高模型的收敛速度,并保证三个任务收敛速度一致。相对于损失权重固定的情况,在动态调整损失权重中,每个损失权重都乘以相应的系数,因此收敛后的损失大于固定损失权重中收敛后的损失。

对比分析

为验证模型的可靠性和优越性,在同等噪声环境下,分别与多层感知机(MLP)、基于一维卷积神经网络的WDCNN[31]、多个残差模块组成的ResCNN[32]和门控循环单元(GRU)进行对比,实验结果如表3所示。

观察表3可知,对于故障类型和故障尺寸识别任务,五种方法都具有较好的特征学习能力,识别准确率皆在90%以上。但是,测试效果最好的是本文所提MSTACNN诊断模型,故障类型识别准确率为99.95%,故障尺寸识别准确率为99.98%,相比多层感知机MLP,故障类型和尺寸识别准确率分别提高5.32%和7.48%。相比WDCNN,故障类型和尺寸识别准确率的提升幅度为2.61%和4.51%。对于运行工况识别任务,由于振动信号采集工况差异较小,本文方法因具备多尺度卷积及注意力机制模块,可同时提取振动信号时间多尺度特性及故障多尺度振动特性并抑制冗余信息,运行工况识别准确率仍具备较好的稳定性与准确性,明显优于其他四种方法。相比ResCNN,运行工况识别效果提高了6.2%,相比GRU,运行工况识别效果更是提高了13.42%。此外,对比同种方法三个任务之间的分类准确率可以发现,所提模型在不同任务识别准确率上下限差值最小。因此,上述实验结果充分说明所提MSTACNN模型在三项任务上均取得了非常有竞争力的结果,并较好地证明所提MSTACNN模型进行多任务学习的有效性,同时表明基于振动信号分析进行故障类型识别、故障尺寸识别以及运行工况识别的可行性。

数据集2:PU轴承故障数据集

数据描述

在PU数据集中,损伤类别分为人为损伤轴承样本和通过加速寿命试验产生的真正轴承损伤样本。为更加符合实际工业环境,选用真实轴承损伤的测量数据。真实损伤轴承共有14个,包含5个外圈故障轴承(OR)、6个内圈故障轴承(IR)、3个内外圈复合故障轴承(IR+OR)。损伤原因包括疲劳点蚀(FP)和变形压痕(PI)。损失类型分为单一损伤(S)、重复损伤(R)和多重损伤(M)。损伤等级分为三个层次。选用的轴承数据包括1个健康轴承(health)和12个不同故障等级的真实损伤轴承分别在4种不同工况实验所采集的振动信号,采样频率为64kHz,采样时间为4s,详细的工况信息和数据描述如表4和表5所示。为验证本文诊断模型的学习能力,同样设置了故障类型、故障尺寸与运行工况三个子任务,但在故障类型识别任务中,一并包含了故障部位、损失原因及损失类型共10种不同情况。

多任务学习有效性验证

为了探讨多任务学习中不同任务之间相辅相成的促进关系,利用PU实验数据,设置了MSTACNN、F-CNN(处理故障类型识别任务)和SL-CNN(处理故障尺寸和运行工况识别任务)三个网络进行对比分析,实验结果如表6所示。同时,将多

任务学习方法MSTACNN和单任务学习方法F-CNN的混淆矩阵进行可视化展示,如图4所示。从表6可以看出,对于故障类型识别任务,MSTACNN网络识别准确率为98.41%,相比F-CNN提高5.58%。此外,从混淆矩阵可以分析发现,与F-CNN相比,每种故障类型下,MSTACNN准确识别的样本数量都有所提升,这表明故障尺寸和运行工况识别任务的故障特征中包含了故障类型识别任务所需的有用信息,这些信息能够相互共享,以提高故障类型识别任务的准确率。其中,两种方法正确识别故障类型3和故障类型5的样本数量相对较低,这是因为变形压痕相对于疲劳点蚀故障特征不明显,识别起来难度较高。对于故障尺寸和运行工况识别任务,MSTACNN网络识别准确率分别为98.06%和89.12%,相比SL-CNN分别提高4.81%和6.15%,这同时也证明故障类型识别任务为故障尺寸和运行工况识别任务提供了有效的信息补充。上述实验结果充分证明在进行多任务学习中,不同任务之间从多尺度通用特征中进一步学习互补信息,相互补充,相互促进,提升彼此的性能。因此,在对故障类型识别的同时完成对运行工况或其他任务的学习,使得故障发生时电机运行状况更加透明,在合理安排运行方式和检修时间的同时又能进一步提高经济效益。

注意力机制有效性验证

注意力机制作为所提MSTACNN模型的核心,可以为不同任务自动选择所需要的故障特征。为验证注意力机制模块对网络性能的影响,对网络模型中的注意力机制模块进行设置,分别获得有注意力机制(All-AN)和无注意力机制(NO-AN)两种网络结构。在噪声强度为-2dB下,将PU实验数据输入到两种模型中,实验结果如表7所示。

观察表7实验结果可以看出,注意力机制模块对三个任务识别准确率均有较大影响。无注意力机制网络模型中,故障类型和故障尺寸识别任务准确率仅仅达到了91.06%和91.60%,与有注意力机制网络模型相比分别降低了7.35%和6.46%。对于运行工况识别任务,无注意力机制网络模型的识别准确率为82.70%,相比有注意力机制网络模型降低了6.42%。因此,上述实验结果充分说明移除注意力机制模块后,三个任务识别准确率均有降低,这是因为在共享网络中利用多尺度卷积获取多尺寸故障特征后,分支网络缺乏有效的特征筛选能力,过于丰富的冗余特征信息反而导致网络性能下降。

为了更好的理解注意力机制模块的有效特征筛选机制,对MSTACNN模型中共12个注意力机制模块的权重向量进行可视化展示,其结果如图5所示。观察图5可以看出,对于三个识别任务,每个任务各自的四个注意力机制模块(A1-A4)生成不同的权重向量,通过权重向量逐层从共享特征中获得相应所需特征,抑制冗余特征。此外,在注意力机制模块为三个任务生成的权重中,有些权重差别很大,而有些只是略有不同。这再次表明注意力机制模块可以为特定任务筛选出灵活的特征组合,以达到共享特征利用最大化的效果。

对比分析

在PU数据集上,进一步将本文方法与其他四种代表性深度学习方法比较分析,结果如表8所示。

相较于CWRU数据集,PU数据集的故障类型划分更为复杂,故障尺寸与工况内部差异更小,所以三个任务的识别准确率稍有降低。即便如此,表8中结果显示,在故障类型和故障尺寸识别任务中,MSTACNN的识别准确率达到了98.41%和98.06%,与MLP,WDCNN,ResCNN及GRU相比,最高提升6.89%和8.19%,最低提升也达到了4.38%和4.59%。尤其是在较难的运行工况识别任务中,MSTACNN的识别准确率达到了89.12%,相比他四种方法最高提升8.76%。上述实验结果表明,MSTACNN在PU数据集上也拥有良好的性能,并且经过两个不同数据集的实验验证,也证明了MSTACNN拥有较好的泛化能力。

特征可视化

为了深入直观理解本文模型内在机理,采用T-SNE技术在二维空间分别对输入层、3个分支网络的4个注意力机制模块输入层和输出层特征进行可视化,结果如图6所示。其中,F1-F10表示10种不同类别轴承故障状态,S1-S4表示4种故障等级,L1-L4表示4种运行工况。由6(a)可知,原始振动信号特征相互重叠,杂乱无序分布在整个空间。由图6(b)可知,经过1个普通卷积模块和多尺度卷积模块处理之后,不同特征开始分离,但由于均属于共享网络,三个分支网络特征变化趋势类似。观察图6(c)-图6(d)可以发现,不同分支网络经过多个普通卷积模型和多尺度卷积模块以及注意力机制权重分配操作之后,学习的特征之间逐渐存在差异性,但每个分支网络中的同一类别聚集紧密,不同类别相互分散。由图6(f)可知,经过全局平均池化和全连接层之后,三个分支网络中不同类别已经被明显划分。综上表明,本文模型可以从振动信号中有效提取多尺度特征并进行多任务学习,从而具备良好的多任务诊断性能。

总结

本文提出一种多尺度多任务注意力卷积神经网络多任务诊断模型,同时完成滚动轴承故障类型、故障尺寸和运行工况识别。通过多尺度特征提取,表征振动信号的多时间尺度信息;其次,构建共享网络和多任务框架,学习多任务之间的共享特征并有效利用不同任务之间的关联信息;然后,在不同任务中引入注意力机制模块,自动筛选每个任务所需特征。同时,为平衡不同任务学习进度,避免欠/过拟合现象的发生,提出一种自适应损失权重算法,动态调整每个任务的损失权重。在CWRU数据集和PU数据集上的实验结果表明,本文所提方法均展现出较高的识别准确率、良好的收敛速度和稳定性,同时拥有出色的泛化能力。此外,本文模型还具有优秀的可扩展性,可根据需求调整任务分支个数。然而,在实际的工业环境下,旋转机械的速度和负载处于连续变化状态,而本文使用的是离散的速度和负载。因此,下一步工作将对上述问题进行深入研究。

参考文献

宋向金, 赵文祥. 交流电机信号特征分析的滚动轴承故障诊断方法综述[J]. 中国电机工程学报, 2022, 42(4): 1582.

SONG Xiangjin, ZHAO Wenxiang. A review of rolling bearing fault diagnosis approaches using AC motor signature analysis[J].Proceedings of the CSEE, 2022, 42(4): 1582.

PAN Z, MENG Z, CHEN Z, et al. A two-stage method based on extreme learning machine for predicting the remaining useful life of rolling-element bearings[J]. Mechanical Systems and Signal Processing, 2020, 144: 106899.

XUE H, WU M, ZHANG Z, et al. Intelligent diagnosis of mechanical faults of in-wheel motor based on improved artificial hydrocarbon networks[J]. ISA Transactions, 2022, 120: 360.

GAO Z, CECATI C, DING S X. A survey of fault diagnosis and fault-tolerant techniques—Part I: Fault diagnosis with model-based and signal-based approaches[J]. IEEE Transactions on Industrial Electronics, 2015, 62(6): 3757.

JIN X, ZHAO M, CHOW T W S, et al. Motor bearing fault diagnosis using trace ratio linear discriminant analysis[J]. IEEE Transactions on Industrial Electronics, 2013, 61(5): 2441.

LEI Y, LIN J, HE Z, et al. A review on empirical mode decomposition in fault diagnosis of rotating machinery[J]. Mechanical Systems and Signal Processing, 2013, 35(1-2): 108.

夏志凌, 胡凯波, 刘心悦, 等. 基于变模态分解的异步电机转子断条故障诊断[J]. 电工技术学报, 2023, 38(08): 2048.

XIA Zhiling, HU Kaibo, LIU Xinyue, et al. Fault diagnosis of rotor broken bar in induction motor based on variable mode decomposition[J]. Transactions of China Electrotechnical Society, 2023, 38(08): 2048.

LAU E C C, NGAN H W. Detection of motor bearing outer raceway defect by wavelet packet transformed motor current signature analysis[J]. IEEE Transactions on Instrumentation and Measurement, 2010, 59(10): 2683.

CHENG F, WANG J, QU L, et al. Rotor-current-based fault diagnosis for DFIG wind turbine drivetrain gearboxes using frequency analysis and a deep classifier[J]. IEEE Transactions on Industry Applications, 2017, 54(2): 1062.

余印振, 韩哲哲, 许传龙. 基于深度卷积神经网络和支持向量机的NOx浓度预测[J]. 中国电机工程学报, 2022, 42(01): 238.

YU Yinzhen, HAN Zhezhe, XU Chuanlong. NOx concentration prediction based on deep convolution neural network and support vector machine[J]. Proceeding of the CSEE, 2022, 42(01): 238.

LI C, SANCHEZ R V, ZURITA G, et al. Gearbox fault diagnosis based on deep random forest fusion of acoustic and vibratory signals[J]. Mechanical Systems and Signal Processing, 2016, 76: 283.

李兵, 韩睿, 何怡刚, 等. 改进随机森林算法在电机轴承故障诊断中的应用[J]. 中国电机工程学报, 2020, 40(4): 1310.

LI Bing, HAN Rui, HE Yigang, et al. Applications of the improved random forest algorithm in fault diagnosis of motor bearings[J]. Proceeding of the CSEE, 2020, 40(4): 1310.

WAQAR T, DEMETGUL M. Thermal analysis MLP neural network based fault diagnosis on worm gears[J]. Measurement, 2016, 86: 56.

ZHAO R, YAN R, CHEN Z, et al. Deep learning and its applications to machine health monitoring[J]. Mechanical Systems and Signal Processing, 2019, 115: 213.

XING Z, ZHAO R, WU Y, et al. Intelligent fault diagnosis of rolling bearing based on novel CNN model considering data imbalance[J]. Applied Intelligence, 2022: 1.

DIBAJ A, ETTEFAGH M M, HASSANNEJAD R, et al. A hybrid fine-tuned VMD and CNN scheme for untrained compound fault diagnosis of rotating machinery with unequal-severity faults[J]. Expert Systems with Applications, 2021, 167: 114094.

王正英, 胥永刚, 李强, 等. 机械振动信号内在模式的复杂性评估[J]. 振动与冲击, 2009, 28(1): 81.

WANG Zhengying, XU Yonggang, LI Qiang, et al. Empirical mode decomposition and complexity measurement of mechanical vibration signals[J]. Journal of Vibration and Shock, 2009, 28(1): 81.

JIANG G, HE H, YAN J, et al. Multiscale convolutional neural networks for fault diagnosis of wind turbine gearbox[J]. IEEE Transactions on Industrial Electronics, 2018, 66(4): 3196.

王妮妮, 马萍, 张宏立等. 基于多尺度深度卷积网络特征融合的滚动轴承故障诊断[J]. 太阳能学报, 2022, 43(04): 351.

WANG Nini, MA Ping, ZHANG Hongli, et al. Fault diagnosis of rolling bearing based on feature fusion of multi-scale deep convolutional network[J]. Acta Energiae Solaris Sinica, 2022, 43(4): 351.

丁雪, 邓艾东, 李晶, 等. 基于多尺度和注意力机制的滚动轴承故障诊断[J]. 东南大学学报(自然科学版), 2022, 52(1): 172.

DING Xue, DENG Aidong, LI Jing, et al. Fault diagnosis of rolling bearing based on multi-scale and attention mechanism[J]. Journal of Southeast University(Natural Science Edition), 2022, 52(1): 172.

康玉祥, 陈果, 尉询楷, 等. 基于残差网络的航空发动机滚动轴承故障多任务诊断方法[J]. 振动与冲击, 2022, 41(16): 285.

KANG Yuxiang, CHEN Guo, WEI Xunkai, et al. A multi-task fault diagnosis method of rolling bearings based on the residual network[J]. Journal of Vibration and Shock, 2022, 41(16): 285.

SMITH W A, RANDALL R B. Rolling element bearing diagnostics using the Case Western Reserve University data: A benchmark study[J]. Mechanical Systems and Signal Processing, 2015, 64: 100.

LESSMEIER C, KIMOTHO J K, ZIMMER D, et al. Condition monitoring of bearing damage in electromechanical drive systems by using motor current signals of electric motors: A benchmark data set for data-driven classification[C]//PHM Society European Conference, October 3-6, 2016, Denver, Colorado. 2016:1-17.

GAO H, CHENG B, WANG J, et al. Object classification using CNN-based fusion of vision and LIDAR in autonomous vehicle environment[J]. IEEE Transactions on Industrial Informatics, 2018, 14(9): 4224.

SANTOS C D, GATTI M. Deep convolutional neural networks for sentiment analysis of short texts[C]//Proceedings of the 25th International Conference on Computational Linguistics, August 23-29, 2014, Dublin, Ireland. 2014: 69-78.

NIU G, LIU E, WANG X, et al. Enhanced discriminate feature learning deep residual CNN for multitask bearing fault diagnosis with information fusion[J]. IEEE Transactions on Industrial Informatics, 2022, 19(1): 762.

肖建平, 朱永利, 张翼, 等. 基于增量学习的变压器局部放电模式识别[J]. 电机与控制学报, 2023, 27(02): 9.

XIAO Jianping, ZHU Yongli, ZHANG Yi, et al. Transformer partial discharge pattern recognition based on incremental learning[J]. Electric Machines and Control, 2023, 27(02): 9.

宋向金, 孙文举, 刘国海, 等. 深度子领域自适应网络电机滚动轴承跨工况故障诊断[J]. 电工技术学报, 2024, 39(01): 182.

SONG Xiangjin, SUN Wenju, LIU Guohai, et al. Across working conditions fault diagnosis for motor rolling bearing based on deep subdomain adaption network[J]. Transactions of China Electrotechnical Society, 2024, 39(01): 182.

金亮, 杨柳, 王艳阳. 基于特征迁移的永磁同步电机性能预测[J]. 电机与控制学报, 2022, 26(03): 117.

JIN Liang, YANG Liu, WANG Yanyang. Performance prediction of permanent magnet synchronous motors based on feature transfer[J]. Electric Machines and Control, 2022, 26(03): 117.

ZHAO Ting, WU Xiangqian. Pyramid feature attention network for saliency detection[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 15-20, 2019, Long Beach, CA, USA. 2019: 3085-3094.

ZHANG W, PENG G, LI C, et al. A new deep learning model for fault diagnosis with good anti-noise and domain adaptation ability on raw vibration signals[J]. Sensors, 2017, 17(2): 425.

ZHANG W, LI X, DING Q. Deep residual learning-based fault diagnosis method for rotating machinery[J]. ISA Transactions, 2019, 95: 295.

(编辑:刘素菊)

猜你喜欢

注意力机制故障诊断
冻干机常见故障诊断与维修
面向短文本的网络舆情话题
基于自注意力与动态路由的文本建模方法
基于深度学习的问题回答技术研究
基于LSTM?Attention神经网络的文本特征提取方法
基于注意力机制的双向LSTM模型在中文商品评论情感分类中的研究
InsunKBQA:一个基于知识库的问答系统
基于量子万有引力搜索的SVM自驾故障诊断
因果图定性分析法及其在故障诊断中的应用
基于LCD和排列熵的滚动轴承故障诊断