APP下载

基于注意力机制的一维卷积神经网络行星齿轮箱故障诊断

2021-10-26杨永灿柳小勤王廷轩王振亚

机械与电子 2021年10期
关键词:齿轮箱行星故障诊断

杨永灿,刘 韬,柳小勤,王廷轩,王振亚

(昆明理工大学机电工程学院,云南 昆明 650500)

0 引言

行星齿轮箱作为整个传动系统的关键部件,被广泛应用于机械装备中[1]。因工程环境的复杂性与多变性,齿轮箱中的齿轮和轴承等核心部件极易发生损坏。齿轮箱的健康状况与整台设备的运行有着紧密联系,因此,对行星齿轮箱的状态监测与性能评估是工程实际中的重中之重[2]。

近年来,深度学习作为机器学习的热点方向,因其强大的特征提取能力,在机械设备故障诊断领域被广泛应用。雷亚国等[3]将机器学习模型改进并应用于设备的故障诊断中;Chen等[4]通过绘制振动信号特征统计图来作为卷积神经网络(convolutional neural network,CNN)的输入,进行了故障诊断;胡茑庆等[5]通过经验模态分解的方法对行星齿轮箱振动信号预处理,输入到CNN模型中进行故障识别;孔子迁等[6]通过时频融合并结合注意力机制,实现了行星齿轮箱故障诊断。近些年来,深度学习在故障诊断领域被广泛应用,但模型的输入过分依赖先验知识,没有利用深度学习强大的特征提取能力。于是,一些学者对一维振动信号直接作为深度学习模型的输入展开了研究,曲建岭等[7]建立了1D-CNN的“端到端”自适应故障诊断算法,实现了轴承故障诊断;Wu等[8]使用1D-CNN模型对固定轴齿轮箱和行星齿轮箱进行了故障诊断研究,证明具有较强的特征提取能力。虽然有许多的学者将深度学习理论应用于机械设备故障诊断领域,但是由于实际工况多变,数据噪声干扰大,因此,深度学习网络在面临实际工况数据时,难以充分挖掘表征有故障信息的特征,从而影响识别结果。另外,模型训练参数过大,不利于实现快速故障诊断。

在行星齿轮箱中,多个部件共同运转,其构造较为烦琐,使得信号频率成分复杂;另外载荷大范围波动导致振动信号具有强烈的时变性,不同时间内的信号特征不同[9-10]。因此,针对行星齿轮箱故障信号成分复杂和时变性强的特点,本文提出了一种基于注意力机制的一维卷积神经网络行星齿轮箱故障诊断方法。使用一维卷积神经网络强大的特征学习能力对行星齿轮箱进行特征学习,同时,引入注意力机制对提取的特征序列进行自适应的加权,突出有用的故障特征信息,提升网络在变工况工作环境下的行星齿轮箱故障诊断性能。

1 理论基础

1.1 卷积神经网络

卷积神经网络(CNN)具有特定的结构,与其他的深度神经网络相比,有稀疏连接和权值参数共享的特性。CNN的组成部分描述如下。

CNN的主要模块是卷积层,它使用滤波器对输入数据进行一系列卷积运算,并输出相应的特征[11]。其数学模型可以表示为

(1)

(2)

但是,当直接使用式(2)对特征进行归一化时,模型学习到的特征会受到影响,会使网络表达能力下降,于是引入重构参数γi和βi对归一化值进行调整,恢复原始网络的特征分布。这个过程可以描述为

(3)

数据进行BN规范化后,接着采用激活函数对数据进行非线性映射。修正线性单元(rectified linear unit,ReLU)激活函数可以有效地加快模型收敛,选用ReLU作为激活函数。可以得到输出为

(4)

然后进行池化操作,主要是降低上一层输出的维度,实质是有效减轻计算量,保留重要的信息,从而减少所需的计算资源和时间。为了更好地保留数据纹理特征,以及使模型获得更快的收敛速度,本文采用最大池化操作,函数表示为

(5)

通过一系列的卷积和池化逐层进行深度特征提取,然后将提取的特征进行扁平处理输入全连接层,公式为

(6)

wf为相邻层之间的权重矩阵;bf为偏置;sm为输入数据;σ(·)为激活函数。通常在全连接层之后为了得到模型的预测输出,连接Softmax函数实现类别分类,即

(7)

fk(y)为Softmax函数对每个类别的预测值;C为训练样本数。

为使损失率趋于最小,模型训练采用交叉熵[13]作为损失函数,公式为

(8)

θ为模型的训练参数;hk为第k个目标的输出类别;fk(θ)为第k类样本预测概率值;J(θ)为误差损失值。

1.2 注意力机制

行星齿轮箱工作环境载荷大范围波动,导致振动信号具有强烈的时变性。当行星齿轮箱内出现局部故障时,故障位置对其他啮合的齿轮产生脉冲激励,使整个系统产生共振,使得振动信号成分复杂。因此,在同一工况下不同时间内采集的信号特征有差异,有些特征是可以表征故障信息的,有些可能会带来干扰,使得模型的泛化能力降低。

注意力机制通过对不同的信号片段的特征自适应加权进行信息筛选,突出有重要信息的故障特征,抑制无效的特征。其结构如图1所示,C为深度特征提取层获得特征通道数;L为特征通道的特征数目。

图1 注意力机制

首先,获取CNN网络各通道输出的特征序列H=[h1,h2,h3,…,hN],N为序列的长度。然后,将特征序列H输入到全连接层,从而得到各通道的注意权重S=[s1,s2,s3,…,sN],接着利用注意权重S与原始特征序列相乘得到注意力筛选后的特征序列。其注意力机制加权筛选的原理可描述为

wf=δ(H)

(9)

S=softmax(αTwf)=[s1,s2,s3,…,sN]

(10)

H′=HST

(11)

δ(·)为激活函数;αT为可学习的参数;H′为注意力筛选后的特征。

1.3 基于AM的1D-CNN故障诊断方法

1.3.1 模型构建

本文将1D-CNN结合注意力机制技术,构建故障诊断模型,即使用1D-CNN从原始振动信号中学习齿轮故障特征,然后采用注意力机制自适应地获取特征的重要程度,根据这个重要程度增强能表征故障信息的特征,对无效的特征进行抑制,使网络获得更多判别信息。其网络拓扑结构如图2所示。

图2 行星齿轮故障诊断模型结构

故障诊断模型主要由输入层、深度特征提取层、注意力机制层以及全连接层组成。输入层是以行星齿轮箱的一维振动信号样本作为输入。深度特征提取层包括卷积层、BN层和池化层,交替方式出现卷积池化对输入的原始信号进行深度特征学习。其中,由于池化未改变特征的分布,故BN仅在卷积层之后使用。通过一系列的卷积池化提取深度特征后,利用注意力机制技术对不同信号片段的特征自适应加权进行信息筛选,同时对筛选后的特征重新标记,最后将标记好的特征序列送到Softmax分类器中实现端到端的行星齿轮箱故障诊断。

1.3.2 行星齿轮箱故障诊断流程

基于AM的1D-CNN故障诊断流程如图3所示。首先将AM与1D-CNN结合,完成模型的构建;然后初始化模型参数,采用Softmax分类器映射输出特征,以交叉熵作为损失函数J(θ)更新模型参数;接着完成模型的预训练,保存模型参数;最后当模型训练好后,对模型进行测试,重新加载预训练的模型,学习新故障信号的特征,输出故障诊断结果。具体步骤描述如下:

图3 模型故障诊断流程

a.信号采集。采用振动传感器对行星齿轮箱故障信号进行采集,用于训练构建的模型。

b.数据划分。把获取到的故障信号数据随机划分为训练集和测试集。

c.模型构建与训练。设计模型结构,使模型参数初始化,利用训练集数据对模型进行预训练,并反复利用前向传播和反向传播求取参数梯度,不断更新模型参数,直到准确率满足要求,保存最优的模型。

d.故障诊断测试。模型训练结束后,用测试集的数据对模型进行测试,验证其诊断性能。

2 实验验证

2.1 实验说明

本次实验的实验平台如图4a所示,由伺服电机、行星齿轮减速器(包含行星齿轮箱)、PLC控制器、驱动器和负载摆臂等组成,其中,行星齿轮箱的内部结构如图4b所示。利用该实验平台可以实现多种故障振动信号的采集。电机转速由PLC控制器来改变,转速由0匀加速到500 r/min,再从500 r/min匀减速到0,使得摆臂固定在120°内往复摆动。摆臂主要目的是为实验台提供负载,通过在摆臂的不同位置添加圆盘,实现实验台的不同负载状态的设置。本实验通过线切割加工故障,模拟设置了行星轮缺齿、行星轮裂纹、太阳轮缺齿、太阳轮裂纹和正常状态,共有5种行星齿轮箱的健康状态。在行星齿轮箱表面安装加速度传感器,型号为PCB353B01,信号采集卡为National Instrument 9234,通过Signal Express 2015软件平台进行数据记录,采样频率设置为10 kHz。为排除随机因素的影响,对行星齿轮箱的每种健康状态的不同负载进行数据采集,即每种健康状态有5个样本,共有25个样本。

本文实验选用如图4a所示的圆盘位置负载状态下的行星齿轮箱信号进行分析。为了加快模型的运算效率,对原信号进行1/3的降采样处理,取数据样本长度为17 500。降采样后,每种故障模式得到200组信号样本数据,训练集随机选择信号样本数据的70%,其余的信号样本数据作为测试集。具体信息如表1所示。

图4 模拟实验台及行星齿轮箱内部结构

表1 齿轮箱5种健康状态

2.2 模型参数选择

本文所处理的是行星齿轮箱的一维振动信号,样本维数较低。考虑到较多的卷积层数目可能会引起模型过拟合问题,因此,本文在固定2层卷积层的前提下,再考虑其他的模型参数。输入层所输入的为没有做任何预处理的一维振动信号,因此在第1卷积层中设计了宽卷积核,以更好地抑制噪声并捕获有用的信息[14]。

选择模型其他参数时,合适的参数可以在保证准确率较高的前提下加快模型的训练速度[7],因此,为了尽可能覆盖更多参数组合的选择,以及降低人工选择模型参数的随机性,本文引入了网格搜索算法来寻最优模型的参数。首先将各个参数可能的取值进行排列与组合,然后使用各参数组合对构建的模型进行训练,通过交叉验证对模型诊断性能进行测试。拟合函数遍历所有的参数组合后,自动选择最佳参数组合,参数优化结果如表2所示。

表2 模型主要参数

另外,批处理量为64,迭代次数为30,正则化是L2范数。通过ADAM算法进行优化,对每一个参数的学习率进行动态调整,使模型的结果更接近于真实值且有较强的泛化性。

2.3 结果分析

本文引入了回调函数对模型在训练过程中的表现进行预先保存,得到最佳的模型参数。训练集数据和测试集数据的准确率如图5所示。

图5 诊断准确率曲线

在图5中可以看到,模型训练结果良好,没有过拟合现象,经过30次的循环迭代,测试集的准确率达到99.6%,利用回调函数保存了此时的模型参数。为了进一步地反映本文构建的模型对行星齿轮箱故障类型的识别能力,引入了多分类混淆矩阵对行星齿轮箱故障识别结果进行详细分析,如图6所示。

图6 多分类混淆矩阵

在图6中可以看到,测试集300个样本中,只有行星轮裂纹故障的1个样本被误判为正常状态。其余的行星齿轮箱5种状态都能100%识别出来。因此可以看出,本文构建的模型有较高的故障识别率。

为了验证本文构建的模型的性能,将广泛应用的1D-CNN、全连接神经网络(FCNN)和多尺度卷积神经网络(MC-CNN)[15]对行星齿轮箱实验数据进行分析和比较。激活函数、优化器、损失函数、Dropout的比例和迭代次数等均和本文构建的模型设置相同。对比了4种方法在行星齿轮箱单一故障状态下的准确率,结果如表3所示。

表3 4种模型的故障诊断准确率 %

由表3可知,本文构建的模型对行星齿轮箱诊断准确率明显优于其他的模型。通过对比测试集准确率,本文模型、1D-CNN、MC-CNN和FCNN的诊断准确率分别为99.6%、91.8%、93.4%和67.6%。另外,4种模型对故障4的识别率均比较高,但在其他故障状态识别均没有本文构建的模型好,有2个隐含层的FCNN模型整体准确率较低,且有严重过拟合的现象。

为了更进一步展示本文模型对行星齿轮箱不同状态振动数据特征的学习能力,引入t-SNE技术对各个深度学习模型学习到的特征降维,并可视化进行分析比较。具体地,分别将各个深度学习模型所提取特征在二维空间表示。

通过t-SNE捕获的特征形状如图7所示。可以看到,原始振动信号通过本文构建的模型自适应的学习处理之后,行星齿轮箱同一故障类型的大部分样本很好地聚集在一起,并且有效地对不同类型的样本进行了区分。在1D-CNN和FCNN模型中,同一类别的样本没有很好地聚集在一起,甚至不同类别的样本特征映射点有相互重叠,很难区分出故障状态,表明1D-CNN和FCNN模型的自适应学习能力较差。MC-CNN模型中,同一类别的多数样本能够聚拢在一起,但是不同类别样本之间并未有效分离,说明MC-CNN模型没有突出关于齿轮箱故障信息的特征。总而言之,通过以上的模型对比,本文模型能够凸显行星齿轮箱故障重要的信息特征,对无用的特征进行了有效抑制,可以准确有效地识别行星齿轮箱故障状态。

图7 各个模型可视化结果

3 结束语

本文提出基于注意力机制的一维卷积神经网络故障诊断方法。通过对行星齿轮箱原始振动信号进行深度特征提取,结合注意力机制对提取的特征序列自适应的赋予不同的权重,克服了传统模型无法充分挖掘故障信息的局限性。利用故障模拟实验台数据验证,该模型能够有效地解决信号成分复杂和时变性强的问题。与其他广泛应用的深度学习模型相比,基于注意力机制的1D-CNN模型具有良好的诊断性能,有较好的鲁棒性与工程实际价值。

猜你喜欢

齿轮箱行星故障诊断
风电齿轮箱轴承用钢100CrMnSi6-4的开发
基于包络解调原理的低转速滚动轴承故障诊断
流浪行星
追光者——行星
行星呼救
数控机床电气系统的故障诊断与维修
提高齿轮箱式换档机构可靠性的改进设计
行星
杭州前进齿轮箱集团股份有限公司
因果图定性分析法及其在故障诊断中的应用