APP下载

PCA-SAE的齿轮箱故障诊断方法研究

2022-04-27马芸婷王宇晨

机械设计与制造 2022年3期
关键词:齿轮箱故障诊断准确率

马芸婷,张 超,王宇晨

(1.内蒙古包钢钢联股份有限公司轨梁轧钢厂,内蒙古 包头 014010;2.内蒙古科技大学机械工程学院,内蒙古 包头014010;3.内蒙古北方重工业集团有限公司技术中心产品研究院,内蒙古 包头 014010)

1 引言

监测运行状态下的齿轮箱的振动信号可以观测出齿轮箱运行中所受的冲击特征,从而可以根据振动信号提取出齿轮箱运行状态下的故障特征,并进行特征提取从而进行故障诊断方法的研究[1]。因运行中的齿轮箱的振动信号中含有大量的特征,故需要对监测到的振动信号进行降维处理,以增加故障诊断的效率已成为研究点。

普遍使用的降维方法有遗传算法(Genetic Algorithm,GA)[2]Relie(f Relevant Features)系 列 算 法[3-4]和 主 成 分 分 析(Prin‐ciple Component Analysis,PCA)[5-6],这3种算法都存在一定的局限。GA收敛速度太快,降低了运行的效率;应用ReliefF算法进行数据降维后,数据仍然具有线性相关性无法去除多余信息[7]。而应用PCA主成成分分析对齿轮箱振动信号数据进行降维后数据各类数据的特征可以具有线性无关的特性。

在齿轮箱故障诊断的实际应用中,面对齿轮振动信号的大数据问题,提出把PCA和堆叠自动编码机(Stacking Automatic En‐coder,SAE)两种方法相结合,提出一种PCA-SAE的风机齿轮箱故障诊断方法。首先使用PCA从齿轮箱振动信号中消除各个故障特征之间的相关性,将不同工况下的特征用于SAE中进行故障特征提取、分类。

2 PCA理论

主成分分析的主要作用是用少数的若干新变量(原变量的线性组合)替代原变量,新变量要尽可能多地反映原变量的数据信息,同时,新变量之间相互正交,可以消除原变量中相互重叠的信息。其主要思想是将原始的数据矢量映射为高维空间的数据矢量以使数据可分。在所得的高维坐标系下各数据点之间线性无关,将这组变换了坐标系的数据点称为数据主成分。因主成分中包含了大量的原始信号信息,同时各信息之间线性无关,不会出现信息重复的现象,故可以应用分析后的主成分替代原始信号,因此便降低输入数据的维度,使得信号的数据处理复杂程度降低。主成成分分析的具体运算过程如下:

(1)将原始信号数据进行归一化处理,归一化公式如下:

(2)设归一化后样本的输入矩阵为:

(3)构造一个变量P1,使其满足:

同时,使得变量P1能携带归一化化输入变量矩阵Xnxk的信息。

(4)将上述问题可以转化为要求变量P1的方差最大。因为从概率统计观点可知,变量的方差越大,该变量包含的信息越多。P1的方差为:

(5)构造拉格朗日函数:

式中:λ1—拉格朗日系数。

(6)分别计算L对λ1和t1的偏导数,并令其为零,则有:

式中:Vt1=λ1t1

由此可得t1是V的一个标准化特征向量,λ1为其对应的特征值。此时:

由此可得,所要求的t1是矩阵V的最大特征值λ1所对应的标准化特征向量。此时所对应的构造变量P1=Xt1称为第一主成分。

(7)重复上面步骤,以此类推,求出X的第m个主成分Pm=Xtm。

(8)计算前m个主成分携带的信息总和为:

3 SAE理论

3.1 自动编码机

1986年Rumelhar提出了一种单隐层的神经网络即自动编码器网络(Auto Encoder,AE)[8]。这是一种在无监督情况下提取数据中蕴含特征与参数学习的方式,其基本工作原理即是将输出层重构的数据尽量逼近于输入的数据,其从输入到隐藏层、隐藏层到输出的过程分别被称为编码和解码。将输入层到隐含层组成的结构称为编码器,隐含层与输出层组成的结构称为解码器[9]。编码过程中输入层与隐含层采用全连接的方式进行连接,输入层中节点求加权和并加上偏置后输入进隐含层各神经元中的激活函数得到隐含层数据。解码过程中将隐含层数据作为输入数据以同样的方式输入输出层中得到重构数据。解码之后将重构数据与输入层数据进行比较,以其差值最小为目标反向调整其权值与偏置等参数。将AE的数学模型可以表示为如下公式:

式中:X=(x1,x2...xn)、Y=(y1,y2...yn)—输入层、输出层的数值—隐藏层神经元的值;Wa,Ws,ba,b s—各神经元连接权值与偏置;fa、fs—两种激活函数。

3.2 堆栈自动编码机(SAE)

堆叠自动编码机是由大量AE堆叠组合而成的深度学习网络,该网络中具有很多层隐含层[10]。将AE中的编码器进行堆叠连接,即将前一个编码器的隐含层作为当前AE的输入层,依次堆叠后在最终一个AE的隐含层后加分类器,最终便构成堆叠自动编码机网络。在网络的训练过程中,网络将应用贪婪逐层算法逐个训练其中的AE以此避免网络在训练过程中陷入局部最优问题,网络中的AE被逐个训练以完成整个网络的训练[11]。网络训练的具体过程如下:

(1)应用输入数据集作为输入层数据训练第一个AE,并随即初始化AE的权值与偏置,通过第一个AE的编码器将输入数据集解析为其隐含层所得数据,其具体数学过程如下:

式中:W1=W11,W12,...,W1n—当前训练AE的权值;b1—当前训练A E的偏置;h(1)i—经过隐含层所得数据。

(2)将h(1)i作为解码器的输入,将数据进行重构得到重构数据如式(13)计算重构数据与原始输入数据的重构误差,以重构误差最小为目标应用误差反向传播放光不断的调整当前AE的权值与偏置以此完成当前第一层A E的训练。

(3)仅保留本次训练完成的AE的编码部分,将隐含层所得数据h(1)i作为下一个AE的输入层数据以同样的方式继续训练下一个AE,最终完成下一个A E的训练,并将下一个A E的隐含层输出数据作为再下一层A E的输入数据。

(4)重复以上步骤直至将堆叠自动编码机中的全部A E训练完成,则网络训练完成并且最后一个AE的隐含层输出数据即为堆叠自动编码机提取的特征向量。

堆叠自动编码器的训练过程中并不需要大量的有标签数据集,属于无监督学习的一种,其仅需要少量的有标签数据对最终训练完成的网络进行微调已达到更好的效果,并且网络的训练过程是逐个A E进行训练,而每个A E均是一个浅层学习神经网络,故此网络可以克服在训练过程中产生的局部最优现象[12]。确定最终实验方案,如图1所示。

图1 方案流程图Fig.1 Program Flow Chart

4 实验分析

4.1 数据采集

为验证所提方法的可行性,以直齿圆柱齿轮的5种故障状态为例。将使用Spectra Quest公司设计的动力传动故障诊断模拟实验台,如图2所示。所得的数据进行方法验证,该实验台由1个电动机、1个二级减速行星齿轮箱、1个二级增速行星齿轮箱、一个可编程的磁力制动器组成实验台,如图3所示。共用3个加速度传感器,并将3个加速度传感器分别安装在垂直、径向、轴向3个方向上,并采用Zonic Book∕618E测试系统采集振动数据。实验装置采样频率为5120Hz,采样1s,采样的点数是2560。分别采集齿轮正常、断齿、磨损、缺齿、齿根裂纹五种故障状态的振动信号,如表1所示。每种状态却30组样本,共150组样本,因此共得齿轮箱状态样本数据矩阵为1500×5120,其中1500为样本数,5120为样本维数。其中五种故障状态下的样本数据各取其一的时域波形图,如图3所示。

图2 动力传动故障诊断模拟实验台Fig.2 Power Transmission Fault Diagnosis Simulation Bench

图3 各故障状态时域波形图Fig.3 Time Domain Waveform Diagram of Each Fault State

表1 数据集Tab.1 Data Set

4.2 数据预处理(PCA降维)

将所得数据矩阵按照输入到主成成份分析模型中,采用PCA模型对数据集进行降维处理,降维结果取前600维主元成分作为初始数据集的敏感特征,如图4所示。从图中可以看到各列的主成分贡献率依次下降,故提取前600列为初始数据集的敏感特征,重新构造为1500×600的数据集输入到SAE模型中进行特征学习与故障分类。

图4 主贡献率柱状图Fig.4 Main Contribution Rate Histogram

4.3 SAE网络模型

根据输入数据维度设定输入层神经元个数为600,共设定4层隐含层,因输出共5种状态故输出层神经元个数设定为5,最终将网络模型设定为600-1200-1200-500-400-5其中隐含层采用激活函数选择sigmoid函数,如式(14),输出层采用softmax函数,如式(15)。

式中:j=1,........,k

其中网络输出对应着每种故障状态的概率,取概率最高的类别作为诊断结果。这些数据有对应的真实故障状态作为其标签,如果诊断结果与真实标签一致,则分类正确;若不一致,则分类错误。测试准确率为测试数据集上的一组数据分类正确的样本数量与整组样本数量的比值。

网络模型中学习率设定为0.1,每次训练更新权重后从测试集中随机选取10组进行测试,每个自动编码机网络训练150次整体堆叠自动编码机网络模型训练50次最终训练完成需要30min的时间,四层隐含层网络每层迭代150次,最终堆叠迭代50次,网络训练过程中共经过650次迭代过程,平均每次迭代耗时2.7s,其中取样本数据的75%为训练集,25%为测试集则随机选取1300组样本作为作为训练集,取370组样本作为测试集,用1130个样本数据训练网络,在训练完成后,用全部370组测试集数据对模型进行测试最终得到准确率变化曲线,如图5所示。

图5 准确率变化图Fig.5 Accuracy Rate Change Chart

从训练中可以得出网络层数决定着深度学习网络的准确率与训练时间这两大重要方面,为确定适当的网络层数,在固定其余参数不变的情况下,在数据集中对不同层数的网络模型进行准确率与时间上的对比,对比结果,如图6所示。从图中可以发现四层隐含层的准确率明显高于三层,而五层,六层隐含层的准确率却下降,说明针对这里的数据集过多的隐含层容易使网络陷入过拟合与局部最优的问题中,从而导致网络的准确率降低。故根据实际情况这里选取四层隐含层的网络。

图6 隐含层与准确率变化图Fig.6 Implicit Layer and Accuracy Change Graph

4.4 模型对比

为验证所提方法与传统故障诊断方法的区别,将原始数据集1500×1936的数据信息采用两种信号分解方法:EMD算法与ELMD算法进行信号分解与特征提取。经EMD算法分解后得到8个本征模态分量,同样经ELMD算法分解后得到8个乘积函数,将所得的本征模态分量与乘积函数分别作为提取出的数据特征输入浅层神经网络BP网络中,其中1130组数据样本作为训练数据进行网络训练,其余370组数据样本作为测试数据进行分类准确度测试。最终网络分类精确度,如表2所示。

表2 各网络分类精度对照表Tab.2 Comparison Table of Each Network Classification Accuracy

5 结论

提出了一种将采集到的大量振动信号先进行降维处理,再进入深度学习网络(SAE)网络中进行特征提取,与数据分类的模式识别方法,该方法可以自动的从原始数据中学习故障特征,并自动完成分类,并减少了训练时间,采用SpectraQuest公司设计的动力传动故障诊断模拟实验台(DDS)对这里所提方法PCA-SAE模型。

(1)与传统的故障诊断方法相比PCA-SAE方法真正实现了将原始振动信号数据直接输入网络进行自动特征提取与故障分类的功能。从根本意义上改变了以往先应用信号处理方法进行人工的提取故障特征,再进入浅层学习网络进行分类的方法,真正实现了端到端的故障诊断方法。(2)训练好的网络模型可以将采集到的振动信号直接输入到网络模型中,最终获得高准确率(98.6%)。

猜你喜欢

齿轮箱故障诊断准确率
风电齿轮箱轴承用钢100CrMnSi6-4的开发
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
高速公路车牌识别标识站准确率验证法
提高齿轮箱式换档机构可靠性的改进设计
杭州前进齿轮箱集团股份有限公司
因果图定性分析法及其在故障诊断中的应用
基于LCD和排列熵的滚动轴承故障诊断
基于遗传退火优化MSVM的齿轮箱故障诊断