基于二维卷积神经网络的滚动轴承变工况故障诊断方法

2022-01-28潘成龙应雨龙

上海电力大学学报 2022年1期

潘成龙, 应雨龙

(上海电力大学能源与机械工程学院, 上海 200090)

滚动轴承作为旋转机械设备(如涡轮机、发电机等)的重要零部件,由于其本身的磨损、变形等损伤所引起的设备故障占机械设备故障的50%[1]。在设备实时运行中,实时故障诊断可以在最大程度上减少重大事故的发生[2]。轴承故障诊断方法的基本原理就是从轴承设备端所采集到的数据中提取信号的特征并且进行分类,从而实现对设备的故障检测。

2016年之前,基于应用统计学的传统机器学习方法,例如基于支持向量机的风险最小化原理的故障诊断方法[3]、基于人工神经网络的故障诊断系统[4],作为当时极其有效且流行的方法,得到了广泛的应用[5]。

近年来,随着机械设备的监测传感器所采集的数据变得越来越多样化、抽象化和复杂化[6]。以往传统故障诊断方法在时效性和识别准确率方面差强人意,但基于深度学习[7]的神经网络,例如深度置信网络、堆叠稀疏自编码器[8]和卷积神经网络,有着众多隐含层,具有很强的自主学习能力,在复杂数据集上有很大的优势[9]。其中,卷积神经网络可以通过逐层学习故障信号,自适应提取特征值[10-12],并且随着模型网络深度的提升,特征学习和故障分类的效果也会相应地提高,但在时效性上可能会略有损失[13]。卷积神经网络以原始信号作为输入,不需要进行特征提取,从而达到端到端的故障诊断,不需要额外进行去噪声处理,解决了工作噪声对故障识别的影响[14]。卷积神经网络在故障识别方面可以极大地减少人为提取信号特征的步骤,但是以往的卷积网络故障诊断模型在滚动轴承的运行载荷发生改变的情况下,故障诊断的准确率与实时性并不理想。

因此,本文提出了一种在轴承运行载荷发生改变时,可以对其故障进行准确且有效诊断的二维卷积神经网络模型。该模型可以实现对故障进行端到端检测,仅需输入原始数据,无需人工提取特征向量,减少了特征提取过程中的损失,提高了模型诊断的准确性,整个故障诊断过程都是在模型当中进行自适应学习、训练和诊断。该模型的数据预处理方法在原始一维信号转化为二维信号时,无需额外定义任何参数,减少了以往专家经验对数据信号转化过程的损失。另外,构建模型时,可以使特征信号在梯度下降后自适应优化权重参数,增加故障诊断的识别准确率。最后,根据多次试验数据和结果证明该故障诊断模型的有效性和准确性。

1 二维卷积神经网络故障诊断模型

1.1 变工况下的二维卷积神经网络构造

在一维卷积神经网络中,往往需要至少1 024或2 048个数据点[15]来完成特征提取和数据识别,使得其在故障诊断的时效性方面略有不足,而且在运行载荷发生变化的变工况状态下,无法进行有效且准确的诊断。

相对于普通一维卷积神经网络,二维卷积神经网络可以通过较少的样本量全面反映滚动轴承的故障状态,而且耗时也会减少。为了在轴承的运行载荷发生改变时对轴承故障进行有效及准确的诊断,对变工况下的二维卷积神经网络进行构造。二维卷积神经网络结构如图1所示。

图1 二维卷积神经网络结构

该故障诊断模型仅需要420个数据点作为一个样本点,大大缩短了故障诊断的时间。将轴承工况变量作为输入信号,包含在420个数据点当中,增加其对变工况故障诊断的有效性和准确性。在模型中设置5层卷积层,最后3层卷积与池化层逐步完善特征信号的提取,其中输入层的尺寸为20×21。为了提取数据集中的特征信号,降低信号维度,模型中5层卷积层与3层池化层互相交替,在输入层与第1层卷积层之间的卷积核大小设置为5×5×1,在自适应提取特征信号的同时降低维度,减少模型的学习和训练时间,第2层卷积层中的卷积核大小为5×5×32,从第4层卷积层开始,模型当中的卷积核从第3层卷积层中的3×3×32变成为3×3×64;3层池化层的尺寸与步长相同,分别为3×3和2;在进入全连接层和最后一层激活函数Softmax之前,通过过渡层,形状(4,4,64)的输出被展平为形状64的向量,第11层为全连接层,其中包含了64个节点;通过模型最后一层的Softmax分类器完成对变工况下4种故障类型、3种严重程度共44种故障类型的分类。

本文构建的二维卷积神经网络模型的结构参数如表1所示。

表1 变工况下模型结构参数

1.2 模型训练

模型采用RMSProp优化器。其数学模型可表达为

(1)

式中:vt——梯度平方在t时刻的指数平均值;

t——时刻;

ρ——衰减速率;

gt——参数更新之后在各个梯度方向上的投影向量。

RMSProp优化算法中的参数优化公式如下

ωt+1=ωt+Δωt

(2)

(3)

式中:ωt——t时刻的原始步长;

Δωt——更新过后的步长变量;

η——初始学习率;

等式右边的负号表示它与梯度移动的方向相反。RMSProp算法与一般梯度下降算法最大的不同就是把学习率这个超参数从原来的标量变成了一个向量。

通过消除梯度下降时的摆动从而加速梯度下降的过程,就能设置较大的学习率,使得训练加快[16]。为了防止模型运行过程中出现过拟合,并加强神经网络的泛化能力,在全连接层后加入一个Dropout层,采用Dropout正则化,将其参数大小设置为0.5,以此加强网络节点的鲁棒性。该二维卷积网络模型可以实现对于故障端到端的诊断,即从原始信号到故障识别,同时完成自适应学习,不需要定义额外参数。网络模型的流程图如图2所示。

图2 卷积神经网络流程

2 实验验证

2.1 数据集介绍

本文使用的数据集来自美国凯斯西储大学轴承数据中心在4种载荷情况下所收集到的数据。该数据集是当前轴承振动信号处理、故障诊断方面应用最为广泛的标准数据集[17-18]。

在12 kHz采样频率下,电机载荷分别为0 W,735 W,1 471 W,2 206 W,电机近似转速为1 797 r/min时,采用了4组内圈故障、滚动体故障和外圈损伤点在6点方向上的10类故障数据集和1类正常数据集。故障分类如表2所示。

表2 故障分类

2.2 变工况下的数据预处理

由于本文所构建的故障诊断模型是二维卷积网络模型,所以需要将原始的一维数据集进行二维转化处理。首先,对44类原始信号采集400个一维原始数据作为一个样本,并将工况变量加入样本信号中,共计420个数据点,采集300个样本;由于原始数据是一维数据,需要将44类数据集通过reshape函数将其转化为二维矩阵,并将数据集打乱;最后,将标签转化为一位有效编码,即每一次有且仅有一种状态存在。

2.3 变工况下的模型测试

通过数据预处理,所得到的训练集和测试集样本数据总数量为13 200,根据实验需要将其按照一定比例随机分配。实验测试采用基于Tensor Flow深度学习架构,运行环境为Windows 7,处理器采用的是英特尔公司的i7-4720HQ。将300个样本按照4∶1的比例随机分成训练集和测试集的情况下,在变工况下对该模型进行100次迭代模拟实验,实验的训练准确率、损失曲线及可视化的混淆矩阵如图3、图4、图5所示。其中:训练准确率是指在训练过程中模型的成功率;损失曲线中的损失值代表了预测值和实际值的相似程度,损失值越小,表示相似程度越高;混淆矩阵是以矩阵形式将模型的故障诊断结果进行汇总表示,矩阵中的行表示预测值,列表示真实值,对角线上的值越高表示诊断结果越好。

图3 训练准确率曲线

图4 损失曲线

图5 混淆矩阵

模型的诊断结果如表3所示。模型测试耗时466 s,单个诊断算列时间约为598 μs,由于选取的420个数据点少于传统一维卷积神经网络所采用的1 024个,实验耗时大大减少。由于通过5层卷积和3层池化的特征提取,基于较少的训练样本,经过Python软件模拟得到轴承故障诊断的识别准确率可达99.6%,损失值维持在2.3%。

表3 故障诊断结果

测试集样本数为60,通过图5和表3的模型诊断结果可以看出,在60次的故障识别中,其中载荷为735 W时的内圈故障、载荷为735 W时的外圈故障,载荷为1 471W时的滚动体故障分别有1次未能识别,其余均正确识别。

随着迭代次数的增加,准确率与损失值在迭代次数为40之后趋于平稳,变化幅度不超过千分之一,基本可以忽略。在变工况下对该模型进行40次迭代模拟,模型测试耗时299 s,单个诊断算列时间约为598 μs,轴承故障诊断的识别准确率为99.7%,损失维持在2.4%。与图3和图4的结果相符。

同时将本文所提的变工况下二维卷积神经网络(2DCNN)与传统一维卷积神经网络(1DCNN)、未将工况变量作为输入信号的二维神经卷积网络(2DCNN无变量)进行10次轴承故障诊断的实验对比。将信号直接输入到传统一维卷积神经网络和未将工况变量加入样本信号的二维卷积神经网络中,样本同样包含420个数据点,模型的结构为表2 所示的12层,进行40次迭代。识别准确率与实验耗时的对比情况如图6和图7所示。实验数据对比如表4所示。

图7 不同工况下实验耗时的对比

表4 实验数据对比

通过图6和图7可以看出:一维卷积神经网络在迭代次数和样本容量较小的情况下,无法完成对多工况、多故障的有效诊断,在40次的迭代后,故障诊断的识别准确率仅为70%～88%;但在另外两种二维卷积神经网络模型中,在相同的迭代次数和样本量情况下,故障诊断的识别准确分别在99%和90%左右,均高于一维卷积神经网络;在故障诊断的时间方面,相同参数的情况下,一维卷积神经网络的单个诊断算列的识别时间远远多于另外两种二维卷积神经网络模型,均超过780 μs。

通过对比实验结果得出,在较少的迭代次数和样本量的情况下,本文所提方法在变工况下的识别准确率和故障诊断识别时间上都更有优势。