基于组合神经网络的滚动轴承状态识别方法

2019-09-12李彩伟

设备管理与维修 2019年9期

裴沛，李彩伟

（1.北京中油瑞飞信息技术有限责任公司，北京 100007；2.国家工业信息安全发展研究中心，北京 100040）

0 引言

大型机械设备具有体积大型化、结构复杂化、零件多样化等特点，一旦发生故障将会给个人、企业和国家带来巨大的经济损失。滚动轴承作为大型旋转机械设备中的关键零件，具有负载重、转速快等特点，使其成为最易发生故障的工业零件之一。据统计，在旋转机械的所有故障中，因轴承失效造成的故障约占30%[1，2]。因此，实现滚动轴承的故障诊断与状态监测，对保证设备安全运行、减少运营维护成本十分重要。

早期的状态监测主要依据滚动轴承的振动机理，利用信号分析和数理统计知识提取振动信号特征，如频谱分析、包络分析、时频分析、经验模式分解[3，4]等，然后根据专家的经验知识对信号特征进行分析，实现滚动轴承的状态监测。此类方法过于依赖专家诊断经验且诊断效率和准确率较低。随后，国内外研究者提出采用支持向量机（SVM）[5]、决策树[6]、浅层BP 神经网络[7]等机器学习方法对人工提取的特征进行学习，实现轴承的状态监测，并在小样本数据上获得较好的诊断结果。然而，随着机械设备的广泛应用，监测系统采集的数据量越来越大，上述方法已不再适用。深度学习作为一种特殊的机器学习，由于其非线性，多层性，自适应性等特点，被广泛应用于图像识别、自然语言处理和状态监测等领域，并取得不错的结果。因此，越来越多的学者将深度学习应用于滚动轴承的故障诊断。研究表明：深度神经网络具有强大的特征提取能力，在处理大数据上具有显著优势。文献[8]利用小波包变换对振动信号进行特征提取，通过长短时记忆网络诊断风电机组滚动轴承的常见故障。文献[9]提出一种基于希尔伯特黄变换和稀疏自编码器的轴承故障状态识别方法，进一步提高了驱动端和风扇端的轴承故障诊断准确率。文献[10]提出一种基于双树复小波包的自适应深度置信网络的方法，结果表明该方法可以有效识别滚动轴承故障。文献[11]采用卷积神经网络（CNN），解决了基于传统方法很难诊断的旋转机械中外圈滚道故障问题和润滑性能退化问题。

综上可知，传统的状态检测方法将信号预处理、特征提取和状态识别分为3 个独立阶段，破坏了各阶段的耦合关系，也降低了诊断效率。尤其是特征提取过程过于依赖人工提取特征，无法满足实际应用中端对端的需求。因此，将数据预处理、特征提取和故障诊断组合到一个模型，进而实现端对端的自动状态监测模式是目前亟待解决的问题。

为解决上述问题，提出一种LSTM-BP 组合神经网络模型，该模型能自动提取振动信号的特征并完成状态分类，实现端到端的滚动轴承故障的自动诊断，在不同损伤程度的数据集上进行验证。实验结果表明，该模型的泛化性能高，鲁棒性好，有望在工程实际中得到应用，对机械设备诊断技术的发展具有十分重要的理论意义和实际应用价值。

1 人工神经网络

人工神经网络最早来源于人类神经网络的研究,是一种以网络拓扑结构为基础，模拟人脑神经网络对复杂信息处理机制的一种数学模型，也是一种基于数据驱动的方法[12]。人工神经网络具有非线性映射功能，可以将原始空间的特征表示变换到一个新的特征空间，实现信号的空间变换与降维。本文主要研究BP 神经网络和LSTM 神经网络。LSTM 作为经典的深度神经网络之一，其本身具有特征提取和特征空间映射的功能[13，14]。

1.1 BP 神经网络

BP 神经网络是一种按照误差反向传播算法进行训练的多层前馈神经网络，由输入层、隐藏层和输出层组成，该网络各层间的神经元互不相连，相邻层的神经元则相互连接，网络结构如图1 所示。BP 神经网络的训练过程就是输入信息从输入层经隐藏层到输出层的过程，包括前向传播过程和后向传播过程。前向传播过程如下：

式中，xp={x1，x2，x3，...xn}，n 为样本的维度，H1是隐藏层节点的输出，Z={Z1，Z2，...Zm} 是输出层节点的输出，w1，b1分别为输入层与隐藏层之间的权重矩阵和偏置向量，w2，b2分别为隐藏层与输出层之间的权重矩阵和偏置向量，隐藏层的传递函数是f1(*)，输出层的传递函数是f2(*)，一般是sigmoid 或tanh 函数。BP 的前向传播过程完成了n 维空间向k 维空间的映射。BP 神经网络反向传播过程如下：

假设有m 样本集{（x1，y1），（x2，y2），...（xm，ym）}，其中。通常将平方误差函数作为目标函数，公式如下：

其中，J（W，b；xi，yi）是单个样本的误差，J（W，b）是m 个样本的全局误差。BP 神经网络的反响传播过程就是利用随机梯度下降法调整参数W，b，最小化全局误差。实际上，网络的训练过程就是诊断知识获取的过程，网络训练结束后神经元之间的连接权值就是输入数据的特有知识。

图1 BP 神经网络

1.2 LSTM 神经网络

滚动轴承的状态监测不仅要分析当前时刻振动信号的信息，还要结合前后时刻的振动信号信息。传统的神经网络只关注当前时刻输入的信息，忽略了样本之间的信息传递，不具备处理时序序列的功能。循环神经网络（Recurrent Neural Networks，RNN）可以将当前单元学习的信息输入下一个神经元，具有记忆功能，适合处理时间序列数据。RNN 展开相当于多层神经网络，随着层数的增加会产生梯度消失、梯度爆炸和历史信息损失等问题，LSTM 网络通过对RNN 加入记忆单元结构，有效解决了上述问题。其记忆单元结构如图2 所示。其中xt表示t 时刻的输入，ht-1，ht分别表示t-1 时刻和t 的输出；Ct-1，Ct分别表示t-1 和t 时刻记忆单元的状态值，表示t 时刻记忆单元的候选值；it，ft，和ot分别表示输入门、遗忘门和输出门；Wf，Wt，Wc，Wo表示遗忘门，输入门，输出门和输入状态单元的权重矩阵；σ 为sigmoid 激活函数，tanh 为tanh 激活函数。

LSTM 网络与BP 网络相同包括前向传播和误差反向传播两部分，对于单个记忆单元结构，前向传播过程如下：

图2 LSTM 记忆单元结构

（1）通过读取ht-1，xt信息。计算遗忘门、输入门和输出门，公式如下：

遗忘门用于控制前一时刻记忆单元状态值对当前记忆单元状态值的影响；输入门用来保存当前时刻输入的有用信息，控制对当前记忆单元状态值的影响；输出门根据当前记忆状态单元值决定当前时刻输出。

（2）计算当前记忆单元候选值，并根据输入门和遗忘门计算当前时刻记忆单元值。

（3）根据输出门和当前记忆单元值计算当前时刻的输出。

式（4）～（9）中,bf，bt，bo，bc分别表示遗忘门，输入门，输出门和t 时刻输入状态单元的偏置项，⊗表示按元素相乘。

LSTM 反向传播与BP 神经网络类似，都是利用随机梯度下降算法反向传播误差更新网络参数，进而优化网络模型。与BP神经网络不同的是，LSTM 反向传播算法包括时间和网络层级两部分。

2 LSTM-BP 组合神经网络

2.1 LSTM-BP 组合神经网络结构

利用LSTM 和BP 网络特性，采用级联的形式构建LSTMBP 网络模型。其中BP 神经网络包括3 层，2 个隐藏层1 个输出层，输出层的神经元个数等于轴承状态类别数。该模型可以自动提取轴承信号特征并完成轴承状态识别，简化数据处理过程的同时保留原始数据丰富的细节，其模型结构如图3 所示。图中，xi为输入数据，其维度为n×1，T 为样本的时间长度，H1是{H11，H12，...H1s}LSTM 隐藏层的输出。

基于LSTM-BP 组合网络的滚动轴承状态监测原理：①将振动信号输入LSTM 神经网络，利用LSTM 的记忆结构，提取信号时间维度特征；②将LSTM 神经网络隐藏层的输出作为BP 神经网络的输入，实现信息传递；③通过BP 神经网络结构完成信号的进一步学习，并实现轴承状态的分类识别。

LSTM-BP 组合神经网络，每一层隐藏层都是数据的不同阶表达，层数越高提取的特征越抽象，其训练过程就是模型不断优化的过程。

基于LSTM-BP 组合网络的滚动轴承状态监测过程分为以下3 步：

（1）样本采集与预处理。将采集到的信号归一化使其幅值范围为[0,1]。按照6：1 的比例将数据分为训练数据和测试数据。

（2）模型训练。初始化LSTM-BP 神经网络（包括各层网络的神经元数，BP 网络的隐藏层数，迭代次数，最小误差等参数），将带标签的训练数据输入LSTM 网络，得到隐藏层输出H1，然后输入BP 神经网络和Softmax 层，得到实际输出值。将实际输出值与理论值的交叉熵损失函数作为误差计算公式，利用随机梯度下降法调整LSTM 和BP 神经网络的权重和偏置，最小化误差，进而优化网络模型。

图3 LSTM-BP 组合网络

（3）模型验证。将测试数据直接输入上述训练好的网络模型中，网络输出对应轴承状态的概率，取最高概率作为状态识别结果。

2.2 Softmax 回归层

Softmax 回归层本质是一个全连接层，其功能是将BP 神经网络的多个神经元输出映射到（0，1）区间，计算每种分类的概率情况。其交叉熵损失函数如下：

式中，θ 为模型参数，N 为样本数，zi是预测值，yi为实际值，k 为类别数。

2.3 Batch Normalization 方法

BP 神经网络存在收敛速度慢和陷入局部最优的风险。为了加快训练速度、提高诊断精度、降低网络陷入局部最优的风险，本文采用Batch Normalization 方法对每个隐藏层的激活值做处理，公式如下：

式中，μ，σ 分别是每批次数据的滑动平均值和方差，γ 和β分别是缩放和偏移系数。此外，Batch Normalization 加入了网络噪声，在一定程度上起到正则化的作用，有效防止网络产生过拟合的现象。

3 实验验证

3.1 模型性能分析

实验数据来自美国凯斯西储大学驱动端轴承的振动信号。振动信号的详细信息见表1。轴承数据做预处理后分为训练样本和测试样本，其中训练样本6000 组，测试数据为1000 组，每组包含512 个采样数据。

表1 西储大学轴承振动信号

在LSTM-BP 组合神经网络中，将预处理后的数据以（batch_size，64，8）形式输入LSTM 网络，获取LSTM 的隐藏层输出，将其作为BP 神经网络的输入。BP 神经网络包括2 个隐藏层和1 个输出层。隐藏层神经元数量对模型性能有重要影响，神经元个数太少，学习能力差，导致状态识别准确率低；神经元个数太多，训练时间长，容易导致模型过拟合。经过前期实验，设置BP 隐藏层神经个数分别为16 和8。其中，batch_size 为200，迭代次数为100，记录每次迭代后训练样本和测试样本的损失值和准确率，并绘制训练数据和测试数据的损失值变化曲线和准确率变化曲线，见图4、图5。准确率指每组数据中分类正确的样本数与整组样本数的比值。

由图4、图5 可知，模型经过100 次迭代后，测试数据和训练数据的损失值趋于稳定。训练数据准确率几乎达到100%，测试数据的准确率约为99.20%，训练数据和测试数据的损失值和准确率的曲线变化趋势同步，未产生过拟合现象。实验结果表明，本文提出的方法可以从原始数据有效提取轴承信号的特征并实现轴承正常状态、内圈故障、外圈故障和滚珠故障的准确分类。

图4 损失值变化曲线

图5 准确率变化曲线

3.2 轴承状态识别方法对比

为了验证基于LSTM-BP 网络的故障诊断方法在故障诊断精度方面的优越性，在相同数据集、同等条件下，训练SVM、浅层BP 网络和LSTM 网络，实验结果如表2 所示。结果表明，SVM、浅层BP 网络以及LSTM 网络虽然训练速度快，但诊断精度低。

表2 不同方法的诊断结果

3.3 模型泛化性能验证

模型的泛化能力是验证模型优劣的重要指标，而单个数据集很难检验模型的泛化能力。因此，引入西储大学驱动端轴承不同损伤程度的数据以及其随机混合数据对其进一步验证。振动信号的详细信息见表3。不同损伤程度的数据及其混合数据状态识别准确率趋势如图6～8 所示。

表3 西储大学轴承振动信号

图6 数据集A 的状态识别准确率

图7 数据集B 的状态识别准确率

图8 混合数据集的状态识别准确率

由图6～8 可知，模型经过100 次迭代后收敛至稳定，3 种不同数据集的测试集和训练集的准确率曲线走势相同，未产生过拟合现象。实验结果表明本文提出的方法可以实现对不同来源轴承信号的4 种状况自动诊断，且诊断准确率达到99.50%。验证了基于LSTM-BP 网络的滚动轴承自动诊断方法，在损伤程度、采样频率不同的轴承信号上，仍可以实现滚动轴承故障的自动识别，且诊断精度高、泛化性能高、具备同时诊断复杂混合数据的故障类型的能力。

4 结语

提出一种基于LSTM-BP 组合网络的状态识别方法，结合LSTM 网络特征提取和特征空间映射的功能，实现滚动轴承状态的自动识别，满足实际应用中端对端需求。实验结果表明：①该方法的状态识别准确率高达99.20%，远高于SVM、浅层BP网络和LSTM 神经网络；②该方法可以同时对不同损伤程度、不同位置和不同来源的轴承信号进行准确识别；③该方法具有更高的泛化能力。