改进MFO-LSTM网络的风电机组齿轮箱故障预警研究

2024-03-14周伟魏鑫李西兴

机床与液压 2024年4期

周伟，魏鑫，李西兴

(湖北工业大学机械工程学院，湖北武汉 430068)

0 前言

齿轮箱作为风电机组传动链的重要部件，其稳定可靠的运行是确保风电机组设备安全稳定运行的基础，一旦齿轮箱发生了故障，除了高额的维修费用之外，因故障导致的长时间停机也会造成巨额的能量损失[1-2]。风电机组多数处于偏远的地区，特别是在海上，不仅需要特殊的后勤保障，还需要在有利的天气条件下才能进行维修作业[3]。针对尚未出现故障的齿轮箱，预测其潜伏性故障的发展态势，及时在故障发展初期进行预警及制定预防性措施是当下研究的重要内容。

国内外大多数风电机组是通过SCADA系统对机组的运行进行集中监控，传统的风电机组检修模式是通过SCADA(Supervisory Control And Data Acquisition)系统对风电机组中所有子系统以及设备中的关键部件进行较长时间间隔的采集存储[4]。在此基础上，当某些状态参数连续超过阈值时，SCADA系统发出故障警告，但实际应用过程中，系统发出警告时，故障的发展已经造成了不可逆的损伤[5]。

以风电机组SCADA数据为基础的故障预警是解决以上问题更有效的方法之一。故障预警是在设备尚未发生故障之前或发生故障之初，分析相应的历史特征数据，通过机器学习、深度学习等智能数据挖掘技术分析未来故障状态的发展趋势，及时定制维护策略[6]。管丽莎等[7]提出基于时间序列和BP神经网络的风机故障诊断系统，能够快速诊断风机是否发生故障，达到一定的预警效果。但风电机组SCADA数据具有非线性、维度多、数据集庞大、复杂多变的特点，浅层结构的机器学习处理这类数据的能力有限，在SCADA数据随工况与时间不断变化的情况下，难以表征风电齿轮箱的运行状态。深度学习具有强大的特征学习能力，结合海量的数据集，能够构建深层次的模型，从而刻画数据丰富的内在信息[8]。雍彬等人[9]提出基于门控循环(Gate Recurrent Unit，GRU)网络结合SCADA参数的时序特征，实现齿轮箱的状态预警。GRU作为循环神经网络(Recurrent Neural Network，RNN)中一种特殊的改进形式，能够进行动态时间建模，在保证预测准确度的前提下，模型具有简单、计算效率高的优点。黄荣舟等[10]提出基于长短期记忆(Long Short-Term Memory，LSTM)网络融合SCADA数据的风电机组齿轮箱状态监测与预警方法。LSTM同样作为RNN中一种改进形式，与GRU相比，模型较为复杂，但灵活性较高，在数据集较大的情况下，LSTM的表达性能更好。但是在使用LSTM的过程中发现，LSTM超参数设置对模型预测准确度有较大的影响，达到尽可能好的效果需要一定的经验和数次的尝试。为避免人为因素导致的效果欠佳，LSTM超参数自动寻优十分重要。

因此，本文作者以SCADA数据为基础，通过LSTM网络实现对风电机组齿轮箱的故障预警，引入改进飞蛾火焰算法(Moth Flame Optimization algorithm，MFO)来优化LSTM的超参数，建立最终的故障预警模型。最后将该方法与其他研究中的预测方法进行对比。

1 模型方法与原理

1.1 长短期记忆网络

在众多深度学习的模型中，RNN引入了时序的概念，依靠其循环的网络结构、保持记忆的能力以及处理非线性数据的能力，在解决序列数据的长期依赖问题时表现出更强的适应性[11]。但当网络层级增多，RNN在信息反馈时存在梯度消失、梯度爆炸等问题，并且RNN难以对大跨度时间序列建模[12]。LSTM解决了 RNN 无法建立大跨度时间序列的预测模型问题，LSTM模型将RNN模型隐藏层中的神经元替换为具有“门控”机制的记忆单元，由一个存储单元和遗忘、输入、输出3种逻辑门组成，“门控”机制控制新的信息写入以及遗忘掉先前累积的信息，从而解决循环网络结构中长期依赖的问题，避免了循环网络结构中因梯度反向传播中的连乘效应造成的梯度爆炸和梯度消失[13]。LSTM记忆单元结构如图1所示。

图1 LSTM网络结构

图1中：记忆单元在t时刻的单元状态记作ct，其包含了序列模型的长期记忆信息；在t时刻隐藏层的状态记作ht，其包含了序列模型的短期记忆信息；在t时刻序列输入记作xt，记忆单元的状态从t-1时刻计算到t时刻的主线过程对应图中ct-1到ct水平贯穿线，LSTM在此基础上添加3个“门”控制记忆单元的写入和修改。假设在t时刻，记忆单元输入t时刻的序列xt、t-1时刻的隐藏层状态ht-1和单元状态ct-1，再通过遗忘门，ct-1乘以遗忘门状态计算结果ft，决定需要保留的信息，其中ft由隐藏层状态ht-1和序列xt计算，公式如下：

ft=σ(Wf·[ht-1,xt]+bf)

(1)

it=σ(Wi·[ht-1,xt]+bi)

(2)

(3)

(4)

最后，通过输出门，输出门的状态计算结果ot乘以tanh激活函数，决定需要输出的信息，得到新的隐藏层ht状态，计算公式如下：

ot=σ(Wo·[ht-1,xt]+bo)

(5)

ht=ot⊗tanh(ct)

(6)

式中：Wt、Wi、Wo与bt、bi、bo分别为遗忘门、输入门、输出门的权重矩阵和偏差向量；Wc与bc分别为单元状态的权重矩阵和偏差向量；σ为Sigmoid激活函数；⊗为各元素按位置相乘。

合理地使用LSTM能够解决RNN中存在的梯度消失、梯度爆炸以及长期依赖的问题，但LSTM超参数的设置对于模型的最终预测能力影响很大，有些超参数的选择至关重要，其中初始学习率α决定模型的训练效果，隐藏层神经元的个数hm和隐藏层维数hd决定模型的学习能力与训练复杂程度，训练的批次尺寸sbatch影响模型迭代收敛的速度。因此文中利用MMFO算法对这4个参数进行迭代调优，以增强模型的预测能力。

1.2 飞蛾火焰算法

飞蛾火焰算法(MFO)是由自然界中飞蛾的横向定位导航机制演变而来的。它是根据飞蛾飞行时的导航机制，模拟飞蛾螺旋飞行的路径而找到最优解的智能优化算法[14]。在飞蛾火焰算法中有2个角色：飞蛾与火焰。一个飞蛾对应一个问题的解决方案，飞蛾在搜索空间沿着螺旋线不断更新位置寻找更好的解，火焰是到目前为止所有飞蛾种群的最优解。每次迭代过程中，如果飞蛾寻找到了更好的解，就把火焰目前存储的最好的解替换掉。飞蛾与火焰是一对一的关系，飞蛾只在与它对应的火焰周围寻找解，而非所有飞蛾只被一个火焰吸引，故所有飞蛾会围绕着全局多个点进行搜索，避免了算法陷入局部极值的情况，极大地增强了算法的全局搜索能力。飞蛾可以飞行在一维、二维甚至更高维度的空间，飞蛾的种群M和火焰种群F可以用如下矩阵来表示：

其中：n是种群中飞蛾的数量；d是所求解的维度，维度对应需要优化参数的个数。

MFO算法的优化过程如下：

(1)初始化MFO算法。在搜索空间中随机生成的飞蛾位置，飞蛾种群中每只飞蛾位置的初始化在MFO中实现公式如下：

mi，j=(ubj-lbj)·random+lbj

(7)

式中：ubj和lbj分别为搜索空间第j个待优化参数所在维度的上限和下限；random为0～1之间的随机值。

(2)计算适应度。使用LSTM模型评价指标作为适应度，当前飞蛾种群作为第一代的火焰种群，并根据适应度对飞蛾与火焰进行排序。

(3)飞蛾种群M中所有飞蛾Mi根据对应的火焰Fi不断移动寻找解，火焰种群F根据每次迭代最优解进行更新，然后飞蛾按照火焰F种群的对应位置更新顺序，如图2所示。

图2 MFO算法迭代更新机制

飞蛾Mi位置更新机制按照螺旋曲线飞行，飞蛾飞行螺旋轨迹的公式如下：

Mi(l+1)=distance(Fi(l)，Mi(l))·ebt·

cos(2πt)+Fi(l)

(8)

式中：l代表当前的迭代次数；distance函数是计算飞蛾与对应火焰位置之间的距离；b表示构造对数螺旋曲线的常数；t表示飞蛾与火焰位置的接近程度，t越小表示离火焰越近，t越大表示离火焰越远，它是一个随机数，取值区间在[-1+l(-1/lmax)，1]，可以用如下公式表示：

(9)

式中：lmax代表最大迭代次数。

(4)火焰自适应减少。在上述过程中，飞蛾Mi只在本身对应的火焰Fi周围寻找最优解，飞蛾Mi个体之间缺少联系，无法充分利用搜索空间。为此，在迭代过程中合理减少火焰的数量，去掉适应度最低的解，此时与之相对应的飞蛾缺少了目标，便以当前解集中适应度最低的解为目标，火焰自适应减少公式与飞蛾飞行螺旋轨迹的完整公式如下：

(10)

(11)

v(t)=ebt·cos(2πt)

(12)

式中：fn代表火焰种群F的数量；round函数返回一个整数，该整数根据小数进行四舍五入；Flast代表火焰种群F适应度最低的火焰。

(5)输出参数调优的结果，即算法迭代过程中的全局最优解。

MFO算法的全局搜索能力非常强，但是飞蛾火焰算法容易陷入围绕着少数火焰局部搜索的陷阱，并且算法本身缺少跳出局部搜索的能力[15]，一旦陷入局部搜索的陷阱时，算法的全局搜索能力会受到极大的限制。因此文中在传统的飞蛾火焰算法中引入精英反向学习对算法进行改进，避免模型陷入局部搜索陷阱，形成改进飞蛾火焰算法。

飞蛾个体寻找火焰个体相对独立，个体与个体之间没有太多共享的信息，当处于领导地位的最优飞蛾陷入局部搜索陷阱时，将导致算法早熟，全局搜索停滞。反向学习能够将产生的反向解和当前解放在一起进行择优迭代[16]，飞蛾火焰算法在第l次迭代或初始化之后(l=0)得到其中一个解Fi(l)=(fi，1，fi，2，…，fi，d)，反向解为F′i(l)=(f′i，1，f′i，2，…，f′i，d)，其中：

(13)

对于原解适应度值大于反向解适应度值的个体，进行反向区域搜索的价值不大，这种策略虽然能够很大程度上规避飞蛾火焰算法的弊端，但盲目地扩大搜索范围容易造成时间成本的浪费。因此在反向学习的基础上加上精英策略，从反向解与当前解中选择适应度最好的个体组成精英群体，然后根据精英群体生成新的搜索空间，再求原解适应度值小于反向解适应度值的个体的反向解，这样做既保留了反向学习的优点又降低了时间的浪费[17]。

1.3 改进MFO-LSTM预测模型

以SCADA数据为基础，实现对风电机组的状态预测，其数据具有非线性、维度多、复杂、时序性且时间跨度大等特点，研究表明LSTM能够有效处理这类数据，但LSTM的超参数设置对实验的结果影响较大，文中提出了一种改进MFO-LSTM的预测模型，具体建模如图3所示。

图3 改进MFO-LSTM预测模型

(1)设置需要优化参数的取值范围，初始化改进MFO算法飞蛾种群M，种群的维数设置为5，其中每只飞蛾Mi维数为需要优化参数的个数，此处需要优化的参数为4个，因此Mi的维数4。

(2)在改进MFO算法迭代的过程中，使用LSTM模型的评价指数作为对应解的适应度值。LSTM模型选取SCADA数据集，经过标准化与归一化处理后，作为模型输入量，设置LSTM的训练次数、时间步长，LSTM模型的隐藏层维数hd、隐藏层神经元个数hm、学习率α、训练的批次尺寸sbatch由改进MFO算法中飞蛾所在位置及其反向解位置来设置。

(3)根据种群中的适应度值确定当前种群中最优解Pbest和全局最优解Gbest，对当前飞蛾种群以及反向解种群进行排序，选择最优的5个个体进入下一轮的迭代。

(4)改进MFO算法火焰自适应减少，每只飞蛾Mi最开始在自身对应的火焰Fi周围寻优，后来逐渐放弃效果不好的解，围绕最优解寻优。

(5)当改进MFO算法达到最大迭代次数时，获取最优的LSTM超参数解，构建LSTM模型，结合评价指标对预测结果进行最终评价。

2 实验设计与结果分析

2.1 SCADA数据特征选取

当风电机组齿轮箱工作时，齿轮与轴承使用同一润滑设备进行润滑与冷却，当齿轮箱某个位置发生异常时，温度会迅速上升并传递到润滑油中，因此选取SCADA数据中的润滑油数据作为改进MFO-LSTM模型的输出。传统的故障预警方法是：监测的润滑油温在某一时间段连续超过设定的阈值时发出预警，但由于风电机组所处的环境多变，风电机组也常处于高负荷状态，阈值设定过低容易造成误报，过高则容易导致故障发生一段时间后才报警，都无法达到良好的故障预警效果。实验使用改进MFO-LSTM融合SCADA历史数据中正常运行的数据预测未来某一时刻润滑油温的值，计算预测值与实测值之间的残差值，当齿轮箱正常运行时，残差值基本维持在正常范围之内，当齿轮箱发生异常时，残差值与正常范围呈现明显的偏离。

另外，SCADA数据所包含的参数有77个，若将全部参数都输入到LSTM模型中，会极大地增加LSTM模型训练的压力，最终影响LSTM模型的预测结果以及运行时间，因此需要对LSTM输入数据进行适当的选择。皮尔森相关系数(Pearson Correlation Coefficient)分析方法因速度快、易于计算的特点，经常用在这类特征提取的场合[18]。皮尔森相关系数r表示2个变量之间线性相关程度，r值越大说明其关联性越强。假设其中一个长度为n的特征x的集合为{x1，x2，x3，...，xn}，另一个特征y的集合为{y1，y2，y3，...，yn}，那么r的值可以用如下公式来计算：

(14)

计算所有SCADA数据与齿轮箱润滑油温之间的皮尔森系数r，其部分结果如表1所示。

表1 部分参数与润滑油温相关系数

选取相关系数大于0.6的参数作为LSTM模型的输入，所选取的变量包括风速vsp1、风速vsp2、齿轮箱轴承空心轴温度、轴承A温度、轴承B温度、输出功率、高速轴温度、中速轴温度、低速轴温度、环境温度、齿轮箱冷却水温度等19个变量。

2.2 实验设计

为验证方案的有效性，选取某风电机组的SCADA数据以及故障日志进行实验。数据采样时间为2019年1月1日0点—2019年4月10日0点，采集频率为1 min/次，共101 047组数据。故障日志显示2019年4月9日14点左右，系统频繁报警提示齿轮箱中油温过高，工作人员检修齿轮箱内部时发现齿轮已经发生了严重的物理磨碎和腐蚀磨损。故障日志的分析原因中显示：故障发生的原因是风速的变化以及转速的提升导致齿轮运行时发生振动，造成齿轮表面磨损，其发生的时间可能在系统报警几小时之前，磨损使齿轮箱中的油温升高，使润滑油分解出酸性物造成齿轮化学腐蚀，进一步加剧了齿轮的磨损。此时故障已经对齿轮箱造成了严重的损伤，为避免这样的事情再次发生，采用改进MFO-LSTM模型对正常运行情况下齿轮箱中的润滑油温进行预测，并根据监测的数据计算其残差，当残差超过其阈值时触发报警。

将19个影响齿轮箱润滑油温的SCADA参数作为LSTM输入量，齿轮箱润滑油温作为输出结果。SCADA数据中将2019年1月1日0点—2019年4月1日0点之间的数据作为训练集，2019年4月1日0点—2019年4月6日0点之间的数据作为正常情况下的测试集，2019年4月6日0点—2019年4月10日0点之间的数据作为发生故障情况下的测试集。由于预测数据与真实数据之间的残差是随机变量，一般服从正态分布，在正态分布中有99.74%数据分布在μ±3σ范围之内，因此选用μ±3σ作为上下阈值，其中μ为残差均值，σ为标准差。齿轮箱正常运行时，真实监测值与预测值之间的残差不会超过μ±3σ的范围；当齿轮箱发生异常导致真实值与预测值之间出现较大的偏差时，残差超出μ±3σ的范围。

2.2.1 模型参数设置

将特征数据标准化、归一化处理后输入到改进MFO-LSTM模型，改进MFO-LSTM模型需要优化的超参数有隐藏层维数hd、隐藏层神经元个数hm、学习率α、训练的批次尺寸sbatch，设置其取值范围如表2所示。

表2 求解参数取值范围

同时利用数据样本构建PSO-LSTM模型、LSTM模型、RNN模型以及SVM模型，其中PSO-LSTM模型选用相同的优化参数和取值范围，最后比较模型的预测结果，其参数设置如表3所示。

表3 模型的参数设置

2.2.2 齿轮箱正常运行时预测结果分析

利用训练集训练上述的模型并预测齿轮箱正常运行时的数据，并结合实际监测值计算残差，预测结果以及残差如图4所示。

图4 正常样本的预测结果

根据μ±3σ公式计算残差的上下限作为故障报警的阈值，并选用均方根误差(RMSE)、平均绝对百分比误差(MAPE)和决定系数R2，对模型的预测结果进行评价，各指标的表达式如下所示：

(15)

(16)

(17)

在上述的指标中，δRMSE与δMAPE越小，R2的值越接近于1，说明模型的拟合程度越高，预测的结果更加准确。具体结果如表4所示。

表4 不同预测模型结果对比

由表4可知：改进MFO-LSTM的故障报警阈值上下限之间的范围最小，预测值和真实值曲线拟合程度最高。

2.2.3 齿轮箱异常运行时预测结果

改进MFO-LSTM拟合程度最好，阈值范围最小，理论上改进MFO-LSTM的故障报警应更精确、更及时。为验证该想法，以齿轮箱异常运行时的样本进行实验，各模型的实验结果如图5所示。

图5 异常样本的预测结果

由图5可知：改进MFO-LSTM模型在8点左右监测到齿轮箱油温的真实值与预测值之间的残差连续超出故障报警的阈值上限，系统报警，与故障日志中研究人员分析的故障发生初期时间一致；而PSO-LSTM模型会在8点50分左右报警；LSTM模型会在10点10分左右报警；RNN模型会在9点20分左右报警；SVM模型会在10点40分左右报警；报警时间均晚于改进MFO-LSTM模型。另外，RNN模型会在4月6号10点20分和4月7号0点30分左右监测出异常而报警，而此时齿轮箱实际处于正常运行状态，误报的原因是由于RNN模型的拟合程度不理想导致。结合5种模型对正常样本和异常样本的预测结果可知，改进MFO-LSTM能够在故障发生初期及时监测到异常，并且与其他方法相比，模型的准确性更高。

2.2.4 改进MFO-LSTM与PSO-LSTM迭代效果比较

最后比较改进MFO-LSTM与PSO-LSTM模型最佳适应度值变化的过程如图6所示。适应度值选用δMAPE，记录算法迭代过程中最佳位置的值。从图6中可以明显看到：改进MFO-LSTM的收敛速度更快，并且能找到更优的解，体现了改进MFO-LSTM算法的优势。

图6 迭代效果比较

3 结论

文中构建了改进MFO-LSTM模型，结合风电机组的SCADA数据对风电机组齿轮箱润滑油温进行预测。当监测值与预测值的残差超过阈值时发出警报，从而实现故障预警。SCADA数据契合LSTM模型适用于时间序列数据集的特点，并采用相关性分析筛选特征，最后利用改进MFO算法对LSTM模型中的超参数进行优化，克服参数选取不当导致的模型预测效果不好的问题，得到较高的预测精度。在某风电机组实验分析中，与其他的算法模型相比，改进MFO-LSTM拟合程度更好、报警阈值范围更小、报警更及时、误差风险更低，对于降低风电机组维护成本、保障风电机组稳定安全的运行具有重要意义。