基于MIC特征提取与BO-CatBoost的航空发动机RUL预测

2024-02-23李东君李东文朱贵富

空军工程大学学报 2024年1期

李东君, 李亚, 李东文, 朱贵富

(1.昆明理工大学信息工程与自动化学院,昆明,650504;2.昆明理工大学信息化建设管理中心,昆明,650504)

航空发动机作为飞机的核心部件之一,内部结构复杂,在运行期间,其健康状况易受环境及内部构造等多种因素的影响。相关研究表明,在飞机因机械故障引起的飞行事故中,发动机故障导致的飞行事故数量占比最高[1]。飞机发动机一旦发生故障或失效,将会严重威胁人们的生命健康及财产安全。为提升发动机运行的安全性、可靠性及稳定性,并有效保障人们的生命及财产安全,对发动机开展视情维修与健康监测具有重要意义。

故障预测和健康管理(prognostics and health management,PHM)技术主要利用机械设备在运行期间产生的各类数据,运用数据处理与数据分析等手段,实现对复杂设备的健康状态检测、预测管理及维修策略支持,有效降低故障发生率和维修成本[2]。航空发动机剩余使用寿命(remaining useful life,RUL)维护预测是PHM的关键任务之一。RUL预测的主要目标是根据机械设备健康状态的有效信息,对设备到达安全操作限制的剩余寿命时间进行估计[3]。由于航空发动机长期工作在条件恶劣的环境中,为保证发动机运行的安全性,需要定期对发动机进行维护,如何有效利用发动机的历史退化信息对发动机的健康状态进行RUL预测是当下研究的重点。

目前,因预测原理的差异,国内外关于航空发动机的RUL预测方法主要分为2类:基于物理失效模型的RUL预测方法和基于数据驱动的RUL预测方法[4]。虽然基于物理失效模型的RUL预测方法具有良好的预测精度,但由于航空发动机内部系统构造极为复杂,在对部件进行退化过程建模时需要掌握部件原理的专业知识,使得预测难度增大且普适性较差。基于数据驱动的RUL预测方法无需建立复杂的数学模型,它借助机器学习手段挖掘和分析退化数据隐藏的内部信息来获得数据间内在的关联特征,且预测的性能和准确率也较高[5-6]。

随着人工智能技术及智能算法的飞速发展,基于数据驱动的RUL预测方法逐渐成为国内外学者研究的热点。文献[7]对历史监测数据进行融合,将贝叶斯理论(bayesian)应用到航空发动机RUL预测中。文献[8]利用最大信息系数(maximal information coefficient,MIC)对短期负荷数据进行特征选择,将筛选的特征输入构建的模型中进行预测。文献[9]提出了一种利用皮尔逊相关系数方法对发动机数据子集进行协变量筛选获得最优协变量表达式。文献[10]采用类别特征梯度提升算法(categorical boosting,CatBoost)构建孔隙压力预测模型,有效提升了预测精度。文献[11]提出了一种在联邦学习框架中使用全局健康退化表示(a global health degradation representation ,GHDR)的新的RUL预测方法。

对于复杂机械设备的RUL预测问题,虽然现有文献所提方法在航空发动机剩余寿命方面已经取的一定的成绩,但综合考虑发动机自身复杂的物理结构及运行环境的恶劣条件等因素,对于发动机的RUL预测还存在一些待解决的:发动机传感器由于受外部环境因素的影响,使监测的数据受到噪声干扰,无法有效去除环境噪声;针对航空发动机监测参数非线性特点,现有方法无法充分提取对发动机运行周期影响较大的关键特征,在RUL预测准确度上仍有提升空间。

针对以上问题,本文提出了一种基于MIC特征提取与贝叶斯优化类别特征梯度提升(bayesian optimization categorical boosting,BO CatBoost)相结合的发动机RUL预测方法。考虑到不同监测特征对发动机寿命影响的差异,引入MIC算法计算各个特征对发动机RUL的相关性,筛选出相关性较大的特征作为CatBoost预测模型的输入,引入贝叶斯优化(bayesian optimization,BO)算法对CatBoost预测模型中的超参数进行训练和调优,得到RUL预测结果的最优值。利用评价指标均方根误差(root mean square error,RMSE)、判定系数(coefficient of determination,R2)和平均绝对误差(mean absolute error,MAE)对预测模型进行性能分析和评估,有效验证了本文所提方法的可行性。

1 RUL预测方法

1.1 最大信息系数

最大信息系数MIC以互信息(mutual information,MI)为基础,是一种用于衡量2个变量之间线性或非线性相关性强弱的算法[12]。设X={x1,x2,…,xn}与Y={y1,y2,…,yn}分别为数据集中的随机变量,n为样本数量,则X与Y之间的MI为:

(1)

式中:p(x,y)为X与Y之间的联合概率密度;p(x)与p(y)分别为X与Y之间的边缘概率密度。

MIC克服了MI在计算连续变量的联合概率密度函数困难的缺陷,能最大程度地找到两变量之间的相关性[13]。MIC的计算公式为:

式中:B为样本数量;N为样本变量;I(x;y)为x与y之间的MI。2个变量间的MIC值越接近1,则其相关性越强,MIC∈[0,1]。

1.2 CatBoost算法

类别特征梯度提升算法(CatBoost)是在梯度提升决策树(gradient boosting decision tree,GBDT)算法的基础上改进的算法[14]。CatBoost算法是由类别特征和梯度提升组成的一种高准确性梯度提升框架。该算法以对称决策树作为基学习器,解决了梯度偏差及预测偏移问题,有效防止模型的过度拟合。该算法将数据的类别特征进行编码,每层分裂时,设置分裂阈值,并将所有的类别特征与指定的特征进行组合,参与下一层分裂。分裂结束后,使用梯度无偏来估计预测偏移,寻找最优目标。

建立分类特征树的过程中,因需要考虑监测数据之间的相关性,本文引入MIC算法来计算监测参数之间的非线性关联性。MIC能有效避免互信息在计算连续变量的联合概率密度函数困难的问题,且最大程度地挖掘2个变量之间的非线性相关性。

本文使用CatBoost回归算法来解决发动机RUL的预测问题。设原始数据集为|D|={(x1,y1),(x2,y2),…,(xn,yn)},则σ=(σ1,σ2,…,σn)为|D|经过重新排序后的序列状态。

(3)

式中:xσj,k为数据集σj的第k个特征;p为先验概率,用来减少噪声数据的干扰;∂为大于0时的权重系数值,用于调节p的影响程度。

1.3 贝叶斯优化算法

贝叶斯优化(BO)算法是一种基于搜索函数和高斯过程(gaussian processes,GP)的参数更新优化算法,根据定义的目标函数迭代评估新的参数[15]。利用高斯过程进行调参,设置最优参数后,不断迭代更新先验值和模型参数,直到找到最优的超参数组合。本文使用贝叶斯算法中的GP及采集函数(acquisition function,AF)优化CatBoost中的超参数。GP回归表达式:

f(x)～GP(m(x),K(x,x))

(4)

式中:K(x,x)为协方差矩阵;m(x)为均值向量函数。

采集函数对样本的候选值进行评估后得到最优解。其计算公式为:

式中:σ(x)为GP的方差;u(x)为样本均值。

φ(*)为标准正态分布的累积分布函数,α为超参数。贝叶斯优化CatBoost算法超参数流程如图1所示。

图1 贝叶斯优化CatBoost算法超参数流程图

1.4 评价指标

为更好地验证本文所提RUL预测模型的准确性,选取实验中2个常用的模型性能评价指标,即判定系数R2[16]、均方根误差RMSE[17-19]与平均绝对误差MAE[20]来衡量模型的预测性能。

RMSE通常用于度量模型的预测值和真实值之间的总体偏差,其值越小,则预测性能精度越高。RMSE的计算式为:

(6)

R2用于反映由样本回归线做出解释的离差平方和中的比重,其值越接近1,说明模型拟合度越好,其表达式如下:

(7)

MAE表示绝对误差的平均值,其计算式为:

(8)

2 基于MIC与BO-CatBoost的预测模型框架

本文所提出的航空发动机RUL预测模型框架总体介绍:利用MIC算法筛选出能够表征发动机退化性能的传感器监测参数,为降低监测参数量纲对预测模型的影响,将监测参数归一化在[0,1]之间。构建基于贝叶斯超参数寻优的CatBoost预测模型进行训练,将测试集输入训练结束的预测模型中预测发动机的RUL。并通过评价指标RMSE、R2、MAE来评价预测模型的性能。

1)数据预处理

在数据预处理阶段,利用MIC算法分析各个监测参数与发动机运行寿命间的相关性强弱,筛选出相关性较强的监测参数用于实验验证;为降低监测参数量纲对预测模型的影响,对监测参数进行归一化处理。

2)CatBoost模型训练

构建基于CatBoost算法的发动机RUL预测训练模型,设置超参数及其寻优范围;利用BO算法对CatBoost训练模型中的超参数进行优化,寻优过程中返回RMSE最小值及寻优参数的取值。利用筛选出的最优超参数作为预测模型的最终超参数组合。

3)剩余寿命预测

将经过数据预处理后的监测参数输入到构建的BO-CatBoost预测模型中进行训练,返回预测评价结果RMSE,R2及MAE的值,实现航空发动机的RUL预测。

3 实验验证

3.1 数据集介绍

本文用于实验的数据是来自美国国家航空航天局(national aeronautics and space administration,NASA)发布的涡扇发动机商用模块化航空推进系统仿真数据集(commercial modular aero-propulsion system simulation,C-MAPSS)[21]。该数据集中包含4个子数据集FD001～FD004,每个子数据集都由训练集与测试集组成。训练集中包含了发动机从初始运行状态到磨损失效后的全寿命周期数据,测试集仅包含发动机在故障发生前的部分运行周期数据[22]。每个子数据集中包含飞行高度、马赫数与油门杆解算器角度3种操作条件,运行周期及21种航空发动机传感器监测参数。本文选取FD001～FD004共4个子数据集进行发动机RUL实验。C-MAPSS数据集见表1。

表1 C-MAPSS数据集

图2展示了FD001数据集中100台发动机的最大运行周期分布情况。从图2可知,在FD001数据集100台发动机中最小的运行周期为128,最大的运行周期为362,其他发动机的运行周期大部分分布在[145,250]范围内。

图2 FD001数据集100台发动机的最大运行周期分布情况

3.2 数据预处理

3.2.1 特征提取

不同的监测参数对构建的训练模型具有不同程度的影响,为有效提升发动机RUL预测的精度,采用基于MIC的特征选择方法对影响航空发动机寿命周期的监测参数进行筛选。表2为FD001不同监测参数与发动机RUL的MIC计算结果。由表2可知,编号为1、5、10、16、18与19的监测参数MIC值为0,且编号6的值接近于0,说明这7个监测参数对航空发动机的寿命运行周期相关性极弱,将这7种监测参数从21种监测参数中剔除,利用剩余的14种监测进行航空发动机的RUL预测实验。

3.2.2 数据预处理

因航空发动机不同的监测参数具有不同的量纲,为了缩小监测参数数值之间的差异,提高预测的效率及准确率,本文选取最小最大归一化公式对发动机监测参数进行归一化处理。其计算公式如下[23]:

3.3 基于贝叶斯优化的CatBoost模型

因CatBoost训练模型中的超参数取值范围不同,会对发动机的RUL预测值带来不同程度的影响。本文使用BO算法对CatBoost回归预测模型中的超参数进行寻优。搭建BO-CatBoost训练模型并设置超参数取值范围。表3为BO-CatBoost超参数寻优结果。

表3 BO-CatBoost超参数寻优结果

为获得最佳的超参数值,本文分别训练预测模型中的超参数iterations与learning_rate在不同取值组合下的评估指标RMSE值。图3为预测模型不同超参数值的RMSE。由图3可知,当iterations为999,learning_rate为0.07时,模型训练效果最好,RMSE值最小。

图3 预测模型不同超参数值的RMSE

3.4 实验预测结果

图4展示了FD001～FD004数据集下的航空发动机RUL预测结果。图4中,红色曲线为发动机的RUL真实值,蓝色曲线为RUL预测值。由于FD001与FD003为在单一操作条件和故障模式下采集的数据,发动机数量少,预测结果较为稀疏。FD002与FD004为在多工况环境中采集的数据,发动机数量较多,与其他2个数据集的RUL预测相比,预测难度具有一定挑战性。由对比结果可知,发动机的RUL真实值与RUL预测值比较贴合,预测误差较小,说明本文所提模型的预测效果较好。

(a)FD001测试集

(b)FD002测试集

(c)FD003测试集

(d)FD004测试集

3.5 比较分析

为全面评估本文所提算法的性能,实验过程中选择RMSE、MAE及R23个性能评价指标来衡量各个预测模型的性能。表4展示了不同预测模型在FD001～FD004数据集中的RUL预测结果。由表4可知,与其他预测方法相比,采用MIC-BO-CatBoost方法进行预测时,评价指标RMSE与MAE的值最小,R2也最接近于1。

图5展示了MIC-BO-CatBoost预测模型在FD001～FD004数据集中的预测误差箱线图。箱子中间的实线表示RUL预测的期望,箱子的规模越小,表示模型在预测过程中的RUL预测结果的不确定性越低,准确率越高。由图5可知,本文所提预测模型MIC-BO-CatBoost在FD001与FD003数据集上的箱线图规模较小,预测精确度较高。

表4 不同预测模型在FD001～FD004数据集中的RUL预测结果

图5 MIC-BO-CatBoost预测模型在FD001～FD004数据集中的预测误差箱线图

为了对比不同模型在FD001～FD004数据集中的预测效果,本文构建岭(Ridge)回归[24]、K近邻回归(KNN)算法[25]、极端梯度提升(XGBoost)算法[26]与本文所提方法进行比较分析。分别选取FD001～FD004数据集中的第32号、3号、76号及56号发动机进行RUL预测。图6展示了FD001～FD004在不同预测模型下的RUL预测结果。灰色区间代表RUL预测分布的95%置信区间。由图6可知,其他预测模型的RUL预测结果大部分位于RUL真实值之上或之下,说明预测结果表现出滞后或超前预测,而本文所提方法的RUL预测值紧密围绕RUL真实值波动,拟合程度较高。与其他3种预测模型的对比结果可知,本文所提方法的RUL预测值与真实值的偏差最小,且预测结果基本都被95%置信区间覆盖,有效说明本文所提方法能够更好地用于航空发动机的剩余使用寿命预测。