基于DSRBM的航空发动机数据降维与状态预测*
2021-06-04
(海军航空大学 烟台 264001)
1 引言
航空工业的飞速发展带动了航空发动机研究的高潮。一方面由于发动机是飞机的核心部件,飞行发动机的运行状态对飞机的安全性、可靠性和操作性具有直接影响,航空发动机的维修成本占到了整个飞机维修成本40%甚至以上;另一方面,其经常工作在高温高压的环境下,不可避免地面临各种异常及故障[1]。因此,准确评估航空发动机的运行状况,对飞机整体的健康监控,航空公司降低维修成本,提高飞行安全具有重要意义。
目前,对于状态预测国内外的研究主要分为三大类:基于数学模型的预测方法,基于经验专家知识库的预测方法和基于数据驱动的信号处理方法[2]。基于数学模型的方法,其预测效果与模型的准确性正相关,多用于检测系统,但是对于复杂系统(例如飞行发动机)很难有精确的模型表达。基于经验专家知识库的方法,综合主客观分析,考虑领域专业知识与人工判定相结合,使用概率模型和随机模型对发动机进行状态预测,但结果不足以适应发动机的复杂动态过程。基于数据驱动的方法,挖掘监测数据间的内部联系,将原始检测传感器数据转化为相关的发动机行为模式,从而完成状态预测与故障诊断。目前的研究大多集中于此,Jain和Lad[3]使用逐步回归特征子集选择技术构建ANN模型,实现了状态预测。马建仓等利用振动信号时域指标和小波包分解对发动机进行故障诊断[4]。陈恬[5]等提出运用粗糙集理论实现对发动机的智能诊断方法。Sun等[6]基于通过观察发动机数据的线性回归特性,建立健康指数,执行贝叶斯状态估计和预测公式,以顺序更新当前健康状态,然后预测发动机未来的健康状态。李恺钦[7]通过使用遗传算法,对航空发动机故障诊断专家系统进行推理和自学习。现阶段,在航空公司看来,无论是基于机器学习类的数据驱动方法(如神经网络、支持向量机),还是基于统计分析类的数据驱动方法(如数据降维)都相对于前两大类方法更加透明、直观、简单,在硬件实现方面也日渐成熟。但是,随着航空产业的增长和航空飞行监测系统完善,航空飞行数据量不断增大,数据维度不断增多,数据类型日趋复杂,现有的数据驱动方法面临着参数最优解的选择,易陷入局部最小,计算复杂度提高等问题。所以,选择适合大数据的预测方法决定了飞行发动机数据监测的有效性。
近年来,深度学习作为大数据处理方法逐渐在发动机监测领域得到应用。崔建国等提出一种结合LSSVM和HMM的方法,利用不同状态特征量进行状态预测[8]。洪骥宇等[1]针对航空发动机性能退化形式及规律,提出一种基于降噪自编码的航空发动机性能退化评估方法。深度神经网络在面对海量高维数据处理时,能够提取数据内在的隐含特征,非线性表达能力强,判别效果好。
2 深度稀疏受限玻尔兹曼机网络
受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)是一种可以通过输入数据集学习概率分布的随机神经网络,具有双层结构的无向图模型[9]。结构如图1所示,v是表示数据输入的n可视层,h是用于提取高阶相关特征的m维隐藏层,是受限玻尔兹曼机的网络参数,W∈Rm×n是可视层和隐藏层连接的权重。
图1 受限玻尔兹曼机的构成示意图
对于布尔型二值数据,定义RBM的网络能量函数如下:
给定状态(v,h)的能量函数E(v,h),可见单元与隐单元的联合概率分布定义为:
Z(θ)是和网络结构有关的归一化因子(也成为配平函数),根据条件独立的假设,对于给定的可见单元,隐单元即为独立的伯努利随机变量,第j个隐单元的激活概率为
同理,对于给定的隐单元,可见单元为对立的伯努利随机变量,第i个激活概率为
通过最大化训练集上的联合概率密度来训练网络的最优化参数,由此给出RBM网络参数的优化函数
由于航空发动机的性能数据都是连续分布的实值,经典RBM模型会面临着变量不匹配的问题。需要将可视层的二值输入拓展为实值变量,故建立高斯受限玻尔兹曼机模型[10]。此时整个网络的能量定义为
其隐单元激活概率与经典RBM模型一致,可见单元激活概率变为
其中vi是满足均值为∑wijhj+ai,方差为1的高斯分布的实数值。
通过计算可见单元的激活概率,高斯RBM模型将实值随机变量转化为二值随机变量,然后再利用经典RBM模型进行处理分析。
为了提高网络对发动机噪声干扰的鲁棒性,在高斯受限波尔兹曼机中引入稀疏编码机制[11]。在受限玻尔兹曼机中增加稀疏编码,是指激活尽可能少的特征节点来提取数据中蕴含的信息或者说对于分类问题,只在某种特定的故障中被激活,其他类别的数据输入时激活状态受到抑制,隐藏层的激活具有稀疏特性。一方面能够有效地去除冗余信息,另一方面,有利于深层网络更好地学习到数据的内在特征。
具体做法[12]是在高斯RBM的网络参数目标函数中叠加一个正则化项,添加稀疏性约束,对于n个输入样本优化目标函数如下:
其中,λ表示正则化常数,p表示稀疏常数控制隐藏节点的稀疏性。
3 数据预处理
3.1 数据说明
本文使用 C-MAPSST 数据集[13~14]。商用模块化航空推进仿真系统(C-MAPSST)是由开发,用于逼真模拟大型商用涡扇发动机。仿真的飞机燃气涡扇发动机拥有包括风扇转速控制器,调节器和限制器在内的整套内置控制系统。
使用C-MAPAAT代码在不同的操作设置和故障模式的组合下进行发动机性能退化模拟,得到涡扇发动机退化模拟数据集。发动机在每个时间序列开始时正常运行,并在运行期间的某个时间点发生故障[15]。在训练集中,异常的大小会增加,直至系统发生故障。在测试集中,时间序列在系统故障前的某个时间点结束,数据集中每列对应于不同的监测变量。
3.2 参数选择
为了更好地评估发动机传感器与实际性能退化状态预测的相关性,使用单调性,可预测性和趋势性三个方面的度量来选取传感器参数[16],优化评估效果。
单调性(Monotonicity)是表征传感器参数正向或者负向参数的简单方法,定义如下:
其中n是训练轨迹的数量。通过每条路径的正和负导数的分数的平均差来计算传感器参数的单调性。接近1的单调性测量结果表明传感器是单调的并且对状态估计有用,而接近0的结果表明传感器是非单调信号并且不进一步考虑。
可预测性(Prognosability)定义为每条路径的故障点偏差和传感器在整个寿命期间平均变化的商。这个度量指数加权,范围在0~1之间。
接近1的可预测性度量指示故障阈值是相似的并且传感器变量可用于检测,而接近0的可预测性度量指示故障彼此不同不适合检测。
趋势性(Trendability)定义为所有训练轨迹计算出的最小相关性的绝对值。
通过将合适度函数定义为这三个度量值的和函数作为传感器选择的度量,为特征提取提供依据。每个度量都接近1的传感器参量包含着航空发动机有效的退化状态信息,适应度函数在区间[2,3]之间。计算结果显示传感器2,3,4,7,8,9,11,12,13,14,15,17,20,21适合后续的降维和状态预测研究。
3.3 数据清洗与归一化
对数据集进行清洗和归一化,主要的有三个步骤。
1)对数据集设置参数名称。
2)在数据集中,基于剩余寿命运行时间将运行状态划分为四种模式。
(1)0~50 周期:urgent;
(2)51~125周期:short;
(3)126~200周期:medium;
(4)200~周期:long。
3)对数据集去中心化和归一化:
数据清理保证了数据集的可理解性,对数据集的规范化处理赋予了参数属性相等的权重,有助于加快DSRBM网络学习阶段的速度。
4 实验验证与分析
4.1 实验处理框架
在高维非线性的航空发动机数据中获取数据的隐藏特征,并利用这些特征进行运行状态的预测,从而为航空发动机维修维护提供依据。采用PCA和DSRBM的方法对发动机数据进行降维提取特征,而后通过决策树、支持向量机和近邻分类进行状态预测,方法流程如图2所示。
图2 实验算法流程图
4.2 航空发动机数据特征提取与降维
发动机经参数选择之后可视化结果如图3所示。在数据可视化之后参数图形的走向特点与实际计算得到的单调性、可预测性和趋势性相符,反映了参数选择过程的正确性。
图3 参数选择可视化
4.2.1 主元分析特征提取
主元分析主要流程是将中心化后的样本求得协方差矩阵,通过数据的空间映射,得到降维后的特征集。原有的20631×26数据集降维到了20631×2的特征集,使其可视化如图4。
图4 PCA数据降维可视化结果
由图4可见,整体上发动机数据集使用PCA降至2维之后,安全状态集点群效果明显,紧急状态和故障状态点发散,体现了发动机运行退化的不同模式和不同故障类型,辨识度较高。从单一的unit1上看,状态点具有明显的退化趋势,各状态类型之间分布区域明显,但对航空发动机维护维修重点关注的紧急状态分布较为发散,不利于模型对发动机故障的预测,有针对性地提出检修方案。
4.2.2 DSRBM特征提取
稀疏受限玻尔兹曼机能够有限避免学习过程中的数据过拟合,并对隐藏节点按概率进行抑制达到稀疏的目的,减少噪声对特征的影响。完成数据清理与归一化后,设置DSRBM超参数,初始化网络。最大迭代次数Maxepoch设置为100,RBM采样方法选择FEPCD,稀疏方差Sparsity Variance设为0.1,稀疏度Sparsity Target为0.02,稀疏代价Sparsi-ty Cost设为3,网络表现方法选择为“Reconstruction”。最后将设置好的SRBM网络和微调的反向传播BP网络相结合,构成整体的深度受限玻尔兹曼机网络,完成航空发动机的数据降维工作。
考虑与PCA方法进行对比,使用DSRBM将26维数据降至2维空间,将结果可视化如图5所示。
图5 DSRBM数据降维可视化结果
在整体上,DSRBM网络与PCA的降维效果类似,呈现出安全状态集中,紧急状态和故障状态发散的全局特点。但在单一单元Unit1上看,DSRBM降维后的状态点各状态点分布区域明显且聚合度更高,重点的紧急状态相较于PCA降维离差更小,减小了后续机器学习算法的误差,提高了预测精度,特征提取效果更好。
4.3 航空发动机状态预测
将4.1节特征提取后的发动机数据分别输入到决策树(CART算法)模型、KNN模型和SVM模型中,训练得到预测结果。由于数据的多状态属性,针对各个状态的预测准确性,采用数据正阳率(True Positive Rate)进行计算,将全部算法对各状态的数据正阳率列表如表1。
表1 各类算法的预测准确率
进一步,在各个状态的预测准确率中,发动机“Urgent”状态是故障和安全状态的分界点,重点考察各算法中“Urgent”状态的数据正阳率。两种降维方法对状态预测的影响结果如图6。
图6 各类降维预测算法比较
从图6和表1中可知,在相同的降维算法下,SVM算法的“Urgent”状态准确率83%和87%均高于其余两种算法,而决策树算法和KNN算法的“Urgent”状态预测准确率大致相当。其它发动机状态的预测中,决策树算法在“long”状态预测准确率低于2%,KNN在“long”状态相较于上一个“Medium”状态跳变巨大,而SVM算法对各种状态的预测更加稳定。因此,SVM算法更适合发动机状态预测;在相同的预测算法下,DSRBM算法的“Urgent”状态准确率均高于PCA算法,其中DSRBM-SVM相较于PCA-SVM提高3%,反映了深度稀疏受限玻尔兹曼机网络在数据降维方法上的优越性。
5 结语
本文提出运用深层神经网络DSRBM对航空发动机数据进行特征提取和降维,结合经典算法实现了对航空发动机的状态预测。充分运用DSRBM对数据特征提取的优势,综合提高了航空发动机风险状态的预测准确率,具有一定的工程价值。
从整体上看,本文的算法还存在预测结果解释困难,对非敏感状态预测准确率偏低等问题。进一步可以考虑将增加人工经验知识,加入推理规则来进一步提高非敏感状态区域的预测准确率,作为下一步的研究重点和方向。