基于Autoencoder-TCN的航空发动机排气温度预测
2020-12-17孔晨亦李学仁
孔晨亦,李学仁,杜 军
(空军工程大学航空工程学院,西安,710038)
排气温度(Exhaust Gas Temperature,EGT)是表征航空发动机健康状态和确定发动机可用性的重要时间序列参数之一[1],高精度的EGT预测模型可为维修决策提供重要支持。由于航空发动机是一个典型的复杂系统,排气温度又与多种因素呈现复杂非线性关系[2],因此难以构造精确数学模型来描述EGT的变化规律。
目前使用的预测方法有最小二乘法、支持向量机、人工神经网络等[3-5]。近年来,随着人工智能技术的不断发展,由于人工神经网络对复杂非线性系统具有高度的拟合性,其在排气温度预测方面应用广泛。Yusuf等[6]研究了发动机转速、燃料流量、进气管平均温度等参数作为输入层,排气温度作为输出的人工神经网络预测模型。陈庆贵等[7]使用径向基过程神经网络来实现航空发动机排气温度预测。Kumar等[8]利用自回归神经网络并结合移动平均技术对燃气涡轮发动机排气温度进行建模和预测。随着循环神经网络(RNN)的不断发展,衍生出长短期记忆网络(LSTM)、门控循环网络(GRU)等变体,广泛应用于时间序列数据处理。杨洪富等[9]使用长短期记忆网络构建发动机排气温度预测模型,探究了排气温度的变化规律。张帅等[10]设计了一种输出层增强的LSTM模型,进一步提高了预测精度。
时间卷积神经网络(Temporal Convolutional Network,TCN)是由Bai S等[11]2018年提出的处理时间序列模型的神经网络新架构,并且在几类数据集中取得了比RNN更为准确的结果。TCN网络在文本、视频、时序图等时间序列数据的分析中提高了预测的准确性[12-14]。飞行数据是一类典型的时间序列数据,数据的时间关联性较强,对模型的时域信息提取能力有更高的要求。TCN网络则是利用一维卷积变形成可用于处理时间序列数据,采用多层网络结构学习长时间跨度信息。
同时,飞行数据具有数据量大、维度高的特点,约减维度可以有效降低计算的复杂度,减少训练难度。Hilton等[15]利用自编码器进行数据降维实验,实验效果相比主成分分析法(Principal Component Analysis,PCA)有明显提高。宋亚等[16]整合自编码器和双向短期记忆神经网络,构建涡扇发动机剩余寿命预测模型,有效降低了模型训练难度。
由此本文提出了Autoencoder-TCN混合预测模型,利用自编码器(Autoencoder)降低TCN网络的输入数据维度,将EGT作为TCN网络的输出,使用真实飞行数据训练模型,可以深入挖掘飞行数据的时间关联性特征,并且分别与BP(反向传播)神经网络和LSTM神经网络预测模型作对比实验,验证了预测模型的有效性。
1 基础理论
1.1 Autoencoder神经网络
Autoencoder神经网络利用自监督学习方式,可对输入数据进行有效降维,提取相关特征。Autoencoder由输入层、隐藏层、输出层组成,结构分为编码器和译码器两部分,其拓扑结构见图1。
图1 自编码器结构图
给定原始飞行数据x=(x1,x2,…,xn),其中xi是输入数据的第i维度(i=1,2,…,n)。给定特征空间H=(h1,h2,…,hm),其中hj是第j维特征向量(j=1,2,…,m,m f:x→h g:h→x (1) 采用非线性激活函数,可求解得两者映射f,g以及输出低维特征H。自编码器可学习从高维到低维的非线性映射,获得原始数据的显著特征,因此可用于深度学习网络输入数据的预训练,减少输入数据维度,降低训练难度。 卷积网络的算法关键在于利用卷积操作跨区域提取特征[14]。卷积网络普遍应用于图像领域,在时间序列数据的处理上,大多采用循环神经网络(RNN)和长短时间记忆网络(LSTM),但在RNN框架上很难再找到新的模型可以超越LSTM的学习效果。因此,Bai Shaojie[11]将卷积神经网络改造成可用于处理时间序列数据的TCN,直接利用卷积的强大特性,跨时间提取特征信息。 为了更好地适应时间序列数据的处理要求,TCN网络引入了一维全卷积(1-D FCN)和膨胀因果卷积(Dilated Casual Convolutions): Step1利用1-D FCN结构,保证每一个隐层的输入输出时间长度都相等,对于第一个没有任何历史信息的时间步,使用zero padding操作。 Step2为了不漏接历史信息,以及应对网络长历史信息问题,引入膨胀因果卷积,增大感受野(receptive field)的同时降低计算量,使模型能够学习到更长时间段内的信息。膨胀卷积作用在s元素上,可描述输出F(s)如下: (2) 式中:*d为卷积操作运算符;f(i)为卷积核,i=0,1,…,k-1。 TCN模型整体架构见图2。 图2 TCN模型结构图 本文建立的深度学习混合预测模型首先将Autoencoder神经网络作为特征提取工具,将每一时间点与排气温度相关的11个参数降至5维后,再进行时序连接,得到5×t的时序数据,输入到TCN网络进行时间信息的学习,输出排气温度的时间序列值,如图3所示。 图3 混合模型结构示意图 图中,x=(x(1),x(2),…,x(t))表示Autoencoder的输入空间,x(j)为m维输入向量,本文中m=11;h=(h(1),h(2),…,h(t))表示特征空间,由Autoencoder输出后经过时序连接形成,作为TCN网络的时间序列输入数据,h(j)为n维特征向量,本文中n=5;y=(y(1),y(2),…,y(t))表示输出空间,y(i)为排气温度数值,t表示时间序列长度。 本文建立的Autoencoder-TCN混合预测模型训练过程分为特征提取、TCN网络训练、网络性能测试3个阶段。 首先将飞行数据使用Zscore归一化处理方法,然后将归一化的数据输入Autoencoder网络,经过编码层进行编码,与解码层输出数据生成损失函数,自编码器的连接权值和偏置采取自适应性动量估计法(Adam)进行学习。 对于Autoencoder网络,本文采用线性整流函数(ReLU)作为编码层激活函数,采用Sigmoid函数作为解码层激活函数。 (3) (4) (5) (6) 式中:n为输入数据的维度,m为隐藏神经元的个数,即降维后的维度;Wi,j为输入层神经元与隐藏层神经元的连接权值;W'j,i为隐藏层神经元与输出层神经元的连接权值;bi、bj均为偏置;隐藏层中,hj为第j个神经元的输出值;输出层中,ri为第i个神经元的输出值。 损失函数如式(7)所示: (7) 式中:k为批处理的总数目;x(p)和r(p)分别为第p个样本的输入和重构向量。本文选用Adam优化器训练网络中的参数,使重构误差,即损失函数值最小。 使用训练好的Autoencoder网络提取数据集的低维特征后,作为TCN网络训练样本,利用Adam优化器训练TCN网络参数。 对于TCN的网络结构,使用ReLU函数作为激活函数,能够有效避免深度学习网络梯度消失问题,增加拟合精度。但由于多卷积层的网络结构容易学习到训练数据中的过度依赖关系,导致出现过拟合现象,TCN网络结构引入随机丢弃(Dropout)优化方法,通过随机丢弃局部神经元的方式(灰色部分为丢弃神经元)来减少不同神经元之间的过度依赖关系,有效防止过拟合,见图4。 图4 Dropout示意图 为了提高模型的泛化能力,解决较深的网络结构可能引起的梯度弥散或者梯度爆炸问题,引入残差神经网络(ResNet)中的残差块结构。残差块结构将输入x与经过非线性变换后的F(x)进行求和操作,形成短路连接: H=x+F(x) (8) 这种结构能够优化深层网络,较好地拟合输入发生的变化。而TCN网络感受野的扩大依赖于卷积网络层的增加,而残差结构可以很好地抑制网络层增加带来的梯度消失或者梯度爆炸问题。 图5 使用残差块的TCN网络流程图 保存2.3节中训练好的TCN网络结构,使用测试集数据验证网络预测精度,得到均方误差和平均百分比误差,作为衡量网络性能的量化指标。总体训练流程如图6所示。 图6 Autoencoder-TCN混合预测模型 本文选取某型军用运输机性能良好发动机的150个架次真实飞行数据作为研究对象,140个架次作为训练集和验证集数据,10个架次作为测试集数据,每个架次选取与EGT相关的11个参数。由于不同飞行阶段下,发动机的工作状态的影响因素有所差异,对预测模型的精确度有一定的影响。为减小飞行阶段对模型预测精度的影响,本文选取每个架次飞机巡航阶段的3 000个时间点,各个时间点的11维向量依次输入Autoencoder网络进行维度压缩,输出3 000个5维特征向量,时序连接后作为TCN网络的输入。以左发为例,11个输入参数分别为:α1(低压转子导流叶片角)、α2(高压转子导流叶片角)、N1(低压转子转速)、N2(高压转子转速)、进气道斜板高度、燃油消耗量、大气机高度、喷口直径大小、油门杆位置、滑油压力、大气机速度。 本文采用均方误差(MSE)和平均绝对百分比误差(MAPE)来衡量预测精度。 均方误差公式如下: (9) 平均绝对百分比误差公式为: (10) 本文模型在配备Intel i5以及NVIDIA GTX 1080Ti CPU的计算机上进行训练与测试,集成开发环境为Anaconda,采用深度学习框架PyTorch。由于深度学习模型中超参数的不同对实验结果影响较大,本文采取实验结合经验的方式对提出的网络结构进行调整,使混合预测模型能够更好地适应飞行数据特点。本文调整的超参数包括TCN隐藏层数、卷积核大小(kernal size),学习率(learning rate)等。不同的超参数设置对网络性能有如下影响: 1)理论上说,隐藏层数越多,TCN网络结构的非线性表达能力越强。但层数过多增加了过拟合风险,同时也增加了训练难度。 2)卷积核的大小影响TCN对时域跨度信息的提取能力。当卷积核太小时,一维卷积运算能够提取到的时间关联性较小,无法深入挖掘飞行数据的时域信息;当卷积核太大时,容易将无关信息纳入计算,增加噪声,破坏网络对数据特征的学习。 3)学习率控制着模型训练参数的更新速度,过小的学习率会降低模型的收敛速度,过大的学习率则会导致训练参数在最优解附近震荡。 为验证不同的超参数设置对网络性能的综合影响,本文采取正交实验法(Orthogonal Experiment)在最小试验次数下确定最优超参数组合。 本文为3因素4水平正交实验,隐藏层数为因素A,范围为[2,3,4,5];卷积核大小为因素B,范围为[6,7,8,9];学习率为因素C,范围为[0.1,0.2,0.3,0.4]。选取正交表为L16(43)正交表,共需要进行16次试验。16次试验的组合方式见表1。 表1 试验参数组合表 测试评价指标为均方误差(MSE)和训练时间(time)。最终测试结果如表2所示。 表2 正交实验法测试结果 由16组正交测试结果分析可以得到:NO.10的均方误差最小,但其训练时间较NO.1~NO.5偏大,主要是由于NO.1~NO.5的隐藏层数较小,模型结构较为简单,降低了训练难度,但导致其非线性化表达能力不足,均方误差较大,因此在训练时间上不具有可比性;NO.10在同等训练难度的组别中(NO.9~NO.12),均方误差与训练时间均为最优,因此可考虑NO.10为本试验最优组合,核心参数配置TCN隐藏层数为4,卷积核大小为7,学习率大小为0.4。最终实验参数配置见表3。 表3 TCN网络模型参数配置 为验证Autoencoder-TCN预测模型的有效性,分别建立BP和LSTM网络作对比实验。为控制其他变量对网络性能的影响,设置相同的网络超参数进行试验。 前140个架次飞行数据以9∶1的比例设置训练集和验证集,分别测试3种不同模型。取后10个架次飞行数据作为测试集,第3架次的部分拟合曲线和预测绝对误差比见图7~8。 图7 不同模型排气温度拟合曲线 采用均方误差(MSE)和平均绝对百分比误差(MAPE)作为模型性能测试指标。3种模型的测试结果见表4。 表4 3种模型预测误差 为衡量混合模型的有效性及其泛化能力,取3种模型10个架次误差指标的平均值作为最终指标,见图9。 图9 3种模型预测误差对比图 从图7和图8直观上来看,Autoencoder-TCN模型在测试集上的拟合曲线优于BP和LSTM模型,其拟合误差较BP和LSTM模型有所降低。由图9量化指标上看,Autoencoder-TCN混合预测模型较BP、LSTM模型的MSE和MAPE均有所降低,MAPE由13.035%和9.593%降低至3.369%。综上说明,本文提出的混合预测模型能够针对航空发动机排气温度的时间积累特性,深入挖掘飞行数据序列的时间维度信息,使用Autoencoder提取相关特征,利用TCN网络处理时间序列数据的优势,可以搭建多层网络结构学习长时间跨度信息,建立发动机排气温度和历史数据的关联模型,采用多组数据对混合模型进行测试,验证了模型的可行性和有效性,提高了预测精度。 图8 不同模型预测绝对误差比图 针对航空发动机排气温度预测模型精度不高、传统RNN类网络对飞行序列数据时间维度信息挖掘不充分的问题,本文提出了一种结合自编码器和时间卷积神经网络的Autoencoder-TCN预测模型。利用Autoencoder提取与排气温度相关的特征,降低输入TCN网络的数据维度,利用TCN挖掘历史数据的关联性,针对飞行数据特点,采取实验的方式配置模型参数,使模型性能最优化。经过实验验证,利用多架次数据分别对BP、LSTM、Autoencoder-TCN模型进行验证,Autoencoder-TCN预测模型较BP、LSTM均方误差和平均绝对误差百分比均有所降低,证明本文提出的混合预测模型能够有效提高预测精度。但测试结果表明,3种模型在不同架次飞行数据上的预测误差均有一定差距,如何提高模型的泛化性能需要进行进一步研究。1.2 时间卷积神经网络(TCN)
2 Autoencoder-TCN混合预测模型
2.1 总体框架
2.2 特征提取阶段
2.3 TCN网络训练阶段
2.4 网络性能测试阶段
3 实验验证
3.1 数据准备
3.2 性能评价指标
3.3 实验环境和参数配置
3.4 实验结果与分析
4 结语