离港航班延误时间预测方法
2022-07-09陈昱君孙樊荣沐瑶许学吉胡炽
陈昱君, 孙樊荣, 沐瑶, 许学吉, 胡炽
(南京航空航天大学民航学院, 南京 211100)
2010年以来,随着经济发展的不断提升,我国的民用航空业也稳健地快速发展。而民航快速发展带来空中交通流量日益增多。与此同时机场容量、天气状况、空中交通管制情况、航空公司内部原因等原因造成的航班延误数量和时间也逐渐增加[1]。航班延误的预测与控制已成了机场和航司为了提高效率与控制成本的主要研究目标。
数年来,国内外专家致力于研究航班延误的预测以及减少延误等问题。大量的科研成果为航空公司和机场的日常运作提供了重要的指导作用,取得的效果明显。国外航空事业的崛起和成长早于中国,在航班延误问题上的研究也略微早于中国。在延误的传递性发面,文献[2-4]分析了在共用飞机资源的情况下,后续航班出发延误与航班到达延误之间的强相关性,并且证明了计划过站时间能够吸收到达延误,但由于模型中涉及的考虑因素较少,又是在基于某种理想化的假设前提下,并不是特别适用于实际情况。在延误的预测方面,文献[5-7]通过构建航班延误预测模型,发现影响延误的因素主要包括时间、日期、天气等,但存在预测的精度不够高,考虑的影响因素比较片面,在实时动态条件的改变的情况下,模型并不能较好的适用的问题[5-7];刘博等[8]通过文献综述总结了用于解决飞行延迟预测问题的方法,描述了航班延误研究方法的发展趋势及未来研究方向。和国外对延误展开的研究相比,中国对航班延误方面的研究起步较晚。在延误的传递方面,丁建立等[9]在文献[1]基础上,对延误传递过程的研究选取了动态贝叶斯网络。从分析结果中看出,位于上游的航班在有延误的情况下,延误发生与否,取决于飞机过站时间大小。在延误预测方向,吴仁彪等[10]通过分析航班延误在航空网络内产生的延误波及现象,确定会受前序延误航班影响的航班链,然后对选定的航班链数据进行清洗,将航班信息与机场信息进行数据融合和特征提取,提出一种基于CBAM-CondenseNet的航班延误波及预测模型。
在影响延误的因素方面,徐海文等[11]考虑了数据的时效对航班延误预测时效的影响,提出一种基于时效信息的离场航班延误预测模型;谢华等[12]采用时间序列特征对机场航班离港延误时间进行预测,研究了气象因素和少量管制因素对延误的影响;李雨吟等[13]在丁建立等[9]的研究基础上,采用时间序列关联性衡量方法分析机场延误时间特征,将持续可变的时间规整距离与发生延误总时间及气象因素结合,发现气象因素对于机场延误时间的长短有较大影响,但是忽略了其他方面的影响;续长青等[14]主要分析了双流机场航班延误时间随能见度变化的规律,对不同能见度情况下的航班延误时间做出预测;周洁敏等[15]建立弹性神经网络预测模型,探究了航班运行的常规数据集对延误的影响。
综合上述国内外研究现状,通过对比发现以上研究存在以下几个问题:
(1)对影响航班延误的因素考虑不够全面。
(2)模型预测延误的准确率还有待提高。
(3)研究存在局限性,只以时间阈值作为衡量指标。
针对国内外在航班延误方面研究的不足,本文中运用BP(back propagation)神经网络模型,并对其做出一定的优化来解决预测精度不足以及研究因素不全面的问题,具体工作如下。
以浦东机场为背景,建立离港航班延误时间预测模型。首先分析影响离场航空器延误的因素,并分析其关联性;考虑到使用数据结构的非线性特征,采用BP神经网络对离港航班延误时长进行预测;并针对基本BP网络全局收敛速度缓慢、易出现局部极小值等情况,对模型采用多种改进方法进行优化,从而建立对离港航班延误时间预测效果更佳的BP神经网络预测模型。其次构建基于支持向量机回归的预测模型进行预测。最后以浦东机场2019年航班运行数据及2019年航空例行天气报告(meteorological terminal aviation routine weather report, METAR)为实例研究对象,将优化之后的BP神经网络预测模型与支持向量机预测模型的预测结果进行比较,选择最优预测模型。
1 离港航班延误的影响因素及其影响分析
1.1 离港航班延误的影响因素
通过对国内外关于航班延误研究情况的文献综述和航班离港的实际情况可知,影响离港航班延误的主要因素有:地面风向、风速、主导能见度、天气现象、云底高、云量、温度、露点、修正海平面气压(query normal height, QNH)、航班所属航空公司、目的地、起飞使用跑道、停机位、起飞航班所处航站楼、航班类型、滑行时间、推出时刻、推出序列、计划离港时刻、实际起飞时间等。下面分析这20个影响因素与离港延误时间的相关程度。
1.2 不同因素对航班延误的影响分析
1.2.1 数据来源
本文数据来源于浦东机场统计的2019年1月8日—11月24日的各大航空公司173 193 条历史离港航班信息,以及2019年浦东机场METAR报文。
1.2.2 METAR报文解析
结合航空气象相关知识,对收集到的METAR报文进行解析,解析属性包括:地面风向、风速、主导能见度、天气现象、云底高、云量、温度、露点、QNH。
具体的报文解析方法如下:
(1)METAR报文的发布时间间隔是30 min,在本研究采用每小时中整点小时数的METAR报文数据作为整个小时的天气数据。
(2)根据METAR报文的具体格式,提取其中出现的地面风向、风速、主导能见度、温度、露点、QNH的数值。例如,报文中的风向340°,风速3 m/s,能见度大于10 km(CAVOK),温度4 ℃,露点-6 ℃,QNH 102 700 Pa,并将其对应为340,03,9 999,4,-6,1 027。
(3)依据METAR报文,提取具体的云底高、天空云量。其中,天空云量分为七种情况,依次是FEW(占1~2个八分量)、SCT(占3~4个八分量)、BKN(占5~7个八分量)、OVC(占8个八分量)、SKC(无云)、NSC(无云)、CAVOK(无云),依据专家经验建议,将其分为五个等级,分别是0:SKC/CAVOK,1:FEW,2:SCT,3:BKN,4:OVC;云底高采用报文中的具体数值乘以30(m)进行换算,其中CAVOK、SKC、NSC均采用1 500(m)作为云底高。
(4)提取METAR报文中出现的天气现象,并对其进行语义的转换。针对METAR报文中有关天气现象的缩写,可参考专家经验建议将其分为0~3四个等级,其中0级表示天气状况理想,无影响;1级表示暂存影响飞行的轻度天气状况;2级表示存在影响飞行的中度天气状况;3级表示存在影响飞行的恶劣天气状况。具体天气状况所对应的等级如表1所示。
1.2.3 历史航班数据与METAR报文融合
将浦东机场2020年历史航班数据中的航班计划离港时刻,按照对应整小时的METAR报文时间,进行融合。以航班号CQH8843为例,其融合后的航班数据如表2所示。
表1 各天气情况对应的等级Table 1 The level corresponding to each weather condition
表2 融合后的历史航班数据Table 2 Historical flight data after fusion
表2中的航班基本数据还需进行语义的转化。其中,所属航司和目的地对应的多位大写字母利用ONE-HOT编码将其全部进行数字化;计划离港时刻、实际离港时刻、推出时刻均转化为12位纯数字,前4位为年份,中间5、6位为月份,其次的7、8位为日期,最后4位为小时与分钟;航班类型的转化按照表2变为对应数字;滑行时间和延误时间取其单位前数字。
1.2.4 数据预处理
数据的预处理过程分为以下三步。
(1)缺失值处理:针对本文中使用的数值性质的缺失值,采取该值在附近时间内所有对象中的取值的平均数值来填充该丢失的属性值;针对其他非数值性质的缺失值,根据数理统计数学中的众数原理,用该属性在同一小时内其他所有对象出现频率最高的值来填补该缺失的属性值。
(2)异常值处理:若该条数据中的异常值较多,则删除该条含有异常值的数据;若该条数据中的异常值较少,则将异常值视为缺失值,使用缺失值处理方法来处理。
(3)标准化处理:数据分析的结果会受不同因素间的量纲和单位影响,为了规避这种影响,在进行相关性分析和后期预测前需要对数据采取标准化(归一化)处理。转换函数为
(1)
2 离港航班延误时间预测算法
2.1 BP神经网络及其结构优化
2.1.1 神经网络基本原理
BP神经网络是一种按照误差逆向传播算法训练的多层前馈神经网络,是目前应用最广泛的神经网络[16]。其运行计算流程图如图1所示。
BP网络的优点体现在:①在解决非线性问题时具有卓越的映射能力;②具有卓越的自主学习以及自主适应能力;③具有卓越的容差能力。但其也存在以下缺点:①存留局部极小化问题;②网络收敛速度慢;③预测能力和训练能力的冲突,可能出现“过拟合”现象。
图1 BP神经网络计算流程图Fig.1 BP neural network calculation flowchart
2.1.2 神经网络结构优化
对于2.1.1节中提到的BP神经网络现存的缺陷,国内外学者也一直在探究各种优化的措施,目前的研究主要集中在:①优化网络收敛速度怠慢的问题;②优化出现局部极小点的情况。本节针对上述两个问题提出两种优化方案。
(1)BP神经网络活化函数设计。为了使神经网络性能发生相应的改变,可以通过替换隐含层到输出层的活化函数来实现,常用的活化函数有:线性(饱和线性)活化函数、Sigmoid活化函数、径向基活化函数、双曲正切活化函数、阈值或阶跃活化函数以及Gaussian活化函数等。
(2)基于AutoEncoder的BP算法优化。自动编码器(AutoEncoder)是依照人工神经网络(artificial neural network, ANN)具有特定层系结构这一特点,设定其输出与输入是一致的,然后用不带标签数据训练从而整合网络参数的方法。自动编码器的一个重要应用是为输入的影响因素得到低维的隐向量编码,因此本文中采用自动编码器对BP神经网络进行后续的优化工作。考虑到变分自动编码器(variational auto-encoder,VAE)通常被用来完成图像生成任务,而降噪自动编码器(denoising auto-encoder,DAE)的目的是利用编码器的输入元素得到一个容差模型,并且相较于变分自编码器,模型结构的相对不复杂是降噪自编码器的优势,获得影响因素特征向量的时间较短。因此本文中选用降噪自动编码器来进行基本BP网络算法优化。
基于DAE优化的BP神经网络模型的具体结构如图2所示。
图2 DAE-BP模型结构Fig.2 DAE-BP model structure
2.1.3 DAE模型训练
(2)
式(2)中:NN为经DAE结构转换的特征向量的映射。
延误影响因素的降噪自动编码器模型结构如图3所示。
图3 自动编码器模型结构Fig.3 Automatic encoder model structure
(3)
f(x)=max(0,x)
(4)
(5)
式(5)中:z表示编码器的输入;W2表示编码器的权重矩阵;b2表示偏移值。
损失函数为
(6)
在式(6)中添加正则化以规避模型中可能产生过度拟合的情况,完成更新之后的损失函数为
(7)
式(7)中:k为输入数据时就已存在交叉的标志选择;W为该网络整体的权重矩阵;λ为正则参数则选取。DAE模型当中最优参数值的选取依靠的是选用梯度下降算法。
2.1.4 特征向量生成
当完成上述DAE模型的训练之后,对模型的结构再进行更改,更改后新的模型结构如图4所示。
图4 特征向量生成过程Fig.4 Feature vector generation process
将上述完成训练后的DAE模型解码器部分除去,将延误影响因素的向量作为DAE编码器的输入,通过编码器编码过程,即可获取全新的延误影响因素的隐藏层特征向量。把该延误影响因素的特征向量作为输入,进行BP神经网络的训练环节。经过上述网络权重参数的初始化过程后,即能处理随机初始化参数导致的原BP网络局部极小情况的缺点。
2.2 支持向量机
2.2.1 支持向量机原理
支持向量机(support vector machine, SVM)是一种基于统计训练学习理论和凸优化的机器学习方法,能完美地解决非线性以及局部极小点等情况。SVM中心思想是组建一个用以分类的决策超平面曲面,其中涉及的最优分类函数为
(8)
式(8)中:i=1,2,…,n,n为Lagrange乘子,Lagrange的完整表示式为
(9)
(10)
式(10)中:xr和xs表示上述两个类别中随机一对支持向量。
非线性SVM经过非线性转换方法,用一个位于高维空间的新的线性问题去取代原本的非线性问题,即用转化后的新空间内积[φ(xi)φ(yj)]替代原先的空间内积(xiyj)。将核函数采用K(xixj)=[φ(xi)φ(xj)]标记,其中求解最优分类函数、Lagrange乘子为
(11)
(12)
采用的径向基(RBF)核函数为
(13)
构造离港航班延误预测模型的SVM算法结构如图5所示。
图5 SVM结构图Fig.5 SVM structure diagram
3 构建离港航班延误时间的预测模型
使用2019年浦东机场的历史航班数据和METAR报文作为实际算例;将1.2节解读出的20个影响因素作为模型的输入变量,结合2.1节和2.2节所提到的两种算法,分别构建基于改进BP神经网络预测模型以及支持向量机预测模型;检验基于优化后的BP模型和基于SVM模型对离港航班延误时间预测的效果,并进行模型对比评价。
3.1 基于优化BP神经网络的离港航班延误时间预测模型
将1.2节得到20个影响因素作为输入;以起飞延误时间作为输出;隐藏层1层,隐藏层节点数的选取可运用经验公式计算,即
(14)
式(14)中:j为隐藏层节点个数;n1为输入节点个数,本文中n1=20,n2为输出节点个数,本文中n2=1,a取9,由此计算可得j=13。
在搭建神经网络结构后,使用2.1.2节中提到的两种优化方法对基本BP网络进行设计,使其拥有更好的性能。
首先探讨不同的活化函数排列组合对网络性能影响。通过采用6种常见的活化函数(logsig、tansig、satlin、tribas、radbas、purelin函数)的两两组合来进行设计,一共有36中组合,其对BP网络性能的影响如图6所示。
从图6可以看出,在不同的活化函数的组合下,除了16、28、35组均方误差(MSE)明显变大之外,其余组的(MSE)的变化情况不明显。因此,在除去这三组之后,着重比较训练样本相关度系数R和测试样本R的大小。可以看出第2组的训练样本R=0.850 53最高,且测试样本R=0.850 53也位居36组中的前列,因此采用第2组的活化函数组合,即选用tansig作隐藏层活化函数,选用logsig作输出层活化函数。
图6 各活化函数组合下BP网络的性能Fig.6 Performance of BP networks with each combination of activation functions
然后进行输入特征重构,将运用降噪自编码器,标记DAE-BP为DAE优化的BP网络。其中DAE模型使用2层多层感知器(multilayer perceptron, MLP)网络作为编码器与解码器的神经网络。MLP1层神经元数量设定20,MLP2(DAE隐藏层)层节点数量设定15,解码器的MLP1层神经元数量同样设定20。加噪层的加噪比例设定为0.25。模型批量大小设定5 000,迭代层数设定50次。BP网络结构为3层网络,网络参数设定为:影响因素的特征向量作为输入;以起飞延误时间作为输出;隐藏层1层,隐藏层节点数为13;选用tansig作为隐藏层活化函数,选用logsig作为输出层活化函数,选用列文伯格-马夸尔特算法(Levenberg-Marquardt, LM)。
从图7和图8中可以得出DAE-BP模型训练集R=0.974 38,测试集R=0.974 38,MSE=0.002 288 6,预测精密度有着明显提高。
图7 DAE-BP网络对样本的拟合程度Fig.7 Performance of BP networks with each combination of activation functions
图8 DAE-BP网络的训练误差曲线Fig.8 Training error curve of DAE-BP network
3.2 基于支持向量机回归的离港航班延误时间预测模型
使用MATLAB 2016软件里的libsvm-matlab工具箱与有关自主编代码来构建支持向量机预测模型。将1.2节得到的20个影响因素作为输入参数;以起飞延误时间作为输出;核函数采用径向基(radial basis function, RBF);选用libsvm工具箱进行网络的训练。随机分类1.2.4节中预处理完成后的173 192条历史航班数据,其中80%的样本归入训练集,20%的样本归入测试集。
RBF核函数可以实行非线性映射,但参数中的目标函数的惩戒因子c以及核函数参数值γ所选定的值的差异会改变最终判定情况的正确率。采取网格搜索法以及k折交叉验证(k-fold cross validation,k-CV)的方法寻找来取得理想的判别正确率,以此规避过度拟合和欠缺拟合情况的发生。
在进行正式的训练前,随机抽取了1 000、5 000、10 000个样本数据进行了算法测试,可以得出,在三次测试中不管是训练集还是测试集的预测结果,MSE均小于0.05,R2均在0.96以上,可以看出这三次测试样本均能取得较好的预测结果。
然后将17万余条数据样本全部放入SVM模型中进行训练,训练耗时120多个小时仍然未能完成,为了提高模型的训练效率,将原先的17万余条数据样本改为随机抽取5万条数据样本进行模型的训练,耗时3.972 h完成训练,最终得到如图9所示的结果。从图9中可以看出,不管是训练样本还是测试样本MSE都为0.001 1、R2都为0.97,虽然较样本数据10 000条时的性能略微有所下降,但整体仍处于十分理想的情况,可以说该预测模型能取得特别成功的结果。
图9 基于SVM的最终预测结果Fig.9 Final prediction results based on SVM
3.3 预测结果和模型比较
由3.2节可知,SVM预测模型无法处理17万余条数据,所以将随机抽取的5万条数据输入优化的BP神经网络预测模型,对输出结果进行性能的对比。
由表3可以看出两种模型的预测性能都不相上下,能取得比较理想的预测效果。但是SVM预测模型无法预测体量太大的数据,并且在相同体量的数据下,优化后的BP神经网络预测模型性能略好于SVM预测模型,并且在预测时间上有绝对的优势。结
表3 BP神经网络和SVM预测性能对比Table 3 Comparison of BP neural network and SVM prediction performance
合民航数据体量大的特点和预测的时效性要求,基于优化BP神经网络的离港航班延误预测模型既能满足预测精密度的要求,又能有更高效的训练效率,具有更好的准确性和高效性。
4 结论
为研究离港航班延误时间预测的方法,首先对METAR报文进行了语义转换,并将其与历史航班数据相融合得到初始数据;然后构建了基于BP神经网络和支持向量机的延误时间预测模型,并对BP神经网络进行了优化,得到精度更高的神经网络预测模型;最后对两种模型的运行性能和预测精度进行了对比和评价,经分析得出:基于优化BP神经网络的离港航班延误时间预测模型具有更高的精度和更高的运行效率,是一种高效的延误预测方法。
本文研究的内容还存在一定欠缺:样本数据采集不够充分;影响因素考虑不够全面;模型未考虑延误的传递。后续的研究可以考虑延误传递的因素,在模型中加入前序航班延误情况和过站时间,使模型更加完善。