APP下载

基于ST-LightGBM的机场离港航班延误预测

2023-04-29曹卫东张金迪刘晨宇

陕西科技大学学报 2023年4期

曹卫东 张金迪 刘晨宇

摘 要:机场间的延误时空关系复杂,多数研究只聚焦于时间维相关性,导致延误预测精度不高.提出一种融合多机场时空相关性的ST-LightGBM模型预测机场离港航班延误.首先,构建多机场延误时空图数据;然后,通过图卷积神经网络提取延误信息空间特征,同时长短时记忆网络对机场各节点延误时间序列进行时间特征提取,形成具有时空相关性的二维特征向量;最后,将时空维特征向量输入LightGBM实现机场离港航班延误数量预测,在训练过程中引入贝叶斯优化算法进行参数寻优.结合真实数据实验,对中国枢纽机场延误数据进行时空维度关系提取并预测.结果表明,本文模型相比于其他基准模型具有较好的预测准确性.

关键词:LightGBM;图卷积神经网络;长短时记忆网络;时空相关性;机场延误预测

中图分类号:TP183

文献标志码: A

文章编号:2096-398X(2023)04-0166-07

Abstract:The spatio-temporal relationship of delay between airports is complex,and most studies only focus on the correlation of time dimension,which leads to the low accuracy of delay prediction.This paper proposes a ST-LightGBM model that integrates the spatio-temporal correlation of multiple airports to predict airport departure flight delays.Firstly,the spatio-temporal graph data of multi-airport delay is constructed;Then,the spatial features of delay information are extracted by graph convolution neural network,and the temporal features of the delay time series of each node of the airport are extracted by long short term memory network to form a two-dimensional feature vector with spatio-temporal correlation; Finally,input the spatio-temporal feature vector into LightGBM to predict the number of airport departure flight delays,and introduce Bayesian optimization algorithm to optimize parameters in the training process.Combined with the real data experiment,the spatio-temporal dimensions of the delay data of the hub airports in China are extracted and predicted.The results show that this model has better prediction accuracy than other benchmark models.

Key words:LightGBM;Graph Convolution Neural Network(GCN);Long Short Term Memory Network (LSTM);spatio-temporal correlation;airport delay prediction

0 引言

近年来,随着航空运输业的快速发展,航线网络拥堵日益严重,由于中国民航交通网具有小世界性[1],源机场航班延误往往会沿着航线传播至关联机场,加剧网络拥堵状态[2],而枢纽机场发生大面积航班延误则会造成民航网络整体瘫痪,对经济发展造成极大影响.由于各机场间延误关联十分复杂,因此深度挖掘机场间延误的时空关联性,并对未来时刻航线网络节点延误状态进行准确预测,对民航发展有着重大意义.

在机场航班延误预测方面,现有研究大多以传统算法与机器学习算法为主.岳仁田等[3]建立了分时段航班起飞延误的物元可拓模型,并对多机场航班延误程度进行了预测;张兆宁等[4]基于O-D场的概念对延误传播程度进行了量化,最终建立了延误传播的状态空间模型;王帝[5]通过多维度标法对机场航班延误关联性进行了分析,并通过预测延误提出了航班时刻优化方法.以上传统算法随着航班数据量及维度的增加导致模型求解时间增加,求解难度上升.而机器学习算法则更好的解决了数据量大,延误关系复杂导致的求解困难的问题.集成学习作为机器学习最热门的研究领域之一,在延迟预测问题上多有应用.A.Anee等[6]和吴仁彪等[7]利用随机森林算法训练数据集并完成机场航班延误预测;R.Shi等[8]提出贝叶斯优化XGBoost算法的数据驱动模型预测火车到达延误;N.L.Kalyani等[9]、唐红等[10]、罗杰等[11]将XGBoost模型与不同算法结合使其更好的适用于高维度的复杂的非线性航班运行数据;G Ke等[12]在XGBoost的基础上提出了LightGBM模型,由于LightGBM占用的内存更低、训练速度更快,因此在气象预测[13]、交通预测[14]和航班延误预测[15-17]等方面广泛应用.何坚等[15]通过LightGBM预测航班有效中转时间;J.Tao等[16]等采用网格搜索和交叉验证方法优化LightGBM模型參数;丁建立等[17]通过对LightGBM采用贝叶斯调参完成航班延误多分类预测.以上研究都取得了较好的预测效果,但大多以某一特定机场为研究对象忽略了机场间的相关性,且都需要大量航班数据及天气数据作为模型训练样本,容易产生维度爆炸问题,并且初步人工特征选择对模型训练效果影响极大.

集成学习类算法在航班延误预测方面应用广泛,但大多针对某一机场对航班延误等级做分类预测,忽略了关联机场的影响且对航班运行数据的时空特征关系提取仍有提高空间.针对以上问题,本文提出一种融合多机场时空相关性的时空轻量级梯度提升机模型(Spatio-temporal Light Gradient Boosting Machine,ST-LightGBM)用于机场离港航班延误数量预测.该算法以机场作为节点,航线作为连接,机场离港航班延误量的时间序列作为节点特征构建时空延误图数据,将图数据输入到 ST-LightGBM模型实现机场延误数据的时空特征学习并预测.通过将多机场航班运行数据映射为具有时空相关性的二维特征向量提高了预测精度.

1 延误时空图数据构建

1.1 数据来源

由于延误多是以枢纽机场作为中心向周边传递影响,因此本文选取中国枢纽机场作为主要研究对象,多机场时空关联网络图如图1所示.

1.2 数据预处理

原始航班数据包含航班号、航司名称、出发机场、到达机场、机龄、机型等102个特征,由于特征项维度高且特征值数据存在大量重复和缺失的问题,不仅会导致维度爆炸还会影响预测结果的准确性,因此需要对数据进行进一步处理.

(1)数据清洗

本文选取机场每小时离港航班延误量作为机场延误时空关联性的研究对象并进行预测,因此保留航班号、出发机场、到达机场、计划离港时间、实际离港时间等相关特征项.由于重要特征项缺失特征值会导致整条数据无法使用,对不同缺失特征值的特征项处理方法见表1所示.

根据延误定义,实际离港时间超过计划离港时间15分钟以上的航班定义为离港延误航班,航班离港延误时间计算方法如下:

式(1)中:depdelay_time为航班离港延误时间,atd为实际离港时间,ptd为计划离岗时间.

将延误时间超过12 h的数据视为异常值,用线性插值法进行修改.

式(2)中:y为插入值,y0为上一时刻延误时长,y1为下一时刻延误时长.

(2)数据标准化

数据标准化可以消除不同指标间的不同量纲,提高模型训练科学性,在模型训练完后对输出值需进行反归一化过程,从而获得所需要的预测值.其公式如下:

式(3)中:xmax为指标x最大值,xmin为指标x最小值,xscale为归一化后的指标x.

1.3 多机场延误时空图数据

机场航班延误在空间上多依赖机场间通航航线向四周传播发散影响,时间上则与机场历史延误数据相关,因此目标机场的延误是关联机场延误信息与目标机场历史延误信息的聚合,目标机场的延误状态受其关联机场及其自身历史延误状态的影响.因此可将不同时刻的多机场航线网络作为不同的图进行处理,每张图中的机场作为节点具有共同的连接关系及不同的延误状态,即不同时刻各机场离港航班延误量不同.t+1时刻机场节点的延误状态是聚合t时刻关联机场节点延误信息及自身节点历史延误状态信息的结果.根据有向图定义Gt=(Vt,Aij,E),Gt是t时刻航线网络延误数据图;Vt为t时刻机场节点集合,|Vt|代表机场节点数量;Aij是带有权重的邻接矩阵,其权值Wij表示机场i与j间关联强度,反映机场i对机场j的影响度;E是边集,代表机场间连接性.因此,多机场延误时空图数据结构可表示为图2.

2 ST-LightGBM模型

ST-LightGBM是在LightGBM的基础上增加了对延误数据时空维度的提取,从而通过学习时空特征以提高预测准确性.最后,再使用贝叶斯优化对模型调参,进一步保障了模型精度.

ST-LightGBM前端由图卷积层和长短时记忆网络构成,完成对输入数据时空特征的提取,形成具有历史延误信息和空间延误信息的二维时空特征向量;模型后端由贝叶斯优化的LightGBM组成,对时空维特征向量进行融合并预测.ST-LightGBM模型预测框架如图3所示.

图3所示的模型预测过程大致分为以下5个步骤:

Step1 构建时空图数据输入到ST-LightGBM模型中.

Step2 利用LSTM细胞单元门结构提取延误数据时间特征,通过GCN图卷积层提取延误数据空间特征.

Step3 将具有时空相关性的二维特征向量输入LightGBM中训练模型.

Step4 贝叶斯优化,得到预测精度更高的参数值.

Step5 获得下一时刻中时间序列的机场离港航班延误量预测值.

2.1 延误数据时间特征提取

从时间维度层面上看,机场航班延误数据是典型的的时序数据,t时刻机场延误状态受历史时刻机场延误状态的影响.LSTM采用一种重复的神经网络模块的链式形式,可以学习时间序列数据隐藏的时间相关性,且通过其独特的构造具有长时记忆的功能,可以避免延误的长时影响效果丢失.因此选择LSTM通过对机场信息的时间序列进行信息的提取与保存,提取机场延误的时间特征,其长短时记忆细胞内部由输入门、遗忘门、输出门三部分组成,其原理如图4所示,具体过程如图5所示.

经过LSTM细胞单元后,机场节点的延误信息被该机场节点相邻时间片信息更新.

延误数据时间特征ut计算公式如下:

式(6)~(11)中:ft是遺忘门的输出;it为输入门的输出;ot为输出门的输出.ut-1为长短时记忆细胞的隐层状态;u′t是当前延误信息的输入;σ为sigmod函数;tanh函数生成候选向量[AKc~]t;w和b为权重和偏置量.

2.2 延误数据空间特征提取

从空间维度层面看,目标机场延误状态与其关联机场延误状态有关.GCN[18]主要是在图结构数据特征基础上,采用多层图卷积层对各机场节点的延误信息特征向量进行空间关联性捕捉.一层图卷积只可以提取一阶邻居机场的信息,为提高机场节点提取周围机场节点信息的能力获得更抽象的空间特征表达,本文采用两层图卷积,具体过程如图6所示,延误数据空间特征us计算公式如下:

2.3 时空特征融合并预测

LightGBM模型是对梯度提升决策树的技术实现,是通过训练若干弱分类器并集成的算法,针对XGBoost在多维数据集下计算效果差的问题,LightGBM通过基于Histogram的决策树算法、单边梯度采样、互斥特征捆绑与带深度限制的Leaf-wise的叶子生长策略等算法提高了其对于多维大数据的学习能力,具有训练速度快和内存占用率低的特点.LightGBM在延误预测方面应用成熟,因此选用LightGBM融合时空维特征向量并预测.

LightGBM通过损失函数的负梯度对提升决策树进行模型训练,其公式如下:

式(14)~(16)中:fn(u)是延误预测值,T(u,θn)是决策树,θn是决策树参数,N为决策树个数,[AKθ^]n为θn的估计值,ut是通过LSTM提取的延误数据的时间特征,us是通过GCN提取的延误数据空间特征.

2.4 贝叶斯优化

采用贝叶斯优化调整模型参数,即通过采用高斯过程考虑之前的参数信息,不断更新先验信息,从而更好地调整最优参数,其较网格调参及随机调参,收敛速度更快,效果更好.其具体流程如图7所示.经贝叶斯优化后的参数结果如表2所示.

3 实验结果及分析

3.1 評估指标

本文为回归预测模型,因此选取平均绝对误差(Mean Absolute Error,MAE),均方根误差(Root Mean Square Error,RMSE),作为模型评价指标,公式如下:

3.2 对比实验

3.2.1 不同模型对比

为验证本文模型可靠性,以某一大型枢纽机场预测结果为例,将本文模型与RF、XGBoost、LightGBM、ST-RF、ST- XGBoost五个基准模型做对比,整体预测性能见表3所示.为更好表示模型间性能区别,选取某一天繁忙时段,即早8点到晚22点单位小时内不同模型的MAE值进行可视化,见图8所示.为保证结果的普适性,随机截取一段时间,将预测值与真实值拟合效果可视化,图9为本文模型和真实值的拟合效果图.

表3显示了ST-LightGBM模型在各个评价指标方面均优于基线模型,MAE指标相比于基准模型均降低超过0.423 2,RMSE指标相比于基准模型均降低超过0.541 4.实验证明,本文模型具有较好的预测准确性.分别对比RF与ST-RF、XGBoost与ST- XGBoost、LightGBM与ST- LightGBM的评价指标,可以看出添加时空特性的机器学习算法ST-RF、ST-XGBoost、ST-LightGBM预测效果均优于其原本的基础算法,这是因为RF、XGBoost、LightGBM对机场延误数据之间隐含的时空关系学习有限,由此可见,将机场数据映射为时空维数据是有必要且具有很好的可行性.

图8为各个模型在繁忙时段不同时刻的MAE值,MAE值能直观反映模型预测效果,MAE值越小,代表预测效果越准确.从图8可以看出,本文模型的MAE值整体上始终小于其他基准模型,实验结果验证了本文模型有效提升了预测精度.图9为本文模型预测值与真实值的拟合效果图,从图9可以看出本文模型预测结果与真实值拟合程度较高,能够很好预测单位时间内机场离港航班延误量.

综上所述,本文提出的ST-LightGBM模型能够很好的将十个机场的高维数据映射成时间、空间上的二维数据且良好的学习机场间的时空相关性,且预测结果精度较高.

3.2.2 高延误日对比

为比较模型面对突发情况的预测性能,选取大型枢纽机场发生大面积航班延误的单日航班运行数据作为测试集.2018年12月20日该机场离港航班共计321架,离港延误航班共计239架,机场离港准点率约为26%,该日可视为高延误日.高延误日不同模型性能对比见表4所示.

从表4可以看出,在发生大面积航班延误时,ST-LightGBM模型相比于其他模型仍能保持较好的预测性能,添加了时空特性的机器学习较其基础算法对突发信息更敏感,预测精度更高.对高延误日预测结果分析,证明了本文模型的有效性且适用于各种延误情况.

综上所述,不同情况下的预测结果进一步验证了本文模型具有较强的鲁棒性和泛化能力,不仅在正常情况下预测性能好,在发生大面积延误的情况下预测效果依旧优于相关基准算法.

4 结论

针对机场间关系复杂导致机场延误预测精度低的难题,本文提出一种基于延误时空图数据的融合多机场时空相关性的ST-LightGBM模型.该模型通过GCN图卷积层、LSTM细胞单元门结构分别提取机场延误数据的空间特征和时间特征,并将多机场的数据映射为具有空间相关性和时间相关性的特征向量;然后将具有时空特性的二维特征向量输入到LightGBM模型并预测.对中国某大型枢纽机场通过真实航班运行数据实验分析,结果表明ST-LightGBM可良好的捕捉分析机场间的时空相关性,相较于RF、XGBoost、LightGBM、ST-RF、ST- XGBoost,预测结果均有不同程度的提升,为民航预测机场延误提供了新的可靠的方法.在本文基础上,下一步考虑将实时天气因素作为影响因子优化模型,提高模型预测效果.

参考文献

[1] 张皓瑜.基于复杂网络理论的航班延误传播特性研究[D].南京:南京航空航天大学,2018.

[2] Q.Wu,M.Hu,X.Ma,et al.Modeling flight delay propagation in airport and airspace Network[C]//2018 21st International Conference on Intelligent Transportation Systems (ITSC).Maui,Hawaii ,USA:IEEE,2018:3 556-3 561.

[3] 岳仁田,魏子琦.基于物元二次可拓多机场起飞延误关联性分析及预测[J].科学技术与工程,2014,14(28):298-302.

[4] 張兆宁,王晶华.机场大面积航班延误传播的状态空间模型[J].科学技术与工程,2018,18(31):241-245.

[5] 王 帝.关联机场的航班时刻优化研究[D].天津:中国民航大学,2020.

[6] A.Anees  W.Huang.Flight delay prediction:Data analysis and model development[C]//2021 26th International Conference on Automation and Computing (ICAC).Portsmouth,United Kingdom:IEEE,2021:1-6.

[7] 吴仁彪,李佳怡,屈景怡.融合气象数据的并行化航班延误预测模型[J].信号处理,2018,34(5):505-512.

[8] R.Shi,X.Xu.A train arrival delay prediction model using XGBoost and bayesian optimization[C]//2020 IEEE 23rd International Conference on Intelligent Transportation Systems (ITSC).Rhodes,Greece :IEEE,2020:1-6.

[9] N.L.Kalyani,G.Jeshmitha,M.Samanvitha,et al.Machine learning model-based prediction of flight delay[C]//2020 Fourth International Conference on I-SMAC (IoT in Social,Mobile,Analytics and Cloud) (I-SMAC).Coimbatore,India:IEEE,2020:577-581.

[10] 唐 红,王 栋,宋 博,等.基于非线性赋权XGBoost算法的航班延误分类预测[J].系统仿真学报,2021,33(9):2 261-2 269.

[11] 罗 杰,侯 霞,杨鸿波,等.基于集成学习的离港航班延误预测方法[J].计算机工程与设计,2022,43(4):1 145-1 151.

[12] G Ke,Q Meng,T Finley,et al.Lightgbm:A highly efficient gradient boosting decision tree[C]// 31st Conference on Neural Information Processing Systems (NIPS 2017).Long Beach,CA,USA:Curran Associates Inc,2017:3 146-3 154.

[13] 余东昌,赵文芳,聂 凯,等.基于LightGBM算法的能见度预测模型[J].计算机应用,2021,41(4):1 035-1 041.

[14] 王芳杰,王福建,王雨晨,等.基于LightGBM算法的公交行程时间预测[J].交通运输系统工程与信息,2019,19(2):116-121.

[15] 何 坚,果红艳,卞 磊,等.基于有效中转时间预测的不正常航班恢复技术[J].北京航空航天大学学报,2022,48(3):384-393.

[16] J.Tao,H.Man,L.Yanling.Flight delay prediction based on LightGBM[C]// 2021 IEEE 3rd International Conference on Civil Aviation Safety and Information Technology (ICCASIT).Harbin,China:IEEE,2021:1 248-1 251.

[17] 丁建立,孙 玥.基于LightGBM的航班延误多分类预测[J].南京航空航天大学学报,2021,53(6):847-854.

[18] L.Zhao,C.Zhang,Y.Liu,et al.T-GCN:A temporal graph convolutional network for traffic prediction[J].IEEE Transactions on Intelligent Transportation Systems,2020,21(9):3 848-3 858.

【责任编辑:蒋亚儒】

基金项目:国家自然科学基金项目(U2033205)

作者简介:曹卫东(1964—),女,天津人,教授,研究方向:数据库与数据挖掘、民航信息系统