APP下载

航班到港延误时长预测及特征分析

2023-07-18丁建立杨锟

河北科技大学学报 2023年3期
关键词:特征选择

丁建立 杨锟

摘 要:为破除XGBoost模型的黑盒特性,增强模型的说服性,提出一种基于SHAP的可解释性航班到港延误时长预测模型。首先,对航班历史数据、天气数据进行融合,在融合数据的基础上进行异常值处理,并利用递归特征消除方法进行特征选择;其次,构建航班延误时长预测模型,利用遗传算法进行参数调优,并与目前常用的模型进行对比;最后,在航班延误时长预测的基础上结合SHAP模型,从总体特征和特征间的相互关系2个角度分析特征的重要程度。实验结果表明,经过遗传算法调优的XGBoost模型预测精度更高,其中MAE降低了8.94%,RMSE降低了19.85%,MAPE降低了6.15%,且其模型精度更高。因此,SHAP模型破除了XGBoost模型的黑盒特性,增强了模型的可解释性,可为降低航班延误时长提供技术支持。

关键词:航空运输管理;延误预测;極限梯度提升;参数寻优;可解释性;特征选择

中图分类号:TP183

文献标识码:A DOI:10.7535/hbkd.2023yx03005

收稿日期:2023-02-27;修回日期:2023-05-15;责任编辑:王淑霞

基金项目:国家自然科学民航联合重点基金(U2233214,U2033205)

第一作者简介:丁建立(1963—),男,河南洛阳人,教授,博士,ccf 会员(17170M),主要从事智能仿生算法、机器学习方面的研究。E-mail:jlding@cauc.edu.cn

Prediction and characteristic analysis of flight arrival delay

DING Jianli,YANG Kun

(Department of Computer Science and Technology, Civil Aviation University of China, Tianjin 300300, China)

Abstract:To break the black box feature of XGBoost model and enhance its persuasiveness, an interpretable flight delay prediction model based on SHAP was proposed. Firstly, based on the fusion of flight history data and weather data, outliers were processed and features were selected by recursive feature elimination method. Secondly, a flight delay duration prediction model was constructed, and genetic algorithm was used for parameter optimization, then it was compared with commonly used models at present. Finally, based on the prediction of flight delay duration and the SHAP model, the importance of features was analyzed from two perspectives: overall features and the interrelationships between the features. The experimental results show that the XGBoost model optimized by genetic algorithm has higher prediction, with a decrease of 8.94% in MAE, 19.85% in RMSE, and 6.15% in MAPE, with higher accuracy compared to other models. The SHAP model can break the black box characteristics of the XGBoost model and enhance its interpretability, which provides some support for reducing flight delay duration.

Keywords:air transport management; delay prediction; limit gradient lifting; parameter optimization; interpretation; feature selection

航班到港延误是指航班实际降落时间比计划降落时间延迟15 min以上的情况。2022年中国民航局发布的民航行业统计公报显示,不正常航班服务投诉超过六成。航班到港延误不仅仅是单点效应,当延误航班数量过大时,还会对同个航班链中的后续其他航班造成影响。因此,利用航班数据、天气数据对航班到港延误时长进行预测,有助于机场人员及时优化航班的排班,减少航班延误造成的影响。

高精准度的航班到港延误时长预测一直是国内外学者研究的热点。为提升模型预测精准度,研究人员主要从改进预测模型、提取有效特征、处理不平衡数据3个方面入手。常用的预测模型有朴素贝叶斯、支持向量机(SVM)、随机森林等传统模型[1-5]。民航业数字化的发展促进了具有更高预测精度的复杂机器学习模型和深度学习模型在民航运输领域中的应用。胡皓月[6]采用大数据方法建立数据模型和预测模型并进行对比实验,通过流式学习的计算模式,提高了模型预测的精度。王春政等[7]提出基于Agent的机场网络延误模型,并适应性选用贝叶斯估计等算法建立参数模型。王丹等[8]通过分析基分类器间区别和精准度的联系,利用增量学习算法提高了模型学习新数据的速率和预测精度。复杂模型虽然具有高精度的优点,但其超参数过多且人工调参困难仍是目前研究者所面临的问题。在提取有效特征方面,MOREIRA等[9]分析影响航班延误的因素,丰富了数据中的天气特征。REBOLLO等[10]提出能够表征重要机场和线路的延迟状态的网络延迟变量,通过分析机场网络延迟增添数据特征提升预测精度。SHI等[11]通过灰色关联分析提取与飞行相关的因素,提出了一种改进机器学习算法的延误预测模型,并在操作效率、内存消耗和预测精准度方面进行了验证。上述学者虽然增添了天气特征、线路特征,却忽略了对飞机起飞和降落具有重要影响的机场特征。不平衡数据会对航班延误等级预测造成干扰,而过采样技术可对数据进行平衡处理,进而提升模型预测精度[12]。在航班延误发生前对航班到港延误时长进行预测,可通过优化过站时间[13]、建立预警模型[14]、最小化网络总传播延迟[15]等有效手段降低航班延误造成的影响。

预测模型的黑盒特性,阻碍了其在现实中的应用。近些年,学界开始关注解释性模型,意图通过解释性模型来解释复杂机器学习模型的预测过程[16-17]。SHAP(shapley additive explanation)模型作为最新的解释性模型,可以分析不同特征的贡献程度[18-19]。GUIMARAES等[20]对中转航班时旅客错过登机的概率进行预测,并使用SHAP模型对其原因进行了分析。ZHANG等[21]和LAMBELHO等[22]使用SHAP模型对延误预测模型进行解释,但缺乏特征间共同影响对模型作用的分析和对单架航班不同特征贡献的分析。

为提高航班延误时长预测模型的可解释性,本文提出一种基于SHAP的可解释性航班到港延误时长预测模型。

1 基于SHAP的可解释性航班到港延误时长整体架构

整体的架构如图1所示。模型整体分为预测和解释2部分,其中预测部分主要使用XGBoost模型进行航班延误时长的预测利用遗传算法对超参数进行调优。将SHAP模型与调参后的XGBoost预测模型相结合,对其影响预测结果的特征进行分析。详细步骤如下。

1)分别对航班数据和天气数据等进行预处理,并以机场、计划离港时间等为键值对数据进行融合并利用递归特征消除算法进行特征选择,最终生成数据集。将数据集70%划分为训练集,30%划分为测试集。

2)构建基于遗传算法调参的XGBoost航班延误预测模型,对参数值进行编码处理,选择恰当的适应度函数,設定参数变异的概率,使用轮盘赌算法选择更好的参数。

3)使用训练集对模型进行训练,在测试集上测试模型性能,使模型达到最优状态。

4)将SHAP模型与训练好的XGBoost模型融合,计算不同特征的SHAP值,进而就总体特征和特征间共同作用对模型的影响进行分析,并对单架航班中不同特征的影响进行分析。

2 基于SHAP的可解释性航班到港延误时长预测

2.1 数据处理和特征转换

将航班数据和天气数据以机场编号和时间为核心进行关联生成数据集。由于数据集合并会产生大量特征缺失的数据,因此对特征值缺少20%以上的数据直接进行删除处理,并将航班因维修等特殊原因造成延误的数据删除。将数据按机场进行分类,生成不同机场每小时的平均滑入时间和平均滑出时间,进而衡量机场拥堵情况。“是否取消”这一特征使用0表示航班未取消,对其缺失值以0进行填充。风速、干球温度、相对湿度等天气特征受月份影响较大,且对航班会产生较大影响,因此使用众数值对其缺失值进行填充。当前序航班延误时长过长时通常会取消该架飞机的后续航班,因此,对数据集中前序航班的延误时间大于300 min的数据进行剔除。为使模型能够处理非数字特征,本文采用Label Encoding法进行处理。例如将出发机场、目的机场转换成数字特征,以方便模型处理。部分特征的箱型图如图2所示。

2.2 基于递归特征消除的特征选择

过多的无关特征不仅会影响模型的训练效果,而且会增加模型的训练时间。因此,采用内核基于随机森林的递归特征消除方法进行特征选择。递归特征消除即多次利用数据进行训练,每次训练结束时,将平均绝对误差作为特征筛选的原则,删除特征重要性较低的特征,再根据新的特征,选取固定数量的特征。最终共选取17个特征,如表1所示。选取部分特征进行预测的结果相较于使用全部特征进行预测的结果的平均绝对误差下降值如图3表示。

2.3 XGBoost的延误时长预测

XGBoost是一种boosting集成学习模型,经常被用在一些比赛中,且效果显著。其目标函数如式(1)所示:

式中:Gj=∑iIjgi;Hj=∑iIjhi,Ij={i|q(xi)=j};Ij表示第j个叶子节点的集合,gi和hi分别表示以第i个样本进行分割中损失函数的一阶导数和二阶导数,T代表当前的第t棵树模型的叶子结点数量,Gj表示叶子结点j所包含样本的一阶偏导数累加之和,Hj表示叶子节点j所包含样本的二阶偏导数累加之和,λ为设定的参数。在确定分裂前目标函数见式(2),分裂后的目标函数见式(3),分裂的收益表示见式(4)。

就XGBoost如何进行航班到港延误时长预测训练进行分析,以随机选取的计划飞行时间、前序航班延误时间、机场平均延误时间3个特征说明基学习器的形成过程,并将树的深度限定为2,Wi表示不同叶子节点对应预测值。XGBoost模型中基处理器结构如图4所示,模型首先对飞行时间特征进行排序,并以相邻飞行时间特征值的平均值作为分裂点,对所有分裂点计算分裂的收益值Pgain,选择分裂收益最大的240 min分裂点进行分裂。对所有非叶子节点按前序航班延误时间、机场平均时间特征重复上述操作进行分裂,直到达到规定的树深度,一个基学习器构造完成。

集成学习是一种技术框架,将多个基学习器预测结果加和,最终得到模型的预测结果。结果如表2所示,其中A,B,…,N分别代表不同基学习器的预测结果。

2.4 遗传算法优化参数

利用遗传算法寻找最优参数,解决了由人工调参的复杂性而导致的易陷入局部最优解的问题。以寻找树的最优最大深度为例,通过遗传算法寻找最优参数的步骤如下。

1)编码 对需要调整的参数进行编码,采用二进制编码。对于难以用二进制表达的连续变量进行离散化。对于取值范围较小的参数,如决策树的最大深度可直接使用3个二进制位进行二进制编码,最大深度搜索空间通常在(2,9)共8种取值,如图5所示。

2)初始化 随机选取M个可行解构成一个初始化种群,并将航班到港延误时长的平均绝对误差定义为适应度函数。根据适应度的评价,对个体进行计算和选择,防止种群退化。

3)选择 选择轮盘赌算法,求得不同染色体与群染色体适应度比值,随机选择,比值较高的染色体进入下一轮选择。轮盘赌选择法可用如下过程模拟实现:

计算出群体中每个个体的适应度f(xi=1,2,…,N),N为群体大小;计算不同染色体的适应度与种群适应度之和的比值,如式(5)所示:

在[0,1]区间内产生1个均匀分布的伪随机数r;

若r1),则选择个体1,否则,选择个体k,使得p(xk-1k)成立。

重复步骤4)和步骤5),共N次。

4)交叉 采用2点交叉方法,在相对应的染色体中,随机选择2个交叉点,交换2个个体对应部分,从而完成交叉。

5)变异 设定变异率(变异概率设置为0.01),以一定概率更改染色体中1个二进制位。

6)输出 算法运行至最大迭代次数时,输出最优个体值。多次运行取最优结果建立XGBoost模型。

2.5 SHAP模型的可解释性

SHAP属于模型事后解释的方法,可以对复杂机器学习模型进行解释。SHAP值的主要思想是Shapley值,其来自合作博弈论(coalitional game theory)方法。在进行局部解释时,SHAP的核心是计算每个特征变量的Shapley值。Shapley值能够公平地将贡献分给训练模型的不同特征,从而得到整体样本的特征重要性排序和不同特征对不同样本的贡献。Shapley值的计算方法,见式(6)。

3 实验结果与分析

3.1 数据来源

航班数据来源于美国交通运输统计局,选取的数据为2022年全年38个机场的历史航班数据,其中主要包含航班号、计划飞行时间、飞机尾部编号、起飞机场、目的机场等共64维数据。以每小时的机场平均滑入时间、机场平均滑出时间来表示机场拥堵数据。天气数据来源于美国海洋和大气管理局,选取的数据为2022年全年天气数据,主要包含干球温度、露点温度、风速、风向等共22维特征。

3.2 模型寻优结果

XGBoost参数众多,无需对所有参数进行调优,只需要对常用参数进调整,本文选取4个常被调整的超参数进行调优,各参数调整范n_estimators[0,1 500],learning_rate[0.1,0.64],max_depth[2,9],subsample[0,1.5]。由于使用二进制对超参数进行编码,因此需要对连续变量的超参数进行离散化,对决策树数量、学习率、样本采样率分别以10,0.01,0.1的倍数进行调整。使用遗传算法以MAE作为适应度函数进行全局最优参数搜索,在迭代45轮后找到最优解,最终得到一组最优参数[1 165,0.15,8,0.8](见图6)。

表3展示了遗传算法优化后的模型精度。相较于未进行遗传算法调优的模型,其MAE,RMSE,MAPE分别提升了8.94%,19.85%,6.15%。使用遗传算法调优后,模型的精度和稳定性进一步得到了提升。与目前常见的XGBBoost参数优化模型贝叶斯优化进行对比,经过遗传算法优化的XGBoost模型在3个指标下表现最好。

3.3 不同模型间对比分析

将XGBoost与GDBT,Random Forest,LightGBM,BP神经网络,RNN,BiLSTM模型对比,验证模型精度,结果如表4所示。其中LightGBM,XGBoost,BiLSTM模型相较于GBDT,Random Forest,BP神经网络模型表现明显优异,而XGBoost模型与LightGBM模型的MAE,RMSE指标接近,经计算可知,其在MAPE方面提升了6.5%,模型更加稳定。在RMSE评价指标下,BiLSTM模型相较于其他模型表现最为优异,但XGBoost模型相较于BiLSTM模型在MAE评价指标下提升了5.34%。综上,XGBoost模型在3个评价指标下对延误预测能达到最好拟合状态。

3.4 基于SHAP的可解释性分析

3.4.1 基于SHAP的总体特征重要性分析

图7整体展示了所有样本不同特征对SHAP值的影响,左侧为重要性排名前10的特征名称,右侧表示不同特征取值大小情况。其中颜色越趋向红色,特征值越大;颜色越趋向蓝色,特征值越小。图7中横坐标以0为分割线,大于0的样本表示对模型的预测起到正向作用,即会增加航班到港延误时长预测的影响;小于0的样本表示对模型的预测起到负向作用,即会降低航班到港延误时长预测的影响。

由图7可知,影响航班到港延误时长最为重要的因素为离港时间,而其他时间因素中的航班计划执行时间也较为重要。前序航班延误时长的影响位列第2,且前序航班延误时长越大越会加大航班到港延误的时长。从机场拥堵情况來说,机场平均滑出时间对航班到港延误时长的影响要大于机场平均滑入时间,其原因可能是从经济方面考虑在不违背航班运行时刻表的情况下,塔台会优先让进港航班使用跑道,而使离港航班在地面等待。天气也会造成航班的延误,其中离港机场压力变化趋势、离港机场相对湿度、离港机场风向、离港机场降水量的影响较大,而其他天气变量的影响程度较小。

3.4.2 基于SHAP的特征共同影响分析

1)离港时间与机场平均滑出时间的影响

离港时间与机场平均滑出时间对航班到港延误时长的影响如图8所示。6∶00到12∶00会加大对于到港延误时间的预测值,8∶30到10∶00时间内红色点明显较多,说明此段时间间隔内机场平均滑出时间较大且影响较大。12∶00到17∶00时间间隔内,会先增加航班到港延误预测时长然后减少其预测值。17∶00到23∶00时间间隔内,又会加大航班到港延误时长预测值,且17∶00到21∶00时间段中,机场平均滑出时间影响占比上升,而在23∶00以后,红色明显减少,说明此时机场平均滑出时间对预测值影响下降。综上,针对3个时间段内由于机场平均滑出时间较大而造成的航班到港延误,航空公司应该优化航班排班,尽量降低离港时间和机场平均滑出时间对航班造成的影响。

2)计划飞行时间与距离的影响

航班计划飞行时间与距离对于航班到港延误时长的影响为非线性影响。如图9所示,飞行距离越长航班计划飞行时间也越长。由图9可知,当航班计划飞行时间在200 min内时,SHAP值大于0的点比小于0的点明显多,因此会加大航班到港延误时长的预测值。而当航班计划飞行时间大于200 min时,SHAP值大于0和小于0的数量大致相等,航班计划飞行时间对于航班到港延误时长的影响降低。当飞行时间较短时,航空公司基于时间成本和经济成本考虑,通常不会设定过长的缓冲时间,且基于舒适性的考虑,飞行员也很难在较短时间内采取措施降低航班延误时长。而对于计划飞行时间大于200 min的航班,由于计划飞行时间较长,航空公司通常会设定较大的吸收航班延误的缓冲时间,并且在较长的飞行时间内,驾驶员容易在保证乘客舒适性的情况下通过调整飞行速度对延误进行吸收。

3)离港延误与前序航班延误的影响

图10展示了前序航班延误时长(PRIOR_ARR_DELAY)和离港延误时长对航班到港延误的影响效果。离港延误与前序航班延误时长关系较为密切,当离港延误时长大于40 min时,其会明显加大对于延误时长的预测值,并且由前序航班延误造成的离港延误所占比例明显上升。其中当航班离港延误时长小于40 min时,由前序航班延误引起的离港延误所占比重较低,且当离港延误小于0 min时,不会增加对航班到港延误时长的预测值。

3.4.3 基于SHAP的单架航班到港延误因素分析

图11为不同特征对单个航班的影响。其中,机场平均滑出时间和离港延误时间对模型结果影响最大。SHAP对单个样本进行分析时,左向箭头与蓝色代表降低航班到港延误时长预测值。右向箭头与红色代表增加航班到港延误时长的预测值,且宽度越宽对结果的影响越大。基于已经训练好的XGBoost模型,采用SHAP模型对2022-02-19从纽瓦克自由国际机场飞往克利夫兰霍普金国际机场的航班进行分析,预测的该架航班到港延误时间为59 min,而实际延误时间为63 min,误差为4 min。离港延误主要受前序航班延误时间和机场平均滑出时间影响,而图11表明前序航班延误时间对此次航班影响较小,因此,此次航班延误的主要原因是机场拥堵引起的机场平均滑出时间较大导致飞机无法按时离港。美国交通运输统计局对此架航班的延误分析表明,国家空域系统(NAS)控制造成29 min延误,承运公司控制造成34 min延误,航空公司和空域控制共同造成离港机场拥堵,增加了纽瓦克自由國际机场的机场平均滑出时间。

4 结 语

为破除预测模型的黑盒特性,本文提出了基于SHAP的可解释性航班到港延误时长预测模型。首先,构造了基于遗传算法优化的XGBoost航班到港延误时长预测,通过使用递归特征消除方法进行特征选择,降低无关特征对模型精度的影响,并使用遗传算法对XGBoost模型进行超参数寻优,进一步提升了模型的预测精度。最后,利用解释性SHAP模型对训练好的XGBoost模型进行解释,就整体特征和特征间共同作用对预测结果的影响进行了分析,并对单架航班到港延误时长的影响因素进行阐释,以期为降低航班延误时长提供解决思路。

本文并未考虑到机场是否有军事管制、突发性机场封闭等特情信息,这些特征可能会对模型预测精度产生影响。

在应用方法,也仅对航班延误预测的可解释性进行了分析、而将分析结果运用到航班计划设计环节所涉及到的问题还需要进一步的研究。

参考文献/References:

[1] 徐涛,丁建立,顾彬,等.基于增量式排列支持向量机的机场航班延误预警[J].航空学报,2009,30(7):1256-1263.

XU Tao,DING Jianli,GU Bin,et al.Forecast warning level of flight delays based on incremental ranking support vector machine[J].Acta Aeronautica et Astronautica Sinica,2009,30(7):1256-1263.

[2] 李频.基于灰色动态马尔科夫的航班延误预测[J].上海工程技术大学学报,2014,28(4):333-336.

LI Pin.Flight delays prediction based on grey dynamic markov[J].Journal of Shanghai University of Engineering Science,2014,28(4):333-336.

[3] AHMADBEYGI S,COHN A,GUAN Yihan,et al.Analysis of the potential for delay propagation in passenger airline networks[J].Journal of Air Transport Management,2008,14(5):221-236.

[4] 何洋,朱金福,周秦炎.基于支持向量机回归的机场航班延误预测[J].中国民航大学学报,2018,36(1):30-36.

HE Yang,ZHU Jinfu,ZHOU Qinyan.Airport flight delay prediction based on SVM regression[J].Journal of Civil Aviation University of China,2018,36(1):30-36.

[5] 程华,李艳梅,罗谦,等.基于C4.5决策树方法的到港航班延误预测问题研究[J].系统工程理论与实践,2014,34(sup1):239-247.

CHENG Hua,LI Yanmei,LUO Qian,et al.Study on flight delay with C4.5 decision tree based prediction method[J].Systems Engineering-Theory & Practice,2014,34(sup1):239-247.

[6] 胡皓月.航班延误预测的大数据方法研究[D].南京:南京航空航天大学,2017.

HU Haoyue.Research on Prediction of Flights Delay Based on Big Data Methods[D].Nanjing:Nanjing University of Aeronautics and Astronautics,2017.

[7] 王春政,胡明华,杨磊,等.基于Agent模型的机场网络延误预测[J].航空学报,2021,42(7):445-458.

WANG Chunzheng,HU Minghua,YANG Lei,et al.Airport network delay prediction based on Agent model[J].Acta Aeronautica et Astronautica Sinica,2021,42(7):445-458.

[8] 王丹,王萌,王晓曦,等.用于航班延误预测的集成式增量学习算法[J].北京工业大学学报,2020,46(11):1239-1245.

WANG Dan,WANG Meng,WANG Xiaoxi,et al.Ensemble of incremental learning algorithm for flight delay prediction[J].Journal of Beijing University of Technology,2020,46(11):1239-1245.

[9] MOREIRA L,DANTAS C,OLIVEIRA L,et al.On evaluating data preprocessing methods for machine learning models for flight delays[C]//2018 International Joint Conference on Neural Networks (IJCNN).Rio de Janeiro:IEEE,2018:1-8.

[10]REBOLLO J J,BALAKRISHNAN H.Characterization and prediction of air traffic delays[J].Transportation Research Part C:Emerging Technologies,2014,44:231-241.

[11]SHI Tongyu,LAI Jinghan,GU Runping,et al.An improved artificial neural network model for flights delay prediction[J].International Journal of Pattern Recognition and Artificial Intelligence,2021,35(8).DOI: 10.1142/S0218001421590278.

[12]HENRIQUES R,FEITEIRA I.Predictive modelling:Flight delays and associated factors,hartsfield-Jackson Atlanta international airport[J].Procedia Computer Science,2018,138:638-645.

[13]高強,周覃,陈欣.基于波及延误的航班过站松弛时间重分配[J].华南理工大学学报(自然科学版),2019,47(10):151-156.

GAO Qiang,ZHOU Qin,CHEN Xin.Redistribution method for slack time of flight based on propagated delay[J].Journal of South China University of Technology(Natural Science Edition),2019,47(10):151-156.

[14]罗凤娥,张成伟,刘安.基于数据挖掘的航班延误预警管理分析[J].计算机科学,2016,43(z1):542-546.

LUO Fenge,ZHANG Chengwei,LIU An.Flight delays early warning management and analysis based on data mining[J].Computer Science,2016,43(z1):542-546.

[15]DUNBAR M,FROYLAND G,WU C L.Robust airline schedule planning:Minimizing propagated delay in an integrated routing and crewing framework[J].Transportation Science,2012,46(2):204-216.

[16]胡新宇,陈翔,夏鸿崚,等.移动App即时缺陷预测模型的可解释性方法[J].计算机应用研究,2022,39(7):2104-2108.

HU Xinyu,CHEN Xiang,XIA Hongleng,et al.Interpretable method of just-in-time defect prediction model for mobile App[J].Application Research of Computers,2022,39(7):2104-2108.

[17]成浩,喻泽成,余波.物理规律监督的RC柱地震破坏模式可解释机器学习方法[EB/OL].建筑结构学报. [2023-02-21].https://doi.org/10.14006/j.jzjgxb.2022.0370.

CHENG Hao,YU Zecheng,YU Bo.A physics-supervised interpretable machine learning approach for seismic failure modes prediction of RC columns[EB/OL].Journal of Building Structures. [2023-02-21]. https://doi.org/10.14006/j.jzjgxb.2022.0370.

[18]廖彬,王志寧,李敏,等.融合XGBoost与SHAP模型的足球运动员身价预测及特征分析方法[J].计算机科学,2022,49(12):195-204.

LIAO Bin,WANG Zhining,LI Min,et al.Integrating XGBoost and SHAP model for football player value prediction and characteristic analysis[J].Computer Science,2022,49(12):195-204.

[19]JABEUR S B,MEFTEH-WALI S,VIVIANI J L.Forecasting gold price with the XGBoost algorithm and SHAP interaction values[J].Annals of Operations Research,2021.DOI:10.1007/s10479-021-04187-w.

[20]GUIMARAES M,SOARES C,VENTURA R.Decision support models for predicting and explaining airport passenger connectivity from data[J].IEEE Transactions on Intelligent Transportation Systems,2022, 23(9):16005-16015.

[21]ZHANG Bo,MA Dandan.Flight delay prediciton at an airport using maching learning[C]//2020 5th International Conference on Electromechanical Control Technology and Transportation (ICECTT),Nanchang:IEEE, 2020:557-560.

[22]LAMBELHO M,MITICI M,PICKUP S,et al.Assessing strategic flight schedules at an airport using machine learning-based flight delay and cancellation predictions[J].Journal of Air Transport Management, 2020,82.DOI: 10.1016/j.jairtraman.2019.101737.

猜你喜欢

特征选择
网络入侵检测场景下的特征选择方法对比研究
基于实例学习和协同子集搜索的特征选择方法
基于最大信息系数和近似马尔科夫毯的特征选择方法
Kmeans 应用与特征选择
基于GA和ELM的电能质量扰动识别特征选择方法
联合互信息水下目标特征选择算法
基于特征选择聚类方法的稀疏TSK模糊系统
非线性电路多软故障的智能优化递阶特征选择诊断方法
基于特征选择和RRVPMCD的滚动轴承故障诊断方法
基于二元搭配词的微博情感特征选择