APP下载

基于集成学习的航空器着陆跑道占用时间预测

2024-05-20陈亚青陈九龙

现代计算机 2024年5期
关键词:皮尔逊航空器决策树

陈亚青,陈九龙

(1. 中国民用航空飞行学院空中交通管理学院,广汉 618307;2. 中国民用航空飞行学院民航飞行技术与飞行安全科研基地,广汉 618307)

0 引言

随着国内民航业的快速发展,航空流量与日俱增,现有机场容量将无法满足未来机场运行需求,机场运行效率提升面临瓶颈。航空器着陆跑道占用时间(arrival runway occupancy time,AROT)的预测能够有效地提升机场跑道运行效率,在航空器着陆阶段为管制员做出准确决策和安排航空器间隔提供重要参考,实现安全且高效的航空器运行。

国外学者早在上世纪就对跑道占用时间(runway occupancy time,ROT)展开了广泛的研究。Hu 等[1]通过构建跑道容量模型,研究了着陆航空器尾流间隔和跑道占用时间对跑道着陆吞吐量的影响程度;Spencer 等[2]基于贝叶斯回归算法对AROT 进行预测,将平均预测误差控制在4.3 秒内,提升了预测精度;Lim 等[3]基于数据驱动的方法对跑道占用时间的影响因素进行分析,发现更小的最后进近速度和更优的下滑角能够有效地缩短跑道占用时间;Mirmohammadsadeghi 等[4]通过构建双层前馈神经网络模型,对美国37 个机场的跑道占用时间进行了预测;Chow 等[5]基于决策树回归算法构建了可解释规则的跑道占用时间预测模型,缩短了预测模型计算时间。

国内对跑道占用时间的研究较少,且由于跑道占用时间定义相对模糊,相关研究缺乏系统性和全面性。张思远等[6]利用数学建模方法分析了跑道占用时间和着陆间隔对跑道容量的影响,发现出口滑行道角度和数量会显著地影响跑道占用时间;潘卫军等[7]结合机场场面监视数据,基于BP 神经网络算法预测了着陆跑道占用时间和跑道出口距离;谷润平等[8]对跑道占用时间的影响因素进行了研究,发现飞机尾流等级对跑道占用时间的影响最为显著;李楠等[9]构建了灰狼优化算法和随机森林算法结合的跑道占用时间预测模型,相比其他预测模型,预测精度得到了提升。

上述研究中对跑道占用时间影响因素的研究缺乏系统地归类,同时使用的预测模型多为简单机器学习模型,预测精度偏低。本文研究将从航空器性能、机场条件、气象等方面系统性选择影响因素,对其进行跑道占用时间相关性分析,再基于集成学习算法构建预测模型,通过评估指标对比模型预测精度。

1 数据分析

1.1 跑道占用时间定义分析

美国联邦航空管理局将AROT 定义为[10]:航空器从跑道入口到脱离跑道所用时间;欧洲空中航行安全组织将AROT 定义为[11]:航空器飞越跑道入口时刻与机尾离开跑道时刻的时间间隔。中国民用航空局将AROT 定义为[12]:航空器占用跑道,航空器着陆占用地面保护区的时间。美国联邦航空管理局和中国民用航空局关于跑道占用时间的定义都存在对AROT 开始和结束时刻模糊不清的情况,故本研究采用欧洲空中航行安全组织的定义,根据AROT 定义,如公式(1):

式(1)中:ts为航空器飞越跑道入口时刻,te为航空器脱离跑道时刻。

1.2 影响因素相关性分析

本文研究所用数据样本为2021 年7 月到2022年7月某航空公司737-800机型在成都天府机场、石家庄正定机场和承德机场着陆航班QAR数据,共计9066条。

从航空器性能、机场条件和气象三个方面考虑,航空器着陆跑道占用时间影响因素有航空器重量、航空器越过跑道入口速度、航空器脱离跑道速度、航空器加速度、航空器着陆后滑行距离、机场跑道和滑行道的构型、着陆时风速、风向和气温。影响因素中机场跑滑构型难以进行数值分析,需要借助以下特征参数进行表征:快速脱离滑行道数量、脱离道角度和脱离道口到跑道入口距离。

皮尔逊积矩相关系数常用于度量两组特征参数间相关程度,如公式(2):

式(2)中:r为皮尔逊积矩相关系数,和分别为两组特征参数的样本均值。

使用皮尔逊积矩相关系数对航空器跑道占用时间影响因素进行相关性排序,排序结果如图1所示。

图1 跑道占用时间影响因素排序

由图1 可知,航空器性能中航空器加速度、越过跑道入口速度和脱离跑道速度皮尔逊相关系数较大,相关性强;机场跑滑道构型中快速滑行道数量、脱离道角度和脱离道到跑道入口距离同样具有较强相关性;气象因素皮尔逊相关系数较小,相关性弱。

2 基于集成学习的航空器着陆跑道占用时间预测模型

本文提出一种基于集成学习的航空器跑道占用时间预测模型,集成学习(ensemble learning)算法常用于解决回归预测和目标分类问题,通过使用不同的集成策略:boosting、bagging 和stacking,将多个机器学习模型进行组合,得到比单一模型具有更好泛化能力的预测模型。

基于stacking 集成策略构建的航空器跑道占用预测模型结构分为两层,第一层由多个不同结构的模型构成,第二层为一个元模型。在第一层中,使用k折交叉验证将数据集切分后,由各模型训练输出预测结果;将第一层预测结果合并后作为第二层元模型的训练集,使用新训练集训练得到最终的预测结果。本研究采用stacking 集成策略,使用GBDT、Random Forest、Extra Trees和AdaBoost构建航空器跑道占用预测模型第一层,使用线性回归模型作为模型第二层的元模型,模型参数设置见表1。

表1 模型参数设置

2.1 Random Forest

随机森林算法是一种基于装袋算法的决策树模型,常用于解决分类问题和回归问题。算法步骤如下:

(1)对数据集D进行有放回地Bootstrap 抽样,从中抽取N个样本作为预测模型的训练集。重复k次,得到k个训练集,并将其依次标号;

(2)对每个训练集构建CART 决策树,根据最小误差平方和确定决策树的最优划分点,采用二分划分法从根节点到叶子节点进行划分,得到预测结果;

(3)对所有训练集得到的预测结果取平均值,得到随机森林算法的最终预测结果。

2.2 Extra Trees

Extra Trees(extremely randomized trees)极端随机树算法,基于装袋(bagging)算法集成多棵决策树进行预测。和随机森林算法类似,但在训练样本的选择和划分方法上有所不同,极端随机树的训练集使用相同的训练样本,采用完全随机的划分方式。回归模型常使用均方误差(MSE)作为节点不纯度的判断标准,选择最优的特征作为分裂节点,对所有训练集得到的预测结果取平均值,得到最终预测结果。

2.3 GBDT

GBDT(gradient boosting decision tree)梯度提升决策树算法,由多个弱学习器串联构成,模型通过不断降低残差的方法来提高预测精度,前序学习器的输出为后序学习器的输入,算法计算流程如下:

(1)计算梯度值;

(2)遍历节点,计算得到每个节点的最优输出,更新得到最终学习器。

2.4 AdaBoost

AdaBoost(adaptive boosting)自适应增强算法,算法步骤如下:

(1)对训练样本划分N个学习器的权值进行初始化,赋予相同权值1N;

(2)计算第m个学习器在训练样本中的最大误差和相对误差,得出每个学习器的误差率和权重系数;

(3)更新学习器权重,对每个学习器进行加权,将m个学习器组合成一个强学习器。

3 实例分析

基于航空器历史运行数据,将影响因素作为集成学习预测模型的输入,对不同预测模型的预测结果通过评价指标进行分析,对比预测精度。

为更好对比本文预测模型相较于其他预测模型在预测精度上的表现,对比分析基于Random Forest、Extra Trees、GBDT、AdaBoost 和集成学习的跑道占用时间预测模型,本文选取均方误差MSE和决定系数R2作为模型的评估指标,用于评估预测模型的泛化能力和预测能力。

MSE的区间为[0,1],值越趋近于0,表明模型的预测精度越高,决定系数R2的区间为[0,1],值越趋近于1,表明模型的预测精度越高,评估指标计算公式如下:

式中:yi表示真实值,表示预测值,表示样本均值。

对预测模型预测精度进行对比,结果见表2。

表2 模型评价指标

由表2 数据可知,Stacking 集成学习预测模型的MSE为12.682,R2为0.82,相较于其他预测模型,其MSE值更低,R2值更高,表明本文提出的Stacking跑道占用时间预测模型具有更高的预测精度。

4 结语

本文在相关性分析后发现跑道占用时间影响因素中飞机性能和着陆跑滑道构型的皮尔逊相关系数更高,说明在航空器着陆过程中,更佳的航空器性能和更合理的跑滑道构型能够有效地减小AROT,而气象因素对AROT 影响程度较小。对比多个预测模型发现,本文提出的集成学习模型在模型评价指标MSE和R2上表现更优,拥有更高的预测精度。在未来跑道占用时间的预测工作中,可以对起飞跑道占用时间展开分析,考虑实际运行中人因对预测模型的影响,提高预测准确性,为更加高效的机场运行提供理论依据。

猜你喜欢

皮尔逊航空器决策树
现代统计学之父:卡尔·皮尔逊
现代统计学之父:卡尔·皮尔逊
一种针对不均衡数据集的SVM决策树算法
Excel在水文学教学中的应用
决策树和随机森林方法在管理决策中的应用
卡方分布的探源
论航空器融资租赁出租人的违约取回权
航空器的顺风耳——机载卫星通信
火星航空器何时才能首飞
基于决策树的出租车乘客出行目的识别