APP下载

基于灰色GA-BP神经网络的航班延误预测方法

2022-06-14谷润平来靖晗魏志强

计算机仿真 2022年5期
关键词:关联度灰色航班

谷润平,来靖晗,魏志强

(中国民航大学空中交通管理学院,天津 300300)

1 引言

随着航班量不断增长,其延误情况愈发严重,若不及时分析所潜在的影响因素与规律,并研究相关估计模型以尽可能减小延误损失,将对民航业各方的效益造成不良后果。因此,对其针对性的研究是十分必要的,同时,延误预测研究将为民航相关部门的航班运行决策提供理论参考[1]。

目前,已有多种算法[2-14]进行了延误预测的相关研究。国外,Kim[2]等研究了容量和需求对纽约地区机场延误水平的影响;Mukherjee[3]等采用逻辑回归和决策树模型,预测机场地面延误的发生;Noboru[4]等利用浅层人工神经网络(ANN, artificial neural network)对机场空域进行延误预测;Khanmohammadi[6]等引入多级输入层神经网络算法处理航班数据中的名义变量,以预测延误;Pyrgiotis等[7]进行了近似网络延误建模,并运用排队论模型进行单个机场的延误计算;Rebollo[8]等利用随机森林方法预测航班的平均离港延误;国内,徐涛[9]等针对空运需求与机场容量冲突条件,采用增量式排列支持向量机算法进行延误预警;程华[10]等结合航班数据特点,构建了基于C4.5决策树方法的延误预测模型;罗谦[11]等采用构建的非线性回归模型,预测了大型枢纽机场的航班延误;吴薇薇[12]等运用加权马尔科夫链模型,对关键机场的整体延误状态进行预测;吴仁彪[13]等进行基于Spark并融合气象数据的并行化航班延误预测;张敏[14]运用集对分析的方法,建立了航班延误预警模型。

综上,国内外学者多以某一具体机场的延误问题作为研究对象,且对延误特性的统计量化规律研究有所欠缺;对延误影响参数的优化研究较少,忽视了其预测效率和结构优化;另外,延误预测建模考虑的影响因素较为局限,多是仅考虑航班时刻表中的参数数据,缺少全面性与系统性,在实践应用中具有一定限制。近年来,面向大数据的深度学习方法广泛应用于计算机视觉、语音识别、自然语言处理等方面,其性能明显优于传统算法[15]。鉴于此,首先利用数据处理与统计方法,全面分析航班延误影响因素与规律,之后采用灰色关联算法,进行延误相关性分析以筛选出关键因素,最终实现基于灰色GA-BP神经网络的延误分析与预测建模方法,实现延误的高精度估计,为提高航班正常率与运行效率提供研究思路,其方法示意图如图1。

图1 航班延误预测建模流程

2 航班延误分布统计与特性分析

航班延误情况可能会出现明显的差异性,即具有不同的延误分布特性与规律[16,17],将航班延误定义为实际起飞/到达相对于计划起飞/到达时间的偏离,正值即为航班延误时长。依据某航空公司2018全年的航班延误统计数据,运用数据统计与处理方法,获得基于时空属性的起飞与到达延误统计分布曲线,以进行延误特性分析。

2.1 时间分布统计分析

2.1.1 月统计延误分布

对起飞延误和到达延误在全年每个月中的平均延误情况进行统计,结果如图2。每月的延误水平会有一定差异,即波动性较强;全年的延误水平随着季节差异性而变化,其中平均延误时长的分布浮动在20~80min之间,且7月份延误状况最严重。另外,到达平均延误时间整体大于起飞平均延误,且变化趋势相似。

图2 月统计延误分布

2.1.2 周统计延误分布

星期属性在航班延误程度上也有一定波动性,每日平均延误时长具有一定差异性,每周平均延误时长整体稳定在30~70min之间,如图3。同时,在该条件下,航班到达延误平均时间明显较起飞延误平均时间长。

图3 周统计延误分布

2.1.3 小时统计延误分布

对于起飞与到达延误水平,两者变化规律趋于一致,且各时段随着时间变量都具有明显的强波动性,如图4。另外,延误时长较高的时段整体集中在8时和13时,即为繁忙时段。

图4 小时统计延误分布

2.1.4 空间分布统计分析

由图5可知,由于不同机场规模以及发展水平等众多因素的影响,导致不同机场的延误水平具有较大差异性。因此,获取所涉及机场的规模数据、正常性数据及其机场服务评级作为航班延误的影响参数。

图5 多机场统计延误分布

2.2 延误影响因素分析

由上述分布特性分析可知,航班延误在时空属性上具有强烈的关联性。月份、星期和时段特征可以一定程度上来表征延误分布特性及其航班延误程度,同时考虑节假日的差异性,因此将是否节假日属性与小时、星期和月份属性作为时间影响参数。同时,各机场的起飞延误和到达延误具有明显相似的变化趋势,相关性较强,即起飞延误会一定程度上影响到达延误,是以将起飞延误作为后续到达延误估计模型的影响参数。

据此,结合民航航班正常统计办法规定,以航空公司、机场、天气和其它四个维度为出发点,基于航空公司历史航班运行数据及获取的相关影响参数数据,建立航班延误估计指标体系,如图6。通过处理该延误相关数据,具体包括数据清洗、定量化及其多维匹配与融合,为后续延误预测模型的构建提供基础。

图6 航班延误估计参数指标

3 航班延误预测建模

3.1 灰色关联模型

由上述航班延误的分布规律与影响因素分析可知,各参数都能够不同程度地反映延误度,比较容易建立建模数据库。然而,因获取的影响因素数据具有多样性的特点,且各因素影响下的延误情况具有一定差异性,与历史运行数据进行匹配后构建的数据库,将会引入不必要的延误预测误差。因此,采用灰色关联分析(Grey Relational Analysis,GRA)优选参数建模数据库,依据关联度大小来厘定延误参数建模数据库的有效性。

GRA是一种基于关联性分析的多因素量化分析方法,其主要思想是根据相关计算得到影响因子间的灰色关联度,以此衡量各因子与研究对象的关联与贡献程度[18]。因子之间具有越为相似的变化态势与程度,则表明其关联性越强。灰色关联建模具体流程如下:

1)确定分析序列

令某航班的到达延误时间(X0)为参考序列,且影响延误各个指标参数分别为:航班号(X1)、机号(X2)、机型(X3)、计划起飞(X4)、计划到达(X5)、起飞机场(X6)、到达机场(X7)、航班性质(X8)、月份(X9)、星期(X10)、是否节假日(X11)、飞机状态(X12)、起飞机场规模(X13)、到达机场规模(X14)、起飞机场正常性(X15)、到达机场正常性(X16)、起飞机场评级(X17)、到达机场评级(X18)、天气状况(X19)、延误波及(X20)、流量控制(X21)、军事活动(X22)、空管状态(X23)、旅客(X24)、特殊事件(X25)、其它(X26)、起飞延误(X27)为比较序列。

参考序列X0={X0(k)|k=1,2,…,n}与比较序列Xi={Xi(k)|k=1,2,…,n},(i=1,2,…,n)构成的矩阵为

(1)

2)无量纲化

为了消除各序列数据的量纲差异,利用均值化法进行延误数据及其相关影响因子数据的处理,公式为

(i=1,2,…,27;k=1,2,…,n)

(2)

3)计算序列间关联系数

X0与Xi的关联系数公式如下

(3)

4)计算序列间关联度

将各关联系数ξ0i集中体现在一个值,即为关联度。其值越大,表明两者的几何曲线形状越接近,相关性越强。公式如下

(4)

5)序列间关联度排序

对各比较序列与参考序列的关联度由高到低进行排序,得到各影响因素与延误的相关性结果,例如:假设γ01<γ02,即表示X1与X0更为一致,X1与延误的相关程度更高。

3.2 GA-BP神经网络延误预测优化模型

优化模型的基本思路为:由于BP神经网络具有易陷入局部极小值等不足,将遗传算法(Genetic algorithm,GA)作为其优化方法,实现非线性与多维空间的全局寻优。首先,将延误预测网络的初始权值与阈值作为其遗传染色体基因进行相关编码,完成GA算法的种群初始化;然后,计算遗传过程中的个体适应度,经由选择、交叉和变异算子运行,得到高适应度的染色体并保留,继而获得新种群,直至达到算法终止条件[19]。

GA-BP网络延误预测模型构建流程图如图7,其优化建模的具体实现步骤如下所示:

(5)

式中:Xi为第i个数据样本;Xmax为序列中的最大值,Xmin为其最小值。

2)GA参数设置及其种群初始化。标定遗传中的种群规模为80,迭代次数为200,交叉及变异概率分别为0.6、0.08,并进行相关染色体基因编码。

3)计算适应度。设定适应度为预测值和期望值之间的误差平方和,公式为

(6)

式中:k为系数;n为输出个数;yi为第i个神经节点的期望值,oi为其实际值。

4)随机性选择种群个体,并进行交叉和变异,从而生成新染色体,保留优化的染色体并遗传至下一代得到新种群。

5)重复3)、4)步,当适应度收敛至迭代次数时,获得最优染色体,以此作为BP网络模型的初始权值与阈值。

6)设置BP参数。基于遗传进化得到的初始权值与阈值,标定延误预测网络模型中的学习算法为Trainlm,学习率为0.01,训练次数与目标分别为1000和10e-5。

7)将GRA优化的延误影响因子数据与到达延误时间数据输入网络。输入层的神经节点获取延误影响因子数据后,由激活函数fX计算得到Y″,之后输出到隐含层神经节点,并由激活函数gX计算得到Y,其运行公式为

Y″=fX(WinY′+θin)

(7)

Y=gX(WoutY″+θout)

(8)

式中:Y′、Y″和Y分别为输入层、隐含层与输出层;Win和θin分别为输入层到隐含层之间的权值与阈值;Wout和θout分别为隐含层至输出层之间的权值与阈值;fX为Logsig函数,gX为Purelin函数,公式为

(9)

gX=X

(10)

式中:X为输入样本数据。

8)计算输出Y与输入到达延误时间数据间的误差δ。将δ反馈至前两层神经节点,分别修正每层神经节点的权值与阈值,并基于新的权值与阈值对7)步进行循环运算,直至δ小于训练目标10e-5。

图7 GA优化BP神经网络流程图

4 算例仿真

4.1 灰色关联分析

根据获取的某航空公司2018年1月1日-2018年12月31日全年实际延误数据及其相关参数数据,由式(1)对航班到达延误及影响因素,取分辨系数ρ=0.5,根据式(2)、(3)、(4)计算关联度,将特征按照关联度由大至小排序,见表1。其中,关联度阈值取0.8,即选择灰色关联度大于0.8的影响因子为主要影响因子,作为GA-BP网络的输入。

表1 延误影响因子的灰色关联分析结果

由表1中的灰色关联度可知,航班号、机号、起飞机场规模及到达机场规模4个因子相比于其它因子而言与到达延误的关联度不大,表明该数据序列对到达延误时间的影响能力不足,可作为无效数据点进行剔除。最终选取关联度在0.8以上的23个影响因子作为GA-BP网络模型的输入神经元,到达延误时间作为输出结果。

4.2 网络训练与仿真验证

利用预处理后的延误优化参数数据库,据经验公式并通过网络性能测试,确定中间层设置6个神经节点,进行灰色GA-BP网络延误预测模型构建。令网络训练集为随机选择的7000个样本数据集,检验样本为其余300个样本数据集,对其进行网络模型的学习训练与效能验证对比。

首先,通过GA算法优化延误预测模型网络,即获得该网络初始权值与阈值的最优解。随着代数增加,适应度函数在遗传进化中的变化曲线如图8。经过多次迭代,种群个体的适应力得到增强,进化80代附近时个体适应度趋于稳定。

图8 GA算法进化曲线

该延误预测模型网络的训练误差结果如图9,在较少的训练次数下,达到最佳验证性能;延误预测与期望的对比曲线如图10,由预测的拟合曲线可知,灰色GA-BP网络模型在航班延误预测应用中的拟合程度与预测精度较高。

图9 灰色GA-BP网络延误预测训练误差图

图10 预测与期望对比

为了进一步评估此灰色GA-BP网络性能的质量与优化效果,针对进行灰色关联模型筛选的关键因子数据和未筛选的原始数据,分别采用GA-BP网络、BP网络模型进行预测。将不同随机数据组合分为5组进行试验,运用相同模型参数,选择绝对误差(MAE)以及拟合优度(R2)作为模型性能指标,对该延误预测模型的模拟和验证结果进行评价与对比,结果见表2。

表2 模型指标评价结果

由表2可知,灰色GA-BP网络延误预测模型的拟合优度平均值为0.938,且每组均不小于0.8,平均绝对误差仅为12.027,与未进行GRA与GA优化的延误预测网络模型相比,该模型性能与精度得到了提高,效果与适用性更好,验证了其延误估计的可靠性。

5 结束语

1)依据航空公司的实际延误数据,对其延误分布进行了不同条件下的统计分析,全面、系统地分析了延误因素的影响,建立了延误影响指标体系,为后续建模参数的选择提供基础。

2)以灰色关联分析方法进行航班延误相关性的度量,对多个变量指标进行了定量计算与筛选,优选了延误影响参数,由此确定23个主要的决定指标参数作为输入,后续模型结构得到简化,网络训练效率得到提升。

3)灰色GA-BP延误预测模型与优化前的网络模型相比,平均绝对误差至少下降了5%,提升了模型稳定性,优化了模型性能与精度,可为航班延误预估提供支撑,从而有力降低延误损失。

猜你喜欢

关联度灰色航班
基于熵权TOPSIS法和灰色关联度分析的藤茶药材等级研究
山航红色定制航班
山航红色定制航班
山航红色定制航班
山航红色定制航班
中国制造业产业关联度分析
中国制造业产业关联度分析
灰色时代
她、它的灰色时髦观
试析护理专业大学生思想政治教育与专业思想教育关联性