APP下载

基于KNN的机场航班短期延误风险预测

2021-12-30刘继新

关键词:离港航班机场

刘继新,杨 光

(1. 南京航空航天大学 民航学院,江苏 南京 210016; 2. 国家空管飞行流量管理技术重点实验室,江苏 南京 210016)

0 引 言

随着航班数量增多,航班密度逐步增大,空域及机场资源难以满足日益增长的航班量,难以避免的航班延误问题依旧是民航界关注的焦点。尤其在我国华东、中南、华北等繁忙地区,大型繁忙机场的航班延误问题仍然十分突出,并且容易造成由个别航班延误问题而引发延误蔓延从而导致大面积航班延误的问题。

在延误预测研究方面,国内外学者已有一定研究成果。T.DOTHANG 等[1]主要关注与机场相关的因素,分别使用决策树和贝叶斯推理,利用数据挖掘来预测两个机场之间航班延误时间的概率;J. J. REBOLLO等[2]在进行延误预测的建模时,同时考虑了时间和空间延误状态作为解释变量,运用随机森林算法预测未来2~24 h内的起飞延误;S.MANNA 等[3]提出了利用梯度推进决策树来进行交通延误预测,实验表明,结合机器学习范式的回归模型建立的预测模型可以有效预测单个机场起飞和到达航班延误的日常序列。在国内的研究中,何洋等[4]采用支持向量机回归方法建立航班进离港延误预测模型,并比较多元线性回归模型和支持向量机回归模型的延误预测效果,结果表明,支持向量机模型能很好地预测延误趋势;吕晓杰等[5]提出带有权值调整的马尔可夫模型预测离港延误率;丁建立等[6]提出基于危险模式和灰色预测组合的新型航班延误预测方法,通过对两种方法的加权组合,提高了预测精度;李频[7]利用灰色理论的动态马尔科夫预测模型,对航班延误情况进行预测,以解决大型枢纽机场运行管理中的航班延误问题。通过结合马尔科夫和模糊集理论,将预测误差转化为具体值,从而对灰色预测进行修正,提高了预测精度。在延误风险评估研究方面,TU Yufeng等[8]采用多参数方法来确定恩德培机场飞机延误的概率,但研究偏重于对参数的评估设定;石丽娜[9]、赵嶷飞等[10]、顾绍康等[11]也分别进行了一定研究,但均基于模糊综合评价方法,具有较强的主观性,评判误差较大。

鉴于此,笔者通过分析航班运行的历史数据及天气数据,提取航班延误特征,通过主成分分析法,找出对航班延误具有显著影响的因素,全面了解延误发生的诱因。采用KNN算法,结合影响航班延误的关键因素,针对机场离港的单航班短期延误风险进行分类预测。预测结果有助于航空公司了解飞机在某机场离港前可能发生的延误状况并提前采取应对措施。此外,同时段起飞的多架航班的延误状况,一定程度上能够反映机场整体延误程度,可以为机场整体延误风险预警提供参考。

1 数据采集及预处理

1.1 航班运行及机场天气数据预处理

航班运行数据收集自广州白云机场,天气数据来自航空气象报文。由于机场相关部门每半小时或一小时观测并拍发一次天气情况,因此笔者重点研究机场短期的延误预测。此外,由于航班到达延误会影响到该航班后序的起飞延误,并且对于旅客而言,相比到达,能否准点起飞是他们对于是否延误的感官判断。因此,笔者主要研究机场航班的起飞延误。

选取广州白云机场从2016年1月1日到2016年12月31日的航班及机场本场气象信息共193 817条。其中航班运行信息包括航班号、起降机场、航班前序延误时间、计划离港时间、实际离港时间、进离港航班日期、进离港航班架次、机型等。

在对航班运行数据的处理中,笔者考虑到航班运行的实际状况,通过已有的进离港航班日期,加入一些先验信息。由于法定节假日出行乘客增多,添加相应“节假日”字段,0代表节假日,1代表非节假日;由于一周中旅客出行量会有变化,因此添加星期字段,星期一至星期日标记为1~7。

将机型信息进行分类标记。由于上下客的时间会对航班延误产生一定程度的影响,因此按照载客座位数对机型进行分类。60座以下机型数据较少,且有缺失,因此,划分机型为3级。1级为60~150座,包括A319、B733、B737等机型;2级为151~250座,包括A320、B738等机型;3级为251座以上,包括A388、A333、B789等机型。

将到达机场进行分类标记。0代表国内繁忙机场,1代表国内其他机场,2代表国外和境外机场。

将计划离港时间按照单位小时进行标记。原有数据的进离港时间几乎覆盖一天中所有时刻,但取值太多容易造成分类的过度拟合。结合机场实际运行状况,机场运行的航班流量在不同时刻有很大差异,例如下午时段的航班量远高于凌晨时段。并且,气象报文亦每半小时或一小时为单位进行观测和拍发。因此将时间划分为单位小时段进行标记。例如:标记为24即表示航班起飞时间为24:00至次日1:00之间(包含24:00)。

离港延误时间定义如下:

Tdd=Tad-Ted

(1)

式中:Tdd为离港延误时间;Tad为实际离港时间;Ted为计划离港时间。

气象信息包括天气现象、风速风向、能见度、温度、 露点、云量和云低高度、修正海平面气压。

在对气象信息数据的处理中,按照民航气象专业知识将天气现象标记为0~3。0代表CAVOK;1代表轻微天气影响,包括-RA,-RABR,-SHRA,-SHRABR,-DZBR,HZ,BR,MIFG,DZFG;2代表中度天气影响,包括RA,SHRA,SHRABR,SQ,+RA,+SHRA,+RABR;3代表恶劣天气影响,包括-TSRA,-TSRABR,TS,TSRA,TSRABR,TSRASQ,VCTS,+TSRA,+TSRABR。

由于数据来自广州白云机场,根据白云机场放行标准,最低能见度为800 m,云底高60 m,能见度为报文中的具体数值。

将收集到的数据进行清洗,对缺失数据进行筛除处理,并按照上述规则将文本类型的特征数据化,进行相应标记。最后实际数据为102 497条。

1.2 延误影响因素选取

由于部分影响因素之间存在极大相关性,例如天气现象和能见度,当发生雷暴天气时,能见度则会随之降低。若直接采用这些指标进行皮尔逊相关性分析,会导致一些指标的信息重叠,进而影响筛选的准确性和客观性。因此,采用主成分分析法,对诸多影响因素进行降维,将重复的变量(关系紧密的变量)删去,建立尽可能少的新变量,并在此基础上进行关键因素的筛选。

1.2.1 数据选取及标准化

根据广州白云机场的实际运行情况,结合专家意见,从收集到的气象数据中提前剔除一些无关因素。由于广东常年温度在0 ℃以上,不考虑结冰带来的机场除冰工作造成的延误;而只有当露点和温度相同时,才会对飞机的起飞造成影响,但对于延误的发生影响极小;云高、修正海平面气压对航班起飞延误基本没有影响;风向和风速除极个别特殊情况下发生顺风和侧风外,造成起飞延误的情况极少。因此气象信息中的温度、露点、云高云量、修正海平面气压及风向风速将不作为本研究中影响单航班起飞的气象因素。

此外,结合1.1节对于机场航班数据的预处理,将日期转化为“节假日”和“星期”字段,将离港时间转化为“小时”字段,最终确定初始因素共9个,x1~x9分别为节假日、单日起飞总架次、实际着陆机场、起飞机型、前序航班延误、能见度、天气类型、星期、小时。

由于各指标取值范围有较大差异,为了消除量纲不同造成的影响,需要标准化。选用Z-score进行数据标准化。将数据按其属性(列)减去其均值,并除以其方差。得到的结果是,对于每个属性/每列来说所有数据都聚集在0附近,方差为1。在对数据进行Z-Score标准化之前,需要得到如下信息:①总体数据的均值μ;②总体数据的标准差σ;③个体的观测值x。将以上3个值代入Z-Score公式,即:

(2)

1.2.2 主成分分析法

1)主成分累积贡献率

用主成分分析法确定指标的主成分,首先计算协方差矩阵A,∑(Sij)p×p公式为:

(i,j=1,2,…,p)

(3)

然后求出A的特征值λi及相应的正交化单位特征向量αi。A的前k个较大的特征值λ即为前k个主成分的方差,λi对应的单位特征向量αi即为主成分Fi的关于原变量的系数,则原变量的第i个主成分Fi为:

Fi=αi×X

(4)

主成分的方差贡献率用于反映信息量的大小,αi为:

(5)

最终根据方差累积贡献率G(m)来确定:

(6)

对构造的矩阵求其特征值和特征向量,并对其按从大到小的降序排列。根据累计贡献率和贡献率进行保留和剔除,临界值取85%,超过临界值的即被确定为主要成分,低于临界值的提除[12]。

2)求解载荷因子矩阵

主成分的载荷反映了主成分Fi与原指标xj之间的关联程度,原指标在诸主成分上的载荷为lij,公式为:

(7)

得出载荷矩阵:

(8)

3)构建综合评价模型筛选指标

利用载荷因子矩阵,计算载荷因子lij与系数矩阵的特征值λi的乘积,计算选出的m个主成分与各延误影响因素指标的之间的相关系数k:

k=λi×lij

(9)

利用各主成分的贡献率构建综合评价模型:

F=G(1)F1+[G(2)-G(1)]F2+…+[G(m)-

G(m-1)-…-G(1)]Fm

(10)

将算出的对应主成分与原始指标之间的相关系数代入综合评价模型〔式(10)〕,即可算各原始指标与主成分综合指标之间的相关系数,反映了原始指标与综合指标的密切度。

1.2.3 算例分析

根据式(6)得出主成分的累积贡献率,如表1。前7个主成分的累积贡献率已达到85%,因此取前7个主成分。

表1 主成分累积贡献率Table 1 Principal component cumulative contribution rate

根据式(8)得到载荷因子矩阵,见表2。利用表2得出的载荷因子,结合式(9)计算对应主成分与原始指标之间的相关系数,见表3。

表2 载荷矩阵Table 2 Load matrix

表3 主成分与原始指标相关系数Table 3 Correlation coefficient between principal componentand original index

利用式(10)的贡献率综合评价模型,结合表3中的数据进行计算,得出原始指标与主成分之间的相关系数,并对其绝对值进行排序,得出各个因素所占权重,最终完成指标筛选,见表4。

表4 各因素所占权重Table 4 Weight of each factor

由表4可以看出,起飞时段、前序航班延误时长、能见度、天气类型对机场航班延误影响较大;机型、当日起飞总架次、星期对延误有一定影响;着陆机场、是否节假日对延误影响较小。因此筛除掉影响较小的着陆机场和节假日影响因素,最终将每条航班数据抽象为起飞时段、前序航班延误时长、能见度、天气类型、机型、当日起飞总架次、星期、延误程度8个属性,前7个为用于预测的非目标属性,最后一个为类标属性。

2 航班延误等级划分

2.1 航班延误定义

根据民航局2008年实行的《民航航班正常统计办法》,出现以下情况之一的即为不正常航班: ①未在班期时刻公布的离站时间后15 min(北京、浦东、广州及境外机场30 min;虹桥、深圳机场25 min;成都、昆明机场20 min)之内正常起飞,或未在班期时刻表公布的到达时间前后10 min之内落地; ②发生返航、改航和备降等不正常情况的航班;③未经民航总局或地区管理局主管部门批准,航空公司自行改变计划的航班。

其中,延误时间定义如下:

Td=Tad-(Ts+Tst)

(11)

式中:Td为延误时间;Ts为航班时刻表公布时刻;Tst为规定的滑行时间。

根据民航局2012年《民航航班正常统计办法(征求意见稿)》,出现以下情况之一的即为离港不正常航班:①未能在计划关舱门时间后规定的机场地面滑行时间之内起飞,且不发生返航、备降等不正常情况;②晚于计划开舱门时间后10 min落地;③当日取消的航班;④未经批准,航空公司自行变更航班计划的航班。

航班延误时间定义如下:航班延误时间等于实际起飞时间晚于计划关舱门时间与机场地面滑行时间之和的时间。计算公式为:

Td=Tad-(Tsdc+Tat)

(12)

式中:Tsdc为计划关舱门时间,min;Tat为机场地面滑行时间,min。

根据民航局2016年《民航航班正常统计办法(征求意见稿)》,出现以下情况之一的即为离港不正常航班:①未在计划离港时间后15 min(含)之前离港的航班;②未经批准,航空公司自行变更预先飞行计划的航班。

对于航班延误时间给出相应定义:航班实际到港时间晚于计划到港时间15 min(含)之后的时间长度,min。 计算公式:

Td=Taa-(Tea+15)

(13)

式中:Taa为航班实际到港时间;Tea为计划到港时间。

笔者认为:

Tdd=(Tad-Ted)-15

(14)

式中:Tdd为负值或0时,认为不存在起飞延误。

2.2 延误等级划分规则

为更直观地表现延误风险,笔者根据航班延误的时长引入航班延误程度的概念,并将延误等级作为分类预测的类标属性。在以往的研究中,针对航班延误时长对于延误等级的划分往往从机场角度出发,着眼于机场整体航班的平均延误时间,以分钟为单位将延误分为5个等级[11,13],见表5。

表5 机场航班延误等级划分规则Table 5 Airport flight delay classification rules min

笔者以单个航班的延误预测为切入点,重点考虑旅客感知和航空公司影响。参考机场航班延误等级划分规则,结合《航空运输服务质量不正常航班承运人服务和补偿规范》中对于旅客延误赔偿的规定:延误预计在1~4 h以内(含4 h)的航班,及时向旅客提供餐饮;延误4 h以上才有现金补偿;由于承运人原因造成航班延误、取消,客票的退、改、签费用由航空公司承担。将延误划分为2 h以内,2~4 h,4 h以上3类。

延误小于2 h定义为轻度延误,标记为1;延误在2~4 h之间,定义为中度延误,标记为2;延误在4 h 以上,定义为重度延误,标记为3。

3 短期延误风险预测建模

对于延误进行预测的方法类型,大体可分为两种:分类预测和回归预测。其最主要的区别在于输出变量的类型,如果输出是连续变量则为回归,而输出为离散变量则为分类,前者是定量的,后者是定性的。分类预测旨在构造一个分类模型,输入为样本属性值,将每个样本映射到预先定义好的类别,并最终输出预测的类别。由于分类模型建立在已有类标记的数据集上,因此分类预测是一种“有监督学习”。结合笔者研究的实际状况,延误风险用可以表现延误程度的延误等级来体现,因此选用分类预测方法。

3.1 KNN算法

KNN算法,即K最近邻,每个样本都可以用它最接近的k个邻居来代表。作为一种基础的分类算法,KNN算法具有思想简单,易于实现等诸多优点。其属于一种分类算法,通过测量不同特征值之间的距离来进行分类。如果一个样本在特征空间中的k个最邻近样本中的大多数属于某一个类别,则该样本亦划分为这个类别。KNN算法中,所选择的邻居均为已经正确分类的对象。该方法在定类决策上只依据最近邻的一个或者几个样本的类别来决定待分样本所属的类别。

KNN分类预测的实现具体分为以下5步:①随机从训练元组中选取k个元组作为初始的最近邻元组,分别计算测试元组到此k个元组的距离;②按照距离的递增关系进行排序;③选取距离最小的k个点;④确定前k个点所在类别的出现频率;⑤返回前k个点中出现频率最高的类别作为测试数据的预测分类。

为了得到较好的预测效果,临近数k的取值及距离的选取十分关键。

如果k的取值过小易受噪声影响,容易发生过拟合;而如果k的取值过大,学习的近似误差会增大。k值一般取一个比较小的数值,笔者采用交叉验证法来选取预测误差率最小的最优k值。通过交叉验证,把一些可能的k值逐个尝试,最终得出一个最合适的k值。此种方法保证了每个子样本均参与训练且被测试,可以降低泛化误差。

把训练数据分为k份{D1,D2,D3,…,DK},用其中的k-1份作为训练集,把剩余的1份数据作为测试集来评估模型的质量。此过程在k份数据上依次循环,并对得到的k个评估结果进行最终准确率的对比。

而距离反映了两个点之前的相似性,k近邻法的特征空间一般为n维实数向量空间Rn,在距离上一般使用欧氏距离,其公式为:

(15)

此外,在分类决策规则上为多数表决,即由输入实例的k个邻近训练实例中的多数类决定输入实例的类。

3.2 基于KNN的短期航班延误预测模型

众多学者之前的研究中已经提出了很多关于航班延误预测的方法,但由于不同的模型对数据的要求不一样,只有结合数据自身的特点选择恰当的模型,才能确保得到比较好的预测结果[14]。KNN算法作为一种基础的分类算法,具有思想简单、易于实现等诸多优点。虽然其属于懒惰算法,需要计算测试集中每一个点与训练集每一个样本点之间的距离,时间复杂度高。但结合本研究中机场历史航班信息和天气信息等数据,数据维度不大,并且多个解释变量和目标变量间有较为复杂的关系,因此笔者选用KNN算法对航班延误程度进行分类预测。

具体的预测模型构建如下:

1)首先,对历史数据进行预处理,以1 h为单位,将机场大量起飞航班数据中航班发生的起飞延误程度分别进行统计及类别标记。

2)其次,利用影响延误的关键因素和对应的延误程度建立集合,定义为M。M中有i个数据样本,每条航班数据为一个样本,每个样本由p个关键影响因素变量和一个延误程度标志量Q构成。取p=7,代表1.2节中筛选出的对航班延误影响较大的7个因素。Q取值为1~3,对应2.2节提出的3种程度的延误等级。其数学表达式为:

(16)

3)各关键影响因素X称为预测样本。在分类预测时,算法将遍历样本集合M,寻找与预测样本最接近的k个近邻,然后找出此k个近邻的标志量(即延误程度)的集合Q=[Q1,Q2,…,Qk],最终在集合Q中投票,选出得票最多的标志量Qk来作为预测的航班延误程度,并给出其风险值[15]。

4 实验结果及分析

从实验结果整体看来,KNN分类预测能够取得较好的预测效果。其中,对于最佳k值的确定,笔者运用交叉验证的方式。不同取值下的准确度有所不同,当k取0~60时,预测准确率的变化如图1。由图1可以看出,在k=36时,预测准确率达到最高。k取23~44之间时,整体预测效果良好,准确率均在89.5%以上。

图1 预测准确率随k变化情况Fig. 1 Variation of prediction accuracy changing with k

随机抽取某天某一小时内的16架航班进行验证说明,预测结果见表6。由表6可以看出,整体预测效果较好,平均准确率达80%以上。以第一条预测结果为例进行说明:预测结果显示,未来1 h航班发生1级延误(即轻度延误)的风险为88%,而发生中度延误的风险为7.14%,发生重度延误的风险为4.76%。因此,可以得出结论,航班未来最有可能发生延误时长在2 h以内的轻度延误,即航班短期内的延误风险为1级,风险值为88%。

表6 预测级别及风险Table 6 Level and risk of the forecast

5 结 语

笔者利用机器学习算法,对大量历史航班数据进行挖掘,并将天气影响这一波动因素考虑在内,对机场航班短期离港延误的预测方法进行研究。结合主成分分析法全面地找出影响延误发生的诱因,并采用KNN分类算法建模,将关键影响因素指标作为分类预测算法的输入量,对航班离港延误的风险值进行预测。

笔者提出的延误风险预测方法能够较好地预测短期内机场离港单航班的延误风险,预测平均准确率超过80%。模型输出值中,对于航班延误发生的严重程度及风险概率均能有较为直观的体现。单航班离港延误的风险预警,能够为航空公司了解航班运行情况、采取相应措施提供有效参考。结合机场整体延误数据及等级划分规则,未来可以进一步对机场发生大面积延误的风险进行预测。

猜你喜欢

离港航班机场
山航红色定制航班
山航红色定制航班
山航红色定制航班
山航红色定制航班
展开大兴机场的双翅
“最大机场”
用于机场驱鸟的扑翼无人机
留宿机场
旺角暴乱嫌犯被禁止离港