APP下载

基于时序数据挖掘的航班延误预测分析

2014-12-18罗凤娥张成伟

现代电子技术 2014年24期
关键词:决策支持数据挖掘

罗凤娥+张成伟

摘  要: 航班延误一直作为国际国内民航业的一个热点问题。通过对航班延误的相关概念进行简要介绍,建立时间序列预测模型,将数据挖掘中隐马尔可夫模型和指数平滑预测方法应用于航班延误预测分析中。通过与所采集时间点的实际航班延误数对比分析来评估预测模型,得到较为理想的预测结果。该分析为航空公司运行指挥中心提供决策支持和理论依据,对保障航班正常运行有着重要的实际意义。

关键词: 航班延误; 数据挖掘; 时间序列模型; 决策支持

中图分类号: TN911?34; V352                文献标识码: A                      文章编号: 1004?373X(2014)24?0052?04

Forecasting analysis of flight delay based on time?sequence data mining

LUO Feng?e, ZHANG Cheng?wei

(College of Air Traffic Management, Civil Aviation Flight University of China, Guanghan 618307, China)

Abstract: Flight delay has been a hot issue existing in the civil aviation industries at home and abroad. The related concepts of flight delays are introduced briefly. A time?series prediction model was established to apply hidden Markov model (HMM) in data mining and exponential smoothing prediction method into the flight delay prediction analysis. The forecasting model is evaluated through comparative analysis of the actual flight delay quantity. A more satisfactory prediction result was obtained. The model provided a decision support for airport operations control center. It has important practical significance to guarantee the normal take?off and landing of flights.

Keywords: flight delay; data mining; time?series model; decision support

0  引  言

随着航空运输市场需求量的不断增长,国内各大航空公司均相应增大了运力的投入,特别是在航班流量比较大的机场,延误情况尤为突出。一旦发生大面积的航班延误,如果没有良好的应对机制不仅会产生旅客群体性事件,还会带来一系列延误所造成的波及效应。根据中国民用航空总局发布的《民航航班正常统计办法》所列航班延误原因就多达五大类:天气原因;空中交通原因;机场保障原因;旅客自身原因;航空公司原因等。因此解决好航班延误问题已成为民航运输业快速发展的重要决定性因素[1]。

在国外Paul等研究人员建立了一种分析模型用来显示空间容量、流量需求和航线规划之间的相互作用关系,并可以将延误的可控制因素随机分离出来;而我国针对航班延误问题的研究起步较晚,而且大部分研究主要都集中于流量管控方面。对比于国外航空运输业的情况来看,我国有很多不同于国外的现实状况,国内三大航空集团在运作中也是各自划分成分子公司独立运行的。

针对航班整体运行效率偏低这一实际情况,本文主要依据数据挖掘分类当中的预测方法,从航班延误数量的角度建立航班延误时间序列模型,进而进行时序数据挖掘。隐马尔可夫模型 (Hidden Markov Model) 是一种统计模型,用来描述一个含有隐含未知参数的马尔可夫过程,在统计学领域中不断的被学者所认可并得到广泛的应用;指数平滑法预测在实际生产预测中是被经常采纳的一种预测方法。

本文基于隐马尔科夫统计模型并结合指数平滑预测方法构建时间序列预测模型,数据项预处理的重点在于从已放行的航班信息表中统计出随机采样的进、离港航班延误数量。以我院航空运行控制实验室中的FOC系统数据库2012年的航班进离港信息表为原始数据,计算出每个航班的延误时间,进而累计出单位时段的延误架次。

1  航班延误

严格意义上讲,按照航班计划准时执行的航班才能叫做正常航班,否则叫做不正常航班。在航空运输背景下所使用的延误和正点的概念有多种定义[2]。

图1阐述了延误的不同定义的使用情况。鉴于延误成本对航空公司来说影响很大,这里将延误定义为一架航空器的撤轮档/放轮档时间相对于航空公司公布的航班时刻表时间之间的差别。此概念的标准相对最为清晰,并与航空运输系统的最终用户,即乘客的联系最为直接。在本文中所使用的延误定义如图1右侧所示。

根据中国民航总局规定,机票上标明的时间与航空公司在航班时刻表上公布的时间是一致的,这一时间的准确表述为“离港时间”,即“飞机关舱门时间”,“进港时间”,即“飞机打开舱门时间”。

图1 延误的相对概念

根据表1航班延误判断标准的说明,飞机按机票上标明的时间关闭舱门,并在15 min,20 min,25 min或30 min内起飞,属于正常起飞航班。

表1 航班延误的判断标准

2  航班延误时序事件模型

2.1  航班原始数据分析

本文从航班延误数量的角度建立时间序列预测模型,从现有航班信息表中统计出不同时段的进、离港航班延误数量来进行数据项预处理。以我院航空运行控制实验室中的FOC系统数据库2012年的航班信息表为原始样本数据。该表按时间顺序记录了进、离港航班的计划起降时间、实际起降时间、开/关舱门时间等相关信息。依据信息表中各项信息进一步计算出每个航班的延误时间,累计出单位时段的航班延误量。航班信息如表2所示。

表2 航班信息表

2.2  模型结构

时序数据挖掘包括许多常规的数据挖掘方法[3],可以基于相似性对时间序列数据进行聚类,也可以对未来值进行预测。一个时序数据库(Temporal Database)中,保存的不是一个时间点的数据,而是大量时间点上的数据。本文主要研究对未来值进行预测的方法中针对时序事件序列建模方式的一种:隐马尔可夫模型(Hidden Markov Model,HMM)。首先介绍隐马尔可夫模型定义如下:

隐马尔可夫模型[4]是一个有向图,顶点V={v1,v2,…,vn}代表状态,弧A={|vi,vj∈V}代表状态之间的转移。每条弧用从vi到vj的转移概率pij来表示。任意时刻t,一个状态被设为当前状态vt,任何将要进行的转移只依赖于vt而不依赖于t之前的其他状态。图2所示为一个隐马尔可夫模型的例子。

图2 简单的隐马尔可夫模型

图2所示模型和马尔可夫模型之间的一个最明显的区别是附加概率的出现。注意一个含有N个状态的一阶过程有N2个状态转移。每一个转移的概率叫做状态转移概率,就是从一个状态转移到另一个状态的概率。这所有的N2个概率可以用一个状态转移矩阵来表示,其表示形式如下:

[A=a11a12…a1j…a1Na21a22…a2j…a2N??…?…?ai1ai2…aij…aiN??????aN1aN2…aNJ…aNN,aij=P(qt=jqt-1=i),    1≤i,j≤N]     (1)

对该矩阵有如下约束条件:[aij≥0,?i,j]    [j=1Naij=1,?i]。如下为基于式(1)的航班延误实例的状态转移矩阵(主要选取三大类延误影响因素):

[         Todayα           β            γ]

[Yesterdayαβγ0.500.3750.1250.250.1250.6250.250.3750.375] (2)

式中:α表示天气原因导致的航班延误;β表示空中交通原因导致的航班延误;γ表示机场保障原因导致的航班延误。式(2)表示,如果昨天是天气原因导致的延误,那么今天有50%的可能还是天气原因导致,37.5%的概率是空中交通原因导致延误,12.5%的概率是机场保障原因导致的延误,可以看出矩阵中每一行的和都是1,为了初始化这样一个系统需要一个初始的概率向量为:(1.0,0.0,0.0)。

每个隐马尔可夫模型有以下附加部分:

(1) 初始状态分布,它用于确定0时刻的初始状态v0。

(2) 每条弧用一个从vi到vj的转移概率pij来标记,这个值是固定的。

(3) 给定一组可能的观测值O{o1,o2,…,ok},每个状态vi都包含一组分别对应各个观察值的观测概率{pi1,pi2,…,pik}。给定一个隐马尔可夫模型,可以用如下算法生成一个观测序列。在算法中设产生的观测序列包括m个观测值,变量t表示时间。

输入:H                                            //隐马尔可夫模型

输出:

S=                                      //输出序列

隐马尔可夫模型观测序列算法:

t=0

Based on initial state distribution,determine vt;

repeat

Output  st  based on observation probabilities { pt1,pt2,…,ptk };

Choose  vt+1  based on transition probabilities at  vt ;

t=t+1;

until   t=k ;

2.3  时间序列预测分析

时间序列[5]是一个具有n个值的集合{,,…}。这里假定有n个时间值,每个时间值与一个属性A的值相互关联。通常情况下,这些值由一些经过明确定义的时间点来标识,可以认为这些取值是一个向量。

本文采用常用的数据挖掘预测方法,针对时间序列的典型数据挖掘应用中的一种,给定一个具有一组已知值的时间序列,预测属性未来值。2012年4月1日—4月15日,连续预测15天,每天取15个预测点,共计225个预测点,数据挖掘所使用的数据训练集合从2012年1月1日—2012年3月31日,所采用预测方法和相应结果如下:平滑(smoothing)就是一种去除时间序列中非系统化行为的方法。指数平滑[6]的原理为:当利用过去观测值的加权平均来预测未来的观测值时,离得越近的观测值要给予更大的权。指数平滑法通过对权数加以改进,能提供良好的短期预测精度,因而实际应用较为广泛。本文采用一次指数平滑法的基本思想来解决航班延误预测模型的分析。如果用Yt表示在t时间平滑后的数据(或预测值),而用X1,X2,…,Xt表示原始时间序列,那么一次指数平滑模型为:

[Yt=?Xt+(1-?)Yt-1,    0<?<1]

或:

[Yt=?k=0t-1(1-?)kXt-k] (3)

这里的系数为几何级数,一次指数平滑模型用于预测的公式为:

[Yt+1=?Xt+(1-?)Yt] (4)

需要注意的是对距离预测期较近的观察值赋予相对较大的权重,对距离预测值比较远的观察值赋予较小的权重,权数由近及远按指数规律递减。指数平滑法主要任务就是要利用已知的航班延误观测值来确定[?]的值,合理确定[?]的取值方法十分重要。一般来说,当时间序列波动很大,长期趋势变化幅度较大,呈现明显且迅速的上升或下降趋势时,宜选择较大的[?]值,如可在0.6~0.8间选对应的权值,达到预测模型精度高的目的,以便于能迅速跟上数据变化的趋势。根据式(3)、式(4)和统计出的航班延误量数据,本文中[?]取值为0.7从而得到预测模型,然后利用该模型进行航班延误预测。图3给出了预测结果。通过指数平滑法的预测曲线图以及预测结果对比可以看出,预测结果较为理想,趋势基本和实际情况保持一致。

3  模型评估

在模型评估阶段,对所建立的预测模型进行评价必须基于一定的评价指标[7],本文选择如下统计量检验预测效果:

(1) 均方根误差(Root Mean Square Error):

[RMSE=1ni=1n(yi-yi)2]  (5)

(2) 平均绝对百分比误差(Mean Absolute Percentage Error):

[MAPE=1ni=1nyi-yiyi] (6)

(3) 平均绝对误差(Mean Absolute Error):

[MAE=1ni=1nyi-yi]  (7)

式中:[yi]为实际值;[yi]为预测值。由式(5)~式(7)经对航班延误数据的预测值和实际值进行统计分析得出模型评估结果如表3所示。

表3 方差分析

由表3分析得出组内方差和均方差SS=MS=0.011 059,F检验结果F=0.000 35说明使用指数平滑法对航班延误预测模型的分析试验精度较高,有较为理想的效果。

4  结  语

(1) 本文以航班信息表作为主要研究对象,针对航班延误问题建立了时间序列预测模型,使用指数平滑预测方法实现对航班延误预测分析取得了较好的预测结果,证明了所建立的模型和算法的可行性。

(2) 一次指数平滑法有其局限性,短期预测效果精确度较高但不适合在中长期预测中使用,由于预测值是采取的历史数据平均值,故与实际序列的变化相比有滞后现象。这一问题将在今后的学习中作进一步研究。

图3 指数平滑法的预测结果

参考文献

[1] 朱金福.航空运输规划[M].西安:西北工业大学出版社,2009.

[2] 中国民用航空总局.大型飞机公共航空运输承运人运行合格审定规则[EB/OL]. [2010?01?04].http://www.caac.gov.cn/B1/B6/201003/t20100319_31073.html.

[3] DUNHAM M H.数据挖掘教程[M].郭崇慧,田凤占,译.北京:清华大学出版社,2005.

[4] KANTARDZIC Mehmed.数据挖掘概念模型和算法[M].王晓海,吴志刚,译.北京:清华大学出版社,2013.

[5] 毛国君,段立娟,王实,等.数据挖掘原理与算法[M].北京:清华大学出版社,2005.

[6] 罗凤娥,贾振振.基于模糊综合评价法的航空公司延误控制水平分析[J].科技创新报,2013(6):88?89.

[7] 吕晓玲,谢邦昌.数据挖掘方法与应用[M].北京:中国人民大学出版社,2009.

本文采用常用的数据挖掘预测方法,针对时间序列的典型数据挖掘应用中的一种,给定一个具有一组已知值的时间序列,预测属性未来值。2012年4月1日—4月15日,连续预测15天,每天取15个预测点,共计225个预测点,数据挖掘所使用的数据训练集合从2012年1月1日—2012年3月31日,所采用预测方法和相应结果如下:平滑(smoothing)就是一种去除时间序列中非系统化行为的方法。指数平滑[6]的原理为:当利用过去观测值的加权平均来预测未来的观测值时,离得越近的观测值要给予更大的权。指数平滑法通过对权数加以改进,能提供良好的短期预测精度,因而实际应用较为广泛。本文采用一次指数平滑法的基本思想来解决航班延误预测模型的分析。如果用Yt表示在t时间平滑后的数据(或预测值),而用X1,X2,…,Xt表示原始时间序列,那么一次指数平滑模型为:

[Yt=?Xt+(1-?)Yt-1,    0<?<1]

或:

[Yt=?k=0t-1(1-?)kXt-k] (3)

这里的系数为几何级数,一次指数平滑模型用于预测的公式为:

[Yt+1=?Xt+(1-?)Yt] (4)

需要注意的是对距离预测期较近的观察值赋予相对较大的权重,对距离预测值比较远的观察值赋予较小的权重,权数由近及远按指数规律递减。指数平滑法主要任务就是要利用已知的航班延误观测值来确定[?]的值,合理确定[?]的取值方法十分重要。一般来说,当时间序列波动很大,长期趋势变化幅度较大,呈现明显且迅速的上升或下降趋势时,宜选择较大的[?]值,如可在0.6~0.8间选对应的权值,达到预测模型精度高的目的,以便于能迅速跟上数据变化的趋势。根据式(3)、式(4)和统计出的航班延误量数据,本文中[?]取值为0.7从而得到预测模型,然后利用该模型进行航班延误预测。图3给出了预测结果。通过指数平滑法的预测曲线图以及预测结果对比可以看出,预测结果较为理想,趋势基本和实际情况保持一致。

3  模型评估

在模型评估阶段,对所建立的预测模型进行评价必须基于一定的评价指标[7],本文选择如下统计量检验预测效果:

(1) 均方根误差(Root Mean Square Error):

[RMSE=1ni=1n(yi-yi)2]  (5)

(2) 平均绝对百分比误差(Mean Absolute Percentage Error):

[MAPE=1ni=1nyi-yiyi] (6)

(3) 平均绝对误差(Mean Absolute Error):

[MAE=1ni=1nyi-yi]  (7)

式中:[yi]为实际值;[yi]为预测值。由式(5)~式(7)经对航班延误数据的预测值和实际值进行统计分析得出模型评估结果如表3所示。

表3 方差分析

由表3分析得出组内方差和均方差SS=MS=0.011 059,F检验结果F=0.000 35说明使用指数平滑法对航班延误预测模型的分析试验精度较高,有较为理想的效果。

4  结  语

(1) 本文以航班信息表作为主要研究对象,针对航班延误问题建立了时间序列预测模型,使用指数平滑预测方法实现对航班延误预测分析取得了较好的预测结果,证明了所建立的模型和算法的可行性。

(2) 一次指数平滑法有其局限性,短期预测效果精确度较高但不适合在中长期预测中使用,由于预测值是采取的历史数据平均值,故与实际序列的变化相比有滞后现象。这一问题将在今后的学习中作进一步研究。

图3 指数平滑法的预测结果

参考文献

[1] 朱金福.航空运输规划[M].西安:西北工业大学出版社,2009.

[2] 中国民用航空总局.大型飞机公共航空运输承运人运行合格审定规则[EB/OL]. [2010?01?04].http://www.caac.gov.cn/B1/B6/201003/t20100319_31073.html.

[3] DUNHAM M H.数据挖掘教程[M].郭崇慧,田凤占,译.北京:清华大学出版社,2005.

[4] KANTARDZIC Mehmed.数据挖掘概念模型和算法[M].王晓海,吴志刚,译.北京:清华大学出版社,2013.

[5] 毛国君,段立娟,王实,等.数据挖掘原理与算法[M].北京:清华大学出版社,2005.

[6] 罗凤娥,贾振振.基于模糊综合评价法的航空公司延误控制水平分析[J].科技创新报,2013(6):88?89.

[7] 吕晓玲,谢邦昌.数据挖掘方法与应用[M].北京:中国人民大学出版社,2009.

本文采用常用的数据挖掘预测方法,针对时间序列的典型数据挖掘应用中的一种,给定一个具有一组已知值的时间序列,预测属性未来值。2012年4月1日—4月15日,连续预测15天,每天取15个预测点,共计225个预测点,数据挖掘所使用的数据训练集合从2012年1月1日—2012年3月31日,所采用预测方法和相应结果如下:平滑(smoothing)就是一种去除时间序列中非系统化行为的方法。指数平滑[6]的原理为:当利用过去观测值的加权平均来预测未来的观测值时,离得越近的观测值要给予更大的权。指数平滑法通过对权数加以改进,能提供良好的短期预测精度,因而实际应用较为广泛。本文采用一次指数平滑法的基本思想来解决航班延误预测模型的分析。如果用Yt表示在t时间平滑后的数据(或预测值),而用X1,X2,…,Xt表示原始时间序列,那么一次指数平滑模型为:

[Yt=?Xt+(1-?)Yt-1,    0<?<1]

或:

[Yt=?k=0t-1(1-?)kXt-k] (3)

这里的系数为几何级数,一次指数平滑模型用于预测的公式为:

[Yt+1=?Xt+(1-?)Yt] (4)

需要注意的是对距离预测期较近的观察值赋予相对较大的权重,对距离预测值比较远的观察值赋予较小的权重,权数由近及远按指数规律递减。指数平滑法主要任务就是要利用已知的航班延误观测值来确定[?]的值,合理确定[?]的取值方法十分重要。一般来说,当时间序列波动很大,长期趋势变化幅度较大,呈现明显且迅速的上升或下降趋势时,宜选择较大的[?]值,如可在0.6~0.8间选对应的权值,达到预测模型精度高的目的,以便于能迅速跟上数据变化的趋势。根据式(3)、式(4)和统计出的航班延误量数据,本文中[?]取值为0.7从而得到预测模型,然后利用该模型进行航班延误预测。图3给出了预测结果。通过指数平滑法的预测曲线图以及预测结果对比可以看出,预测结果较为理想,趋势基本和实际情况保持一致。

3  模型评估

在模型评估阶段,对所建立的预测模型进行评价必须基于一定的评价指标[7],本文选择如下统计量检验预测效果:

(1) 均方根误差(Root Mean Square Error):

[RMSE=1ni=1n(yi-yi)2]  (5)

(2) 平均绝对百分比误差(Mean Absolute Percentage Error):

[MAPE=1ni=1nyi-yiyi] (6)

(3) 平均绝对误差(Mean Absolute Error):

[MAE=1ni=1nyi-yi]  (7)

式中:[yi]为实际值;[yi]为预测值。由式(5)~式(7)经对航班延误数据的预测值和实际值进行统计分析得出模型评估结果如表3所示。

表3 方差分析

由表3分析得出组内方差和均方差SS=MS=0.011 059,F检验结果F=0.000 35说明使用指数平滑法对航班延误预测模型的分析试验精度较高,有较为理想的效果。

4  结  语

(1) 本文以航班信息表作为主要研究对象,针对航班延误问题建立了时间序列预测模型,使用指数平滑预测方法实现对航班延误预测分析取得了较好的预测结果,证明了所建立的模型和算法的可行性。

(2) 一次指数平滑法有其局限性,短期预测效果精确度较高但不适合在中长期预测中使用,由于预测值是采取的历史数据平均值,故与实际序列的变化相比有滞后现象。这一问题将在今后的学习中作进一步研究。

图3 指数平滑法的预测结果

参考文献

[1] 朱金福.航空运输规划[M].西安:西北工业大学出版社,2009.

[2] 中国民用航空总局.大型飞机公共航空运输承运人运行合格审定规则[EB/OL]. [2010?01?04].http://www.caac.gov.cn/B1/B6/201003/t20100319_31073.html.

[3] DUNHAM M H.数据挖掘教程[M].郭崇慧,田凤占,译.北京:清华大学出版社,2005.

[4] KANTARDZIC Mehmed.数据挖掘概念模型和算法[M].王晓海,吴志刚,译.北京:清华大学出版社,2013.

[5] 毛国君,段立娟,王实,等.数据挖掘原理与算法[M].北京:清华大学出版社,2005.

[6] 罗凤娥,贾振振.基于模糊综合评价法的航空公司延误控制水平分析[J].科技创新报,2013(6):88?89.

[7] 吕晓玲,谢邦昌.数据挖掘方法与应用[M].北京:中国人民大学出版社,2009.

猜你喜欢

决策支持数据挖掘
探讨人工智能与数据挖掘发展趋势
基于并行计算的大数据挖掘在电网中的应用
管理会计在我国高校财务管理中的应用探析
数据挖掘技术在中医诊疗数据分析中的应用
商业智能分析模式在医保病人住院化管理当中的应用研究
关联规则在网络学习平台中的应用研究
秦山核电应急决策支持系统开发与研究
基于RFID的汽车零件销售策略支持模型
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索