航班延误问题的研究
2016-06-17苗竞文罗贝妮郑晓峰吉林财经大学
苗竞文 罗贝妮 郑晓峰吉林财经大学
航班延误问题的研究
苗竞文 罗贝妮 郑晓峰
吉林财经大学
摘要:香港南华早报网根据flightstats.com 的统计称:中国的航班延误最严重,国际上航班延误最严重的10个机场中,中国占了7个。其中包括上海浦东、上海虹桥、北京国际、杭州萧山、广州白云、深圳宝安、成都双流等机场.本文主要研究我国是否存在航班延误问题及航班延误的原因。本文运用统计学上假设检验的方法判断我国是否存在航班延误的问题;采用了多元线性回归的方法,定量分析航班延误的原因。为判断是否存在航班延误问题,本文利用香港南华早报中所采用的flightstats. com网站公布的《2014年的全球机场准点率排名》上的数据,对上海浦东、上海虹桥、北京国际、杭州萧山、广州白云、深圳宝安、成都双流等7个机场各随机抽取150个班次作为样本,进行航班延误时间的统计.运用统计学中的假设检验的方法,对flightstats.com中数据的真伪性进行检验。为定量分析航班延误原因,建立了多元线性回归模型,分析可能导致航班延误的原因及其与航班延误的相关关系.通过查阅大量资料本文确定了一些影响航班延误的因素,并以这些因素为基础进行回归分析,进而剔除对航班延误影响不显著的因素,得出航班延误的主要原因,利用Eviews软件进行求解。
关键字:假设检验 多元线性回归模型 Eviews软件
1 模型假设
(1)本文中航班延误指的是实际起飞时间比计划起飞时间晚15分钟以上(不包括15分钟);
(2)显著性水平α=0.05α=0.05;
2 变量说明
i: 上海浦东、上海虹桥、北京国际、杭州萧山、广州白云、深圳宝安、成都双流这七个机场分别标号1、2、3、4、5、6、7;
θi:第i个机场样本的正点率;
ni:第i个机场的样本数( ni-150);
?:各个致因因素出现频数的矩阵;
3 模型一的建立与求解
3.1问题的进一步分析
为判断是否存在航班延误问题,把上海浦东、上海虹桥、北京国际、杭州萧山、广州白云、深圳宝安、成都双流分别作为出发地,在2014年的数据中各随机抽取150次航班,分别统计延误时间,对香港南华早报中所采用的flight stats.com发布的《2014年的全球机场准点率排名》中各个机场的正点率进行假设检验,以此来验证flight stats.com数据的真实性,进而判断我国是否存在航班延误的问题.
3.2 数据处理
flight stats.com公布的《2014年的全球机场准点率排名》中2014年中国机场的正点率如下:上海浦东机场正点率为37.26%、上海虹桥机场正点率为37.17%、北京国际机场正点率为52.64%、杭州萧山机场正点率为36.74%、广州白云机场正点率为49.56%、深圳宝安机场正点率为49.42%、成都双流机场正点率为57.61%.
抽样调查的中国上海浦东、上海虹桥、北京国际、杭州萧山、广州白云、深圳宝安、成都双流这七个机场的延误情况,计算这七个机场抽样航班的正点率:
计算结果如下:上海浦东机场正点率为10%、上海虹桥机场正点率为15.33%、北京国际机场正点率为16%、杭州萧山机场正点率为12.67%、广州白云机场正点率为11.33%、深圳宝安机场正点率为15.33%、成都双流机场正点率为48%.
3.3 模型建立
为验证我国是否存在航班延误问题,利用统计学上假设检验的方法,建立的数学模型如下:
依据香港南华早报中所采用的flight stats.com发布的《2014年的全球机场准点率排名》里2014年中国7个机场正点率和抽样调查得出的2014年中国7个机场正点率,提出如下假设:
在H0成立时,
3.4 模型求解
根据样本观察值计算得:
1 2 3 4 5 6 7 ? -6.905 -5.535 -8.987 -6.115 -9.364 -8.351 -2.382
因为zi<-1.645全部成立,则都接受H1,故以0.05的显著性水平证实了备择假设成立.
3.5结果分析
假设检验结果显示,我国7个主要机场的正点率低于flightstats.com发布的《2014年的全球机场准点率排名》中的正点率.flightstats.com统计的数据已经说明我国的航班延误十分严重,而我们抽样调查的数据显示我国7个主要机场的正点率比flightstats.com统计的正点率还低,这充分证明了我国的航班延误十分严重这一结论的正确性.
4 模型二的建立与求解
4.1问题的进一步分析
通过查阅大量资料,我们确定了一些影响航班延误的因素,其中有天气、公司、流量控制、机场、联检、油料、离港系统、旅客、军事活动、公共安全这10个原因.对这10个原因进行线性回归分析,研究这10个原因与航班延误之间的相关关系。
4.2数据处理
我们统计了1996年—2012年天气、公司、流量控制、机场、联检、油料、离港系统、旅客、军事活动、公共安全这10个因素分别导致的航空延误的班次。
对延误航班次数和导致航班延误的各个原因的次数绘制线性统计图,可以大致看出因变量(不正常班次)与自变量(各个原因导致的航班延误次数)呈线性关系,所以可以建立线性回归的数学模型来分析因变量与自变量之间的相关关系。
4.3模型建立
4.4 模型求解
利用Eviews软件得到估计方程的输出结果,得模型估计结果为:
根据p值判断,给定0.05的显著性水平,回归系数的估计值只有具有显著性.而模型的拟合优度(R2)很高,F值很高,说明解释变量间可能存在多重共线性.
下面用Klein判别法来检验模型中的多重共线性,利用相关系数矩阵来查看解释变量之间的简单相关系数.
根据变量之间的简单相关系数,可以看到解释变量之间是高度相关的,即模型存在着多重共线性问题.
为优化模型,我们用逐步回归法克服多重共线性,首先用解释变量对每一个解释变量做简单回归,以此建立Y关于
x10的回归式,这10个回归式按可决系数大小排列.
将第一个回归式作为基本的回归方程,按解释变量重要性从大到小的顺序逐个引入其余的解释变量.
首先,引入x3,对Y 关于x1和x3作回归分析,得出回归方程为:.
可以看出,加入x3后,改进了R2,且回归参数的t检验在统计上也是显著的,所以在模型中保留x3.
的系数不能通过t检验,认为这些变量是多余的,应该舍弃.
综上所述,我们求解出的线性回归方程为:
4.5结果分析
根据对天气、公司、流量控制、机场、联检、油料、离港系统、旅客、军事活动、公共安全这10个原因的线性回归分析,我们发现天气、公司、流量控制、旅客、军事活动这5个原因对航班延误有显著影响,机场、联检、油料、离港系统、公共安全对航班延误的影响不够显著,可以忽略不计.
5 结果分析
本文建立了两个模型。首先通过假设检验的方法判断我国是否存在航班延误这一问题,从结果可以看出我国航班延误十分严重。进而通过查阅资料得到天气、公司、流量控制、机场、联检、油料、离港系统、旅客、军事活动、公共安全这10个影响航班运行的因素,并结合我国数据进行相关回归分析,以确定导致我过航班延误的主要原因,建立了线性回归方程,得出天气、公司、流量控制、旅客和军事活动这5个因素是导致我国航班延误的主要原因,为进一步建立航班延误预警机制以及有针对的解决航班延误问题提供了理论基础.
6 模型的评估和改进
6.1模型的优点
模型一:假设检验能够用样本指标估计总体指标,依据一定的概率原则,以较小的风险来判断估计数值与总体数值是否存在显著差距,本文以flightstats.com网站公布的《2014年的全球机场准点率排名》上的数据为估计数值,发现总体数值并未与之有显著差异,即我国航班延误问题确实十分严重.
模型二:线性回归分析可以准确的计量各个因素之间的相关程度与回归拟合程度的高低.简洁明了,得到的因素权重可信度比较高.本文通过线性回归分析找出了影响我国航班延误的因素,分别是天气、公司、流量控制、旅客和军事活动这5个因素。
6.2模型的缺点和改进
引进变量时,我们尚未考虑实际问题的一些因素以及事件具有随机性,把问题理想化构造模型,这与解决实际问题有一定距离,而且因素具有不确定性。
参考文献
[1]马敏娜,王静敏.统计学.高等教育出版社.2011
[2]易丹辉.数据分析与EViews应用.中国人民大学出版社.2008
[3]攸频,张晓峒.Eviews6实用教程.中国财政经济出版社.2008
[4]中国民用航天局发展计划司.从统计看民航(1997-2013).中国民航出版社.1997-2013