基于Matlab的航班延误预测
2018-01-18崔瑾
崔瑾
[摘 要] 近年来由于航空运输需求的急增,航空管制或一些天气因素导致航班延误的状况频发,给人们的生产生活带来了一定程度的影响。文章运用多元线性回归模型来做航班延误时间的预测,抽取样本数据并进行了检验符合线性相关,并通过Matlab实现了样本抽取及计算回归系数、统计量的过程。
[关键词] Matlab;航班延误预测;多元线性回归模型
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2018. 21. 068
[中图分类号] F562 [文献标识码] A [文章编号] 1673 - 0194(2018)21- 0162- 02
1 引 言
中国的快速发展得益于公共交通的建设与发展,由于航空运输需求的急增,交通的发展特别是航空交通的发展,同时也突显出诸多问题,而空域有限,又因航空管制、天气等原因导致航班延误的状况频发。据2016年5 月民航局公布的《2015年民航行业发展统计公报》显示,2015年全国客运航空公司共执行航班 337.3万班次,平均航班正常率为68.33%[1],对人们的生产生活造成了一定程度上的影响。因而如何进行科学的预测航班延误成了航空公司、乘客的迫切需求学术上的一个研究方向。
2 建立预测模型
2.1 多元线性回归模型
设y为因变量,x1,x2,…,xk为自变量,并且自变量与因变量之间为线性关系时,则多元线性回归模型为:
y=b0+b1x1+b2x2+…+bkxk+e
其中,b0为常数项称为截距,b1,b2,…,bk为回归系数,e称为误差[2]。
2.2 确定因变量
造成航班延误的因素,主要包括天气、航空管制,当然也还有些人为的因素,如航空公司的内部原因。为了进行计算,需要根據天气对航班延误的影响,对各种天气情况进行数值化如下表1所示。在很多网站上都可以获取未来3~5天的气象数据,有些网站提供了API接口以获取相应的天气情况,对于没有提供接口的,可以通过编写爬虫程序请求并解析返回的数据而获得。
在这确定回归方程中,y为航班延误时间,自变量x1、x2分别为天气因素对航班的影响,自变量x3为人为因素造成的航班延误时间,如航空管制的时长,上一班飞机延误的时长,因此回归方程如下:
y=b0+b1x1+b2x2
2.3 预测模型校验
确定了回归方程,还需要进行校验,校验大致分两类,一个是基线数据检验,一个是直接通过散点图进行判断。
基线数据检验包括t-检验、F检验及相关系数检验。
(1)t-检验
t-检验又称回归系数显著性检验。t检验是分别检验回归模型各回归系数是否具有显著性。统计量t的计算公式为:
ti= =
其中,Cij是多元线性回归方程中求解回归系数矩阵的逆矩阵(x′x)-1的主对角线上的第j个元素[2]。
(2)判定系数检验
判定系数R2越大即越接近1,回归方程对样本数据拟合程度越强,自变量与因变量关系越密切,R2统计量计算公式为:
R2 =SSR / SSE
其中SSR表示回归平方和,SSE表示残差平方和。
(3)F检验
F检验又称回归方程的显著性检验,用于评价所有自变量与因变量的线性关系是否密切。能常采用F检验,F统计量的计算公式为:
F= =
根据给定的显著水平a,自由度(k,n-k-1)查F分布表,得到相应的临界值Fa,若F>Fa,则回归方程具有显著意义,回归效果显著;F (4)散点图 很多时候通过散点图来进行判断更直接,而且Matlab可以直接生成散点图,如图1所示为残差散点图,在抽样的2 000个样本数据中,仅有少量红色标出的异常数据,绝大多数绿色标注的都符合线性回归方程。 3 预测的 3.1 在Matlab中读取数据 Matlab可以直接读取数据库、Excel、文件中的数据,在这本文采用的Oracle数据库,通过查询语句查询回归分析样本库中的10 000条数据,但从数据库读取的数据为了方便后续的计算需要转换为矩阵。具体实现如表2所示。 3.2 建立回归方程 如表3所示调用regress函数可以得到回归系数b,b为b0、b1、b2的行列式,及统计量stats,其中stats(1)为R2,stats(2)为f。有了这些信息就可以检验并构建回归方程。 3.3 计算延误时间 计算延误时间可以有两种方式,一是将regress的计算结果保存到数据,Matlab可以进行数据库的添加修改操作,代入方程y=b0+b1x1+b2x2计算即可。 另一种,即时作回归计算,这种方式比较好的是可以即时读取最近及上一年同期数据作为样本作加回归计算,Matlab可以将自定义的函数生成为jar包或dll库。可供Java、.net程序进行调用。 4 结 语 本文基于Matlab实现了基本的航班延误的预测功能,往往有很多情况并不满足线性回归的情况,就需要通过非线性回归模型像神经网络来进行分析预测。另外,目前对于天气值确定也还不够细致,还需要进一步综合分析计算各种天气对飞行的影响来确定。 主要参考文献 [1]胡皓月. 航班延误预测的大数据方法研究[D].南京:南京航空航天大学,2017. [2]龚曙明.市场调查与预测[M].北京:清华大学出版社, 2005.