基于ARMA 的航班延误时间序列预测
2021-07-16王晨博吴晓龙谢智成时统宇
王晨博 吴晓龙 谢智成 张 艺 时统宇
(中国民航大学 空中交通管理学院,天津 300300)
1 概述
航空业是我国运输业的重要分支之一。近几年随着我国国民经济的快速发展,人们逐渐开始选择飞机作为出行工具,而航班延误率是乘客考虑航班的重要因素之一。
本文运用美国联邦航空局的航空系统性能指标数据库中的机场分析模块。在航班起飞延误时长的基础上,运用时间序列预测分析方法对航班延误时间序列建模,并对比基于LM 算法的BP 神经网络模型,分析航班延误趋势,观察延误特性。
2 航班预测模型
2.1 ARMA 模型
自回归滑动平均模型(简称:ARMA 模型)是一种随机时间序列分析模型,由博克斯(Box)和詹金斯(Jenkins)于20 世纪70年代创立。它的基本思想是:某些时间序列是依赖于时间的一组随机变量,构成该时序的单个序列值虽然具有不确定性,但是整个序列的变化却有一定的规律性,可以通过相应的数学模型进行近似描述。在ARMA 模型中,对一组指标序列进行预测时,主要利用过去值、当期值以及滞后随机扰动项的加权建模,从而解释并且预测时间序列的变化发展规律。建立ARMA 模型进行时间序列预测分析时,该时间序列必须是平稳的[7],否则得出的结果不具有参考价值。
2.2 神经网络拟合模型
人工神经网络(artificial neural network,缩写ANN),简称神经网络(neural network,缩写NN),是一种模仿生物神经网络的结构和功能的数学模型或计算模型。在分层型神经网络中按功能分,有三种结构,输入层、隐藏层及输出层。神经网络由大量的人工神经元联结进行计算现代神经网络是一种非线性统计性
图1 神经元模型
常见有BP 神经网络、卷积神经网络、深度神经网络及径向基神经网络等。本文使用的是BP(Back-propagation,反向传播)神经网络,是一种按照误差反向传播算法训练多层前馈神经网络。
正向传播阶段,一层神经元,只会影响其下一层神经元的状态,如果输出层得不到期望的输出的结果,则进入误差的反向传播阶段,误差沿原来的路径返回,网络根据误差信号修改各层的连接权,使误差达到最小。
标准的BP 神经网络收敛过程存在收敛速度慢,存在所谓“局部最小值”的问题。可以通过L-M(Levenberg-Marquardt)算法来优化这些问题,L-M 是改进的高斯-牛顿法,大大提高了计算速度,减少计算时间。LM 算法收敛速度快。如果要求精度高,该算法的优点尤其突出。在许多情况下,采用LM 算法的训练函数trainlm 可以获得比其它算法更小的均方误差[8]。
2.3 数据预处理
原数据中大多会有一些收集时产生的错误数据,这些数据不能真实的反应情况而且在后续使用过程中会造成误差。首先,去除通航航班、军航航班、本场飞行航班和缺失部分运行数据的国际航班等异常数据,并根据实际应用需求,去除凌晨00:00-04:59 的数据。之后,采用不合理数据予以剔除,然后采用一维插值方法进行数据填充。预处理后延误时序共有6953 个数据点。
2.4 ARMA 模型建立
2.4.1 模型识别
模型的建立,使用的数据要求平稳,利用自相关函数和偏相关函数可以大致确定p、q 的范围。若自相关系数呈现拖尾,偏自相关系数呈现p 阶截尾,则定为AR(p)模型;若自相关系数呈现q 阶截尾,偏自相关系数呈现拖尾,则定MA(a)为模型;若自相关系数和偏自相关系数都呈现拖尾,则定为ARMA 模型。
2.4.2 模型定阶
现有常用的两个模型选择方法有赤池信息准则(Akaike information criterion,AIC) 和 贝 叶 斯 信 息 准 则(Bayesian Information Criterion,BIC)本文采用AIC 准则对模型进行阶数确定。它是衡量统计模型拟合优良性的一种标准,由日本统计学家赤池弘次于1973 年提出并创立和发展的,因此又称赤池信息量准则,它建立在熵的概念上,提供了权衡估计模型复杂度和拟合数据优良性的标准。函数一般定义如下:
2.4.4 残差分析
2.5 BP 神经网络模型
2.5.1 模型建立
原始数据内容包含航班起飞延误时长及到达延误时长等信息,将这些数据作为的输入,将平均到达延误时长作为输出,投入到神经网络拟合中。训练数据、验证数据、测试数据的占比分别为70%、15%和15%。本文使用神经网络模型,共有1 个输入层,其中9 个输入元素,隐藏层设置10 个神经元和1 个输出参数进行模型建立。
2.5.2 估计结果
工具箱自身设置有统计结果,该模型性能最佳结果在第12次迭代得到,此时该模型的均方误差为288.329。可以看出神经网络模型得出结果的均方误差随着迭代次数的推进,逐渐降低,并且得到模型的R 值及回归值为0.32232,R 值测量的是目标之间的相关性,越接近1 表示越密切关系,越接近0 表示越随机关系。
2.6 对比结果分析
可以计算两种模型的均方误差值MSE 和均方根误差值RMSE来反映估计量于被估计量之间的差异程度,更小值为最佳。
�
��� ���� �����
������������� ������ ���������� ��������
������� ������ ���������� ���������
对比R2值、MSE 和RMSE 值可以看出,时间序列模型的拟合效果比神经网络好,均方误差和均方根误差更小,R2更接近1。经过时间序列模型的建模预测,观察预测值和实际值的差异,分析标准残差值变化、残差直方图,可以看出残差大部分集中在0 值附近,说明拟合误差较小,分析残差自相关图、偏自相关图可以看出在一阶滞后时整体图像趋于平稳,说明残差不具有自相关性。分位数图,分位数图中大部分蓝点在红线上,说明残差接近正太分布,预测值据有一定可靠性。分析BP 神经网络结果回归图,R 值仅0.3 左右,虚线和蓝线相差较远,说明模型拟合效果并不理想。相对比于训练的BP 神经网络模型,ARMA 模型预测的数据更加准确,更具有参考价值。
3 结论
合理的预测模型对运行规划有着很大的意义。随着航班的运行,海量的数据被记录下来,通过研究这些数据,建立适合的数学拟合模型,可能对航班延误问题有新的认识,并能做出合理应对,提高运营能力。本文根据航班延误时长的数据规律,其航班延误时间长短不定,走势一般是非平稳,通过差分运算建立ARIMA(0,1,3)模型对比BP 神经网络模型,对预测延误时间结果具有较好的结果,对历史数据进行利用,预测对比实际数据,得出结论,有一定的使用价值。乘客可以根据模型预测结果判断是否选择该线路,有助于帮助其做出合理的决策。航空公司可以参考优化航班安排计划,提升运行效率,进一步提高公司服务品质,对未来公司发展有一定积极作用。