APP下载

基于时间序列模型的国际航段量预测方法

2022-02-10孟雷杨毅李珂郑芸

中国科技纵横 2022年23期
关键词:航段差分预测

孟雷 杨毅 李珂 郑芸

(中国民航信息网络股份有限公司,北京 101318)

1.引言

根据中国民用航空局2021年的统计数据,全行业完成运输总周转量856.75亿吨公里,比上年增长7.3%。国内航线完成运输总周转量641.14亿吨公里,比上年增长9.1%,;国际航线完成运输总周转量215.61亿吨公里,比上年增长2.3%[1]。国际航线完成的运输总周转量占全行业的25%;同时国际航线完成旅客周转量90.56亿人公里,完成货邮周转量207.57亿吨公里,完成旅客运输量147.72万人次,完成货邮运输量266.70万吨。从以上数据可以看出,国际航线对民航具有重要作用。一张机票有多个航段,每天的航段量是统计当天所有机票包含的航段数量,航段量体现了民航公司的实际运力和旅客的需求。实现航段量的准确预测,对航空公司而言,无论是对航班安排、业务拓展、未来规划等作出重要决策,还是制定航线规划和机队编排都是必不可少的。同时,民航航段量的研究有利于帮助国家合理优化资源配置,制定交通运输规划。航段是航空网络空间结构的重要组成部分,杜德林等人采用图论和复杂网络理论的方法,研究了从2005年到2015年这10年间的航空网络空间结构及进化特征,发现企业行为对航空网络空间结构的影响,从而为民航的运行管理和发展提供一定的参考价值[2]。

如果能对航段量进行预测,提前预知国际航段量,便能提前知道国际航班的发展趋势。进而能预知国际旅客量的拐点,就可以对资源进行科学调配,可以使航空公司在激烈的行业竞争中保持竞争力,在发展中不断壮大。因此,准确地预测国际航段量具有重要的现实意义,有利于打开发展新局面。

另外,通过对机场历史数据的统计和分析,结合航班的DOW特性,分析值机客流量的相关影响因素,以每小时的值机客流量为研究对象,构建基于时间序列的动态回归ARIMAX模型[3]。陈聪聪等人基于影响民航客运量主要因素:一年的国内生产总值,外国人入境游客,定期航班航线里程,铁路客运量,第三产业增加值,利用超极限学习机(Extreme Learning Machine,ELM)的算法模型,对民航客运量进行预测[4]。结合时间序列的知识,挖掘客运变化的特征,建立了ARIMA模型来描述民航客运运输的发展趋势以便将来做出合理的预测[5]。最近的基于深度学习方法的民航客运量预测[6],赵芳卉等人在2005年1月至2019年6月我国民航客运量的历史数据上进行时间序列分析,为了消除回归残差的异方差,针对数据呈现的趋势及季节波动特征建立SARIMA和GARCH组合模型[7]。甘国育等人提出一种融合的一维卷积神经网络和长短期记忆网络的客运量预测模型,利用一维卷积神经网络计算代价小和可以识别序列局部模式的特性以及长短期记忆网络可以捕获客运量序列的时间依赖特性,对客运量进行预测[8]。循环神经网络能较好地预测民航的客运量,但在准确率,尤其是时间效率方面仍需提高。

本文以时间序列和ARIMA理论为基础,提出了一种基于时间序列的国际航段量预测方法。该方法针对国际航段量时间序列数据具有长期递增趋势、季节性变动和不规则变动特征,构建ARIMA模型,较好地捕获时间序列数据的时间依赖,使用差分化将非平稳数据转化为稳定时序数据,克服了传统时间序列预测方法的弊端。在国际航段量预测中,该模型比线性回归和指示函数模型对稳定的时序数据的线性关系具有更好的拟合能力,因此得到了更好的预测效果。本文方法不仅能对国际航段量进行宏观预测,还可以适用于具体航空公司以及特定航线的航段量预测,具有较高的理论价值和现实指导意义。

2.时间序列理论

2.1 时间序列的组成部分

在现实生活中,人们经常会关心以后的事,也就是要对未来做预测。比如某只股票明天是否会上涨,明年企业的利润能达到多少?随着时间的推移,很多事件及自然现象都会积累一些数据,比如销售额、收入或北京一年的温度。

故时间序列是按时间顺序记录的一组数据。其中的观测时间可以是年份,月份,或者是天等其他任何时间形式。为了便于表述,本论文用T表示所观察的时间。

一个时间序列通常由4种要素组成:趋势、季节变动、循环波动和不规则波动。

趋势(trend)是时间序列在一段较长时期内呈现出来的持续向上或持续向下的变动。

季节变动(seasonal fluctuation)是时间序列呈现出的以年为周期长度的固定变动模式,这种模式年复一年重复出现。例如,交通运输、旅游都有明显的季节变动特征。铁路和航空运输在节假日会迎来客流高峰。

循环波动(cyclical fluctuation)是时间序列呈现出的非固定长度的周期性变动。比如人们经常听到的景气周期,加息周期这类术语。他不同于季节变动,季节变动有比较固定的规律,且变动周期大多为一年。而循环波动无固定规律,变化周期也多在一年以上。

不规则波动(irregular variations)是时间序列中除去趋势、季节变动和循环波动之后的随机波动。不规则波动通常是夹杂在时间序列中,致使时间序列产生一种波浪形或震荡式变动[9]。

2.2 常见时间序列模型

有了不同的时间序列数据,如果要对未来数据进行预测,就要用时间序列模型去建模分析。

(1)常用模型。下面介绍一下常见的时间序列模型。

公式说明:

xt表示t时刻的观测值,为自相关系数,被假设假设为平均数0,标标准等于随机误差值。u为MA模型的常数。

1)AR模型。

这个模型是用前p期的序列值xt-1、xt-2…xt-p为自变量,去预测xt。

2)MA模型。

这个模型说明xt与以前各期的序列值无关,是前q期的随机扰动项的线性回归模型。

3)ARMA模型。

这个模型说明xt不仅与前p期序列值有关,还与随机扰动项有关。

4)ARIMA模型:许多非平稳序列差分后会显示平稳序列的性质,称这个非平稳为差分平稳序列。对差分平稳的数据用ARIMA模型进行拟合。

(2)时间序列平稳性。平稳性是时间序列里面的重要概念。其定义是:如果时间序列xt在某一常数附近波动且范围有限,即有常数均值方差,且延迟k期的序列变量的子自协方差和自相关系数是相等的,则xt是平稳序列。

无论是严平稳还是弱平稳,实际上刻画的都是时间序列的统计性质关于时间平移的不变性。严平稳要求比较严格,需要所有的统计性质都是关于时间平移不变的,而弱平稳只需要一阶矩与二阶矩(以及协方差)是时间平移不变的。

平衡的时间序列才能进行建模和预测。因为我们研究时间序列很重要的一个应用或者出发点,是希望通过时间序列的历史数据来得到其未来的一些预测结果。换句话说,我们希望时间序列在历史数据上的一些性质在将来保持不变,这也是时间平移的不变性。假设时间序列不是平稳的,那么由历史数据得到的统计性质对未来毫无意义,历史数据和未来没有什么相关性,那么研究时间序列也就没有意义了。

(3)平稳性的检验。既然平稳性对建立时间序列模型至关重要,那么如何检验所收集的数据是否满足平稳性。以下有几种统计检验方法:

1)图形分析法:将数据绘制成图形,进行观察得出结论。通常有两种做法,一种是直接观察原始数据,另一种是可视化原始数据的统计特征。①可视化数据,根据平稳时间序列的均值和方差都为常数的性质,平稳时间序列的时序图显示该序列始终在一个常数值附近随机波动,而且波动有界。②可视化统计特征,绘制时间序列的自相关图和偏自相关图。平稳时间序列具有短期相关性,这表明平稳时间序列通常只有近期的序列值对现在的值影响较明显。随着延迟期数k的增加,平稳序列的自相关系数会衰减趋向于零,并在零附近随机波动,而非平稳序列的自相关系数衰减速度较慢。

2)假设检验方法:检验序列中是否存在单位根,若存在,则为非平稳序列,不存在则为平稳序列。常见的有DF检验、ADF检验、PP检验、DF-GLS检验和KPSS检验。①DF检验:迪基(Dickey)和弗勒(Fuller)1979年基于非平稳序列的基本特征将其大致归为3类并提出DF检验:当序列基本走势呈现无规则上升或下降并反复时,将其归为无漂移项自回归过程;当序列基本走势呈现明显的随时间递增或递减且趋势并不太陡峭时,将其归为带漂移项自回归过程;当序列基本走势随时间快速递增时,则将其归为带趋势项回归过程。②ADF检验:为了能适用于高阶自回归过程的平稳性检验,迪基等1984年对一阶自回归过程的DF检验进行了一定的修正,引入了更高阶的滞后项。③PP检验:它是一种非参数检验方法,主要是为了解决残差项中潜在的序列相关和异方差问题,其检验统计量的渐进分布和临界值与ADF检验相同。④DFGLS检验(Dickey-Fuller Test with GLS Detredding):它是一种单位根检验方法,即“使用广义最小二乘法去除趋势的检验”。它利用广义最小二乘法,首先对要检验的数据进行一次“准差分”,然后利用准差分的数据对原序列进行去除趋势处理,再利用ADF检验的模型形式对去除趋势后的数据进行单位根检验。⑤KPSS检验:最大的不同点就是它的原假设是平稳序列或趋势平稳序列,而备择假设是存在单位根。

3)简单统计方法:计算均差和方差的统计量的方法。宽平稳中有两个条件是均值和方差都不变,实际工作中,可以通过观测数据得出判断,具体方法是直接将序列前后拆分成两个序列,分别计算这两个序列的均值、方差,对比看是否差异明显。常见的时序异常检验也是这样的做法,前后分布一致则无异常,否则存在异常或突变。

3.基于时间序列的国际航段量预测模型

本文模型的构建流程:首先,收集国际航段量的历史数据,对数据进行处理,观测数据的特点。其次,对数据进行平稳化处理,对于不平稳的数据进行一阶差分得到平稳的数据,使其满足ARIMA模型的特性,最后建立基于时间序列的国际航段量预测模型。

3.1 数据集与数据可视化

(1)数据集。本文收集了2020年4月到10月的主机航国际航段量数据,经过数据处理得到国际航段量预测的数据集。数据有两个特征:日期和日期对应的航段量。

所谓航段是飞机从起飞到下一个着陆之间的飞行。凡航段的两端都在国内的称为国内航段,比如北京—上海;北京—广州等航段;两端或有一端在国外的称为国际航段,比如北京—洛杉矶航段;广州—暹粒航段;悉尼—广州航段。航段量的计算方式是统计所有机票的航段量。例如,一张票如果有两个航段,另一张有一个航段,则一共有3个航段。本文数据集收集的是每天的国际航段量,就是将一天所有的国际票进行航段量计算。

主机航是指主机在航信的航司,一般是国内航司。之所以研究国际航段是因为全球国际航班的情况是民航界各个航空公司密切关注的问题。如果能对未来国际航段量做出较准确预测,将能帮助航司及时调整经营策略,意义重大。

(2)数据可视化。接下来对数据进行处理以及可视化分析。首先对航段量数据画图分析数据走势,观察数据的特点,符合什么模型。然后根据数据走势和特点选择最符合的模型去建模。因为除了时间序列模型,还有线性回归模型,非线性回归,指数模型。不是所有时间序列数据只能用时间序列模型去建模。这里我们利用Python的画图工具包Matplotlib绘图,使用该模块把带日期数据自动处理成时序图,观察数据呈现什么规律。

如图1所示,数据随着时间有明显上升趋势,航段量数据也在来回震荡,符合时间序列模型曲线。此外,数据大约以一周为一个周期,体现了循环波动,同时也会有随机波动在时间序列当中。指数模型是平滑上升的曲线,显然不符合,而线性回归模型的曲线是线性的,不能来回震荡,也不符合。通过以上分析,我们认为国际航段量数据满足时间序列模型的建模型要求。

图1 时序图

3.2 数据的平稳化处理

时间序列模型建模之前,需要对时间序列数据进行平稳化处理,将不稳定的数据进行一阶差分,得到平稳的数据,然后再进行建模[10]。下面先介绍下平稳性的概念。其基本思想是,决定过程特性的统计规律不随着时间的变化而变化。其数学定义为:如果对一切时滞k和时点t1,t2,...,tnf,都有Yt1,Yt2,...,Ytn与Yt1-k,Yt2−k,...,Ytn−k的联合分布相同,则称过程{Yt}是严平稳的。

本文用adf()函数进行检验。检验结果为:(0.013266272732580436, 0.9596155432394303, 13,201)。其中p值为0.96显著大于0.05,故是非平稳时间序列,要进行进一步处理。故对此时间序列数据进行一阶差分:D_data = data.di ff().dropna()。所谓差分就是对一组数据依次相减,用下一个数值减去上一个数值。对差分后的数据画时间序列图进行分析。观察图2可以发现现在的数据围绕x轴上下震荡,平稳了很多。然后用adf()函数检验,得到的p值为4.57*e-10小于0.05,所以1阶差分后的序列是平稳序列。

图2 时间序列图

3.3 建立时间序列模型

当时间序列数据进行了一阶差分后变得平稳,所以采用ARIMA模型进行建模。首先,通过执行差分测试(即Kwiatkowski–Phillips–Schmidt–Shin、Augmented Dickey-Fuller 或 Phillips–Perron)来确定差分的顺序d,本文选用Augmented Dickey-Fuller进行差分测试,然后在定义的start_p、max_p、start_q、max_q范围内拟合模型。启用季节性选项,ARIMA会确定季节性差分的最佳顺序d之后寻求识别最佳p和q超参数。p为自回归(AR)模型的阶数(即滞后观察的数量)。当时间序列中的先前值非常能预测后来的值时,时间序列被认为是AR。AR过程将显示ACF图的逐渐减少。d为差异程度。q为移动平均(MA)模型的阶数。这本质上是时间序列数据的“窗口”函数的大小。MA过程是过去误差的线性组合。通常,ARIMA模型以ARIMA(p,d,q)的形式编写。为了找到最佳模型,针对给定的信息标准进行优化,并返回使值最小化的ARIMA。信息标准有AIC(Akaike Information Criterion)、AICC(Corrected Akaike Information Criterion)、BIC(贝叶斯信息准则)、HQIC(Hannan-Quinn信息准则)和OOB(Out of Bag),通过这些信息标准分别验证模型评分。由于平稳性问题,可能找不到合适的收敛模型,因此在重新拟合之前采取诱导平稳性的措施。BIC是评价时间序列好坏的重要标准,所以实验中编写了一个程序去循环遍历ARIMA模型阶数,观察BIC值,BIC值越小说明模型拟合的越好。最终模型的参数为p=6;d=1;q=0时BIC值最小,得到的是ARIMA(6, 1, 0)。然后,通过 fit函数去建立这个模型,得到这个模型的系数。图3是模型的详细参数。

图3 模型参数

4.实验与结果分析

基于上节建立的基于时间序列的国际航段量预测模型,可以对未来航段量做预测分析。本文预测接下来一个月的航段量数据,调用model.forecast(30)预测这个月30d的航段量。返回的是Python的array数组格式,部分预测结果如图4所示。

图4 部分预测结果

另外,在ARIMA模型中,我们通常假定当前观测值与前p个时间点的观测值之间存在相关性,该模型的预测准确性同p的取值息息相关。事实上,p的取值较大则更有助于处理长期预测的问题,但其会在一定程度上增加模型的复杂程度,给参数估计带来一定的困难。反之,如果p的取值较小,尽管模型的结构会更为简单,但是会损失很多重要信息,进而影响统计分析的结果。因此选择一个合适的p的取值来实现模型复杂程度与估计准确性之间的平衡是很重要的问题。在本研究中,我们利用BIC准则来选择p的取值,最终取定的取值为6,因此相应的模型分析结果不太适宜处理时间间隔过长的预测问题。如果在实际问题中,我们感兴趣的预测问题与观测到的数据时间间隔较长,可以通过该时长适当调整模型中参数p的取值,进而得到更为精准的预测结果。

5.结论

对于航空公司来说,能准确预测未来一个月的国际航段量,在竞争激烈的国际市场上是有极大优势的。本文对于平稳的时间序列数据,能建立良好的时间序列模型。该模型能快速较准确的预测国际航段量,而且还能低成本地快速迭代更新。实验结果表明,该模型简单高效,预测效果好。并且对中长期市场非正常事件有一定的预测能力,可以用来预测国际航班的未来走势。

我国航司的飞机总量及运力总量数据仍然保持正常的增长状态,同时航司成本也维持着较高水平。通过对未来国际航段量预测发现民航市场的供需关系,调整市场的供给、对资源的动态分配和优化提供了不可或缺的决策支持,提高运行管理效率、加强市场化。

此外,本文方法还可以适应于民航航线客运量和航班机票价格预测研究,旅客出行需求和托运行李需求预测研究,从而具有较高的理论价值和现实指导意义。

猜你喜欢

航段差分预测
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
数列与差分
基于双重容量识别标准的航空网络关键航段识别方法
航班计划对延误波及变化的影响分析
“张譬”号开展首航第二航段前往南太平洋新不列颠海沟
基于差分隐私的大数据隐私保护
相对差分单项测距△DOR
差分放大器在生理学中的应用