基于支持向量周期回归的机场加油量预测
2014-07-02朱美琳
文/任 飞 朱美琳
1.引言
改革开放以来,我国的航空运输业发展很快,从运输总量上来看,我国民航业已经成为全球仅次于美国的第二大航空运输系统。航油供应对航空运输业的发展密切相关,航空运输的持续快速发展,使航油需求不断增加。改革开放三十多年来,民航运输总周转量年均增长17%以上,远高于其他交通运输方式[1],如此高的快速发展,带来航油消耗也不断增加,航油的总消耗量也在以年均14.8%的速度增长。随着西部经济的不断发展,也带来西部民航运输的发展,从而进一步带动航油的快速消耗。2013年西北18个机场总加油量86.4万吨,较2012年增长18.88%[2],高于全国加油量增长率49.84%[3]。
近几年来,国际航油价格大幅度变化, 2013年航油的年平均价格比2009年增长了55%,从2009年到2013年,航油每吨价格的方差是均值的200倍[4]。如何在频繁的油价变动环境下降低存储和运营成本,对于航油公司来说是个亟待解决的重要任务。通常的策略是当航油价格较高时,航油公司仅购入满足下月飞行需求且尽量少的航油,以减少运营成本,当航油价格较低时,可适当多储备一些,以备油价较高时使用。 这一决策的前提条件就需要对短期(未来几个月)的加油量有较为精确的预测,目前一般采用的方法还是靠经验和历年数据简单估算所得,并没有很精确的数学模型。
加油量和航油消耗量是两个不同的概念,本文主要是站在航油公司的角度去分析各机场加油量,而不是站在航空公司的角度去分析航油消耗量,尽管两者有一点的相关性,但出发点不同,分析的结果也是不同的。本文以西北航油公司的月度加油量数据为依据,深入分析,建立符合实际的数学模型,获取未来短期的预测数据,进而可帮助航油公司确定采购量和库存量,从而达到减少成本的目的。
目前,关于加油量预测的文献还比较少见,研究部队油料消耗预测的研究较多,见[5][6],国外的文献大都是从飞机自身的工程结构上分析影响油耗的因素,而从大环境去考虑对油耗的预测则较少,Vedant Singh和Som esh K. Sharm a利用结构方程模型对燃油消耗做了全方位的预测,从航空器运行、飞机技术与设计、社会经济政治、航空基础设施等方面考虑油耗优化问题,算是分析较全面的文献资料[7]。
由于民用机场主要是进行客运,呈比较明显的季节性,所以机场加油量数据是较典型的周期型数据,对于有周期的时间序列数据预测,比较成熟的方法是ARIMA模型[8],它将非平稳时间序列转化为平稳时间序列,然后进行回归所建立的模型,还有一种方法是简单线性回归[9],其思想是将周期因素作为自变量,加入到原有自变量中,然后进行线性回归。
上述方法都是针对线性数据的,它们描述时间序列的非线性关系的能力较差。在非线性回归模型中,Vapnik等人提出支持向量机(SVM)理论[10]表现出比较优秀的性能,能较好地解决以往很多学习方法的小样本、非线性、高维数、局部极小点等实际问题,被广泛应用。但支持向量回归并没有考虑周期性。
本文针对机场加油量时间序列的特点, 提出了一种基于周期的支持向量机回归算法用于机场加油量时间序列的预测。
2.影响机场加油量的因素分析
要对机场加油量进行预测,尤其是月度预测,需要比较细致的模型,因此除了获取历年加油量数据以外,还应分析影响加油量的其他因素,抽丝剥茧,才能进行深层次的预测。
(1)首先考虑到不同的机场规模,加油量的变化也是不一样的,因此,本文将机场进行归纳总结,分为三类:
①干线机场,如西安、兰州机场,运作多年,客流量大,季节性突出,加油量较为稳定地同比增长。
②支线机场,如敦煌、延安机场,多是旅游城市,旅游季节客流较大,其他季节变化无常,有时还有停运现象。
③新接收机场,如中卫、金昌等机场,刚开始发展,历史数据少,没有自己的储油设备,客流非常不稳定,季节性因素少,有些航班自带回油,不在这些小机场加油。
针对上面三种不同的机场,其影响加油量的因素也各不相同,因此一定要区别对待。尤其是支线机场的加油量,对新接收机场的发展具有很重要的参考价值。本文对不同规模大小的机场分别建模,采用的预测参数设定是不一样的。
(2)影响加油量的一个非常重要的因素就是季节性。民用机场主要进行的是客运,不同季节的旅游人数会给客运带来不同的吞吐量,在旅游(春运)旺季,每个航空公司的航班都会比淡季有所增加,随之带来的加油量也有所不同。
(3)同(2)中所述,每月的旅客吞吐量直接影响到加油量的多少。但每月的吞吐量数据都是月末统计出来的,并不能够提前获取,对未来几个月的吞吐量的值只能是预测,因此并不精确,为了避免误差累积,因此在后续的建模中,将使用航班架次代替吞吐量。
(4)航班架次虽不能完全替代旅客吞吐量,但国内的机型差别不大,满员率差别也不大,因此两者的变化趋势还是非常相似的。以西安机场为例,2009年到2013年,旅客吞吐量与航班架次的相关系数为99.8%[11],因此可以用航班架次作为影响加油量的因素之一。另外航空公司通常都会提前几个月公布其航班计划,因此相对精确的航班架次是可以通过各航空公司公布的数据得到。
(5)由于每个航班的飞行距离是不同的,而不同的飞行距离,加油量也随之不同,因此航班飞行距离是必须考虑的因素。本文首先通过航班架次知道每个航班的起飞地点和降落地点,然后根据两地的经纬度计算出两地距离。
(6)另外不同的机型,其载客人数不同,带来的加油量也不同。目前西部地区主要飞行的客机是波音系列和空客系列,受跑道长度限制,一般没有超大型飞机。本文考虑以737机型作为基准,将其他机型与737飞机进行比较,给出不同的权重。当然飞机的新旧程度也会影响到加油量,不过这个引起的变化较小,于是忽略不计。
(7)其他影响因素。由于给飞机加油时是由人主观控制,因此加油量的多少还会受一些人为因素的影响,另外天气变化、少量军用机加油等,这些因素在整个加油量里面所占的比重非常少,因此可以综合用一个扰动随机变量表示。
综合上面所述,飞行距离是综合了旅客吞吐、航班架次的复合指标,笔者将月度的加权飞行总距离作为最主要的影响因素。获取步骤如下:
Step 1 获取各航空公司月度的所有航班信息
Step 2 通过各机场的经纬度计算各机场间的距离dij,表示i机场到j机场的飞行距离。
Step 3 计算每个航班的机型权重,alpha=航班机型满员数/737飞机满员数。
表1 各模型参数表
Step 4 将每个航班的飞行距离乘以机型权重,再进行累加,得到月度所有航班的加权飞行距离之和distance。
3.考虑周期变动的支持向量回归
3.1 传统的支持向量回归
支持向量回归是在分类算法上演化来的,实质上是采用支持向量机对原因变量衍生出的两类点X,X*分类,得到的分类超平面即为所求的回归超平面。求解支持向量机回归问题,首先将每个样本点的y值分别减少和增加ε,得到包含两类样本的训练集D。利用支持向量机求解分类问题,假设存在超平面在 精度下无误差地完全将两类点分开,即称该ε-带超平面为训练样本的线性回归函数。
同时为增强泛化能力我们把线性硬ε-带软化,并引进松弛变量和惩罚参数C,在描述非线性问题时,用一个非线性映射)(xxΦ→把数据映射到一个高维空间,得到ε-带支持向量回归机的原始问题。
常用的核函数有:多项式核,高斯核,Sigm oid核等。
3.2 考虑周期变动的支持向量回归
上述模型是普通的支持向量回归模型,并没有考虑到周期因素,本文在此基础上,引入周期自变量,设时间变量为t,周期长度为T,对于一般的周期函数可以表示为:
4.西部地区机场加油量预测
本文使用西部地区民用机场的月加油量数据进行预测,主要包括敦煌机场、嘉峪关机场、兰州中川机场、西安咸阳国际机场、西宁曹家堡机场、延安机场、银川河东机场、榆林西沙机场等8个机场,按照第2节中的机场分类,西安咸阳国际机场、兰州中川机场、西宁曹家堡机场、银川河东机场为干线机场,敦煌机场、嘉峪关机场、延安机场、榆林机场为支线机场,本文分别对这8个机场建模。考虑到数据纲量的统一,对各项数据(包括自变量)进行了z-score标准化处理。
本文选取了2011年1月到2013年12月的加油量数据,并求出每个月的各机场航班的飞行距离。使用ARIM A模型、简单线性回归模型、传统的支持向量机模型(不带周期自变量,只有distance为自变量)、带周期变动的支持向量机模型分别对8组数据进行拟合。ARIM A模型使用SPSS软件,其中的各项参数由软件经优化后自动选取,简单线性回归模型也使用了SPSS软件,支持向量机模型使用的是matlab工具包,并在此基础上修改而成,其中核函数为高斯核函数其余各项参数,由网格法自动寻优确定。各基本模型参数如表1所示。
在线性回归里,飞行距离的系数都比较高,说明飞行距离同加油量是非常相关的,这与我们之前的分析相吻合。
以敦煌为例,可以得到各个算法的拟合曲线。
图1 敦煌拟合图
利用R方来计算各模型的拟合效果,得到表2。
表2 各模型拟合效果表
可以看出带周期变动的支持向量机的拟合度是比较高的。
我们用上面的模型对2014年1月和2月的数据进行预测,将之与实际值进行比较,计算两个月的平均误差,如表3所示。
表3 各模型的预测误差
从上表可以看出,传统支持向量机和带周期的支持向量机模型的预测能力都表现不错,基本预测误差都能控制在5%以内,尤其是对支线机场(敦煌、嘉峪关、延安、榆林)的预测,在其波动比较大的情况下,ARIMA模型以及简单线性回归模型就会出现比较大的误差。当然支持向量机也会存在部分过拟合现象,因预测的月数较少,问题还不是很明显。
5.结论
机场加油量的估计对机场的发展有着十分重要的作用,可减少机场运营成本,提高机场的竞争力。本文使用基于结构风险最小化原理的支持向量机理论,根据时间序列的性质,给出了带周期的支持向量机回归方法。通过对机场加油量的预测实验,表明支持向量机方法,有很强的学习和预测能力,在机场加油量预测上有很大的应用价值。在未来的研究工作中,将时间序列的方法组合,降低单一方法预测中一些不利因素的影响,提高学习和预测能力将是研究的重点。
[1]中国民航运输总周转量年均增17% 存四结构性问题。中国新闻网。http://finance.chinanew s.com/cj/2012/07-20/4046610.shtm l
[2]中国航空油料有限责任公司西北公司2013年财务决算报告
[3]中国航油集团公司2014年工作会议文件
[4]发改委内部数据
[5]李伟,王红旗,严乔乔.BP神经网络—马尔科夫模型在军用油料消耗预测中的应用研究[J],中国储运,2012(01),125~126
[6]王冰,刘岩,周庆忠.军队油料消耗预测策略研究[J],中国储运,2011(03),51~54
[7]Vedant Singh, Somesh K. Sharma. Evolving base for the fuel consumption optimization in Indian air transport: application of structural equation modeling[J], European Transport Research Review,February 2014
[8]Box G.E.P, Jenkins G.M, Reinsel G.C. Time Series Analysis: Forecasting and Control [M], 3th ed. Englewood Cliffs, Prentice Hall, 1994, 89~130
[9] 邓明, 张荷观. 利用线性回归模型对季节指数的估计[J],江南大学学报(自然科学版), 2008, Vol 7(3), 375~378
[10]Vapnik V. Statistical learning theory[ M] . NY: Springer , 1998
[11]西安咸阳国际机场主页 http://www.xxia.com/intro.aspx