APP下载

基于经验模态分解和ARMA模型的国际航空油价实证分析
——以港湾石油航空燃油价格数据为例

2019-02-18张心成

关键词:趋势聚类模态

高 伦,张心成

(1.奥斯特拉发技术大学经济学院,奥斯特拉发 捷克共和国 70200;2.中南财经政法大学统计与数学学院,湖北 武汉 430073)

随着页岩油的大规模开采,全球原油产量大增,与此同时,石油输出国组织宣布不减产,由此导致原油市场供给与需求失衡。2018年至今,影响国际油价的不稳定因素增多,给油价带来更多的不确定性,WTI原油期货价格更是从2018年12月24日的42.53美元每桶上升到目前的63.10美元每桶(截至2019年5月20日)。国际油价的剧烈波动直接影响了相关企业甚至是国家的收入。为了抑制油价的剧烈波动,石油输出国组织国家纷纷采取行动试图维持自身收入的稳定。相关企业更是纷纷采取措施,如使用期货期权交易等,试图对冲因油价波动带来的风险。

根据国际航空运输协会的预测,2019年全球航空运输业净利润将达355亿美元,较2018年增长32亿美元。燃油成本预计占航空公司平均运营成本的24.2%,因此油价下降导致的燃油成本下降是驱动盈利上涨的重要因素之一。航空公司一方面通过选择不同市场间较低价格的航空燃油来降低燃油成本,另一方面也通过对油价走势进行预测,提前购买期货期权以规避油价涨跌带来的成本变动。

对商品期货价格的准确预测有助于企业降低成本,减少风险。对于在市场上进行交易的商品期货价格的波动而言,价格的时间序列是研究对象所有信息的载体,信号采集和时频分析是预测分析的重要内容。如果将从市场采集的时间序列直接作为预测的信号源,将不可避免地受到非信息噪音或者信息间相互作用的影响,进而影响预测精度。有效抑制无信号噪声、突出有效信号、减少信号间相互干扰,就成了预测过程中必不可少的步骤。因而,对时间序列信号进行预处理对提升预测的精度具有十分重要的意义。

一、模型介绍

(一)经验模态分解

经验模态分解是一种自适应信号分解方法,可以逐步过滤原始序列中存在的不同尺度或趋势分量,以获得具有相同特征尺度的本征模态分量。其中心思想是将信号分解成几个相对平稳的、不相关的本征模函数(IMF)。 通常认为IMF应满足以下两个条件:

第一,IMF在整个时间范围内,局部极值点数必须等于和过0点的数目,或最多相差一个。

第二,在任何时间点,信号的局部最大值(上包络线)和局部最小值(下包络线)所定义的局部均值为0。

简而言之,IMF是一个均值接近0、没有明显趋势的时间序列,其性质符合传统时间序列分析的要求。因此,可以使用EMD分解非平稳时间序列以获得一系列IMF,然后进行分析。与此同时,在完成分解后,对于非平稳时间序列,模型产生的剩余量一般包含一定的趋势,称为趋势项,其反映了原始时间序列信号的总体趋势。经验模态分解的基本步骤被广泛应用于工程领域,具体分解过程如下。

第一,搜索原始信号x(t)的极值点,并将所有最大值和最小值点与三次样条函数连接,以获得x(t)的上下包络线,分别表示为xmax(t)和xmin(t)。

第二,计算上下包络的均值w1(t)。

(1)

第三,计算信号x(t)和包络均值w1(t)之间的差值d(t)。

d(t)=x(t)-w1(t)

(2)

第四,判定d(t)是否满足IMF的两个条件。 如果d(t)满足条件,则d(t)是信号x(t)的第一个分量,即IMF1;如果不满足条件,则使用d(t)作为新的原始信号并重复上述步骤直到满足条件。

第五,计算残差信号r1。

r1=d(t)-IMF1

(3)

第六,使用r1作为新的信号源,重复步骤1—3并连续分解信号以获得满足条件的IMFi,直到残差rn为单调函数或者达到人为设置n阶时,停止分解。此时,原始信号x(t)可以表示为i个IMF和残差值rn的和。

(4)

EMD分解基于三个假设:第一,任何数据信号均可以分解成几个IMF分量和r;第二,每个IMF分量可以是线性的或非线性的,局部0点和极值点的数量是相同的,并且上下包络线关于时间轴是对称的;第三,信号可以包含几个IMF分量,当序列极值点不明显时,可以通过差分运算找到极值点[1-2]。

(二)聚类分析

经过EMD分解所得出的本征模函数和残值本身就拥有相当的关联性。由于EMD是工程学常用模型,未针对金融领域的时间序列分解进行特殊优化,可能存在对原始数据进行过度分解的问题,造成后续建模的不确定性。因此,本文使用K-medoids聚类和层次聚类对所有本征模函数进行聚类分析,将特征类似的项合并为一类,在后续建模中与未经过聚类的数据进行对比,以判断是否存在对于数据的过度分解。

1.K-medoids聚类。K-medoids聚类的判定依赖于距离的远近,具体计算流程如下:所有样本最初分为K类,从数据集中随机选取k个数据点作为初始质心;对集合中每一个数据,计算每个质心的距离,距离接近于哪个质心就属于哪个质心;每一个质心下都聚集了很多数据,再通过算法选出新的质心;如果新旧质心之间的距离小于某一个设置的阈值(表示重新计算的质心的位置变化不大,逐渐稳定或收敛),可认为聚类已经达到预期的效果,停止计算;如果新旧质心之间的距离变化很大,需要迭代2—4步骤[3]。

与K-means聚类不同的是,K-medoids聚类算法使用中位数作为聚点,克服了因为使用均值为聚点而导致的K-means算法对极值较敏感的缺点,是在K-means聚类算法基础上的改进。K-medoids聚类使用绝对差值(SAD)来判断聚类结果的优劣,在n维欧几里德空间中,绝对差值的计算公式为

(5)

目前,K-medoids聚类较为常用的是围绕中心点划分法(PAM)。使用PAM方法进行处理,可以指定最大迭代次数的参数[4],并在迭代过程中,基于贪婪策略,选择产生最高质量群集的分区;在迭代中每次交换中心点和非中心点,然后将非中心点分配到最近的中心点;计算出的SAD值越小,聚类质量越好,如此持续迭代直到找到最佳分割。PAM方法计算聚类的具体过程如下:从要聚类的数据集中随机选择k个点作为初始中心点;将要聚类的数据点集中的点分配到最近的中心点;进入迭代过程,直到群集质量满足指定阈值。

2.层次聚类。层次聚类是通过推算不同数据间的相似度,从而创建一棵有多个层级嵌套的聚类树。通过给定的N个数据的数据集和N×N距离矩阵,层次聚类的基本算法如下[5]:将每个数据点视为一个簇,并且簇之间的距离(相似)等于相应数据点的距离;找到最接近(最相似)的两个簇并合并;计算新生成的聚类与每个原始聚类之间的距离(文章使用平均连结聚合演算法实现,平均连结聚合演算法的距离度量是选择两种类型数据对象之间的平均距离);重复步骤2和3,直到所有数据都聚集到一个群集中或达到主观需求的数量。

(三)ARMA模型

ARMA模型由于简单易懂、适用面广和具有极强的灵活性成为目前时间序列预测中运用较为广泛的模型之一。其建模和预测包括四个步骤:数据的平稳化处理;模型识别,即确定模型的滞后阶数p和q;参数估计和模型诊断与测试(包括参数的显著性检验和残差的随机性检验);使用所选择的适当参数的模型进行预测并进行测试。

自回归移动平均模型ARMA(p,q)如果满足时间序列Xn:

Xn=X-φ1Xn-1-…-φpXn-p=εn-θ1εn-1-…-θqεn-q

(6)

1.对各个IMF和趋势项r进行平稳性检验。如果信号显示为非平稳序列,则通过差分方法对信号进行预处理。

2.识别模型。对应于数据的时间序列预测模型由数据的统计特性确定,其主要形式是ARMA(p,q)、AR(p)和MA(q), 通过计算测量数据的自相关函数和偏自相关函数来确定自所适应模型。

自协方差函数为

(7)

自相关函数为

(8)

偏自相关函数为

(9)

3.估计模型的阶数和参数。 在确定模型后,使用Akaike信息标准(AIC)进行选择、定阶。对于ARMA(p,q)模型,L是模型的最大似然,使用最大似然估计模型的参数。AIC标准函数为

(10)

(11)

当AIC(p,q)的值最小时,(p,q)是最佳拟合模型的阶数。参数估计方法主要有矩估计方法、最小二乘估计方法和最大似然法。本文采用最大似然估计方法,充分考虑每个数据的分布信息,计算精度较高。

4.建模后将对模型进行适应性测试。本文采用Q统计量检验模型的适应性。

二、复合模型实证分析

本文使用ARMA模型对1990年4月2日至2018年10月22日的来自普氏能源资讯的7 185个港湾石油航空燃油价格数据进行实证分析。

(一)经验模态分解

根据算法的设置,经验模态分解将自动分解信号数据,并根据频率将IMF从高到低排列(图1—图4),图中横坐标为时间,纵坐标为信号强度。

从图2可以看出,在对数据信号进行EMD分解后,生成10个IMF和趋势项r。每个IMF分量曲线围绕零均值线在局部最大值和局部最小值间

图2 IMF1-10(Matlab)

图4 重组后的信号和原始信号

图1 原始信号(Matlab)

图3 残值(Matlab)

接近对称形式地波动, 10个IMF的周期从短到长,即频率从高到低。趋势项在一定程度上反映了原始序列的基础信号特征,逐步提升略有波动,这与对原始信号序列的观察一致。

在对每个分量进行计算后,得到皮尔逊相关系数(PCCs)、方差、方差贡献率、最大值、最小值和中值(表1)。其中,r的方差贡献率是分解所得结果中最大的,这表明趋势项可以反映未分解价格曲线的基础波动情况。

表1 数据统计学特征

(二)聚类

考虑到EMD可能对数据进行过度分解,本文对IMF进行聚类,以便进行后续检验。通过使用r语言层次聚类包加载数据,获得如下结果:IMF6—IMF10为一类,IMF2、IMF3为一类,IMF1、IMF4、IMF5为一类。其可用于后续层次聚类组合模型的计算。

当前除层次聚类外广泛使用的是K-means聚类,然而,此算法不适合处理波动较大的数据。本文使用的信号波动很大,这导致平均值的计算会受到异常点的严重干扰,而使用K-medoids方法可以克服这个问题。通过聚类得出最佳簇数为5,同时,结合每个IMF的平均值,发现IMF6后每个IMF的平均值显著偏离0,这与通过K-mediods聚类获得的聚类一致,即认为前六个IMF是高频分量,后四个IMF是低频分量。

从图4可以看出,趋势价格是油价的主要组成部分,对油价的长期走势具有决定性影响。趋势项目的上升趋势与世界经济的发展同步。这也表明,世界经济的发展水平决定了航空燃油价格的长期趋势。根据表1获得的结果,IMF1—IMF6在K-mediods聚类组合模型的计算中被归为一类,IMF7—IMF10被组合为另一个类别。

(三)自回归移动平均模型

本文选择7 185个时间点中最新的1 085个(约占总周期数的15%)作为测试集。评估模型预测有多种标准,例如平均绝对距离(MAD)、平方误差和(SSE)、均方误差(MSE)和均方根误差(RMSE)等。本文使用MSE和RMSE作为模型评估的标准。

在许多金融交易中,预测时间序列的趋势与预测时间序列值一样重要。时间序列的趋势分为两种情况:上升和下降。如果当前值大于先前的值,将其称为上升趋势;如果当前值小于先前的值,将其称为下降趋势。表2列出了三种模型的预测结果和趋势预测结果。

从表2可以看出,使用经验模态分解后预测的价格精度和趋势精度有了较大提升,RMSE从1.268 5降低到1.075 5,趋势正确率从27.46%增加到45.99%。然而,聚集IMF后得到结果的准确性大大降低甚至低于ARMA模型。 特别是层次聚类之后模型的RMSE增加到1.392 9,低于ARMA的预测精度。在K-medios聚类之后,RMSE相较于层次聚类略有下降。在趋势预测中,两种聚类方法的改进和下降并不明显,与单一ARMA模型没有太大差异。

表2 评估模型预测

但是,在长期价格和趋势的预测上这些方法都还有一定的局限性。预测时间越长,控制由重要事件的低频分布引起的误差就越困难。在长期预测中,无论使用哪种模型对趋势以及数值的预测精度均不佳,EMD-ARMA模型更适合中短期的预测。从表3可以明显看出,EMD-ARMA模型在预测精度方面的优势。总而言之,经验模态分解给时间序列预测带来了很大的变化,可以在一定程度上提高模型的预测准确度,也可以提高趋势预测的准确性。

表3 各预测模型结果对比

三、结论与建议

(一)结论

在实际的金融市场价格预测中,对价格数量的分析和准确预测具有重要意义。本文将EMD和ARMA模型应用于航空燃油价格预测,数据的实证分析结果与针对过度分解而进行的层次聚类和K-mediods聚类分析结果表明:经验模态分解可用于分离时间序列中隐含的高频波动分量和低频趋势分量,这种数据预处理降低了信号序列的非平稳性,并为ARMA模型构建做了充足的前期准备。新算法在一定程度上保证了局部预测的准确度,同时在一定程度提升了整体预测的精度。研究结果显示,在使用EMD预先分解数据后,航空燃油价格的预测精度得到一定程度的提升,作为参考值之一的均方根误差从未使用EMD分解的0.809 1下降到0.626 21,同时趋势预测的准确率也从原先的27.46%提高到45.99%,价格预测模型的准确度得到一定程度的提高。因此,基于经验模态分解和ARMA的新算法在航空燃油价格预测中具有一定的应用价值。传统的计量经济学模型在提高精度上具有诸多局限性,无法充分挖掘出数据中所隐藏的信息。例如,本文在对IMF6、IMF8、IMF9的预测中发现这三组数据均为白噪,但IMF8、IMF9的均值却不为0,这三组数据理论上无法使用ARMA模型,只能进行人工模拟,这势必会产生一定的误差。而对于现有的支持向量机、神经网络、决策树等机器学习模型而言,这种数据并不会不适用于预测。基于此,本文认为,在传统模型的基础上配合机器学习模型可能会在一定程度上提升预测的精度,但值得注意的是,EMD-ARMA模型本身在计算上已经相当复杂,倘若结合相应的机器学习模型,需要科学编制循环算法以降低计算难度。

(二)建议

随着国际局势的剧烈变动,各种不确定风险日益增多,商品期货价格波动更加剧烈,基于数据本身分析预测的结果的准确性会大打折扣。基于上述结论,结合相关实证分析,本文提出以下几点建议:

1.国内能源企业要对外积极开展并参与国际能源合作,通过兼并、收购等方式加大能源供给,取得一定的对能源定价的话语权并建立能源价格稳定机制。企业要开源节流,加强对总消耗量的控制,提高能源使用效率,彻底改变能源过度消耗的大环境,促进产业结构和能源消费结构的双重优化,促进能源梯级利用、能源资源的循环利用和综合利用;加快节能型社会建设,降低社会能源使用成本。

2.当油价上涨时,航空公司可以提前适量买入航空燃油期货,通过期货合同规避价格上涨带来的成本上升[7]。对于投资者而言,可通过期权组合策略进行套利,因为价格的波动率对于到期时间不同的期权合约价格的影响是不同的:对于到期日近的合约,波动率的影响要大于到期日远的合约。随着波动率的变化,不同月份的期权合约的价格会出现变化,因此,可通过期权组合策略,如风险较小的蝶式组合进行套利[8]。

3.政府相关部门需要加强监管,防止出现因市场波动而产生的违法套利等破坏市场秩序的行为,充分发挥政策调控和市场自我控制在资源配置中的决定性作用;遵循市场经济规律和能源产业发展规律,突出市场参与者在促进能源革命中的作用。要更好地发挥政府的作用,建设服务型政府,加强基本制度建设,完善法律法规,维护市场秩序,实现能源治理方式现代化;同时加快经济结构调整,增加技术投入,研发新能源,鼓励如生物煤油等清洁可再生能源等的使用,逐渐降低相关企业如航空公司对航空燃油的依赖。

猜你喜欢

趋势聚类模态
基于BERT-VGG16的多模态情感分析模型
多模态超声监测DBD移植肾的临床应用
趋势
跨模态通信理论及关键技术初探
基于K-means聚类的车-地无线通信场强研究
初秋唇妆趋势
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现
SPINEXPO™2017春夏流行趋势
基于改进的遗传算法的模糊聚类算法