基于ARIMA模型的上证50指数的分析及预测
2019-02-10
(天津财经大学 天津 300000)
一、研究背景
期货交易是指交易双方通过买卖期货合约并根据合约规定的条款,约定在未来某一时间和地点,以某一特定价格买卖特定数量和质量标的物的交易合约,其最终目的是通过买卖期货合约,规避现货价格风险。本文重点研究金融期货中的股指期货,股指期货是以货币化的股价指数为标的物的期货合约,它是反映整个股票市场上各种股票市场价格总体水平及其变动情况的重要指标。
在编制股票指数时,首先应选取有代表性的一组股票,然后选定基期并将其价格设为1000,之后用各时期的股票价格与基期价格比较,通过计算得到股票指数。计算公式为:报告期股票价格指数=(Σ报告期样本股股价×股本数/Σ基期样本股股价×股本数)×1000。
本文以上证50股指期货为例进行实证分析。在2004到2006年间,上证50基本在1000点上下徘徊,2005年6月达到历史最低693.530,之后快速上涨,在2007年10月达到最高4772.93,随后受金融危机影响,上证50快速下降,并维持窄幅波动,到2016年11月上证指数为2334.68点。因此上证50指数为非平稳性时间序列,因此选取2004年到2016年之间每日收盘价的数据进行收集整理,并建立ARIMA模型进行预测。
二、ARIMA模型介绍
自回归模型AR(p)和滑动平均模型MA(q)的组合构成描述平稳性随机过程的自回归滑动平均模型ARMA(p,q):
Xt=φ1Xt-1+…+φpXt-p+∈t-θ1∈t-1-…-θq∈t-q,t∈Z
其中前半部分为自回归部分AR,非负整数p为自回归阶数,φ1,…,φp为自回归系数,后半部分为滑动平均部分MA,非负整数q为滑动平均阶数,θ1,…,θq为滑动平均系数;Xt为上证50收盘价数据相关序列,εt为白噪声序列服从N(0,σ2)。
当q=0时,该模型成为AR(p)模型:Xt=φ1Xt-1+…+φpXt-p,t∈Z
当p=0时,该模型成为MA(q)模型:Xt=∈t-θ1∈t-1-…-θq∈t-q,t∈Z
ARIMA模型全称为差分自回归移动平均模型,又称为box-jenkins模型。其中ARIMA(p,d,q)称为差分自回归移动平均模型,AR是自回归,p为自回归项;MA为移动平均,q为移动平均项数;d为时间序列成为平稳时所做的差分次数。ARIMA模型是在ARMA模型的基础上发展而来的,它是将非平稳时间序列转化为平稳时间序列,然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型。ARIMA模型根据原序列是否平稳以及回归中所含部分的不同,分为移动平均过程(MA)、自回归过程(AR)、自回归移动平均过程(ARMA)以及ARIMA过程。
三、基于ARIMA的上证50指数的分析及预测
(一)数据提取与处理
1.数据提取
本文选取上证50指数作为研究对象,从东方财富网上提取2004年1月2日至2016年11月18日收盘价共3128个交易日数据为研究样本,通过SPSS 22.0进行分析,此样本可以反映上海证券交易所年度整体趋势。
2.原始时间序列数据
首先对原序列SZY进行分析,通过图1可以看出为非平稳性时间序列,为验证平稳性进行需进一步检验。
图1
又根据自相关系数(ACF)图可以看出,呈周期衰减的速度非常缓慢,且大部分数据未落入置信区间内,因而判定原序列为非平稳时间序列。
3.平稳化时间序列数据
经上述分析可知,原序列SZY为非平稳性时间序列,应采用差分法对原始数据进行适当阶数的差分处理。对原始序列进行一阶差分形成新序列SZY1的差分方法为:SZY1(t)=SZY(t)-SZY(t-1),并观察新序列的平稳性。由图2可知,差分序列基本分布在0刻度线上下两侧,因此基本可以认为差分序列SZY1为平稳性。
又根据差分序列的自相关系数(ACF)和偏自相关系数(PACF)图可知,大部分数据落入置信区间内,数据基本平稳,最佳差分阶数d=1,因而适合对原始序列建立ARIMA(p,1,q)模型。
(二)模型建立
1.模型定阶
通过以上对序列SZY1的偏自相关系数和自相关系数计算,并且根据标准化BIC准则最小化,经过反复检验,从而得出p=0,q=6,因此所建立的模型为ARIMA(0,1,6)。
2.模型统计资料
表1 模型適合度
由表2所示,标准化BIC准则的数值为7.474,与之前几个模型的数值相比,满足最小的原则,且平稳R平方为0.005,大于0,说明当前模型优于基准模型,并根据模型的拟合情况看出,R平方为0.997,接近于1,说明模型的可解释的变异占总变异的比例较大,拟合效果很好,并且说明该模型可以解释99.7%的现象,由此可以得出此模型为最优模型。
3.模型参数估计
MA(6)的参数估计系数为0.071,AR的系数为0,结合前面的一阶差分,还原得到的自回归移动平均模型ARIMA(0,1,6)如下:
Xt=∈t-0.071∈t-6,t∈Z
(三)模型的检验与预测
1.模型的诊断检验
为对拟合模型进行诊断检验,给出了残差的自相关和偏相关函数。由自相关和相关函数图可以看出,各滞后阶数的ACF和PACF的数值都位于临界值内,并且没有显著性的趋势变化,因此模型ARIMA(0,1,6)是合适的。
2.模型预测结果
根据拟合图形和预测结果,线性图描绘了观测值、拟合值及预测值。结果表明使用的模型比较合理,且精度较高。另一方面,随着ARIMA模型预测区间的延长,该模型的误差也会逐步加大,尽管如此,它比传统的时间序列模型的精度更高,因此适合做短期预测。图中预测了2017年全年上证50的大体趋势,从图中可以看出在置信区间范围逐步加大的同时,误差也在逐步加大,但是还可以大体看出2017年全年上证50指数仍处于一个回升阶段,且保持波动性。
四、结论
本文通过对2004年1月2日至2016年11月18日的上证50指数的收盘价格研究,采用时间序列分析法建立ARIMA模型。首先可以看出原数据为非平稳性时间序列,因而需用差分法进行平稳化处理,再通过模型定阶、参数估计,得出模型ARIMA(0,1,6)并对模型进行检验。检验有效后,对2017年全年走势进行预测,通过实际值和预测值对比可以看出,该模型的预测结果基本接近实际值。通过本文的建模及实证研究分析,可得出如下下结论:
(1)选取观察期间的上证50指数的每日收盘价,其数据序列为非平稳性时间序列,具有明显的趋势性和波动性。
(2)该模型拟合效果很好,且精度较高,说明此模型作为上证50指数的预测模型是可行的,但是此模型作为短期预测的效果最好,因为随着预测时间的延长,误差也在逐步加大。
(3)对于一个相同的序列,可建立多个不同的ARIMA模型,通过其他的统计量及实用性,选择出最优的模型;通过预测结果可知,未来上证50指数的趋势有轻微回升且保持波动性。
(4)本文在研究时,只考虑到时间序列的特性,又因为市场存在诸多不确定因素存在,但这些因素只能体现在随机扰动项中,无法在预测结果中反应出来。