基于ARIMA模型的上证50指数的分析及预测
2017-09-20王惠星林嘉喜
王惠星+林嘉喜
【摘要】上证50指数是中国股票指数期货中一个重要的品种,它是挑选上海证券交易所上规模大、流动性好的最具代表性的50只样本股构成,从而反映市场上最具有影响力的一批龙头企业的整体状况,因此对其研究具有非常重要的意义。本文根据数据的时间序列的特性,选取2004年1月到2016年11月每日收盘价为原始数据作为研究对象,利用数据时间序列特性具有优势性的差分自回归移动平均模型(ARIMA模型)建立ARIMA模型对其进行定量分析,并且对未来走势进行预测。
【关键词】上证50指数 ARIMA模型 定量分析
一、研究背景
在股市投资中,如何通过分析及预测股票指数来指导投资者的操作非常重要。股票指數是指描述一揽子股票价格的总体水平及变动情况,而上证50指数的成分股是由在上海证券交易所挂牌上市的最具代表性的50只股票构成,是上海证券交易所流动性、规模最大的优质蓝筹股,因此上证50指数对中国股市的行情具有指引作用。
本文研究对象为上证50股指期货,它的走势可以反映出市场对上证50指数涨跌的预期,因此投资者可以根据股指期货的行情变动来预测股票市场动向和变动趋势,从而来衡量自身的投资策略。文中以上证50股指期货为例进行实证分析。通过图1可以看出从2004年到2006年,上证50基本在1000点上下,在2005年6月达到历史最低693.530点,之后快速上涨,在2007年10月达到最高点4772.93点,随后由于2008年全球金融危机的影响,上证50快速下降,随后窄幅波动,到2015年6月又到达一个新高位,在2016年11月上证指数为2334.68点,并且通过图1的走势可以看出上证50指数为非平稳性时间序列,且又因为金融数据具有易变性,因此选取2004年到2016年之间每日收盘价的数据进行收集整理,将处理时间数列特性优势的差分自回归移动平均模型(ARIMA模型),建立ARIMA模型对其进行定量分析,并对上证50指数的未来走势进行预测。
二、ARIMA模型介绍
自回归模型AR(p)和滑动平均模型MA(q)组合构成描述平稳性随机过程的自回归滑动平均模型ARMA(p,q),其表达式为其表达式为:
其中这个表达式的前半部分为自回归部分AR(p),非负整数p为自回归阶数,φ1,…φp为自回归系数,后半部分为滑动平均部分MA(q),非负整数q为滑动平均阶数,θ1,…,θq为滑动平均系数;Xt为上证50收盘价数据相关序列,εt为白噪声序列WN(0,σ2)。
因为ARMA(p,q)为平稳性随机过程的模型,而经济类数据大多呈现非平稳性,进而利用差分法进行非平稳性随机过程的处理,将初始数据转化为平稳时间序列,然后建立差分自回归移动平均模型ARIMA(p,d,q),其中p为自回归项,q为移动平均项数,d为差分次数,该模型建立之后就可以根据时间序列的过去值及现在值预测未来值。
三、基于ARIMA的上证50指数的分析及预测
(一)数据提取与处理
1.数据提取。本文选取上证50指数作为研究对象,从东方财富网上提取2004年1月2日至2016年11月18日收盘价格共3128个交易日的数据为研究样本通过统计分析软件SPSS 22.0进行分析,此样本可以反映上海证券交易所年度整体趋势。
2.原始时间序列数据。首先对原序列SZ50_Y进行分析,通过图2可以初步确定为非平稳性时间序列,为验证平稳性进行应进一步检验。
通过自相关系数(ACF)图可以看出,呈周期衰减的速度非常缓慢,且大部分数据未落入置信区间内,因而判定原序列为非平稳性时间序列。
3.平稳化时间序列数据。经上述分析可知,原序列SZ50_Y为非平稳性时间序列,应采用差分法对原始数据进行适当阶数的差分处理,便可清除非平稳性,形成平稳性时间序列,因此进行一阶差分处理,使原序列平稳化,对原始序列进行一阶差分形成新的序列SZ50_Y_1的差分方法为:SZ50_Y_1(t)=SZ50_Y(t)-SZ50_Y(t-1),并观察新序列的平稳性。由图3可知,差分序列基本分布在0刻度线上下两侧,因此基本可以认为差分序列SZ50_Y_1为平稳性。
又根据差分序列的自相关系数(ACF)和偏自相关系数(PACF)图可知,大部分数据落入置信区间内,数据基本平稳,最佳差分阶数d=1,因而适合对原始序列建立ARIMA(p,1,q)模型。
(二)模型建立
1.模型定阶。通过以上对序列SZ50_Y_1的偏自相关系数和自相关系数计算,并且根据标准化BIC准则最小化,经过反复检验,从而得出p=0,q=6,因此所建立的模型为ARIMA(0,1,6),由表3-1所示。
由表3-3所示,标准化BIC准则的数值为7.474,与之前的几个模型的数值相比,满足最小的原则,且平稳R平方为0.005,大于0,说明当前模型优于基准模型,并根据模型的拟合情况看出,R平方为0.997,接近于1,说明模型的可解释的变异占总变异的比例较大,拟合效果很好,并且说明该模型可以解释99.7%的现象,由此可以得出此模型为最优模型。
3.模型参数估计。
由表3-4可知,MA(6)的参数估计系数为0.071,AR的系数为0,结合前面的一阶差分,还原得到的自回归移动平均模型ARIMA(0,1,6)如下:
(三)模型的检验与预测
1.模型的诊断检验。为对拟合模型进行诊断检验,给出了残差的自相关和偏相关函数(如下图所示)。由下图可以看出,各滞后阶数的ACF和PACF的数值都位于临界值内,并且没有显著性的趋势变化,因此模型ARIMA(0,1,6)是最优模型。
2.模型预测结果。图4为拟合图形和预测结果,线性图描绘了观测值、拟合值及预测值,通过图4看出使用的模型比较合理,且根据以上分析可知,模型的精度是比较高的,尽管随着ARIMA模型预测区间的延长,模型误差会逐步加大,但它仍然比传统时间序列模型的精度高,比较适合做短期预测,图中预测了2017年全年的上证50的一个大体趋势,可以看出在置信区间范围逐步加大,误差也在逐步加大,但大体可以得出结论,2017年全年上证50指数处于一个回升阶段,且保持波动性。endprint
四、结论
本文通过以2004年1月2日至2016年11月18日的上证50指数的收盘价格作为样本进行研究,采用时间序列分析法建立ARIMA模型。首先根据原数据的时序图可以看出此数据为非平稳性随机过程,因此采用差分法進行平稳化处理,再通过对模型定阶和参数估计,最终得出模型ARIMA(0,1,6),经过对此模型进行检验,检验有效后,并对2017年全年走势进行预测得出实际值和预测值。
通过本文的建模及实证研究分析,可得出以下结论:第一,选取的观察期间的上证50指数的每日收盘价,绘制出时序图,可以看出其原数据序列为非平稳性时间序列,说明此数据具有明显的趋势性和波动性;第二,此模型拟合效果很好且精度较高,说明此模型作为上证50指数的预测模型可行的;第三,此模型作为短期预测的效果最好,因为随着预测时间的延长,误差也逐步加大;第四,对于一个相同的序列,可建立多个不同的ARIMA模型,通过其他的统计量及实用性,选择出最优的模型;第五,通过预测结果可知,未来上证50指数的趋势有轻微回升且保持波动性;第六,本文在研究时,只考虑到时间序列的特性,又因为市场存在诸多不确定因素存在,但这些因素只能体现在随机扰动项中,无法在预测结果中反应出来。
参考文献
[1]白营闪.基于ARIMA模型对沪深300指数的预测分析[D].华南理工大学,2010.
[2]刘美霞.基于ARIMA模型的深证指数分析及预测[J].经济观察,2011.
[3]赵国庆.经济分析中的时间序列模型[M].南开大学出版社,2012.
[4]蒋涛,吴俊芳.ARIMA模型在基金指数预测中的应用[J].统计教育,2007(7).
[5]高铁梅.计量经济分析与建模[M].清华大学出版社,2008:120-150.
[6]区诗德,覃思乾.基于60分钟线的ARIMA模型分析日K线走势[J].统计与决策,2005(24).
[7]王振龙,胡永宏.应用时间分析[M].中国人民大学出版社,2005.07.
[8]詹姆斯·D·汉密尔著,刘志明译.时间序列分析[M].中国社会科学出版社.1999,12.
作者简介:王惠星(1994-),天津财经大学经济学院金融系金融工程专业学生。endprint