沪深300指数的预测
2018-06-11张化程旭
张化 程旭
随着生活水平的提高,大量的流动资金被股民们投入股市,而沪深300指数可谓是中国股市的灯塔,是似于晴雨表的存在;采用何种方法对沪深300指数进行预测分析,其重要性不言而喻。本文意在将时间序列应用于指数进行分析,通过差分使数据平稳化并采用R语言辅助预测指数短期未来走势。本文最终确定选择使用ARIMA模型对原数据进行分析,虽局限于短期预测,存在模型短板,但拟合程度较好,对沪深300指数的预测具有积极意义。
一、问题提出
(一)研究背景
随着时代的发展和人民生活水平的提高,其财富正在不断积累,如何让自己的资产保值升值,避免因外界因素变动而导致资产缩水,成为了目前人们越来越关注的问题。投资于股票市场是常见的一种个人理财方式,众所周知股票市场在具有相对较高收益的背景下也伴随着极大的风险,如何科学合理的规避这些风险实现资产的保值升值,更精确地说,如何预测股票市场的趋势便成了我们接下来所要研究的问题的核心。
(二)研究目的
基于股票市场的不确定性给投资者带来的投资风险,本文致力于探索出一种更为科学有效的股票市场的预测方法,为投资者提供一种更加科学的投资参考,以达到通过分析制定出合理的投资方案进而规避风险实现资产的保值增值的目的。
二、研究方法
股票的预测一直以来都是人们探索研究的问题,经过不断的摸索与实践,总结出了各式各样的研究方法,建立了大量的模型进行预测分析。其中应用最为广泛的应该是基于ARIMA模型的时间序列分析。时间序列分析(Time series analysis)是一种动态数据处理的统计方法。该方法基于随机过程理论和数理统计学方法,研究随机数据序列所遵从的统计规律以用于解决实际问题。随着计算机的相关软件的开发,数学知识不再是空谈理论,时间序列分析主要是建立在数理统计等知识之上,应用相关的软件对数据做出较为科学的分析与预测。
(一)ARIMA模型介绍
ARIMA模型全称为自回归积分滑动平均模型(Autoregressive Integrated Moving Average Model,简记ARIMA),其公式如下:
Φ(Β)▽dxt=θ(B)εt
E(εt)=0,Var(εt)=σε2,E(εtεs)=0,s≠t
E(xsεt)=0, s 式中▽d=(1-B)d,Φ(Β)=1-Φ1B-…-ΦpBp,为平稳可逆ARMA(p,q)模型的自回归系数多项式;θ(B)=1-θ1B-…-θqBq,为平稳可逆ARMA(p,q)模型的移动平滑系数多项式。 (二)ARIMA模型预测的优缺点 优点:模型相对简明易懂,在有内生变量时可不需借助其他外生变量。 缺点: 1.要求时序数据是稳定的(stationary),或者是通过差分化(differencing)后是稳定的。 2. 在捕捉线性关系上效果姣好,但无法对非线性关系进行捕捉。 注意,采用ARIMA模型预测,其时序数据要求必须是稳定的,否则将无法正常捕捉到规律。比如股票数据用ARIMA无法预测,究其原因就是其常受政策和新闻的影响而波动,股票数据是非稳定的。 三、研究流程 (一)文字描述 1、通过观察时间序列的散点图、自相关及偏自相关函数,再利用ADF单位根检验时间序列的方差、趋 势和季节变化,识别时间序列的稳定性。通过前人总结,依概率来讲,经济运行的时间序列大都不是平稳序列。 2、先对非平稳序列进行平滑处理。如果数据序列显示是非平稳的,同时存在着一定增长或下降的趋势,那么就需要就数据本身进行不同处理,如差分;如果数据显示存在异方差,则需要对数据本身进行技术性处理,直到数据最终显示的自相关函数值和偏相关函数值与零值没有显著性差异。 3、依据时间序列模型的识别规则,建立相对最优的模型。适合于AR模型应满足下列条件:当平稳序列的偏相关函数被截断,自相关函数被跟踪;如果平稳序列的偏相关函数是滞后的,而自相关函数是截断的,则该序列可以判断为适用于MA模型。{倘若平稳序列的自相关和偏自相关函数均是是滞后的,则序列适合ARMA模型。 (截断是指时间序列的自相关函数(ACF)或部分自相关函数(PACF)在一定阶数 之后为零的性质(例如,PACF); AR的尾随是ACF或PACF在某一阶之后不具有零的属性(例如,ACF)。 4、参数估计及检验模型是否具有统计学意义。此步主要是為了建立模型口径,这是模型最为直观的表现形式。 5、对残差序列进行假设检验,判断是否为白噪声。 6、利用所得模型进行预测。 (二)模型拟合流程图 四、研究过程与结果 (一)数据的选取与可视化 通过对原数据的整合,选取2018年以来288个股票交易日沪深300的收盘指数,并用R语言软件绘制序列图: 根据收盘价的时间序列图可以看出收盘价明显是随时间的变化有向下的趋势,并在数据末尾向下趋势有缓减的迹象,显然所构造的是一个非平稳的时间序列。 (二)绘制差分图 通过时序图我们发现前半部分线性十分明显,后半部分体现出了非线性的特征整体可以看作是一条向下的直线或尾端平缓的曲线。并且今年的中美贸易战对我国证券期货市场造成了巨大的影响,故我们将中美贸易摩擦引入模型分析中,贸易摩擦大致发生时间大概在3月末至4月,于是我们将时期分为三部分——贸易摩擦之前(指数因春节影响自然变动),贸易摩擦动荡期(任意一个政策都将影响股市涨跌)与贸摩擦缓和期。综上所述,我们将对原始数据分别进行一阶三步与二阶三步差分分析;通过观察二者的趋势,我们不难发现该组数列呈现平稳状态分布,通过平稳性检验,与此同时改组数列也无明显的趋势变动,故我们认为改组序列为平稳序列。
(三)绘制序列自相关图和偏相关图并初步建立模型
利用RGui做出一阶差分后的序列自相关图与偏相关图,通过观察一阶差分后的ACF图,除3阶外余下阶数渐收敛至2倍标准差范围以内,再通过观察pacf图判断其阶数后,我们初步设立模型ARIMA(3,1,3);同理做出二阶差分后的序列自相关图与偏相关图,观察二阶差分后ACF与PACF图,以其拖尾截尾性质,初步设立模型ARIMA(3,2,1)。????
(四)参数估计
参数估计可涉及到矩估计,极大似然估计和最小二乘估计等不同方法,但鉴于任意一种方法其计算均过于繁杂,故可以直接通过RGui调用arima函数来完成上述步骤。其函数命令为arima(x,order= ,include.mean= ,method= ),在此我们默认使用条件最小二乘与极大似然估计混合方法,并利用序列给观测值估计模型中未知参数的值,即所谓的模型口径。
对于1阶3步差分模型,即对序列尝试拟合ARIMA(3,1,3)模型,我们依据结果得出的模型口径如下:
Xt=-0.0145Xt-1+0.0463Xt-2+0.097Xt-3+&t-0.004&t-1 -0.0136&t-2-0.9824&t-3 Var(&)=2343
对于2阶3步差分模型,即对序列尝试拟合ARIMA(3,2,1)模型,我们依据结果得出的模型口径如下:
Xt=0.0834Xt-1+0.0875Xt-2-0.3888Xt-3+&t-1.000&t-1 Var(&)=3584
(五)诊断性检验
对拟合模型进行模型显著性检验,其结果如下:
1.残差标准差基本落在[-2, 2]之间,模型残差都位于两条虚线内不存在自相关性,Ljung- -Box检验的p值都在0.05之上,这个图形看起来很好,ARMA (3, 1, 3 )模型很好的拟合了沪深300股指;
2.残差标准差基本落在[-2, 2]之间,模型残差都位于两条虚线内不存在自相关性,Ljung- -Box检验的p值都在0.05之上,这个图形看起来很好,ARMA (3, 2, I )模型很好的拟合了沪深300股指.
综合以上的诊断性检验,可以看出ARIMA (3, 1, 3)模型、ARIMA(3, 2, 1)模型均通过诊断性检验(模型的显著性检验),且两个模型的极大似然估计值和AIC值都非常接近,接下来可分别原用这两个模型进行预测。
(六)趋势预测
上图是我们分别根据fit1,fit2模型对沪深300指数做了前25期的预测,图中蓝色区域表示上下95%的预测极限。从两个模型的预测结果来看,虽然两者都表现出了下跌的趋势,前者虽与后者的下跌幅度变化不大,但其波动幅度却远小于后者,而后者蓝色区域覆盖面过广从而使得模型预测拥有极大的不确定性。通过分析我们不难发现我们所建立的模型在短期内具有明显的预测效果,但是在长期的情况下,模型预测的精准度将会下调故会存在更多的不确定性,因此我们的模型暂不对远期进行估计,模型本身还有待提高。
(七)模型優化
从两个模型的预测结果来看,虽然两者都表现出了下跌的趋势,前者虽与后者的下跌幅度变化不大,但其波动幅度却远小于后者,而后者蓝色区域覆盖面过广从而使得模型预测拥有极大的不确定性,明显ARIMA(3,1,3)对数据的拟合更好一些。且根据AIC(=-2ln(模型的极大似然函数值)+2(模型中未知参数个数))准则或SBC(BIC)准则,对比两种模型在参数估计中得出的值,亦能从中选取值更小的那一项,从而判断模型的相对最优项。
根据x.fit中的结果,fit1的AIC=2386.83,fit2的AIC=2463.22
因此,选取ARIMA(3,1,3)来作为我们沪深300指数的最终预测模型较为合理。
五、结论
我们通过对时间序列分析方法的应用成功建立了与沪深300指数相匹配的ARIMA模型,并利用R语言对模型所对应的股指进行了相应预测,从而得到了沪深300指数未来预期内的涨跌趋势,为我们宏观的分析股票市场提供了依据,同时也为我们的投资指明了方向。但我们的模型也存在不足之处,比如:1.无法预测长期股值的变动,所以不能为长期投资者提供太大的帮助,只适合短期的投资与套利;2.我们所选取的沪深300指数是从沪市与深市中选取的300支成分股,虽具有一定的代表性,但却无法对个股进行预测分析;3.模型本身的局限性,故无法比较所有可行模型的AIC值和BIC值,因此只能得出一个相对最优模型,而无法确定最优模型。
综上本文的研究旨在为投资者提供一种预测分析的方式,由于股票市场是由诸多因素共同决定,我们无法准确的对外部环境进行全面的预测,所以具体问题还要具体分析,切不可照抄照搬,已引起不必要的损失。(作者单位为安徽财经大学金融学院)
作者简介:张化(1997— )男,汉族,河北衡水人,安徽财经大学金融学院,2016级本科生,金融工程专业。
程旭(1997— )男,汉族,福建福州人,安徽财经大学金融学院,2016级本科生,金融工程学专业。