APP下载

改进的时间相关序列股票价格混合预测模型研究*

2020-10-26王晓红王梦瑶郝婷

科技促进发展 2020年6期
关键词:股票价格时序混合

■ 王晓红 王梦瑶 郝婷

内蒙古科技大学 经济与管理学院 包头 014010

0 引言

金融时间序列的分析预测一直是科学家们研究的重点课题,其具有波动性、非平稳性等特点,因而相应预测模型的构建也非常复杂。在市场经济中,政策环境、利率等因素都可能影响到股票价格,通常表现出复杂性和非线性等特点。不同的影响因素,其对股票价格的影响程度不同,影响方式也有较大区别,这就加剧了预测模型构建的难度,但单一的预测模型

因为难以提取数量关系及进行定量分析而无法满足预测需要,针对这一问题,人们提出了与单一预测模型相比更具实用性的组合线性和非线性的混合预测模型。Kao L J 等[1]在研究股票价格波动规律时提出了多元自适应样条回归(Multivariate Adaptive Regression Splines,MARS)模型,此类模型的特点是集成小波变换和支持向量回归,与以往的股票价格预测模型相比,该模型提高了预测精度。Jianzhou 等[2]在展开相关研究时结合遗传算法(Genetic Algorithm,GA)与支持向量机(support vector machine,SVR)模型提出了股票智能投股模型,即引入GA 算法对输入变量进行筛选,并利用搜索到的最优解确定最优参数,之后再将变量子集输入模型中以判断可能具有高收益的股票并将其推荐给用户。Lu[3]从不同的角度对股票市场展开研究,提出了一种新的股票价格预测模型,即引入非线性独立成分分析法并利用粒子群算法训练参数,根据其研究结果显示,新的模型较其他模型有更好的预测效果。Jigar Patel 等[4]将人工神经网络(Artificial Neural Network,ANN)和SVM应用于S&P CNX Nifty 指数预测,对比实验结果发现SVM预测效果优于ANN。Akbilgic等[5]引入径向基函数神经网络(Radial Basis Function,RBF-NN)来预测股票价格,此模型采用了多种分析方法如岭回归与径向基神经网络等,200日实验结果表明该方法累计收益跑赢ISE 100 指数。Wiwik.Anggraeni 和Nezhad S[6-7]对股票价格变化进行了长期深入的研究,并分析了向量自回归(Vector Autoregressive model,VAR)和差分整合移动平均自回归模型(Autoregressive Integrated Moving Average model,ARIMA)的股价预测性能,根据其研究结果表明,预测模型SVM 比以上两者具有更好的预测效果。Wang S.X.和Jinming You 等[8-9]在展开相关研究时做了大量对比实验,比如将SVM 与支持向量机、BP神经网络作对比研究,结果表明,前者比后两者具有更好的预测性能。此外还指出模型的预测精度与参数的选择有关,参数选取越科学模型预测效果越好。张鹏[10]在研究股价市场时提出了一种优化的ARIMA-GM-SVR 集成模型,此模型具有非线性特征可较好的解决时间序列数据的噪音性,并在分析GDP方法的基础上对模型做了大量测试,结果显示模型对于非线性的股价变化具有良好的预测效果。曹晓等[11]基于自回归条件异方差模型(Autoregressive conditional heteroskedasticity model,GARCH)模型和BP 神经网络两者基础上构建预测组合模型,实验表明该模型可有效提高股票价格的预测精度。彭乃驰[12]等建立了以单项模型ARIMA 和预测值GM 作为BP网络的输入,实际值为输出的非线性组合的集成预测模型。郭秋艳等[13]结合DFA 方法和神经网络分析GDP 的变化规律,指出GDP 时序具有长程相关性,在进行预测分析过程中可通过已知的GDP 相关信息来预测其未来的发展变化趋势。方燕等[14]运用ARIMA 模型和GARCH 模型对传媒板块指数价格进行预测,实验结果表明GARCH 模型的预测效果更显著。曹霜等[15]构建了一种预测混合模型即ARIMA-SVM,并指出该种模型较单一模型在股价预测方面的准性更高。尽管大部分混合股票价格预测模型己被理论界证明具有一定的合理性,但针对时间序列特性的研究还比较匮乏,预测模型的精度也有待进一步提升。为解决这一问题,本文提出了ARIMA—TGD—SVM 股票价格混合预测模型,旨补充股价预测时间相关性方面的分析研究,并提高预测模型的准确性和有效性。

1 股票价格预测模型理论与方法

假定X={xi,i=1,2,...,N}是一个时间序列,则ARIMA(p,d,q)模型可以描述为:

其中,p>0 表示自回归的阶数、d>0 表示差分阶数、q>0 表示移动平均的阶数,xt为真实值,lt是xt的预测值;εt为预测误差。

SVM 模型较传统的机器学习方法更具优势,其最大特点是其算法可以将结构风险最小化,从而有效解决拟合问题,具有泛化能力强、训练样本少的优点。对于回归问题,此处采用以下公式来表示相应的训练集即为输入,yi∈y=R为输出,由此可构建出支持向量机回归模型:

其对偶问题可描述为:

则解为:

金融时间序列由于其数据具有时间相关性因此相对特殊和复杂,其中包含很多数据点,而且不同数据点之间的关系也各异,数据点间隔越小其关系越强越容易互相影响。本文运用Anaconda Prompt 软件得到了流形上两点之间的测地线距离,如图1 中直线部分表示测地线距离,点线部分表示欧式距离,与图1的测地线距离相比,图2 邻域内点之间的欧式距离能够更好的反应两点间的相关性。

在多维时序数据中若时间维度存在流形,那么对于有N 个点的测地线距离:在集合中,令p为p1、pn间的路径。路径的长度d(p)表示为:

图1 两点间真实距离

dTG(p,q):=inf{d(P)|P}是由p到q在时间维度上的路径。

若K:X×X→RN同时x1,...,xl∈X,那么Gram 矩阵满足:(Ωij)N×N:[K(xi,xj)]N×N>0。

其中K(x1,x2)=dGT[φ(x1),φ(x2)],x1,x2∈X,那么K为时间测地线核函数。

2 改进的ARIMA—TGD—SVM算法

第一步,通过ARIMA 对时序数据进行处理加工,得到两个线性等式:xi=li+nli(线性预测结果)、δi=xi+(残差序列)。

第二步,构建基于高维面板数据的单输出和多输出TGDSVM 模型,然后在此基础上对进行处理,同时获得一组相应的时间序列。

第三步,将线性与非线性预测结果相结合,最终获得研究需要的预测结果即。具体算法为输入和,其中xi∈R,Thi∈RN;输出。

其中,Thj∈χ在时间维度上是Thi的近邻。

对于每个样本点Thk,使用公式min{dTG(i,j),dTG(i,k)+dTG(k,j)}计算最短路径dTG(i,j),形成最短路径矩阵DTG={dTG(i,j)};在SVM模型中采用欧式距离,并在上训练模型;使用训练好的SVM模型以Tht+1为输入得到δt+1的预测结果;应用公式计算得到最终预测结果。

3 仿真实验

本文选取了波动性较大且近一年为股市龙头的5只股票(银河磁体、金力永磁、广晟有色、中国软件、涪陵电力)的日收盘价来验证测试模型的有效性,训练样本为2018年5月31日至2019年5月31日,测试样本为2019年6月1日至2019年6月31日。实验数据集合(训练数据集、测试数据集)的具体情况如表1所示,个股时间序列描述性统计如表2所示。分析表2 可知,受多种因素的影响个股时间序列数据存在尖峰后尾和正偏态的现象。由此可见,对于复杂的时序数据,混合预测模型比单一模型的预测效果更理想。

在TGDSVM 中构建基于测地线距离的TGDRBF 核函数,具体参数设定如表3所示。为衡量算法的有效性,在此次研究中采用均方根误差、回归指数等来检验模型的泛化效果,具体表达式分别为:

本文运用Anaconda Prompt 3软件测试ARIMASVM和ARIMATGDSVM 模型的预测效果,结果如图3~图7所示。其非线性混合模型评价指标对比如表4所示。

由上述股票价格预测结果时序图可以看出,模型ARIMATGDSV M 较于真实值具有更好的拟合效果,而且相对稳定。更为重要的是,与其他模型相比,在一些关键的时序数据拐点预测中,该模型的预测效果展现出较强的趋势判别能力更为理想。此外,通过分析个股时序数据箱型图可知,ARIMATGDSV M 预测结果回归线更接近真实值,这就说明该模型较传统模型更能有效反应真实时序数据的方差变动。可以得出针对广晟有色(代码:600259.SH)测试数据集的实验结果提高最为明显,R2的值由0.7963 提高为0.9313,其余数据的实验结果亦有显著的改善。

表3 非线性混合模型参数设定

图3 银河磁体股票价格预测结果

图4 金力永磁股票价格预测结果

图5 广晟有色股票价格预测结果

图6 中国软件股票价格预测结果

图7 涪陵电力股票价格预测结果

表4 非线性混合模型评价指标对比

表4为两种非线性股票价格混合预测模型的评价指标结果。通过对比分析可知,对于不同的数据集测试,ARIMATGDSVM 混合模型比原ARIMASVM模型在MAE、RMSE、MAPE、SEP 评价指标上均有了显著的改善。在预测一致性度量指标方面,WIN 有了一定提高,通过检测其总体提高比例超过0.9%,此外Nash 系数也显著提高。

4 意义

综上所述,单一ARIMA 模型只能分析时序数据的线性部分,而在实际应用中,时序数据是非常复杂的,既包含线性部分也包含非线性部分,因而本文提出的ARI-MA-TGD-SVM 股票价格混合预测模型在分析时序数据方面更具有优势,其主要表现为基于时间测地线距离来描述金融时序数据间的相关性,与传统的欧式距离相比更加真实有效。根据实验研究结果表明,新的TGDSVM针对金融时序数据内部的非线性部分的分析和解释能力更强,因而ARIMA-TGD-SVM 股票价格混合预测模型对时序数据的预测效果更为理想。

在股票市场中,有众多因素会对股票价格产生影响,因而股价的研究是一个充满挑战性的问题。股票市场具有波动性、非平稳性等特点,因此股价的预测难度很大,而且很多方法在预测的精度上也不甚理想。但时间序列预测理论为此方面研究提供了解决思路,也是目前股价预测方面较为理想的方法。本文通过构建ARI-MA-TGD-SVM 混合预测模型,经过计算机仿真模拟和分析验证,最终证明该模型在股价预测方面效果显著;并利用历史日收盘价作为训练集,对未来短期内的股价做出预测,能够帮助投资者做出正确的投资选择,从而降低投资风险。

猜你喜欢

股票价格时序混合
顾及多种弛豫模型的GNSS坐标时序分析软件GTSA
混合宅
清明
你不能把整个春天都搬到冬天来
一起来学习“混合运算”
混合运算的方法要领
基于FPGA 的时序信号光纤传输系统
上市公司财务指标与股票价格的相关性实证分析
人民币汇率与上证指数互动的实证研究
员工持股计划对股票价格的影响