基于SVM和ARIMA-EGARCH的股票收益预测研究
2023-12-20陈麒吉许学军
陈麒吉 许学军
摘 要:股票市场被视为一个国家实体经济的重要活动指标之一,它引导资金并将储户与投资者联系起来,最终促进经济增长,股票的收益波动也逐渐成为众多机构投资者和散户投资者最为关心的事情。从过往研究来看,计量经济学所具有的传统模型并不能够在长期过程中实现股价的预测。基于此,创新性地从人工神经网络算法的支持向量机模型SVM和ARIMA-EGARCH模型出发,选取上市公司A股中远海特作为研究对象,利用python这一流行的编程工具来进行算法和模型的实现,旨在比较新兴的人工神经网络算法与传统计量经济学模型在股票收益预测方面的优劣,并提出相应的优化改进建议。
关键词:股票收益预测;人工神经网络算法;优化改进
中图分类号:F832.48 文献标志码:A 文章编号:1673-291X(2023)21-0084-03
一、研究背景
近年来,股票收益预测这一经久不衰的话题越发火热,但同时股票市场出现前所未有的波动,使得股票收益预测越发艰难。基于传统计量经济学的诸多模型在情况日益复杂的当代虽然仍有其不可替代的一面,但不得不承认的是,其诸多模型已经很难准确预测股价。而随着人工智能技术的不断发展,人工智能的诸多算法具有相当强的自主学习性,其在系统科学领域已开始崭露头角。本文引入了当前机器学习领域火热的人工神经网络算法中的支持向量机模型,并将其与ARIMA-EGARCH模型进行比较,提出改进意见。
二、理论介绍
(一)ARIMA-EGARCH
ARIMA模型的建模过程可具体解析为四个步骤:第一,是将获取的时间序列数据进行一次严谨的平稳性检验,如果得到的结果是非平稳的,那么需要考虑通过差分化或者其他处理方式让该时间序列数据趋于平稳,使其满足平稳的基本性条件。第二,确定模型,我们选择某种统计量来描述选定的时间序列数据的特征并将该统计量完整地计算出来,结合BIC准则来进一步明确ARIMA模型的阶数。第三,利用最小二乘法估计模型的参数,合理性检验也是要进行的关键一步。最后,进行诊断分析,通过生成的模型对数据进行预测,并将实际数据与之进行对比。①
值得一提的是,为了消除异方差性,本次实验在ARIMA模型后还联立建立了EGARCH模型。
(二)SVM(人工神经网络算法)
支持向量机模型属于人工神经网络算法中较为经典的一种,常在系统科学领域看到关于SVM模型的身影。在系统科学领域,信号具有逆向传播和正向传播两种传播路径,同样地,误差也有两种相同的传播路径。在实际操作过程中,期望输出和实际输出往往会出现差异过大的情况,这通常意味着此时已经进入了信号误差反向传播阶段。在这一过程中,输出误差会反方向走一遍信号正向传播的路径,实验者可由此监测每一层中不同节点的显示误差的有关信号,依据此信号修改网络的连接权值。反复进行以上操作,即信号反复进行正向传播,误差逆向反复进行逆向传播,监测到预先设定的阈值在网络误差之上的情形后或者预先设置的学习次数已经完成或者超额完成时,这意味着可以停止以上操作。②
股票价格或者收益率序列数据由于受众多人为因素的干扰,因此这种序列数据并非是线性的。基于這一基本特点,结合人工神经网络算法处理非线性序列数据的独特优势,考虑将人工神经网络算法引入到股票收益的预测之中。本文以上市公司A股中远海特为例,结合人工神经网络算法,评测人工神经网络的预测能力。
三、实证过程
本次研究主要采用以下两种处理方式处理数据:剔除部分缺失值、缺失值均值补充。处理后的数据为中远海特A股2014年7月23日至2021年10月29日的时间序列数据,然后再将获取的数据对数化,以便后续获得收益率数据。
(一)ARIMA-EGARCH模型①
1.数据平稳性判断。从数据平稳性条件来看,一个平稳的时间序列数据在数据时序图的表现往往是一个围绕它的平均值不断上下波动的具体过程;与此相反的是,非平稳序列数据在图形上的表现便是均值会随着时间段的调整而上下波动(如持续上升或持续下降),即并没有一个大致均值可供数据围绕其上下波动。基于这一理论原则,利用所获数据做出数据时序图,根据时序图判断,所得数据并不平稳。
2.平稳化结果。ADF检验常被用于检测时间序列数据的平稳性:如果ADF统计量小于ADF统计量的临界值,这意味着可在既定显著性水平下,拒绝原假设,即认为原时间序列数据存在单位根,由此可判断原时间序列平稳。本次在对既得时间序列数据的平稳化过程中,经过十六次试验,确定了采用一阶差分法平稳化数据是最好的选择,差分后的数据通过平稳性检验。
3.ACF PACF图判断模型。根据python所绘出的自相关系数图和偏自相关系数图,由于不知道最优模型的具体形态,根据ACF图和PACF图可以暂定ARIMA(17,1,1)能够最好表达该时间序列数据,备选模型为:ARIMA(1,1,1,),ARIMA(2,1,1),ARIMA(3,1,1),ARIMA(4,1,1),ARIMA(5,1,1),……ARIMA(16,1,1)。
4.根据AIC最小准则,选取模型ARIMA(1,1,1)。
5.残差检验。下面主要针对残差进行正态性检验和自相关性检验。残差满足正态性,主要是为了残差集中于某一个数值,如果该值与0很接近,则它实际服从的分布是正态分布,均值为0。从这一点出发,可以断定。
6.ARCH效应存在性检验。从ARCH 效应检验结果可以看出,F统计量和Obs*R-squared 统计量分别为223.5215和197.3857,相对应的概率都为0.000,都小于给定的三种置信水平,所以拒绝原假设,拒绝不存在自相关条件异方差的现象,这样才具备了建立GARCH 模型的基础。
表2 ARCH效应检验结果
7.ARIMA(1,1,1)-EGARCH(1,1)。分别检验GARCH(1,1),GARCH-M,TGARCH,EGARCH在t分布和GED分布下的结果,根据AIC及SC最小的原则,LL最大的原则,比较可得ARIMA(1,1,1)-EGARCH(1,1)在GED分布下可以较好的拟合。
8.预测。利用ARIMA(1,1,1)-EGARCH(1,1)模型预测的值和真实值短期来看问题不大,长期仍有一定的差距。②
图1 ARIMA(1,1,1)-EGARCH(1,1)预测图
(二)SVM(人工神经网络算法)
此算法以中远海特的收盘价为处理对象。在具体数据方面,有4个在设置好的预测时段得到的收益率RDP5、RDP10、RDP15、RDP20,同时结合转变后的收盘价EMA15,这五个变量组成了输入向量。EMAn通过当天收盘价减去该天前n天的价格指数滑动平均值而获得。输出变量RDP是首先分别将当天与其后第5天的原始收盘价转换为各自前3天的指数滑动平均值MEA3(i),然后再根据转换的新值求收益率。
在支持向量机模型的基础之上进行时间序列数据预测的第一步就应该合理选择核函数的具体种类。在所处理数据性质不太明朗的前提下,选用高斯核函数RBF是最优的选择,因为在大多数情况下,这种原则通常会让实验者获得较为理想的结果,甚至所获结果超出预期。因此本文采用了广为人知的高斯函数作为核函数。
经过训练后,这个模型的均方误差(MSE)为1.9618;平均绝对误差(MAE)为1.0685。
最后,可以说该算法在这一股票的预测应用具有很强的适应性,所得到的结果同现实情况基本无二。
四、结束语
关于股票收益率的预测是一个古老的问题,不少学者都已对其进行过研究,但从来没有一种方法可以完全预测股价的走势,可见股价的预测是多么复杂。
本次研究表明,ARIMA-EGARCH模型对股价进行短期预测有不错表现,能够为股市投资者提供些许帮助。但是ARIMA-EGARCH模型相比人工神经网络算法来说,无论从模型准度以及预测效果等方面,ARIMA-EGARCH模型都明显劣于人工神经网络算法中的SVM模型。
并行协同处理能力并非在所有研究系统中都能实现,但是这在客观实际上的确构成了人工神经网络的最大优点,并且这种处理能力是大规模的,换句话说,这一算法可以承载以亿计的数据量。同样对应的,训练集的构架也需要大量数据。它的每一个神经元具有并不复杂的结构,功能也相对单一并且简单。然而,单一神经元汇聚起来,达成一个完成的整体体态时,它拥有超越一般计量模型的数据处理能力。值得一提的是,由于它复杂的神经网络并非一环扣一环,因此某个神经节点出现问题对结果的影响微乎其微,这种庞大的容错能力更是使这个算法脱颖而出,成为新兴的研究方法之一。在这个网络中,信息处理和信息储存并不存在谁先谁后的争执,它实现了两种操作的并驾齐驱,即同时进行信息的两种操作,由此,整个网络遍布着信息的存放和处理结果。值得一提的是,强大的容错能力迫使网络当中某些节点在操作失误的情况下不幸被破坏时,信息存取的工作并不会因此而停下脚步。也就是说,系统的正常工作并不意味着系统是完美的,也有可能系统已经遭到未知的某种破坏,只不过你并不能通过系统是否正常工作来判断这一点。这对于非线性的股票收益率预测来说,无疑是解决了经济学家头疼的一大难题。
诚然,系统可以遭受各种破坏不会影响系统的产出,但是训练好的网络并不能随心所欲地进行更改。对于大部分网络来说,信息存放的地点并非单一,信息是多点分布的,所以当这些网络完成了学习任务后再让它学习新的事物,原来训练好的神经元便会被破坏。换句话说,过去学过的事物便不復完整。
人工神经网络描述了所研究系统的非线性运动,它是非线性动力系统中极具代表性的典范,它继承了非线性动力系统所有的共性,比如对于系统未来走向的无法预测、耗散性、高维性、不可逆性、广泛连接性和自适应性等优点,使得它在股票收益预测领域脱颖而出,较之ARIMA-EGARCH为代表的传统计量模型具有较强的优越性。
当然,这并不意味着全部否认传统计量模型,只是在越发复杂的现实因素诱导下,传统计量模型并未将现实因素全盘考虑在内,故其有一定的局限性。而人工神经网络算法也并非万能,人工神经网络算法需要大量的数据,处理过程之复杂远胜于传统计量模型。以上实证过程中,还可以引入波罗的海指数及原油期货指数等影响因素以期获取更多数据,来优化模型的主动学习能力,在此不过多赘述。
总的来说,在日益动荡的A股市场,我们完全可以将人工神经网络算法结合传统计量模型来进行股价及其风险的预测。
参考文献:
[1] 李方圆,张涛.基于HMM-XGBoost的股价预测[J].桂林航天工业学院学报,2021,26(4):484-488.
[2] 李晓瑜.评“基于混合量子-经典神经网络模型的股价预测”[J].电子科技大学学报,2022,51(1):1.
[3] 徐晨萌,方华.运用ARMA模型对股价预测的实证研究[J].经济研究导刊,2019(31):77-82.
[4] 冯旭日,崔洁.基于灰色Elman神经网络的股价预测[J].辽宁工程技术大学学报(社会科学版),2019,21(4):246-252.
[5] 林升,綦科,魏楷聪,等.机器学习在股价预测中的研究综述[J].经济师,2019(3):71-73.
[6] 张晓婷,何朗,黄樟灿,等.基于MFR-GEP的高阶常微分方程预测模型[J].计算机工程与应用,2019,55(21):247-253.
[7] 杨春静.基于时间序列模型的股价预测[J].西部皮革,2018,40(12):98-99.
[8] 赵建喜,李雪飞,易丹辉,等.基于曲线段特征匹配的股价预测研究[J].数学的实践与认识,2018,48(1):75-82.
[9] 薛倩男,高岳林.基于PSO-BP神经网络股价预测模型研究[J].智富时代,2017(8):17.
[10] 郭建峰,李玉,安东.基于LM遗传神经网络的短期股价预测[J].计算机技术与发展,2017,27(1):152-155.
[责任编辑 立 夏]