APP下载

基于差分变异GRU梯度的股票价格预测算法

2022-07-23谢春美

现代计算机 2022年10期
关键词:算子差分梯度

吴 峰,谢 聪,谢春美

(1.南宁师范大学师园学院,南宁 530226;2.广西农业职业技术大学,南宁 530005;3.南宁理工学院,南宁 530007)

0 引言

股票市场是构成国家经济的最重要组成部分之一。通过首次公开募股(IPO),公司能够筹集大量资金来扩展业务。但是股市动荡,诸如政治局势发展、公司业绩以及其他意外事件之类的日常新闻事件会立即以正面或负面的方式影响股价。结果,不可能准确地预测股票价格及其方向(涨跌),而投资者只是预测即将到来的短期趋势。在过去几年中,发布速度和每日新闻发布数量都激增,这淹没了投资者彻底评估如此庞大数据量的能力。因此,关于股票价格的预测必不可少,因为它会自动评估并显示即将到来的价格趋势的预测。目前,常见的股票预测方法包括计量经济学方法和机器学习方法。

计量经济学方法是人们使用统计分析模型基于统计理论预测股票价格的方法。常用的模型是自回归滑动平均(ARMA),自回归综合移动平均(ARIMA)和广义自回归条件异方差模型(自回归条件异方差或GRACH)。尽管计量经济学模型更为客观并具有良好的理论支持,但它们的优势体现在处理线性数据(需要严格的基本假设)和股价序列(其是一个复杂的非线性时间序列)上,因此无法获得最佳的预测结果。

与计量经济学模型相比,机器学习方法被广泛用于股票价格预测,因为它们可以直接从数据中挖掘有价值的信息,而无需预先制定假设,并且可以更好地处理非线性数据。常用的机器学习方法包括决策树,支持向量机(SVM),支持向量回归(SVR)和神经网络。其中,神经网络的学习机制使它们具有更强大的学习能力和非线性拟合能力,在股票价格预测领域更具优势。人们避免通过在某种程度上优化网络来使参数落入局部解中,并通过减少输入数据的维数来减少训练开销并提高模型的预测精度,但是传统的神经网络通常具有较差的泛化能力和容易出现过度拟合之类的问题。

近年来,随着大数据技术的不断发展以及计算机运算能力的提升,深度学习技术受到了国内外学者的广泛关注。与传统的神经网络相比,深度学习模型层数更多,特征提取能力更强。以深度神经网络(Deep Neural Networks,DNN)、卷积神经网络(Convolutional Neural Net⁃works,CNN)、循环神经网络(Recurrent Neural Network,RNN)等为代表的深度学习技术,在股票预测领域取得了进展。但由于股票数据的复杂性及其存在的长期依赖问题,使传统的RNN、LSTM模型的预测性能无法进一步提升,因此门控循环神经网络(Gated Recurrent Neural Network,GRNN)成为了目前股票预测的主流模型。

Kim等提出了一种新的混合长、短期记忆(LSTM)模型来预测股票价格的波动性(GEWLSTM),该模型通过将神经网络模型与多个计量模型而非单个计量模型相结合,显著提高了现有文献的预测性能。Baek等基于ModAug⁃Net框架提出了一种用于股票市场指数预测的新颖数据增强方法,该框架包括两个模块:过度拟合预防LSTM模块和预测LSTM模块。在实验中,使用两个不同的代表性股票市场数据(S&P500和韩国综合股票价格指数200(KOSPI200))评估了模型的性能。Zhang等将神经网络和BP算法结合起来应用于股票价格模式的分类和预测。该方法为投资者提供了一定的股票预测价值,使政府在宏观调控中更加活跃。Si等提出了一个新的股票市场预测框架NuNet,它可以从超高维时间序列数据中成功学习高级特征,采用了一种小批量抽样技术在训练时抽样更多的最新数据,采用了一种新颖的正则化方法用于卷积神经网络的数据增强。实验结果表明,NuNet优于所有基线模型。

为了进一步减小股票价格的预测误差,本文提出了一种基于差分变异GRU的股票预测算法(DMGRU)。该算法通过引入差分进化算法并结合门控循环单元(Gated Recurrent Unit,GRU)神经网络对标普500指数、上证指数、A股指数进行预测。在实验中,本文首先分析了DE算法标度因子的敏感性以及不同的变异策略和种群规模对DMGRU算法的影响,然后通过与其他算法模型的比较,验证了DMGRU算法的有效性。

1 模型理论

1.1 GRU神经网络

GRU属于LSTM神经网络的变种,由Chung等首次提出。它较之LSTM,升级了门控制结构,同时把LSTM里的输入门、遗忘门整合成了z 门(Update Gate),此外,还用r 门将LSTM的输出门进行了替换。其中,z 主要作用是帮助模型进行新输入信息的过往数据归纳,而r 主要影响前一步骤中状态信息输入模型的概率。因为神经网络中门的数量从3个变成了2个,具体参数被有效降低了,所以无形中节省了训练时间。

GRU神经网络的训练公式如下:

从式(1)~(4)能够获知:如果r 恒等于1同时z 等于0的话,GRU将直接演变成简洁的RNN模型。

1.2 差分进化算法

差分进化算法(Differential evolution,DE)是Store在1995年提出的一种基于种群演化的群体智能算法。作为一种高效的全局优化算法,到目前为止已经有了很多DE变异操作,本文主要介绍以下两种DE变异算子:

算子1:

算子2:

式(7)和(8)中,x代表目标个体,v代表变异个体,代表种群中最佳个体。xxxx为除x外的不同的个体(≠≠≠≠∈[1,],为种群大小)。参数用来控制变异个体中差分向量的影响。

正常情况下,差分进化算法中对个体进行变异操作后需要进行交叉操作及选择操作,但是这会在一定程度上增加算法的复杂度,不利于差分进化算法与神经网络的结合,为此本文在后续提出的DMGRU算法中并未使用交叉操作及选择操作。

从上述两个变分公式(7)和(8)可以看出,这些变异运算的区别主要在于差分向量本身,以及差分向量的个数。差分进化是一种稳健的进化算法,它可以多种方式与神经网络相结合。通过使用不同的变分算子,差分进化可以对神经网络具有不同的广度探索能力和局部开发能力。

2 基于差分变异GRU的股票价格预测

到现在为止,利用进化算法优化神经网络权重的研究成果很多。由于神经网络权重存在维度灾难,所以采用小规模网络、多目标优化、超参数优化、权重降维等间接进化的方式优化网络权重。现在还没有通过差分变异梯度的方式优化神经网络权重的研究,而变异策略是差分进化过程中非常重要的过程。选择合适的变异操作是差分进化算法结合GRU神经网络进行梯度优化的关键。GRU神经网络的权重维度较多,如果直接使用差分进化进行变异操作,并不能使进化算法的特点发挥出来。使用梯度进行差分操作,生成新的梯度进行权重更新,可以避免这种现象。这样一来,不仅可以通过进化生成更好的梯度,还可以更新原有的权重。因此,本文提出了一种基于差分变异GRU的股票预测算法(DMGRU),利用差分进化的变异操作来寻找更好的梯度,用于权重更新,利用权重更新后的GRU神经网络进行股票价格预测。

2.1 DMGRU算法模型

DMGRU模型是一种利用差分进化变异算子优化GRU梯度的股票预测算法。DMGRU模型中的变异操作来自于差分进化算法,下面将详细算法实现过程。

如图1所示,首先对原始股票数据进行预处理以进行平滑和正则化,将处理后的数据切割成多个批次;然后根据固定的批次大小将数据输入GRU。从这里开始,将执行DE算法。第一步是初始化种群,具体地说,将多个GRU训练后的梯度组成一个种群并保存下来,然后利用变异操作将群体中的梯度个体变异成新的梯度,最后利用变异后的梯度和原始GRU权值进行权值更新,同时将更新后的权值分配给GRU算法进行下一轮进化。DMGRU模型中的权值更新采用梯度下降为主、进化为辅的策略,使DMGRU在变异算子的指导下找到当前权值更新的最优梯度,然后对GRU算法进行优化,这样使得模型的预测结果更加准确稳定。

图1 DMGRU股票预测框架图

2.2 DMGRU算法实现

DMGRU模型主要用于预测股指次日的收盘价。具体来说,它利用GRU模型的内在特征来学习股票数据的时间序列特征,从而在现有规则的基础上预测次日的收盘价。在DMGRU模型中,采用多种差分变异算子进行变异,变异后的个体进行权值更新,并将更新后的权值分配给GRU模型,然后开始新一轮的进化操作。与原GRU算法不同,DMGRU模型采用变异算子指引,变异个体(梯度)可以帮助权重找到更好的值,使生成的股票数据更接近真实值,从而使股票预测精度更高,预测趋势更稳定有效。DMGRU模型的算法伪代码如下。

算法1:DMGRU股票算法

Input:种群大小P,初始权重,DE中的参数,批次数据data ,总批次p

Output:下一日的收盘价

F=,=

初始化模型权重

For=1 to p

3 实验与仿真结果

3.1 实验评价指标

为验证DMGRU股票预测算法的性能,本文使用标普500指数、上证指数和A股指数来进行DE算法中伸缩因子F的敏感性分析、不同变异策略和种群规模大小对DMGRU的影响分析以及DMGRU算法与其他算法的对比分析。同时为了更加全面地评价和比较DMGRU算法的性能,采用平均绝对值误差()、平均绝对值百分比误差()、均方误差()和R平方()作为实验结果的评价指标。

在实验中,为了能够保证DMGRU算法始终有效地进行预测,将种群大小设为4、6和8,用字母表示。

3.2 不同变异策略和种群规模大小的对比研究

为了分析DMGRU在不同变异策略和种群规模下的性能差异,设计了一个新的实验进行比较研究。为了确保不同变异策略和种群大小之间实验比较的公平性,GRU的参数完全一致,并且均使用上证指数进行实验。

从表1可以看出,在不同突变策略和种群规模下,当DMGRU模型采用算子1和算子2的变异策略时,种群数量选择4的情况下模型效果最好。随着种群数量的增加(=4,6,8),DMGRU模型的性能逐渐下降,这表明在使用算子1和算子2的情况下,DMGRU模型中基于差分变异产生的新的梯度逐渐偏离最优解,并且当=6时模型性能开始下降。出现这种情况的原因和DMGRU模型的设计有关,当选择变异个体的时候,未被选中的个体将会被抛弃,这会在一定程度上导致该模型的欠拟合,因此DMGRU模型的种群设置不能太大。

表1 DMGRU在上证指数上不同变异策略和种群规模大小的对比实验

此外也可以看出,当使用算子2时,DMGRU模型在种群规模(=4,6,8)下都有相对于使用算子1时更好的预测结果。这主要是因为DMGRU的设计目的在于利用差分进化算法的探索能力,虽然算子1和算子2的搜索能力相同(差分向量的个数相同),但算子2的探索能力都比算子1好,因此当使用运算符2时,DMGRU的性能比使用运算符1时要好。

因此,在下面DMGRU算法的训练过程中将优先使用探索能力较强的变异策略(算子2),并且将种群大小设置为=4。

3.3 伸缩因子的敏感性分析

在DMGRU模型中,伸缩因子是一个非常重要的参数。每次变异时,差分向量的可伸缩性由控制,同时也可以控制种群个体在权重空间中的搜索步长。因此,参数的选取对DMGRU模型的性能有很大的影响。

为了研究DMGRU模型中参数对模型性能的影响,实验中分别将设置为0.1到1.0内的值进行比较。图2给出了不同数据集(上证指数、A股指数、标准普尔500指数)的DMGRU(运算符2,=4)模型的性能指标。

从图2可以看出,DMGRU模型对参数F是敏感的,不同的数据集和模型对值的敏感度不同。其中,DMGRU对上证指数和A股指数更为敏感,特别是在=1.0时,DMGRU受的影响最大,性能表现最差。这是由于搜索步长扩大导致梯度严重偏离最优解附近所致。的值在[0.3,0.6]范围内时,DMGRU模型的性能最优。

图2参数F对DMGRU模型的M A E、MAPE和M S E指标值的敏感度分析

3.4 DMGRU算法有效性

为验证DMGRU算法的有效性,将DMGRU模型与RNN、LSTM、DMLSTM、GRU模型在不同指数(上证指数、A股指数和标准普尔500指数)上进行对比实验。表2给出了各个模型在标普500指数上的评价指标对比结果,图3、图4分别给出了各个模型在上证指数和A股指数的评价指标对比结果。

表2 各模型在标普500指数上的评价指标对比结果

图3 各预测模型在上证指数上的对比实验结果

图4 各预测模型在A股票指数上的对比实验结果

从表2可以看出,DMGRU在标普500指数上预测结果的评价指标相对于RNN、LSTM、DMLSTM、GRU模型分别降低了310、278、204、95,评价指标相对于RNN、LSTM、DMLSTM、GRU模型分别降低了0.14、0.11、0.09、0.04,评价指标相对于RNN、LSTM、DMLSTM、GRU模型分别降低了3.7、3.41、2.64、1.38,R则都要大于另外四种模型。图3、图4中,DMGRU模型在上证指数和A股指数上的预测结果同样优于其他模型。分别相对于GRU和LSTM模型,DMGRU和DMLSTM由于利用了DE算法生成的权重进行预测,使得预测结果更加准确,这充分说明了DMGRU算法是有效的。

4 结语

本文提出了一种基于差分变异GRU(DMGRU)梯度的股票预测算法。该算法利用DE算法变异操作生成新的梯度来更新GRU神经网络的模型权值。由于变异过程结合了不同个体的梯度,利用变异后的新梯度进行权值更新,使得模型预测结果更加准确、趋势更加稳定。在实验中,本文首先分析了DMGRU模型在不同的变异策略和种群规模下的预测性能,结果表明,当选择变异算子2和种群规模为4时,该模型的预测效果最好;然后对DE算法伸缩因子的敏感性进行了分析,结果表明,当值在[0.3,0.6]范围内时,该模型具有最好的预测性能;最后,将DMGRU模型与RNN、LSTM、DMLSTM和GRU模型在标普500指数、上证指数和A股指数上进行了对比预测实验,结果表明,DMGRU模型预测效果均是最好的。

猜你喜欢

算子差分梯度
一类分数阶q-差分方程正解的存在性与不存在性(英文)
Domestication or Foreignization:A Cultural Choice
一个求非线性差分方程所有多项式解的算法(英)
一个具梯度项的p-Laplace 方程弱解的存在性
内容、形式与表达——有梯度的语言教学策略研究
航磁梯度数据实测与计算对比研究
一类caputo分数阶差分方程依赖于参数的正解存在和不存在性
QK空间上的叠加算子
基于差分隐私的数据匿名化隐私保护方法
组合常见模型梯度设置问题