APP下载

基于组合模型的金融机构存款余额预测研究
——以河南省为例

2022-03-18

北方经贸 2022年2期
关键词:差分预测值余额

魏 敏

(郑州大学 商学院,郑州 450001)

一、引言

金融机构的主要功能是融通资金和汇集资本,金融机构存款余额指的是金融机构一段时间内的存款金额。随着创新型存款产品的增多和大众金融意识的增强,储蓄热度持续升高,研究金融机构存款余额发展趋势,对制定宏观经济战略、财政货币政策,指导金融部门运作与经营,保持国民经济健康发展等具有重要的现实意义。

现有关存款余额预测的研究层出不穷,大多数的研究将其看作一种金融时间序列,研究方法则由线性模型向非线性模型、单一模型向组合模型预测过度。在众多预测模型中,ARIMA模型得益于对序列线性拟合的有效性和短期预测的准确性最为流行。李明明分别利用ARIMA模型、季节指数预测模型以及两者的组合对居民储蓄存款进行预测,结果发现组合模型的拟合更为精确。除传统计量模型外,更多的模型也广泛应用于存款余额的预测。冯宇利用权重分配法来确定灰色模型、三次指数平滑模型和BP神经网络模型预测方法的权重,建立了三者的组合预测对吉林省金融机构存款余额进行了预测,得到了较为准确的结果。由于现实中的金融时间序列存在不平稳、非线性的特点,传统的计量模型和浅层神经网络模型无法得到更为准确的预测结果。但是深度学习模型中的长短时记忆神经网络(Long Short Term Memory,LSTM)通过非线性映射技术,可以有效地解决此类问题。Hochreiter提出了LSTM神经网络后,其便广泛应用于金融时间序列的预测,如股票指数、人民币汇率、税收等,均取得了较为理想的结果。

金融数据本身蕴含着丰富的信息,但是,单一模型无法全面地捕捉到序列背后的信息。为了更好地利用传统计量模型与深度学习模型方法的优点,研究利用组合模型对河南省金融机构存款余额进行预测。首先介绍了ARIMA模型和LSTM模型的结构原理,在实证了ARIMA对存款余额线性部分拟合和LSTM模型预测存款余额非线性部分拟合的基础上,通过构建组合模型,显示了ARIMA-LSTM在预测存贷款余额上的优势。

二、模型理论基础

(一)ARIMA模型理论

在金融时间序列预测中,模型根据原序列是否平稳以及回归中所含部分的不同,分为移动平均过程(MA)、自回归过程(AR)、自回归移动平均过程(ARMA)以及差分自回归移动平均模型(ARIMA)过程。ARIMA模型的基本结构为不包括季节性因素的ARIMA(p,d,q)模型和包括季节性因素的ARIMA(p,d,q)(P,D,Q)模型。

在ARIMA(p,d,q)(P,D,Q)模型中,p、d、q分别表示自回归阶数、差分次数和移动平均阶数,P表示季节性自回归阶次,Q表示季节性移动平均阶次,D表示季节性差分阶数,表达式如(1)所示。

(二)LSTM模型理论

LSTM通过输入门(inputgate)、遗忘门(forgetgate)和输出门(output gate)对输入的数据进行计算输出。具体来说,输入门和遗忘门分别控制新输入值和当前单元状态对新单元状态的影响程度,表达式如(2)和(3)。其中,X是神经元的输入,h是神经元的输出,i是神经元输入门的输出,f是神经元遗忘门的输出,b、b、b、b为权值矩阵,公式中的⊙表示哈达玛(Hadamard)乘积,rec是修正线性单元(Rectified Linear Unit,ReLU)激活函数。表达式(4)中c~是更新的状态,通过计算可以更新当前时刻接收到的数据。

细胞状态负责跟踪过去时刻的相关信息,公式(5)同时反映了有选择地记住当前时刻的信息和有选择地保留过去时刻的信息的过程。

O是神经元输出门的输出,输出门如表达式(6)所示。输出层将真实值与预测值进行比较得到误差函数,根据误差函数修正后便可以得出最终的输出部分。

通过以上步骤,LSTM便能够通过调整各个控制门的权重对其相应的输入数据进行训练而得到,进而对时间序列进行预测。

(三)ARIMA-LSTM预测框架

三、实证研究

(一)数据来源

本研究将河南省2010年至2020年金融机构本外币存贷款余额共计132个月度数据作为研究对象,将2021年1-5月数据作为预测对象,编制河南省金融机构存款余额时间序列(如图2所示)。

图1 组合预测模型框架图

图2 2010年至2020年河南省金融机构本外币存贷款余额 单位:亿元

(二)ARIMA模型建立及预测

建立ARIMA模型首先需要确定序列是否平稳,根据存款余额时间序列图可初步看出,序列具有明显的增长趋势,并非平稳序列。利用R软件对存款余额原始序列进行ADF检验(检验结果如表1所示),同样显示出存款余额时间序列不平稳。

表1 原始序列ADF检验表

对原始序列进行一阶差分来消除非平稳性。一阶差分后的相关内涵如图3上部分所示,从自相关函数图中可以看出,延迟12阶的自相关系数明显超出两倍标准差范围。这说明,进行差分后的序列虽然消除了趋势项,但仍存在着季节效应。通过12步差分运算消除季节性。存款余额季节差分图3下部分所示,k=12时,自相关系数落入置信区间,说明季节性基本消除。

图3 存款余额时间序列差分图

同时,序列也通过了单位根检验(Dickey-Fuller=-4.8726,p-value=0.01),序列平稳后,进入模型识别阶段。经过研究的检验和R软件auto.arima函数的识别,确定ARIMA(0,1,0)(0,1,1)12模型。然后,利用Box.test函数检验拟合的时序模型的残差是否存在自相关性。结果如表2所示,p值大于0.05,说明残差序列不存在相关性,选定的模型能够很好地捕获原序列中的相关关系。最后,输出模型预测值和残差,以便LSTM模型的计算。

表2 残差白噪声检验

(三)LSTM模型及预测结果

研究的实验环境基于Python3.6平台,采用Keras深度学习框架搭建LSTM网络。为找出模型返回最高精度的最优参数配置,设置全部数据的80%为训练集,20%为测试集。此外,为减少数据不同量纲带来的影响,通过对sklearn包中MinMaxScaler函数的调用,在数据处理前将数据进行归一化处理。预测完毕再对预测值进行反归一化,便可得到真实预测值。为了验证模型的泛化能力,采用均方根误差(RMSE)、平均绝对误差(MAE)指标评估预测模型的性能。

划分数据集后设置模型超参数,LSTM神经网络的优势在于可以灵活调节模型参数。超参数中的层中神经元数和层数尤为重要。按照以往的研究,将神经元个数设置为10、20和50。设置训练批次为64,迭代次数为32,并使用过去5组数据作为特征,后一组数据作为标签对存款余额残差序列进行训练。通过表3可知,当单元数都为50时,模型的效果最好。当继续增加单元数时,模型的损失值变大,效果并不如50的单元数,所以将50设置为最适宜的单元数。

表3 不同单元数对比分析

模型的层数反应网络的深度,研究在进行模型最佳层数分析时,在每一层LSTM层后加上Dropout层,以便神经网络在训练过程中舍弃某部分不需要的神经元,提高训练速度减少过拟合。将每层的单元数均设置为50对层数进行测试。不同层数实证结果如表4,通过对比两个评价指标发现,两层的模型效果最佳。原因可能在于一层的模型无法抓取数据背后的信息,三层的模型过于复杂导致冗余现象。模型训练完毕后,输出预测的残差值。

表4 不同层数对比分析

(四)ARIMA-LSTM组合模型

经过实证研究,选定ARIMA(0,1,0)(0,1,1)模型的预测值作为最终预测的存款余额线性部分,选定两层各50单元数的LSTM模型的预测值作为最终预测的存款余额的非线性部分。则ARIMA模型和ARIMA-LSTM模型拟合值如下所示,其中ARIMA模型拟合值的相对误差的平均值为0.0039,而ARIMA-LSTM组合模型拟合值的相对误差0.0027。组合模型的误差降低了28.21%,说明相对于单一的ARIMA模型,组合模型对预测精度的提升具有一定的帮助。

表6 ARIMA模型预测值

表6 ARIMA-LSTM组合模型预测值

四、结语

金融是现代经济的核心,是实体经济的血脉。金融机构存款余额的稳定增长显示出金融机构聚集资金的能力增强。依据金融时间序列分析的原理和方法判断数据的趋势变化研究具有一定的现实意义。就金融机构存款余额的预测来说,ARIMA和LSTM组合模型能够综合两者在线性和非线性方面的优势,充分利用自身强大的数据特征提取能力和学习能力,避免单一模型的不足。

总之,本研究主要分析了ARIMA-LSTM组合模型在金融机构存贷款预测中的应用。首先,介绍了模型的原理;其次,结合ARIMA的线性预测优势和LSTM对非线性数据的挖掘能力,得出了季节ARIMA模型对存款余额线性趋势,LSTM模型对存款余额非线性趋势有较好的预测效果。最后,建立了用于预测存款余额的组合模型。从实证结果来看,ARIMA-LSTM预测的预测误差均小于单一模型,说明组合模型在存款余额预测中有着良好的适用性。

猜你喜欢

差分预测值余额
一类分数阶q-差分方程正解的存在性与不存在性(英文)
AI讲座:ML的分类方法
2020,余额不足
自体荧光内镜对消化道肿瘤诊断临床应用分析
一个求非线性差分方程所有多项式解的算法(英)
一类caputo分数阶差分方程依赖于参数的正解存在和不存在性
基于差分隐私的数据匿名化隐私保护方法
季节模型在某医院月门诊量预测中的研究与应用
5月广义货币增长11.8%
沪港通一周成交概况 (2015.5.8—2015.5.14)