城商行龙头北京银行的股票价格预测研究<br/>——基于深度神经网络模型

城商行龙头北京银行的股票价格预测研究
——基于深度神经网络模型

2022-06-26李涛涂贞贞

商展经济 2022年12期

李涛涂贞贞

(华东交通大学经济管理学院江西南昌 340013)

股票市场作为金融市场的重要组成部分，特点是高收益性与高风险性并存。如何预测股价的变化，掌握股价变动规律，对于投资者和监管者都具有重要的理论和现实意义。

2020年，在国内130余家城商行中，北京银行成为第一家总资产突破3万亿元的城市商业银行。作为城商行的龙头，北京银行的市值和股价具有强劲的示范作用，可能引领城商行板块的异动，重塑金融板块格局，甚至关乎金融市场的稳定。我国已进入“双循环”新发展战略格局，防范化解重大金融风险已是国策，因而研究北京银行股价的预测，非常具有实效性。遗憾的是，关于股票价格的预测，纵览各券商研究报告，业界多采用基本面分析法和传统的技术分析法。股票价格是金融中常见的时间序列数据，学界对于时间序列数据的分析，常用的计量工具有移动平均模型(MA)、自回归模型(AR)、自回归移动平均模型(ARMA)、差分自回归移动平均模型(ARIMA)等，这些计量模型有一定的预测能力，但此类模型是建立在线性分析的基础上，适用于宽平稳的时间序列，即均值和方差不随时间变化而变化，而股价表征上体现出极强的非线性，因而有必要运用非线性模型对其进行拟合测定。再者，ARIMA模型能够拟合时间序列之间的线性关系，具有操作简便、应用性强等优势。在实际情况下，现实的时间序列(金融时间序列等)往往呈现非线性的特点，ARIMA模型提取金融时间序列的能力有限，但人工神经网络模型能够在时间序列呈现强烈非线性特点时提取出相对较多的隐藏信息。

当今世界，深度学习浪潮风起云涌，运用领域日益广泛，渗透到国民经济各大行业。本文基于深度学习的视角，拟用深度神经网络模型，对北京银行股价的预测进行探究。

1 神经网络模型

神经网络模型最初的版本是感知器(MLP)，某种程度上类似一种单神经元的结构体。感知器是模拟生物神经细胞的状态处理方式，思维新颖且前景可期，一经问世，便引发研究热潮，其最重要的思想是利用梯度下降法对损失函数进行极小化，从而求得相应参数。然而，感知器固有的缺陷是无法解决非线性问题。

20世纪80年代，BP神经网络兴起风靡，用于解决非线性问题，其包含输入层、隐藏层和输出层，采用反向传播算法，通过梯度下降不断迭代调整权重函数，得到最优拟合。BP神经网络模型虽然可用于时间序列的分析和预测，但由于其设计初衷并未考虑如何有效利用时间序列的自相关特征，而且BP网络是局部优化算法，容易陷入局部极值困境。

循环神经网络(RNN)在BP基础上，加入时序因子以求更有效地分析时间序列。然而，循环神经网络在实际过程中往往出现梯度爆炸或梯度消失，因此没法解决时序数据的长依赖性问题。为解决循环神经网络的长依赖性问题，长短期记忆网络(LSTM)应运而生。LSTM与RNN最主要的不同在于：RNN整结构同享一组(U，W，B)参数，而LSTM的每个门(遗忘门、输入门、输出门)都有各自的(U，W，B)参数，缓解了梯度爆炸和梯度消失的问题。

与RNN相比，LSTM依然是基于当前输入X和上一级隐藏层输出H来计算，只是神经元的内部结构改变，其外部结构并未有任何变化。LSTM神经元中构建了三门：遗忘门f、输入门i、输出门o和内部记忆单元c。若当前输入的序列存在有效信息时，遗忘门f的值就接近于0；若当前输入不存在有效信息时，输入门的值就接近于0。

LSTM 中设置了两个关键函数σ和tanh，其中σ一般选择sigmoid作为激励函数，主要起门控作用，因为sigmoid函数的值域为[0，1]，符合物理意义的开和关。tanh函数作为生成候选记忆c的选项，因为其值域为[-1，1]，符合大多数场景下以0为中心的特征分布，且梯度在接近于0处，收敛速度比sigmoid要快。

由此不难看出由遗忘门、输入门、输出门和内部记忆单元共同控制LSTM输入h的设计，使得整个网络可以更好地把握序列信息之间的关系。

2 实证模型设计

2.1 基于LSTM的股票价格预测

LSTM 独特的结构设计，有效解决了神经网络的梯度爆炸、梯度消失和长依赖等问题。本文基于LSTM模型对北京银行的股票价格进行预测。

股票日交易行情数据最主要的五个特征是开盘价、收盘价、最高价、最低价和成交量。本文拟以T日股票行情的上述五个特征为输入，预测T+1日股票的收盘价，模型如图1所示。

图1 LSTM预测北京银行股价的模型

2.2 实验环境

本文所用实验环境的主要参数为：处理器Intel(R)Core(TM) i5-6200U CPU @ 2.30GHz (4 CPUs)，2.4GHz，内存8192MB RAM，显卡Intel(R) HD Graphics 520，操作系统Windows 10 家庭中文版 64-bit。

实验所用编程语言为Python，IDE采用Jupyter Notebook，深度学习框架为基于TensorFlow的Keras。

2.3 数据处理、算法选择和指标选用

本次实验的北京银行股票价格数据集通过平安证券慧赢软件获取，收录自北京银行2007年9月19日首发上市至2020年12月18日的所有交易日的日线级别数据。对于非交易日的日线级别缺失数据，本实验不采用填补缺失值的方法对其进行处理。非交易日本身是金融时间序列中的常存现象，即使按照某种方式填补缺失值，也没有影响实际交易的意义，因而没有必要将非交易日的缺失纳入考量。

我沿着山势拾阶而上，岁月的痕迹与湖湘文化的积淀就林立在这山间，文庙、湘水校经堂、船山祠、濂溪祠、屈子祠等纷纷闯入我的眼帘，繁华荟萃的湖湘文化和层林尽染的山中风景让我应接不暇。濂溪一脉的理学自湘南至此发扬光大，随着湘江一起浩荡地流向大半个中国。工善其事、业精于勤的湖湘伟人站在历史巨浪的潮头，魏源在和林则徐彻夜长谈后伏案写下《海国图志》，让国人睁眼看世界；曾国藩从双峰老家带着几百家勇横扫中国，挽狂澜于既倒、扶大厦之将倾；熊希龄带着湘西人的赤诚和坚韧从凤凰来此求学，最后成了北洋政府国务总理，正所谓：此君一出天下暖。

为防止过拟合，本实验将数据集的70%划分为训练集，30%划分为测试集。作为输入的五个特征中，四个为价格变量，一个为数量变量，为了消除不同量纲的影响，需要对变量进行归一化预处理。

本实验的优化算法采用自适应学习率的Adam算法，其融合使用一阶和二阶动量实现学习率的自适应下降，通过少量参数完成高效计算，较随机梯度下降(SGD)的固定学习率的算法有显著优势。

模型训练完成后，本文选取均方根误差(RMSE)作为定量分析评判标准，预测图的整体拟合效果作为定性分析评判标准。

3 实证分析过程和结果分析

本文设计了三个实验，LTSM神经网络层级均是由三个LSTM隐藏层、三个Dropout层(抛弃率0.2)和一个密集连接层Dense构成，迭代次数均为50，但分别采用不同的参数设定，差异在于时间步长和隐藏层首层神经元个数。

在时间序列分析中，时间步长是必须着重考量的参数，因为未来的信息究竟和滞后几期的数据相关是不得而知的，但如果过多地纳入历史信息，对拟合的预测效果往往适得其反，时间步长的设定是门技术，更是一门艺术。

实验一结果如图2所示：

图2 实验一预测值与真实值比较

RMSE=1.086152581974425

实验二结果如图3所示：

图3 实验二预测值与真实值比较

实验三结果如图4所示：

图4 实验三预测值与真实值比较

RMSE=1.108114805641736

综合三个实验结果比较，实验一(时间步长为5，隐藏层首层神经元个数50)的RMSE值最小，且图形拟合效果较为出色。实验结果表明，时间步长过大反而会背离预测，与本文前述的预判相符，时间步长选取为5，拟合效果更优，且符合市场的认知常识。另外可以得出，对神经网络赋予更多的神经元个数，不一定有利于时间序列数据的预测。当然，受限于时间与电脑硬件，为了降低搜索空间，该搜索方法的搜索颗粒度较粗，且未考虑超参数之间的耦合关系，因此最终确定的个数难以保证全局最优。

4 结语

股票价格的预测是一个非常复杂的过程，因为股票市场的预测过程基本上是动态的、非线性的、复杂的。本文利用深度神经网络模型LSTM对北京银行的股票价格进行预测，实验结果表明：该模型对北京银行股票价格走势具有良好的预测性，且要求的实验环境普适，具备作为公司市值管理工具的价值。

北京银行股票价格与其前5个交易日的价格和成交量存在极为密切的关联，对于一周前或更长时间周期前的行情表现出相对较弱的联系。原因可能是北京银行股价在历史长期中已经稳定反映出其价值基准，股价变动跟短期冲击有较强关联。

北京银行作为国内130城商行的龙头，坐拥3万亿资产的巨大体量，其市值水平和稳定程度对整个城商行板块，甚至对银行金融体系的安全都有着不可估量的影响。尤其在遇到外部不可预见的突发冲击下，其股票价格可能会在短期受到剧烈的外加作用，虽然本模型基于的是历史数据，但时间周期跨度涵盖了其上市以来足够长的观测值，充分表现出北京银行自身的价值规律和风险尺度，能在较大可信度的基础上对该股价进行有效预测。若实际股价突受冲击偏离本模型预测，幅度达到预警级别，管理层则需密切关注和预测其市值走势，提前完善对应的应急处置预案，防范化解重大金融风险。

本文对股价的预测方法，能通过LSTM帮助股票投资者筛选出拥有更大盈利能力的股票，从而进一步提高预测精度。此方法在未来金融时间序列研究中有广泛的应用前景，不仅能为投资者提供一定的参考信息，还能为后续的研究者提供相应的参考。作者下一步的计划是使用自然语言处理技术对股票新闻、交易网站上网友的评论等文本类信息进行转换处理，从而作为模型特征的输入；并再次降低压缩的维度大小；同时尝试卷积神经网络、双向循环神经网络，分别与注意力机制进行融合，实验对比分析不同模型的预测结果。