LSTM循环神经网络与企业盈利预测研究

2020-10-21刘昊

全国流通经济 2020年1期

摘要：在人工智能蓬勃发展的时代背景下，为提高会计信息有用性，本文采用LSTM神经网络模型以及财务报表信息对上市公司的盈利进行预测，并与分析师预测的结果进行对比。在来自沪深300的企业的盈利预测任务中，LSTM模型的平均正确率为88 60%比分析师预测的平均正确率高13 52%，并且在正确率分布中，LSTM模型的结果不存在厚尾现象，其峰度明显高于分析师预测结果，且方差显著低于分析师预测结果。揭示了人工智能模型应用在财务预测方面的现实意义。

关键词：盈利预测;LSTM;分析师

中图分类号：F279 文献识别码：A 文章编号：

2096-3157（2020）01-0176-02

一、引言

在人工智能蓬勃发展的背景下，以大数据为基础，机器学习为工具的数据处理方式正在改变着我们的工作与生活。如何将机器学习的算法与学习工作相结合，越来越受到各行各业的关注。尤其在金融、会计、审计等领域，由于有大量历史数据的沉淀，使得机器学习与这些领域的结合成为必然。本文主要研究运用机器学习中处理序贯数据的能手—LSTM（Long Short-Term Memory）模型对企业盈利预测。

普通投资者由于缺乏专业知识，对于企业未来业绩的表现往往不能做出准确的判断，因此分析师提供的企业盈利预测具有很高的决策有用性。一份具有含金量的分析师研究报告需要分析师多年的经验和积累，并且精准的预测需要耗费大量人力物力。如果能将机器学习很好地运用到分析师的预测工作中，不仅能提升工作效率，还能为分析师以及投资者提供新的决策思路与依据。

分析师向外部投资者传递的信息包括企业战略分析、财务分析、盈余預测、估值、投资建议等，其中盈余预测是一份正式研究报告最能体现其信息价值的部分。分析师预测的准确率也尤为重要。而分析师的预测准确率随着信息资源的丰富而增加[1]，说明信息是分析师的生命线，但是分析师对于某些信息却不敏感[2];Abarbanell[3]认为分析师对于先前的股价变动反应不足，并且低估了季度盈余间的相关性（例如在企业季度盈余信息公告后出现股价漂移），但其程度比普通投资者低[4，5];而且分析师普遍会因为好消息而高估企业业绩，对于坏消息的反应却不足，说明分析师是过于乐观的[6];并且分析师对于盈余的陡增和锐减不能做出很好的预测[7]。

LSTM神经网络是循环神经网络（RNN）家族中的一员，对循环神经网络最直观的解释是其内部拓扑结构中至少有一个环[8]。LSTM是由Hochreiter 和 Schmidhuber[9]提出的，并且在之后得到了长足的发展。该模型是专门为长序列的学习设计的，它能克服RNN的很多缺点，比如梯度爆炸或消失等。LSTM模型不仅拥有神经网络捕捉非线性信息的优点，而且在序列到序列的预测与识别任务中也具有天然的优势。本文采用LSTM神经网络模型进行盈利预测，并与分析师盈利预测进行对比，论证采用LSTM进行预测的意义。

本文的目的旨在提出一种提高会计信息有用性的方案，为包括分析师在内的会计信息使用者丰富辅助决策的思路。例如2017年3595家上市企业中仅有1917家上市公司被分析师跟踪并发布研究报告。运用本研究的模型可以为剩余1678家上市企业的投资者提供较为精准的盈利预测。在人工智能向各行各业深度渗透的背景下，考虑深度学习与财务领域的结合点是具有重大建设性意义的。

二、实验设计

本文用LSTM模型输入历史数据后对企业的营业收入做预测，并与分析师的预测结果作对比。采用的历史数据是剔除了沪深300中2015年后上市的样本企业的数据，最终剩下224个样本企业，预测的营业收入为2017年12月31日各个样本企业的营业收入。预测集与验证集的划分由于企业上市时间不同而不同，但至少需要8个季度的数据作为验证集。

历史数据的组成可以分为在t时刻主要来自资产负债表，利润表，现金流量表的15个维度的数据作为输入，t+1时刻的营业利润作为输出。将数据划分为训练集与测试集后，用训练集的数据进行模型的拟合以及权值矩阵和偏置值矩阵的生成，再用验证集的数据对模型性能进行检验并最终输出预测值。

三、描述性统计

本文研究的目的在于提出一种预测模型，以增强会计信息有用性，辅助包括分析师在内的投资者进行决策。在模型因变量选取时，主要从资产负债表、利润表、现金流量表中选取。其中输入变量包括：上市公司基本情况：总股本、总市值、流通市值;财务指标：市盈率、市现率、市净率;资产负债表：资产总计、负债合计、股东权益合计;利润表：营业收入、营业总成本、净利润。现金流量表：经营活动现金流入小计、经营活动产生的现金流量净额、投资活动产生的现金流量净额、现金及现金等价物增加净额。

本文选取2005年～2014年上市的224家沪深300企业作为研究对象，沪深300的名单以截至2018年6月31日前公布的最新名单为准。采用的数据库为JQdata（其数据采购于上交所，深交所，中金所，大商所，上期所，郑商所以及上海国际能源期货交易中心）。在LSTM模型训练部分，采用的数据为224个研究对象自上市以来至2017年12月31日的季报数据;分析师预测数据来自CSMAR数据库，采用的数据为224个研究对象自上市以来至2017年12月31日的分析师预测数据。

表1列示了上述变量的描述性统计。以沪深300截至2018年6月31日前公布的最新名单为准的224个研究对象从2005年起的季度数据，共3865个观测值。表2为LSTM模型预测准确率和分析师预测准确率的描述性统计。其中，224个研究对象中仅有141家企业有分析师跟踪分析。并将分析师预测错误率超过200%的观测值进行删除处理。

四、盈利预测——来自沪深300经验数据的检验

在对141家上市公司2017年第四季度的预测任务中，结果如下。表2是LSTM预测错误率与分析师预测错误率的方差分析，由于两组数据的方差不同故采用Scheffe检验方法。检验结果显示Prob>chi2 = 0 000 强烈拒绝组间均方相同的假设，说明LSTM预测错误率与分析师预测错误率的数据分布差异较大，分析师预测的结果有更大的均方差;从均值上看，分析师预测错误率比LSTM模型预测错误率高了13 51%，且在统计上是显著的。以上结果可以说明LSTM模型对营业收入的预测的准确性比分析师要高。

五、结论

人工智能第三次浪潮的兴起以及机器学习在各行各业的广泛运用，为投资者处理会计财务信息提供了新的思路。本文利用沪深300企业作为研究对象，对比分析师与机器学习算法对企业盈利的预测准确率。研究发现，LSTM模型错误率均值显著低于分析师预测错误率。

分析师在距离企业财报公布日越近时，由于获取了更多的信息，往往做出的预测越准确。这也为后续研究提供了方向，应在LSTM模型中加入对于企业文字公告的识别与反应机制，以汲取更多的相关信息，以提高预测精度。基于转移学习的观点，在模型结构上也可以做出新的创新，使得LSTM模型不仅能够分析独立样本，应在训练模型时把对于其他样本的分析也作为经验进行储存。未来研究中可以将LSTM神经网络加入加强学习模型中，进一步提升预测精度。

参考文献：

[1]Clement，M.B.J.J.o.A，Economics Analyst forecast accuracy：Do ability，resources，and portfolio complexity matter？[J].1999，27（3）：285-303.

[2]Lys，T.，S.J.J.o.A.Sohn，Economics.The association between revisions of financial analysts' earnings forecasts and security-price changes[J].1990，13（4）：341-63.

[3]Abarbanell，J.S.J.J.o.A，Economics.Do analysts' earnings forecasts incorporate information in prior stock price changes？[J].1991，14（2）：147～65.

[4]endenhall，R.R.J.J.o.A.R.Evidence on the possible underweighting of earnings-related information[J].1991，29（1）：170～9.

[5]Abarbanell，J.S.and V.L.J.T.J.o.F.Bernard.Tests of analysts' overreaction/underreaction to earnings information as an explanation for anomalous stock price behavior[J].1992，47（3）：1181～207.

[6]Bradshaw，M.T.，S.A.Richardson，and R.G.J.J.o.A.r.Sloan.Do analysts and auditors use information in accruals？[J].2001，39（1）：45～74.

[7]Jain，L.C.and L.R.Medsker.Recurrent neural networks：design and applications[M].CRC Press，2000.

[8]Hochreiter，S.and J.J.N.c.Schmidhuber.Long short-term memory[J].1997，9（8）：1735～80.

[9]Hochreiter，S.，et al.Gradient flow in recurrent nets：the difficulty of learning long-term dependencies[M].A field guide to dynamical recurrent neural networks.IEEE Press.2001.

作者簡介：

刘昊，云南财经大学会计学院，硕士研究生;研究方向：公司治理。

猜你喜欢

LSTM循环神经网络与企业盈利预测研究

猜你喜欢

杂志排行

全国流通经济的其它文章