LSTM循环神经网络与企业盈利预测研究
2020-10-21刘昊
摘要:在人工智能蓬勃发展的时代背景下,为提高会计信息有用性,本文采用LSTM神经网络模型以及财务报表信息对上市公司的盈利进行预测,并与分析师预测的结果进行对比。在来自沪深300的企业的盈利预测任务中,LSTM模型的平均正确率为88 60%比分析师预测的平均正确率高13 52%,并且在正确率分布中,LSTM模型的结果不存在厚尾现象,其峰度明显高于分析师预测结果,且方差显著低于分析师预测结果。揭示了人工智能模型应用在财务预测方面的现实意义。
关键词:盈利预测;LSTM;分析师
中图分类号:F279 文献识别码:A 文章编号:
2096-3157(2020)01-0176-02
一、引言
在人工智能蓬勃发展的背景下,以大数据为基础,机器学习为工具的数据处理方式正在改变着我们的工作与生活。如何将机器学习的算法与学习工作相结合,越来越受到各行各业的关注。尤其在金融、会计、审计等领域,由于有大量历史数据的沉淀,使得机器学习与这些领域的结合成为必然。本文主要研究运用机器学习中处理序贯数据的能手—LSTM(Long Short-Term Memory)模型对企业盈利预测。
普通投资者由于缺乏专业知识,对于企业未来业绩的表现往往不能做出准确的判断,因此分析师提供的企业盈利预测具有很高的决策有用性。一份具有含金量的分析师研究报告需要分析师多年的经验和积累,并且精准的预测需要耗费大量人力物力。如果能将机器学习很好地运用到分析师的预测工作中,不仅能提升工作效率,还能为分析师以及投资者提供新的决策思路与依据。
分析师向外部投资者传递的信息包括企业战略分析、财务分析、盈余預测、估值、投资建议等,其中盈余预测是一份正式研究报告最能体现其信息价值的部分。分析师预测的准确率也尤为重要。而分析师的预测准确率随着信息资源的丰富而增加[1],说明信息是分析师的生命线,但是分析师对于某些信息却不敏感[2];Abarbanell[3]认为分析师对于先前的股价变动反应不足,并且低估了季度盈余间的相关性(例如在企业季度盈余信息公告后出现股价漂移),但其程度比普通投资者低[4,5];而且分析师普遍会因为好消息而高估企业业绩,对于坏消息的反应却不足,说明分析师是过于乐观的[6];并且分析师对于盈余的陡增和锐减不能做出很好的预测[7]。
LSTM神经网络是循环神经网络(RNN)家族中的一员,对循环神经网络最直观的解释是其内部拓扑结构中至少有一个环[8]。LSTM是由Hochreiter 和 Schmidhuber[9]提出的,并且在之后得到了长足的发展。该模型是专门为长序列的学习设计的,它能克服RNN的很多缺点,比如梯度爆炸或消失等。LSTM模型不仅拥有神经网络捕捉非线性信息的优点,而且在序列到序列的预测与识别任务中也具有天然的优势。本文采用LSTM神经网络模型进行盈利预测,并与分析师盈利预测进行对比,论证采用LSTM进行预测的意义。
本文的目的旨在提出一种提高会计信息有用性的方案,为包括分析师在内的会计信息使用者丰富辅助决策的思路。例如2017年3595家上市企业中仅有1917家上市公司被分析师跟踪并发布研究报告。运用本研究的模型可以为剩余1678家上市企业的投资者提供较为精准的盈利预测。在人工智能向各行各业深度渗透的背景下,考虑深度学习与财务领域的结合点是具有重大建设性意义的。
二、实验设计
本文用LSTM模型输入历史数据后对企业的营业收入做预测,并与分析师的预测结果作对比。采用的历史数据是剔除了沪深300中2015年后上市的样本企业的数据,最终剩下224个样本企业,预测的营业收入为2017年12月31日各个样本企业的营业收入。预测集与验证集的划分由于企业上市时间不同而不同,但至少需要8个季度的数据作为验证集。
历史数据的组成可以分为在t时刻主要来自资产负债表,利润表,现金流量表的15个维度的数据作为输入,t+1时刻的营业利润作为输出。将数据划分为训练集与测试集后,用训练集的数据进行模型的拟合以及权值矩阵和偏置值矩阵的生成,再用验证集的数据对模型性能进行检验并最终输出预测值。
三、描述性统计
本文研究的目的在于提出一种预测模型,以增强会计信息有用性,辅助包括分析师在内的投资者进行决策。在模型因变量选取时,主要从资产负债表、利润表、现金流量表中选取。其中输入变量包括:上市公司基本情况:总股本、总市值、流通市值;财务指标:市盈率、市现率、市净率;资产负债表:资产总计、负债合计、股东权益合计;利润表:营业收入、营业总成本、净利润。现金流量表:经营活动现金流入小计、经营活动产生的现金流量净额、投资活动产生的现金流量净额、现金及现金等价物增加净额。
本文选取2005年~2014年上市的224家沪深300企业作为研究对象,沪深300的名单以截至2018年6月31日前公布的最新名单为准。采用的数据库为JQdata(其数据采购于上交所,深交所,中金所,大商所,上期所,郑商所以及上海国际能源期货交易中心)。在LSTM模型训练部分,采用的数据为224个研究对象自上市以来至2017年12月31日的季报数据;分析师预测数据来自CSMAR数据库,采用的数据为224个研究对象自上市以来至2017年12月31日的分析师预测数据。
表1列示了上述变量的描述性统计。以沪深300截至2018年6月31日前公布的最新名单为准的224个研究对象从2005年起的季度数据,共3865个观测值。表2为LSTM模型预测准确率和分析师预测准确率的描述性统计。其中,224个研究对象中仅有141家企业有分析师跟踪分析。并将分析师预测错误率超过200%的观测值进行删除处理。
四、盈利预测——来自沪深300经验数据的检验
在对141家上市公司2017年第四季度的预测任务中,结果如下。表2是LSTM预测错误率与分析师预测错误率的方差分析,由于两组数据的方差不同故采用Scheffe检验方法。检验结果显示Prob>chi2 = 0 000 强烈拒绝组间均方相同的假设,说明LSTM预测错误率与分析师预测错误率的数据分布差异较大,分析师预测的结果有更大的均方差;从均值上看,分析师预测错误率比LSTM模型预测错误率高了13 51%,且在统计上是显著的。以上结果可以说明LSTM模型对营业收入的预测的准确性比分析师要高。
五、结论
人工智能第三次浪潮的兴起以及机器学习在各行各业的广泛运用,为投资者处理会计财务信息提供了新的思路。本文利用沪深300企业作为研究对象,对比分析师与机器学习算法对企业盈利的预测准确率。研究发现,LSTM模型错误率均值显著低于分析师预测错误率。
分析师在距离企业财报公布日越近时,由于获取了更多的信息,往往做出的预测越准确。这也为后续研究提供了方向,应在LSTM模型中加入对于企业文字公告的识别与反应机制,以汲取更多的相关信息,以提高预测精度。基于转移学习的观点,在模型结构上也可以做出新的创新,使得LSTM模型不仅能够分析独立样本,应在训练模型时把对于其他样本的分析也作为经验进行储存。未来研究中可以将LSTM神经网络加入加强学习模型中,进一步提升预测精度。
参考文献:
[1]Clement,M.B.J.J.o.A,Economics Analyst forecast accuracy:Do ability,resources,and portfolio complexity matter?[J].1999,27(3):285-303.
[2]Lys,T.,S.J.J.o.A.Sohn,Economics.The association between revisions of financial analysts' earnings forecasts and security-price changes[J].1990,13(4):341-63.
[3]Abarbanell,J.S.J.J.o.A,Economics.Do analysts' earnings forecasts incorporate information in prior stock price changes?[J].1991,14(2):147~65.
[4]endenhall,R.R.J.J.o.A.R.Evidence on the possible underweighting of earnings-related information[J].1991,29(1):170~9.
[5]Abarbanell,J.S.and V.L.J.T.J.o.F.Bernard.Tests of analysts' overreaction/underreaction to earnings information as an explanation for anomalous stock price behavior[J].1992,47(3):1181~207.
[6]Bradshaw,M.T.,S.A.Richardson,and R.G.J.J.o.A.r.Sloan.Do analysts and auditors use information in accruals?[J].2001,39(1):45~74.
[7]Jain,L.C.and L.R.Medsker.Recurrent neural networks:design and applications[M].CRC Press,2000.
[8]Hochreiter,S.and J.J.N.c.Schmidhuber.Long short-term memory[J].1997,9(8):1735~80.
[9]Hochreiter,S.,et al.Gradient flow in recurrent nets:the difficulty of learning long-term dependencies[M].A field guide to dynamical recurrent neural networks.IEEE Press.2001.
作者簡介:
刘昊,云南财经大学会计学院,硕士研究生;研究方向:公司治理。