APP下载

基于机器学习的上市公司财务预警研究综述

2023-02-19黄晓玮

现代商贸工业 2023年3期
关键词:财务预警文本分析机器学习

黄晓玮

摘 要:有效的财务预警有助于利益相关者判断上市公司的经营状况并做出决策、规避风险。机器学习模型可以快速处理大量的数据,挖掘出有价值的信息并得出结论,能够高效地对上市公司的财务状况做出判断并预警。本文从常用的机器学习模型及其在财务预警中的应用两个方面进行了归纳,最后指出了机器学习在财务预警方面未来可能的研究方向。

关键词:机器学习;文本分析;财务预警

中图分类号:F23 文献标识码:A  doi:10.19311/j.cnki.16723198.2023.03.052

0 引言

证券市场中总存在一些上市公司由于公司经营不善、内部管理不规范、外部环境改变等原因引发公司财务危机。由于财务信息存在滯后性,以及部分上市公司存在盈余管理、财务舞弊等情况,导致利益相关者做出错误的判断而利益受损。机器学习具有快速处理大量数据的优点,能高效挖掘出有价值的信息病得出结论,因此很多学者将机器学习应用到财务预警当中。基于此,本文首先介绍了几个在财务预警中常用的机器学习模型,包括逻辑回归(Logistic Regression,LR)、决策树(Decision Tree,DT)、朴素贝叶斯、支持向量机(Support vector Machine,SVM)、神经网络和集成学习,然后通过收集和整理相关文献详细介绍了机器学习在财务预警中的应用,最后进行了总结分析。

1 财务预警中常用的机器学习模型

1.1 逻辑回归(LR)

LR主要用于解决分类问题,无需事先对数据的分布进行假设,避免了假设分布不准确的问题。具体来说,先找一个合适的预测分类函数来预测输入数据的分类结果。然后再构建一个损失函数来预测输出与实际类别的差,最后找到损失函数的最小值,即可找到最准确的预测函数。预测函数的值表示概率值,一般以50%作为分类阈值来进行分类。

1.2 决策树(DT)

DT是一种基于特征对实例进行分类的树形结构,其主要优点是模型具有可读性,分类速度快。DT由结点和有向边组成,结点包括根结点、内部结点和叶结点。根结点为初始分类特征,内部节点代表某个特征,叶结点代表某个类。DT从根结点开始,有向到达内部结点进行特征判断,并按照值选择输出分支,直到到达叶结点的类别,即决策结果。若DT存在过拟合问题,则可通过剪枝,即从已生成的树上剪掉一些结点来解决。

1.3 朴素贝叶斯

朴素贝叶斯是基于贝叶斯定理的一种常用分类方法,其实现简单,学习与预测的效率都很高。朴素贝叶斯假设特征条件是互相独立的,其通过训练数据获得类别Y的先验概率P(Y)、条件概率P(X|Y)后,再求得后验概率P(Y|X)的估计,然后基于此模型对给定的输入X利用贝叶斯定理求出各个后验概率,选择后验概率最大的输出类别y。

1.4 支持向量机(SVM)

SVM可用于解决二分类问题。对于一个线性可分的数据集,可通过找到间隔最大的超平面作为决策面来为样本分类。而对于非线性可分的数据集,可通过引入隐式的核函数将样本映射到更高维度的空间中来找到间隔最大的超平面,以解决在原始特征空间里线性不可分的问题,常用的核函数有线性核、多项式核、高斯核等。

1.5 神经网络

神经网络是目前最流行的机器学习模型之一。神经元是神经网络中最基本的成分,它接收到来自n个其他神经元传递过来的输入信号并通过带权重的连接传递到神经元,神经元接收到的总输入值将与当前神经元的阈值进行比较,然后通过激活函数来决定使神经元“兴奋”或“抑制”,以产生神经元的输出。神经网络就是把多个这样的神经元按一定的层次结构连接起来而成。神经网络有多种类型,包括感知机、BP神经网络、卷积神经网络等。

1.6 集成学习

集成学习是使用一种或多种算法构建并结合多个弱学习器以产生强学习器来完成学习任务的一种方法,相比单一学习器有更强的泛化性能。集成学习中最常用的是装袋法(Bagging)和提升法(Boosting)。

1.6.1 Bagging

Bagging通过自助采样法获得采样集,也就是先从包含M个样本的数据集中随机取出一个样本放入采样集中,再把该样本放回初始数据集,即同一个样本可能在同一个采样集中重复出现,这样随机采样m次后就可以得到含有m个样本的采样集,将上述操作重复T次后,即可得到T个含m个训练样本的采样集,然后基于每个采样集训练出一个基学习器,再将这些基学习器进行结合。在对预测输出进行结合时,通常对分类任务使用简单投票法,对回归任务则通常使用简单平均法。随机森林(randomforests,RF)是Bagging扩展模型中的典型模型之一。

1.6.2 Boosting

Boosting的训练样本均为同一组,它是通过改变训练样本的权重来学习多个基学习器。先训练出一个初始的基训练器,根据该基训练器的结果,提高分类错误的样本权重,再按照新的权重训练下一个基学习器,直到达到预先指定的学习次数,再将这些基学习器加权组合,以提高最终模型的准确性。AdaBoost、全梯度下降树(GBDT)、极端梯度提升(XGBoost)都是Boosting的常用算法。

2 基于财务数据的财务预警研究

2.1 单机器学习模型

朱发根,刘拓,傅毓维(2009)选取高新技术产业的上市公司为研究范围,运用SVM构建财务预警模型。结果表明,该模型具有90%的预警精度,可以对企业两年后的财务状况作出较可靠的判断。赵文平,王园园,张一楠等(2015)构建了基于贝叶斯网络的工业上市公司财务预警模型。发现该模型在公司被ST前三年的准确率分别为91.05%、95.03%、97.35%,对工业上市公司财务风险的预测取得了较好的结果。王秋玮,叶枫(2018)构建了决策树C5.0的财务预警模型,发现该模型可以较好地预测ST公司的财务困境程度。

有学者构建了多个机器学习财务预警模型并进行对比。唐锋,孙凯(2008)采用主成分分析法(PCA)和BP人工神经网络构建财务危机预警模型。结果表明BP神经网络模型达到了建模样本90.8%和检验样本90%的判正率,而采用PCA建立的模型分别是90%和81.7%,基于BP神经网络的预警模型效果更好。蒋盛益,汪珊,蔡余冲(2010)建立了7个财务预警模型,包括贝叶斯网络、决策树、基于规则的分类(JRip)、最近邻分类(1NN)、多层感知机、BP神经网络和LR。发现最近邻分类、多层感知机、BP神经网络及逻辑回归这四类方法的效果接近,且明显好于贝叶斯网络、DT、JRip。

2.2 多机器学习融合模型

多位学者将PCA应用到各类机器学习模型中,发现可使模型效果得到提升。刘玉敏,申李莹,任广乾(2017)构建了PCA-PSO-SVM模型来进行财务风险预测。先通过PCA进行数据降维处理,再将SVM的参数作为PSO的粒子,將分类准确率作为PSO的目标函数进而得到优化的SVM。发现PCA-PSO-SVM模型在较短的预警期间内,其准确率好于单纯的SVM模型。石先兵(2020)通过使用PCA分析原始数据,然后将结果嵌入SVM中来构建企业财务预警模型。结果显示,PCA-SVM财务危机预警模型的准确率总体高于80%以上,对制造业上市公司有较好的财务危机预警效果。

将单机器学习模型作为集成学习法中的弱学习器能够提高模型的预警效果。陆正华,周航(2013)构建了BP_Adaboost财务预警模型,发现用BP神经网络作为弱分类器的Adaboost算法构建的财务预警模型误差率更低。朱昶胜,田慧星,冯文芳(2021)构建了Adaboost-DEGWO-SVM组合模型来预测上市公司财务困境。其将差分进化(DE)应用到灰狼算法(GWO)中来实现对SVM参数的寻优,最后通过Adaboost算法提高DEGWO-SVM的分类能力。结果表明,Adaboost-DEGWO-SVM组合预测模型的分类准确率可达到91.3%。赵雪峰,吴伟伟,吴德林等(2022)构建出以特征因果关系分析为基础的CFW-Boost模型,其将CART决策树作为弱分类器。并构建了LR、Lasso-Logistic,SVM、PCA-SVM、RF、卷积神经网络(CNN)及长短期记忆网络与之进行对比,发现CFW-Boost相比其他模型具有更高的准确率和稳定性。

张露,刘家鹏,田冬梅(2022)则融合了两种集成学习方法,其将基于Up-Down集成采样的Bagging-Vote模型与基于Tomek-Smote采样的Stacking模型进行融合,再加入股票交易数据来得到Stacking-Bagging-Vote(SBV)多源信息融合模型,发现该融合模型在预测性能上有了较大的提升。

3 涉及文本分析的财务预警研究

近年来,在财务预警研究中使用机器学习分析文本信息的研究增多。阮素梅,杜旭东,李伟等(2022)构建了9个常用的机器学习模型,包括LR、SVM、神经网络、DT、GBDT、XGBoost、AdaBoost、RF和Bagging,对使用单一财务数据的模型和增加了文本信息的模型进行财务风险识别效果对比。发现在加入文本信息,可以显著提升多数机器学习模型识别上市公司财务风险的性能。梁龙跃,刘波(2022)通过提取财务困境公司与正常上市公司年报中“经营情况讨论与分析”和“审计报告”的文本特征,并与财务指标数据结合,构建了LR、XGBoost、人工神经网络(ANN)、CNN四种财务风险预警模型。对文本特征的提取分别采用了BERT-AE、Word2Vec-CNN-AE和Word2Vec-LSTM-AE模型进行对比,结果显示使用BERT-AE提取文本特征的XGBoost模型效果最好。

4 结论

机器学习是在财务预警中常用的方法,包括LR、DT、朴素贝叶斯、SVM、神经网络和集成学习等。其在财务预警的应用中,从主要对财务数据进行分析的单机器学习预警模型逐渐向多机器学习模型融合发展,并且对于特征提取、模型算法不断的优化使得模型的预警效果得到提高。近年来,随着机器学习的不断深入发展,文本信息也成了财务预警模型的分析对象,并且进一步的提高了模型的预警效果。未来可以对特征提取、算法优化、文本信息分析这些方面进行更深入研究,提高财务预警模型的现实指导意义。

参考文献

[1]梁龙跃,刘波.基于文本挖掘的上市公司财务风险预警研究[J].计算机工程与应用,2022,58(4):255266.

[2]陈艺云.基于信息披露文本的上市公司财务困境预测:以中文年报管理层讨论与分析为样本的研究[J].中国管理科学,2019,27(7): 2334.

[3]赵雪峰,吴伟伟,吴德林,等.面向特征因果分析的CFW-Boost企业财务风险预警模型[J].系统管理学报,2022,31(2): 317328.

[4]朱昶胜,田慧星,冯文芳.基于Adaboost算法结合DEGWO-SVM的财务困境预测[J].兰州理工大学学报,2021,47(6): 100107.

[5]张露,刘家鹏,田冬梅.基于Stacking-Bagging-Vote多源信息融合模型的财务预警应用[J].计算机应用,2022,42(1): 280286.

[6]陆正华,周航.基于BP_Adaboost算法的上市公司财务预警研究[J].财会通讯,2013,(23):117119.

[7]唐锋,孙凯.基于BP人工神经网络的上市公司财务危机预警研究[J].现代经济(现代物业下半月刊),2008,(S1):161162.

[8]张秋水,罗林开,刘晋明.基于支持向量机的中国上市公司财务困境预测[J].计算机应用,2006,(S1):105107.

[9]蒋盛益,汪珊,蔡余冲.基于机器学习的上市公司财务预警模型的构建[J].统计与决策,2010,(9):166167.

[10]王秋玮,叶枫.新常态下ST公司财务困境预警研究——基于C5.0算法的财报面板数据[J].财会通讯,2018,(23):107111,129.

[11]朱发根,刘拓,傅毓维.基于SVM的高新技术企业财务危机预警研究[J].科技进步与对策,2009,26(11):7375.

[12]刘玉敏,申李莹,任广乾.基于PCAPSOSVM的上市公司财务危机预警[J].管理现代化,2017,37(3):1214.

[13]赵文平,王园园,张一楠,等.基于贝叶斯网络的上市公司财务风险预警模型[J].财会月刊,2015,(23):6669.

[14]周志华.机器学习[M].北京:清华大学出版社,2016.

[15]赵卫东.机器学习[M].北京:人民邮电出版社,2018.

[16]李航.机器学习方法[M].北京:清华大学出版社,2022.

[17]石先兵.基于PCASVM的企业财务危机预警模型构建[J].财会通讯,2020,(10):131134.

[18]阮素梅,杜旭东,李伟,等.数据要素、中文信息与智能财务风险识别[J].经济问题,2022,(1):107113.

猜你喜欢

财务预警文本分析机器学习
企业财务危机预警问题研究
投资者情绪短期对股票市场的影响研究
前缀字母为特征在维吾尔语文本情感分类中的研究
浅谈企业如何实施财务预警分析
基于支持向量机的金融数据分析研究
初中英语听说课教学实践探索