APP下载

上市公司财务风险预警

2023-09-28张彩妮任爱珍林子达

关键词:财务预警机器学习上市公司

张彩妮 任爱珍 林子达

【摘  要】有效的财务预警模型既有助于上市公司开展自我诊断和主动管理风险,也有助于投资者作出理性选择和避免可能的损失。论文通过挖掘2019-2022年A股上市公司的年报信息,选取财务指标和非财务指标作为输入特征,基于机器学习中的加权K近邻算法、随机森林算法和支持向量机算法构建企业财务风险预警模型,并比较各模型的预测表现。分析结果表明,3种预警模型均有较好的表现并各有侧重。加权K近邻模型在测试集方面具有更高的准确率;支持向量机模型在识别ST公司时命中率最高,能更准确地识别上市公司面临的财务风险;随机森林模型具有更稳健的预测性能。研究结果可供企业日常经营和投资者决策参考,也可为监管机构健全风险监测机制提供依据。

【关键词】财务预警;上市公司;机器学习

【中图分类号】F275;TP181                                             【文献标志码】A                                                 【文章编号】1673-1069(2023)08-0182-03

1 引言

目前,我国整体经济受到国际经济形势影响,面临下行压力,众多公司融资困难,陷入财务困境。在此背景下,构建有效的财务危机预警模型以识别潜在财务风险,对于企业自身规避风险、投资者制定投资计划和经济社会健康发展具有重大意义。

当前,学者基于机器学习中的各种分类算法来构建预警模型:陈志君[1]以我国通信行业上市公司为研究对象,通过筛选财务指标,采用逻辑回归建立财务危机预警模型,该模型的正确率达到79%。李长山[2]的研究表明,由逻辑回归构建的预警模型能够有效识别我国制造业公司的财务风险。连晓丽[3]以A股上市的正常公司和ST公司为研究样本,发现基于随机森林的财务危机预警模型在不同的市场行情下均有较高的准确率。孟杰[4]通过对比随机森林与支持向量机、逻辑回归、分类决策树和神经网络在我国上市公司财务失败预警时的表现,得出随机森林模型预测精度更高、更稳健的结论。游甜[5]选取财务指标和非财务指标,对比分析优化后的支持向量机、BP_Adaboost和kNN在企业财务危机预测时的表现,发现支持向量机模型具有更高的判别正确率。周廷炜[6]利用优劣解距离法和网格寻优算法优化支持向量机预测模型,提高了该模型识别上市公司退市风险的能力。薛慧[7]构建了基于LightGBM的财务风险预警模型,并与随机森林等常用模型进行对比分析,结果表明,参数优化后的LightGBM模型对电力行业上市公司财务风险预测的效果更好。

在现有的研究中,加权K近邻法被应用于机械故障诊断[8,9]、楼宇室内定位[10,11]和图像识别[12,13]等工业领域,取得了有效的成果。而目前加权K近邻法并未涉及对企业财务危机进行预警分析,因此,文章基于大数据分析方法,利用加权K近邻算法来构建上市公司财务预警模型,并与随机森林和支持向量机进行对比研究,分析不同模型的性能,帮助企业及时辨识财务风险,实现企业健康发展的良性循环。

2 指标选取与数据处理

有效的危机预测机制应发挥早期预警作用,提前对危机事件发出警示。相较于公司破产和企业违约等事件,公司被列入风险警示板的时点往往更早,更适用于刻画企业的财务危机。因此,文章以2022年为基期,对陷入财务困境的公司定义为基期被列入风险警示板的公司,利用2019-2021年的财务和非财务数据来预测基期公司是否陷入财务困境。在剔除披露信息不完全的公司后,文章获取540个有效的危机样本,并对个别缺失的数据利用平均值进行补充。由于陷入财务困境的公司数量远远小于正常公司的数量,考虑到样本的平衡性,文章随机抽取了资产规模相似、数量相同的非ST公司与ST公司一一匹配。相关数据均来源于CSMAR数据库。

根据国内外已有的关于上市公司财务危机预警的相关研究成果,结合定性分析和定量分析,文章筛选出使用频率较高且能够较好地解释企业财务风险的指标,从企业的偿债能力、盈利能力、营运能力、发展能力以及治理能力这5方面选取了19个财务指标和非财务指标作为模型的输入变量。表1列示了财务指标和非财务指标的类型和定义。文章采用Z-Score法对原始数据进行标准化处理,经过该种方法处理后的样本数据的取值范围为[0,1]。

3 模型设定

3.1 加权K近邻

K近邻是一种经典的监督学习算法。其基本思路为:在特征空间中,如果有K个样本与待测类别的样本最相似(距离最近),且这K个样本大多数属于某一个类别,那么待测样本也属于这个类别。在K近邻算法中,所选择的邻居都是已经正确分类的对象。该算法需确定的参数为K,即选择多少个与待测样本距离最近的样本进行预测。

采用K近邻算法预测时,默认K個近邻(K个观测)对待测样本的影响力度是相同的。而事实上,距待测样本近的观测样本对预测结果的贡献应当大于距离较远的观测样本。为解决这个问题,Hechenbichler和Schliep[14]提出了加权K近邻法,其核心思想为:将相似性定义为各观测样本与需要预测的新观测样本距离的某种非线性函数,且距离越近,相似性越强,权重越高,预测时的贡献越大。

3.2 随机森林

随机森林算法依赖袋装算法,即从原始数据集中进行有放回抽样来产生新样本集。每个新产生的样本集都可生长出一棵决策树。假设总共有M个输入变量,每棵树在生长时,会从全体输入变量中随机选取m个(m<M)输入变量,根据不纯度最小的准则选取最优变量进行决策树节点的分割,使每棵树都充分生成。将所有决策树汇总到一起形成随机森林,随机森林的预测分类结果是由每棵树的预测分类结果进行少数服从多数的投票确定。

3.3 支持向量机

支持向量机是以统计学习理论为基础的一种监督学习方法。该方法在处理二分类问题时,是通过在高维特征空间找到一个超平面来将两类样本有效分开。根据样本是否线性可分,支持向量机的分类问题分为两种情况:对于线性可分的样本,可通过求解凸二次型规划问题来直接确定分类超平面,进而对不同类别的样本进行分类;对于非线性可分的样本,需要先将原低维空间中的样本映射到高维空间中,这一映射过程可通过选取适当的核函数来实现,然后在高维空间中寻找分类超平面,实现对观测样本的分类。

3.4 模型性能评估

为清晰有效地对比不同分类模型的泛化能力,文章基于混淆矩阵,选用ROC曲线和AUC值来评估模型的整体分类能力。ROC曲线是二维平面空间中的一条曲线,AUC则为曲线下方面积,是具体的数值。ROC曲线的横轴为假正例率即FPR(“正例”指ST样本),纵轴为真正例率即TPR,二者分别表示为:

式中,TP为分类模型正确预测了ST样本的个数;FP为将非ST样本预测为ST样本的个数;TN为正确预测了非ST样本的个数;FN为将ST样本预测为非ST样本的个数。在二分类问题中,ROC曲线越偏离45°对角线,即AUC值越接近1,表示模型的分类性能越好。

此外,文章选用在分类任务中常用的指标来评估模型性能,这些评价指标分别为准确率、F1得分、召回率和精确度,其计算公式如下:

4 实证结果与分析

文章针对上市公司的财务预警问题,从财务指标和非财务指标中充分挖掘相关特征,分别利用加权K近邻算法、随机森林算法和支持向量机算法来构建预测模型,并利用R软件进行实证分析。文章共选取135家ST公司,将2019-2021年的810个观测值作为模型的训练样本,再将2022年的270个观测值作为模型的测试集,用于验证不同模型的预测性能。

表2为加权K近邻模型在测试集上的混淆矩阵。从表2可以看出,加权K近邻模型识别测试集中样本的整体正确率为87.04%,可分别将82.96%的ST公司和91.11%的非ST公司正确识别。因此,若提前3年对被预测为ST的企业预警,这些企业通过采取调整企业经营战略、优化企业债务结构和规划合理的现金流量等应对措施,那么其中将有82.96%的企业可以避免被证监会列入风险警示板。

表3和表4分别为随机森林和支持向量机模型在测试集上的混淆矩阵。从表3可以看出,随机森林预警模型在测试集上的正确率为86.67%,识别ST公司和非ST公司的命中率分别为87.41%和85.93%。支持向量机预警模型在测试集上的正确率可由表4得出,为86.30%。其识别ST公司的命中率为89.63%,识别非ST公司的命中率为82.96%。根据实验结果,若利用随机森林和支持向量机预测模型提前3年对被预测为ST的企业预警,及时采取正确应对措施的企业中将分别有87.41%和89.63%可避免被证监会列入风险警示板。

图1~图3展示了加权K近邻模型、随机森林模型和支持向量机模型的ROC曲线,从图中可以看到,3种模型的ROC曲线均较对角线有着明显的偏离,说明这3个模型均有较好的性能;随机森林模型的ROC曲线较对角线的偏离程度最大,AUC值为0.942 2,这表明随机森林模型具有更好的整体分类效力,对ST公司和非ST公司的识别均较为准确。

此外,表5列示了评估预测模型性能的各项指标值。可以看到,3种模型均具有较高的准确率,均在86%以上,其中加权K近邻模型准确率最高。不同模型的精确度和召回率有较大差异,支持向量机模型的召回率最高,为89.63%,而精确度最低,为84.03%,这说明该模型更侧重于将测试集中所有的ST公司识别出来,甚至牺牲了一些对非ST公司判别的准确率。加权K近邻模型的召回率最低,为82.96%,但其精确度高达90.32%,这表明该模型注重在每次识别时能够更准确地识别ST公司,即在判定该公司是否会被ST处理时趋于保守。就F1得分和AUC值而言,随机森林模型的表现更为出色,这说明该模型兼顾了ST和非ST公司识别的准确率。

5 结论

在复杂多变的宏观经济背景下,企业不可避免地面临着财务风险。财务预警模型通过对企业当前和历史的财务信息进行挖掘分析,能够有效预测企业未来经营状况,是财务危机管理的事前预防手段,在理论研究和实际应用中具有重要意义。文章选取2019-2022年我国A股上市公司的数据共计1 080个样本作为实证研究对象,运用加权K近邻、随机森林和支持向量机算法构建了预测模型,选取资产负债率、投入资本回报率、总资产周转率等财务指标和管理层持股比例、股权集中度等非财务指标作为模型输入变量,对上市公司进行财务预警研究。通过对实证结果的分析,发现3种模型均能有效地识别企业财务风险,且各有所长。

文章在3个方面仍待完善:首先,对于模型输入变量的选取以前人的研究结果与经验为基础,可能存在遗漏对企业财务危机有影响的变量的情况;其次,仅选择加权K近邻、随机森林和支持向量机3种方法来构建预警模型,在未来的研究中应选择更多、更前沿的算法来进行对比分析;最后,文章的数据均源自现有的数据库,可能存在企业财务信息未充分披露、数据失真等情况。

【参考文献】

【1】陈志君.我国通信行业上市公司财务危机预警研究[D].北京:北京邮电大学,2012.

【2】李长山.基于Logistic回归法的企业财务风险预警模型构建[J].统计与决策,2018,34(6):185-188.

【3】连晓丽.我国A股上市公司财务危机预警模型实证研究[D].廈门:厦门大学,2014.

【4】孟杰.随机森林模型在财务失败预警中的应用[J].统计与决策,2014(4):179-181.

【5】游甜.支持向量机在上市公司财务危机中的应用[D].广州:暨南大学,2016.

【6】周廷炜.基于SVM模型的上市公司财务风险预警研究[D].上海:上海师范大学,2018.

【7】薛慧.基于LightGBM模型的电力上市公司财务风险预警研究[D].成都:西南财经大学,2021.

【8】刘君,游家训,梁薇,等.基于加权K近邻算法的变压器故障诊断[J].电气自动化,2010,32(5):59-61+80.

【9】陈法法,汤宝平,苏祖强.基于等距映射与加权KNN的旋转机械故障诊断[J].仪器仪表学报,2013,34(1):215-220.

【10】牛建伟,刘洋,卢邦辉,等.一种基于Wi-Fi信号指纹的楼宇内定位算法[J].计算机研究与发展,2013,50(3):568-577.

【11】王博远,刘学林,蔚保国,等.WiFi指纹定位中改进的加权k近邻算法[J].西安电子科技大学学报,2019,46(5):41-47.

【12】王淑盛,徐正光,刘黄伟,等.改进的K近邻方法在岩性识别中的应用[J].地球物理学进展,2004(2):478-480.

【13】冯开平,赖思渊.基于加权KNN与随机森林的表情识别方法[J].软件导刊,2018,17(11):30-33.

【14】Klaus Hechenbichler,K. Schliep.Weighted k-Nearest-Neighbor Techniques and Ordinal Classification[J].Discussion Paper Sfb,2004.

猜你喜欢

财务预警机器学习上市公司
企业财务危机预警问题研究
公司债券违约的财务预警体系
基于网络搜索数据的平遥旅游客流量预测分析
前缀字母为特征在维吾尔语文本情感分类中的研究
浅谈企业如何实施财务预警分析
行为公司金融理论的现实意义
我国上市公司财务信息披露质量研究
基于支持向量机的金融数据分析研究