基于机器学习的房地产企业财务风险预警模型对比研究
2023-11-08李晨尧
李晨尧
一、引言
据国家统计局发布,2022 年全国房地产开发投资下降10.0%,房地产开发景气指数处于较低景气水平。商品房销售面积、销售额和均价下跌,居民买房意愿不足,而房地产开发企业投资回收期长的特点,使得众多开发商面临资金链紧张的困境。一些龙头房企接连出现债务违约“暴雷”现象,也带来不良的社会影响。房地产企业财务危机的出现是由于战略定位错误、盲目投资多元化、内部管理水平低、产品核心竞争力不足、库存管理不佳等多种原因造成。企业出现财务危机不是一蹴而就的,往往会在前期隐藏一定的财务风险。因此,针对房地产企业行业特点,选取相应财务指标并构建财务风险预警模型,具有较强的现实意义和应用价值。本文将从财务指标和非财务指标两方面构建一个财务风险预警的指标体系,并利用WEKA 平台的数据挖掘与机器学习功能,评价不同算法对房地产企业财务风险的预警水平。
二、样本选择与指标建立
1.样本选择
本文使用的财务数据来自国泰安(CSMAR)数据库,选取样本参照国内研究的一般方法,将2017—2021年被首次特别处理(ST)的房地产公司作为财务危机企业样本,非ST 房地产公司作为财务正常的企业样本。根据房地产行业的实际情况,采用非配对抽样,选取较多的财务正常企业样本和较少的财务危机企业样本。
基于以上原则,依据国泰安数据库中行业分类标准,参考证监会2012 版行业分类和申银万国行业分类2012修订版,选取2017 年至2021 年共876 个房地产企业样本,其中财务正常企业样本共846 个,财务危机企业样本共30 个。
2.指标选取
指标的选取是构建财务预警模型的核心环节。财务指标能够从多维度全方面地展现公司的财务状况和经营水平,本文选取了能够在一定程度上检测企业财务风险的财务指标。由于企业内部治理状况和管理情况不尽相同,指标的选取不应拘泥于财务指标,也应选取一定的非财务指标作为补充。因此本文遵循系统性、不相关性、灵敏性和切实可操性原则,参照国内相关财务风险预警指标的研究建立一套财务风险预警的指标体系,包括偿债能力、经营能力、盈利能力、股东获利能力、发展能力、现金流量指标、风险水平等财务指标,同时也选取了两权分离度、年度内董事会的会议次数和审计意见等非财务指标。具体情况见表1。
表1 财务预警指标选择
三、模型构建及评价指标
1.数据处理
对全部原始数据进行预处理。为保证WEKA 平台能够正常读取数据,将所有数据保留三位小数;对于无法从财务报表及公开信息中获取的财务数据选择用众数进行填充;对于非财务指标的缺省采用悲观准则进行填充,如董事会的会议次数如果无法获取,则认为年度内的会议次数为0。
2.模型构建
本研究采用流行的数据挖掘方法来构建财务风险预警模型,主要包括贝叶斯网络(GBN)、朴素贝叶斯网络(NBN)、逻辑回归(LR)、决策树(DT)、支持向量机(SVM)、人工神经网络(ANN)、装袋(BA)、k 最近邻(KNN)和随机森林(RF),共计9 种算法。
3.评价指标
评价分类器的性能指标主要为机器学习类指标。机器学习类指标主要包括预测模型的构建速度、混淆矩阵相关的度量指标(真阳性率,真阴性率,假阳性率,假阴性率,综合准确率,F-Measure)以及接受者操作特征曲线下面积。F-Measure 度量值高可以保证查全率和查准率都比较高,表明机器学习算法准确率较高。接受者操作特征曲线下面积(AUC)的范围在0.5(随机模型)和1(完美模型)之间,越接近1 表明模型精度越高。
四、学习结果与对比分析
1.结果
本文采用WEKA 3.8.6 软件对处理后的876 条数据采用十折交叉验证的方式进行实验。十折交叉验证是将数据集分成十份,轮流将其中9 份作为训练数据,1 份作为测试数据进行试验的方式。实验结果机器学习类指标见表2。
表2 机器学习类评价指标
2.讨论
根据机器学习评价指标,首先从算法训练的时间上看,ANN 算法学习时长最久,是因为神经网络所需参数较多,学习过程比较长。其余算法产生模型的时间均较短,速度较快。剩余度量标准TPR、F-Measure、AUC 和Accuracy 的评价值越高说明算法的分类效果越好,预测精度越高。本文针对剩余度量指标做出具体分析如下。
从整体上来看,基于集成学习思想的模型——比如BA、AB、RF,比其他模型的综合准确率、F-Measure 和AUC 值高,这可能是因为集成方法通过聚集多个分类器的预测结果来提高分类准确率,平均了单个模型的偏差,使得集体决策在全面可靠性和准确度上优于个体决策。除此之外,SVM 和ANN 算法也提供了同样最高的综合准确率和第二高的F-Measure,但根据AUC 指标,ANN 算法的ROC 曲线下面积更大,意味着ANN 算法的平均性能要优于SVM 算法。
从单个算法角度看,基于函数的LR、基于决策树的DT 和基于实例的kNN 的综合正确率均超过了95%,这些算法的F-Measure 也均大于0.95,LR 的ROC 曲线下面积达到了0.79 以上,说明它们在该房地产预警数据上的分类性能较好,能够在财务危机早期预测中发挥重要作用。这些算法中表现相对较弱的是GBN 和NBN。然而,我们更换贝叶斯网络中的全局评分度量,将K2算法更改为TAN(Tree-Augmented Naive Bayes,树增强朴素贝叶斯)后,贝叶斯算法的综合准确率则增加到了95.4338%,F-Measure 和AUC 则达到了0.954 和0.922,说明更改合适的度量后该算法也可以在房地产企业财务风险预测中达到良好的效果。
为了更好地预测房地产企业财务危机,我们需要针对房地产企业数据特征做出比较和评价。需要注意的是,在房地产财务风险模型数据的这种不平衡数据集中,识别为财务风险的企业数量远远小于未识别为财务风险的企业数量,但识别出有财务风险的企业却更有意义,因为如若未识别出财务风险,会对社会产生更大的不良影响,银行、社会投资者和购房百姓会付出更大的代价。因此在关注上述指标之外,我们更需要关注假阳性率指标,假阳性率指标越低,意味着真阴性率指标越高,也就意味着该分类器在针对房地产企业财务风险发出预警的意义就更大。本研究结果表明,NBN、GBN、GBN-TAN、kNN、ANN 的假阳性率指标相对其他算法更低,能够更准确地识别出财务风险企业。
综上所述,在该房地产企业财务风险预警数据集上的分类预测效果较好的算法有三种,分别是GBN-TAN、ANN 和kNN。这三种算法在真阳性率、假阳性率、F-Measure、AUC 和综合准确率等多种指标的综合测评下都有比较出色的表现。未来,计划继续扩大原始数据集,继续对原始数据中财务指标的选择和各种算法进行优化,进一步降低假阳性率,结合各个模型的优势特点来提高对房地产企业财务危机的预测精度。