制造业上市公司财务预警模型的构建及比较

2019-06-29彭三

北方经贸 2019年5期

彭三

摘要：本文以制造业上市公司为研究主体，选取反映企业经营成果和财务状况等六大方面的财务指标和审计意见等非财务指标，运用因子分析方法降低指标之间的多重共线性，分别建立Logistic回归和决策树模型，最后运用ROC曲线来对模型的预测精度进行比较分析。研究发现：从AUC的角度来看，Logistic回归模型的预警能力要强于决策树。但两个模型的侧重点不一，决策树会更加的偏重于对企业财务经营情况进行长远的预测，反映企业发生财务危机的内在原因，而Logistic回归模型则是直接的体现出企业发生财务危机后的结果，因此我们应该根据不同的目的来选择相应的模型进行财务危机的预警分析。

关键词：财务预警；logistic回归；决策树；ROC曲线

中图分类号：F235 文献标识码：A

文章编号：1005-913X（2019）05-0095-04

财务危机潜伏在企业的生产经营当中，无论是从投资者、债权人还是企业管理层以及其他相关利益者的角度来看，能够提前预测企业是否面临着财务危机的状况，并且及时采取措施来解决公司的财务危机，都是有着十分重要的意义的，因此建立良好、有效的财务预警模型对企业的长远发展非常有利。传统的财务预警模型中大多采用Logistic回归模型，但是随着互联网和大数据的不断发展，数据挖掘技术也不断的完善，其中运用决策树来进行模型研究的学者也不断的增多，但是对于传统的模型还是数据挖掘技术建立模型的优劣一直尚在探索中，本文拟采用医学上常用的分类预测ROC曲线来判断究竟哪一种模型的分类效能会更佳。

一、文献综述

目前建立逻辑回归模型的方法大致有两种：传统的统计分析方法和数据挖掘技术。在后续的研究中，也有的学者会对两种模型的优劣进行比较，其中涉及较多的就有Logical回归模型和决策树模型。

（一）传统的统计分析方法

Ohlson（1980）第一次将Logical回归模型运用于企业破产危机预警，研究发现其大大地提升了预警模型对企业财务危机判断的准确度。[1]国内学者吴世农等（2001）研究表明Logistic回归模型判错率只有6.47%。[2]随着企业非财务信息披露的更加充分，并且非财务信息也能够在某种程度上体现出企业的财务状况和经营成果的好坏，因此有的学者就通过丰富模型的指标来建立模型并对其判别精度进行验证。Altman（2015）等发现偿债能力、行业风险和付款行为等指标是预测破产的重要因子，且结合财务和非财务变量能使结果更准确。[3]Hui Hu（2015）综合考虑财务变量、非财务变量建立模型，实证结果表明包含所有变量的预警模型准确度比只包含一组或两组变量的更高。[4]陈芳（2017）以中小企业上市公司作为研究主体，比较只含财务信息和同时包含财务与非财务信息的Logical回归模型，发现后者预警能力相对于前者有所提升，且判别效果更佳。[5]因此，在变量的选取中不仅仅只关注其财务指标，同时也要将非财务信息纳入考虑的范围，提高模型的预测精准度。在财务预警模型研究中传统的模型有很多，但是运用的最广泛的就是Logistic模型，并且从判别的精确度来看，以往的研究表明其预警效果可能会更佳，因此本文采用Logistic模型来进行分析。

（二）数据挖掘技术

数据挖掘技术作为一种比较新兴的技术，随着大数据和云计算的不断发展受到了更加广泛的运用与发展。本文采用的数据挖掘方法主要涉及到分类和预测，其中决策树是数据挖掘技术中运用最为广泛的分类与预测算法之一，如模型图1就是一颗完整的决策树。数据挖掘技术的不断的使用和完善，引发了部分研究财务预警模型方面的学者的关注，并尝试将该技术运用于学术研究中。其中姚靠华等（2005）充分运用决策树技术来判别企业的财务状况就是一个典型的早期代表，研究结论很好的证实了该技术能够运用于建立财务预警模型方面，且能达到不错的预测效果。[6]李艳玲等（2014）研究结果表明数据挖掘方法的加入能够使得的判断正确率达到百分之八十。[7]由此可知：决策树这一数据挖掘方法同样能够运用到财务预警的模型当中。

（三）传统的统计分析方法与数据挖掘技术的比较

刘旻等（2004）研究发现在传统的统计方法中，相对于线性判别模型，Logistic回归预测模型的财务危机预测效果略好一些。[8]王宗胜等（2015）对比分析了Logistic回归和Fisher判别法的模型预测精度，发现前者要优于后者。[9]巩斌（2014）以卡方值是否大于伐值为判断标准来获取符合条件的变量指标从而建立Logistic、决策树和神经网络模型，并采用ROC曲线来分析模型判别企业是否发生财务危机的准确率。[10]王冬燕（2014）分别采用Logistic模型和决策树进行分类预测，运用ROC曲线对其分类效能进行比较分析，研究发现决策树分类方法稍好于二元Logistic分类。[11]王艺等（2016）通过对Logistic、决策树和BP神经网络三种模型的优缺点和预警效果进行比较分析，发现决策树和 BP神经网络的预警能力在中长期要强于Logistic回归模型。[12]操玮等（2018）从多源信息融合视角出发运用集成学习对不同预警模型的结果进行集成处理，采用ROC曲线等三种分类精度评估方法，结果表明融合多源信息的预警模型能提高预警准确率。[13]

（四）文献简評

从以上的研究可以发现在模型的比较分析中，Logistic回归模型和决策树这两种研究的最为广泛，但是对于这两者的比较分析中，我们发现，虽然大多数学者如巩斌（2014）在模型比较时会使用ROC曲线，解决共线性问题时采用的是卡方值和伐值的比较，但是并没有对其预测精度进行比较。而王艺、姚正海（2016）在对变量的共线性处理时则采用的是因子分析，一种更常见的方法，并采用多个时间点运用三种模型进行分析，但是在模型精准预测方法使用上没有采用ROC曲线。因此采用ROC曲线进行模型精确度判断的研究甚少，综合以上研究，本文就是运用因子分析解决共线性问题，并且采用ROC曲线来深入分析不同模型的分类预测准确率，同时在模型中加入了审计意见、代理水平以及治理结构等非财务指标，提高模型预警功能。

二、研究设计

（一）研究样本

本文研究主体是2016-2018年的制造业上市公司，采用1：1配比原则随机选取47家被ST公司以及财务正常公司为研究样本。样本选择中，剔除了因财务作弊被ST的企业，选取被ST前一年的数据为研究对象。根据前一年的财务数据来进行分析，建立财务预警模型，以此可以判别企业是否进入财务危机阶段（即是否被特别处理）。本文从九个方面来收集数据，计算出相应的指标，作为反应企业财务状况的一个标准。具体指标选取及其计算公式如表1、表2所示。

（二）模型评估方法——ROC曲线

ROC分析技术主要运用于分类算法的性能检测，而Spackman是将ROC分析技术运用于机器学习领域中第一人，他阐述了ROC曲线的值估计和比较算法，其主要原理是采用二分思想将实例分成正类和负类，从实际与预测结果两方面来分析，则会产生四种组合。第一类也就是真正类（TP），即一个实例实际和预测结果同时是正类；第二类为假正类（FP），实例实际是负类而预测结果为正类；第三类是称之为真负类（TN），实例实际和预测结果同时为负类；第四类为假负类（FN），实例实际是正类而预测结果为负类。如果将其运用于财务状况的分类，刚好可以将企业划分为财务正常以及财务危机两类。因此如果采用模型进行分类预测，则判断的结果会相应的产生以下四类， ST企业预测为ST企业，非ST企业预测为ST企业，非ST企业预测为非ST企业，ST企业预测为非ST企业。ROC图是以FP率（FP/N）为X轴，以TP率（TP/P）为Y轴的二维图。其描绘了True Positive和False Positive之间的关系。在比较不同的财务预警模型的判别准确度时只需要看其曲线所占的面积大小，大AUC（average under curve）预示具有比较好的预测性能。

三、实证检验

（一）显著性检验

进行显著性分析之前，本文采用Kolmogorov-

Smirnov对样本进行正态分布检验，根据其判断结果来选择显著性检验方法。该方法的原理是在置信区间为95%的情况下，若P值<0.05或者Z值>1.36，则认为样本总体不符合正态分布，研究显示大部分指标的P值都小于显著性水平0.05，因此均不符合正态分布，P值和Z值的检验结果一致，本文采用Mann-Whitney U检验和Kolmogorov-Smirnov Z检验来进行显著性检验，在显著性水平0.05的情况下若P值小于0.05，则认为这些变量具有显著性，能够用来区分被ST公司和财务正常公司。由表4可知：符合要求的指标有18个，并且所有变量的M-W U及K-S Z检验结果一致，剔除A1、E1、E2、G1、G2。在接下来的分析中，将会采用剩余财务比率用来建立预警模型。如表3显示。

（二）因子分析

在执行因子分析之前，由于各财务比率之间可能包含的信息有所重复，首先我们要检验其是否具有多重共线性问题。研究结果表明KMO的值为0.611，由于KMO数值会受样本数量的影响，因此通常判断依据主要依靠于Bartlett 的检验结果，根据其检验结果的显著性為0，指标之间具有多重共线性，适合做因子分析。通过将之前筛选出的指标变量进行因子分析，我们可能发现特征值大于1的因子主要有7个，其累计贡献率达到了79.29%，接近80%。也就是能够7个因子能够解释18个指标变量的80%的信息含量。计算结果如表5所示。

由于提取公共因子时得到的载荷矩阵很难对公因子做出恰当的解释，通过将其旋转后的得到因子载荷矩阵会更具有对公因子的解释力。为了使结果更清晰易懂，剔除了系数绝对值小于0.3得数值，其结果表5所示：因子F1在指标营业净利率、资产报酬率、总资产净利润率上有较大的载荷，同时在代理水平和审计意见上也有一定的载荷量，它们主要反映了上市公司的盈利能力和代理水平；因子F2主要反映企业的偿债能力，并与F1共同涵盖审计意见的大部分信息含量；因子F3反映企业的风险水平以及现金流量，因子F4体现企业的营运能力，因子F5和F6则共同体现企业的发展能力。因此每一个指标变量都很好的被以上5个因子所涵盖，而且主要的因子在于因子1至因子4。因此本文运用消除了指标之间的共线性后的7个新变量来替代原先的18个指标变量，并将作为接下来新的自变量进行模型建立并预测。

（三）建立预警模型

本文采用因子分析提取的7个新变量作为自变量，以6：4的比例来筛选出建立模型的样本和验证模型的样本，随机抽取的过程由Clementine12.0软件操作完成，以公司是否被ST为因变量分别构建Logistic回归、决策树模型。

1.Logistic模型

研究结果显示-2对数似然值为17.426，Cox & Snell R2为0.656，NagelkerkeR2为0.875。由于-2对数似然值越低、Cox & SnellR2和NagelkerkeR2越临近1，则表明模型拟和度越高，说明模型对因变量具有较强的解释能力，因此该模型的模拟效果良好。在该模型中因子1、2、4、7所占的权重系数分别为0.359、0.284、0.168、0.114，最重要的就是因子1和因子2，因子4，由于这三个占据了整个模型的解释能力的80%以上，这也同时说明判断企业是否被ST的决定因素主要在于盈利水平、偿债能力和发展能力，同时由于因子7在偿债能力和风险水平上解释力度较强，其作用还要大于因子3，相对而言在该模型中运营能力因子的预警作用要弱于前面两者。

2.决策树模型

■

由图1可以看出，建模的样本总数为55，其中ST公司占比47.27%，在经过因子6进行分解以后，低于-0.014的其中ST公司的占比迅速上升为81.48%，而高于该值的企业中ST企业的占比下降为14.8%，在经过因子3的拆分后，我们可以看到高于-0.280的ST公司的比例高达95.46%，而经过因子4的拆分，我们能够看到：低于-0.810全部都为ST公司。由此能够得出判定是否为ST企业的最佳的路径，节点5到节点4然后回到根节点即为ST公司的共同的特征。在所有的因子中，该模型最重要的是因子6、3、4，即是风险水平和营运能力。

（四）ROC曲线预测精度比较分析

模型建立以后，在剩下的40%的样本中对其进行财务预警的预测能力进行预测，并将其计算结果绘制成ROC曲线进行比较分析，研究结果为 Logistic模型、决策树的AUC分别为0.875和0.747，在95%的置信区间为（0.758，0.992）和（0.573，0.921）。这两个模型的置信区间的最小值大于0，5，表明模型具有判别能力，同时在AUC的数据来看，Logistic的曲线下的面积要大于决策树的，由此能够很明显的得出结论Logistic的判别能力要强于决策树的判别能力。

（五）模型评价

综合上述分析，我们可知在AUC的评价方法下，Logistic的预判能力要强于决策树，通过模型的主要贡献因子分析也可以验证得出这一结论，通常我们盈利能力和偿债能力是能够决定企业是否能够获得正的净利润的关键，而这个标准正是制造业上市公司是否能被判定为特别处理企业的重要依据，因此从实际情况上来说，这一实证结果和现实正是相吻合的。然而决策树中较为重要的因子是风险水平和营运、发展能力，这些能力对于企业固然是很重要的，但是更多会是间接的影响企业的偿债和盈利能力。决策树的一个核心思想就是找到能够直接判定企业是否被ST的路径，我们看到它的决定因素是会更加的长远的，而不是当前的，发展能力以及风险水平在短时间内暂时无法清晰的做出断论，因而当前的预判效果就没有那么的明显，但还是具有很好的财务预警的效果。

从其他的角度来看，Logistic呈现的更多是数据，定量分析，它会直接明了的告诉你哪个财务指标是最重要的，而决策树对于具体的数据较少，通常是呈现出一定的逻辑性，也就是能够挖掘出最深层次的内容，往往这个才是有利于企业的长远发展的最好的预测模型，能够从复杂的关系中找到最佳的路线，用一种理论推理的方式来呈现出来。因此要根据使用的目的来选择不同的模型进行财务危机的预警，总而言之，这两个模型各有利弊。

四、结论

本文以制造业上市公司为研究主体，从九个方面来选取变量以及采用因子分析方法分别建立Logistic回归和决策树模型，且详细分析了模型的建立与预警过程，与以往的直接用建立模型的判别准确率来作为模型预警准确率的评价标准不同的是，本文采用ROC方法来判断模型的预测准确率，最后得出Logistic的判断能力要强于决策树模型，但是决策树模型会更加的清晰的分析出ST企业具备的特征，因而从长远角度来考虑，决策树模型会更好一些。

注：

①表5中上标1代表第一行指标对应的因子系数.

参考文献：

[1] Ohlson.J.A.Financial Ratios and the Probabilistic Prediction of Bankruptcy. Journal of Accounting Research[J]，1980（1）：109-131.

[2] 吴世农，卢贤义.我国上市公司财务困境的预测模型研究[J].经济研究，2001（6）：46-55.

[3] Altman E I， Iwanicz D M， Laitinen E K， et al.Financial and Non- Financial Variables as Long- Horizon Predictors of Bankruptcy[M]. Available at SSRN 2669668， 2015.

[4] Hu H，Sathye M.Predicting Financial Distress in the Hong Kong Growth Enterprises Market from the Perspective of Financial Sustainability[M]. Sustainability， 2015.

[5] 陳芳，吴杰.中小企业财务危机预警模型比较研究—基于因子分析与Logistic回归模型的对比[J].财会通讯，2017（5）：106-108.

[6] 姚靠华，蒋艳辉.基于决策树的财务预警[J].系统工程，2005（10）：102-106.

[7] 李艳玲，宋喜莲.基于数据挖掘的上市公司财务危机预警研究[J].沈阳师范大学学报：自然科学版，2014（2）：267-272.

[8] 刘旻，罗慧.上市公司财务危机预警分析—基于数据挖掘的研究[J].数理统计与管理，2004（3）：51-56+68.

[9] 王宗胜，尚姣姣.我国制造业上市公司财务困境预警分析[J].统计与决策，2015（3）：174-177.

[10] 巩斌.上市公司财务危机判别综合评价分析——基于数据挖掘技术[J].山东理工大学学报：社会科学版，2014（1）：15-18.

[11] 王冬燕.Logistic回归与决策树分类效能的ROC曲线比较[J].智能计算机与应用，2014（5）：34-36.

[12] 王艺，姚正海.制造业上市公司财务预警体系的构建及比较—基于数据挖掘技术[J].财会月刊，2016（21）：49-55.

[13] 操玮，李灿，朱卫东.多源信息融合视角下中小企业财务危机预警研究——基于集成学习的数据挖掘方法[J].财会通讯，2018（5）：95-99+129.

[责任编辑：庞林]