数据挖掘技术在上市公司财务困境预测中的应用

2017-04-07张乔

财会学习 2017年7期

张乔

摘要：本文在系统研究了国内外关于财务困境预测方面的理论和方法的基础上，以我国的沪深两市上市公司为研究对象，将中国上市公司因财务状况异常而被特别处理（ST）作为企业陷入财务困境的标志，采用主成分分析方法确定模型变量，利用Clementine软件进行Logistic回归，并在此基础上构建了财务困境预测模型。

关键词：数据挖掘；财务困境预测；因子分析；Logistic回归

随着资本市场的发展，企业的生产经营充斥着风险和危机。激烈的市场竞争带给企业的不仅仅是机遇，还有挑战。风险无处不在，企业如果不能及时发现并任其发展，就有可能陷入财务困境，而财务困境会对包括投资者、债权人、经营者在内的各种利益相关者造成非常不利的影响。如何及时发现企业经营状况的异常，采取相应的措施阻止财务状况恶化，对企业的相关利益主体乃至政府管理部门都有非常重要的实际意义。

财务危机是上市公司经营失败的体现，研究企业陷入财务困境的原因，建立一套完整有效并且具有可操作性的财务预警模型，不仅具有理论意义，而且具有现实意义。凭借科学有效的财务预警模型，上市公司可以及时发现并预防和化解经营危机，提高自身财务状况的安全性。债权人可以避免债权收不回来的高风险，投资者可以对财务风险加以重视，相关监督机构可以更便捷、更科学的进行市场监管，维护市场健康稳健的运行。

一、理论分析与文献综述

最早提出企业财务预警分析模型的是国外学者Beave：（1966），随后许多学者对该领域进行了研究，并不断完善和改进研究方法，其中，具有划时代意义的是Beaver（1966）和Altman（1968，1977）提出的Z一Seore判别模型。 Martni（1977）首次在银行业中运用logit方法建立了财务困境的预测模型。Chen和Marshall（2006）针对中国市场，同时运用4种财务预警模型，对预警的有效性和科学性进行研究，结果发现EBIT/总资产、每股盈余、资产负债率、总资产和流动比率具有显著的预测能力，预测准确率高达78%-93%，并且Logistic和神經网络模型预警效果较好。国内由于市场经济体制和证券市场发展不完善等原因，在这方面的研究相对滞后。高培业、张道奎（2000）选取29个财务指标，运用多元判别分析方法建立模型，发现由留存收益/总资产、息税前收益/总资产、销售收入/总资产、资产负债率、营运资本/总资产构成的判别函数有较好的预测能力。鲜文铎，向锐（2007）通过实证研究表明，其建立的财务困境混合Logit模型，无论在拟合优度还是预测准确度方面均优于标准Logistic模型。

二、研究设计

（一）样本选取与数据来源

本论文选取2015年被ST的公司57家，利用t-2年的财务指标进行预测。所以本文选取了2013年的115家上市公司作为样本，其中ST公司、非ST公司分别为57家，同时选取1/3作为测试样本，剩余为训练样本。该样本以沪深两市A股市场被ST的上市公司作为财务困境公司的研究样本，剔除金融类和B股上市的公司。所有数据均来源于国泰安和锐思数据库，ST公司从浪潮资讯网和东方财务网手工整理取得。

（二）被解释变量

本文以ST否作为被解释变量，ST公司取值为1，非ST公司取值为0。

三、指标的预处理

（一）特征选择

本文中所选取115家公司为样本，每个公司分别从盈利能力、偿债能力、成长能力、营运能力、现金流量、杠杆系数、非财务指标等方面分别选取了48个指标，，需要挖掘的数据量较为庞大，所以我们需要通过特征选择来减少变量个数，降低变量为度选取出对输出变量有积极贡献的重要变量。针对此样本数据，我们选择ST否为输出变量，其他变量为输入变量，通过特征选择，剔除对被解释变量影响不显著的指标，最后保留了22个重要指标。

（二）因子分析

通过上述特征选取，我们一共筛选了22项对输出量有重要影响的指标，针对这22项指标，不能像特征选择那样进行简单的削减，因为这样会导致信息的丢失。所以我们要通过因子分析方法，对他们进行有效的综合，既能有效减少参与建模的变量个数，降低数据的变量维度，同时又不会造成信息的丢失。将剔除后留存的22项指标，进行主成分分析后，得出五个因子。把五个因子的计算公式输入excel表格，得到新的变量F1、F2、F3、F4、F5，将这五个变量作为我们的解释变量。

四、模型建立及实证结果分析

（一）财务困境预测模型的建立

经过前面的特征选择和因子分析的筛选后，得到了对结果有影响的5个因子。采用基于极大似然估计的向前筛选策略，对前文中的因子进行Logistic回归分析，最终变量F2，F5没有引入方程，因为如果引入则相应的检验概率P大于显著性水平5%，因此无法拒绝原假设，说明它与Logit P的线性关系不显著，不应进入方程。我们可以得出财务困境预测模型如下：

LogitP=3.59-14.054F1+1.503F3+1.398F4

（二）模型检验

1.模型整体的显著性检验

上表显示了回归方程整体显著性检验的情况，各数据项的含义依次是：似然比卡方的观测值，自由度和概率P值。可以看到，最终，概率P值为0.003，在1%的水平上显著，所以回归方程整体显著，采用该模型是合理的。

2.模型拟合优度的检验

在方程拟合优度方面，-2倍的对数似然函数值越小，Nagelkerke R2越接近于1，该模型的拟合优度越高。在本文的实证研究中，最终-2倍的对数似然函数值为37.092，Nagelkerke R2值为0.872，拟合优度比较理想。

在最终模型中，Hosmer-Lemeshow统计量的观测值为0.574，概率P值为1，大于显著性水平5%，因此不应拒绝原假设，我们认为样本实际值得到的分布与预测值得到的分布无显著差异，模型拟合度较好，这与Nagelkerke R2得出的结论一致。

3.模型中每个解释变量的显著性

F1在1%的水平上显著，系数为-14.054，表明F1越大，上市公司越不容易陷入财务困境；F3在1%的水平上显著，系数为1.503，表明F3越大，上市公司越容易陷入财务困境；F4在5%的水平上显著，系数为1.398，表明F4越大，上市公司越容易陷入财务困境。而F2，F5在5%的水平上不显著，所以进行剔除。

（三）模型结果分析

1.财务困境的影响因素分析

从因子载荷矩阵可以看出，F1的影响因素主要为投入资本回报率、资产报酬率、总资产净利润率，均为盈利能力指标，对被解释变量有正向影响，会加大公司陷入财务困境的风险；F3的影响因素主要为每股经营活动产生的现金净流量和全部现金回收率，对应着现金流量指标，对被解释变量有正向影响，会加大公司陷入财务困境的风险；F4的影响因素主要为股权集中度和H5指数，对应着非财务指标，对ST否有负向影响，也就是会降低公司陷入财务困境的风险。

2.预测结果分析

通过判别矩阵可以看出，最终在全部57家ST公司中，预测为ST的有53家，预测为非ST的有4家，预测准确率为93%；在全部57家非ST公司中，预测为ST的有3家，预测为非ST的有54家，预测准确率为94.7%，整体预测准确率为93.9%，准确率较高。

在最终观察到的组合预测的概率图中，符号0表示公司实际未被ST，1表示公司实际被ST，每个符号代表1个观测。概率预测值大于0.5的属于被ST的公司，小于0.5的属于未被ST的公司。可以看出，在模型预测出的未被ST的公司中，仍有个别样本的实际值是被ST；同样，在模型预测出的被ST样本中，仍有未被ST的，但数量很少，模型预测的总体效果比较理想。

五、结论及局限性

（一）研究结论

本文综合运用财务管理学、统计学、和数据挖掘等多学科知识，并结合企业动态性运营特点，进行了企业财务困境预测建模的理论和实证研究工作，主要研究成果如下：

1.分析了财务困境研究背景，阐述了财务困境预测研究的理论和现实意义，并在对国内外关于财务困境预测的文献进行综述的基础上总结了目前研究中普遍存在的問题。

2.在理论分析的基础上，运用特征选择和因子分析，构建了财务困境预测的模型。首先提出了本文对数据挖掘和财务困境概念的理论界定，进而分析了导致企业财务困境形成的内、外部原因，剖析了财务预警的理论依据，最后构建了财务困境预测模型。

（二）研究的局限性

本文仅选取了2013年一年的数据进行研究，研究样本较少且不具有动态性。由于划分训练样本和测试样本之后，训练样本数据量太少，得出的回归结果不显著，所以没有再进行区分，logistic的结果为所有115家公司的回归结果，没有再对模型用测试样本进行检验。

参考文献：

[1]张玲.财务危机预势分析判别模型[J].数量经济技术经济研究，2002（3）：49-51.

[2]陈静.上市公司财务恶化预测的实证分析[J].会计研究，1999（4）：31-38.

[3]康晓玲，张懿.企业财务预警模型研究——基于中报数据与可持续增长模型的重构[J].科研管理，2009（1）：45-55.

[4]杨华.综合类公司财务危机预警模型实证研究[J].广东经济管理学院学报，2006（4）：52-55.