基于SVM多分类模型的上市公司财务困境预测
2014-04-29张春华卢永艳
张春华 卢永艳
[摘 要] 目前的财务困境预测模型大多局限于二分类研究,而公司陷入财务困境往往会经历一个逐步衰败的过程,简单的二分类有时会掩盖某些上市公司财务状况逐渐变差的事实。为了更准确地判断上市公司的财务状况,将其按照盈利能力分为财务健康公司、财务亚健康公司和财务困境公司3类,并运用t-1年和t-2年的面板数据,采用基于平均影响值的变量筛选方法构建了SVM多分类模型。实证结果表明,模型的预测能力较好,能够以较少的特征变量实现较高的分类精度,是切实有效的。
[关键词] 财务困境预测; SVM多分类模型; 平均影响值
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2014 . 04. 001
[中图分类号] F275.1 [文献标识码] A [文章编号] 1673 - 0194(2014)04- 0002- 04
1 引言和文献综述
近些年来,国内外的专家学者对企业的财务困境预测进行了大量的研究,提出了许多有价值的预测方法。但大多数学者把研究样本分为困境公司和健康公司两类进行研究,而公司陷入财务困境往往会经历一个逐步衰败的过程,仅仅将公司分为困境公司和健康公司,往往会忽略健康公司面临的一些问题,有些公司虽然没有戴帽,但是财务状况并不理想,有的甚至亏损。因此,将上市公司仅仅分为困境公司和健康公司两类进行研究,难以判断健康公司财务状况的好坏程度及其是否处于财务困境的边缘,不能给投资者、公司管理层和债权人等相关各方提供更为明确的反映公司未来财务情况的信息。
Amy Hing-Ling Lau于1987年在“五状态财务困境预测模型”一文中首次将企业财务状况分为5个状态:财务稳定阶段、未支付股利或股利较上年减少达40%以上阶段、无法偿还贷款阶段、受破产法保护阶段、破产阶段。他认为从状态2到状态5,企业处于财务困境状态,并且严重程度逐步增加。我国学者吕长江、赵岩(2004)也突破将企业财务状况仅分为“好”和“坏”的简单分类,在理论上将公司财务状况分为5类:财务闲置、财务充盈、财务均衡、财务困境和财务破产,并且用实证分析证明了该理论假设。刘彦文、戴红军(2007)采用三分法,即在将公司分为财务困境公司和非财务困境公司两类的同时,又将非财务困境公司按一定标准分为财务状况不稳定公司和财务状况良好公司,构建了一个基于三元logistic的财务预警模型。结果显示,三元Logistic预警模型的判别能力优于二元logistic预警模型,误判成本也相对降低许多。本文在借鉴已有研究的基础上,结合我国实际情况,将非困境公司按照其盈利能力划分为健康公司和亚健康公司,进而将上市公司整体划分为3类:财务健康公司、财务亚健康公司和财务困境公司(以下分别简称为:健康公司、亚健康公司和困境公司)来进行实证研究,以获得更加精确的分类结果。
2 样本和变量的选取
2.1 分类标准
由于我国证券市场的退市制度建立较晚,退市的企业很少,因此,与国内众多学者一样,本文将公司因财务状况异常而被特别处理(ST)作为陷入财务困境的标志,即选择ST和*ST公司作为困境公司的样本。
一般来说,反映企业财务状况的指标主要有偿债能力指标、盈利能力指标、营运能力指标和成长能力指标等。在这些指标中,盈利能力指标是核心,因为利润是企业生存和发展的保障,是企业竞争力的集中体现,企业的盈利能力越强,抵御风险的能力也越强。从长远来看,企业的偿债能力、营运能力和成长能力最终都取决于企业的盈利能力; 另一方面,上市公司发行证券和被特别处理的标准都是盈利能力指标。我国规定当上市公司出现连续两个会计年度净利润均为负值或者最近一个会计年度每股净资产低于股票面值时,则会对该公司股票交易实行特别处理,即被宣布为ST。基于以上原因,本文采用盈利能力指标作为界定财务健康公司和亚健康公司的标准。
2.2 样本选取和数据来源
为了避免行业差异对预测结果的影响,增强指标的可比性,本文选择制造业中样本量较大的石油、化学、塑胶、塑料行业(以下简称化工行业)的上市公司作为研究对象(为了避免资产规模对预测结果的影响,剔除了中小板的上市公司)。考虑到资料的时效性和可获取性,本文选取了该行业2002-2012年被首次宣布为ST的24家上市公司作为困境公司样本,选取了近两年中至少有一年每股收益小于0.05元(0.05是正常标识公司每股收益的20%分位数)的32家上市公司作为亚健康公司样本,其余的67家正常标识公司为健康公司样本。本文没有遵循惯例进行样本的配对,因为配对抽样会造成样本中各类公司的比例和它们在总体中的比例严重不一致,从而高估模型的预测能力。
由于证监会是根据上市公司前一年的年报所公布的业绩判断其是否出现财务状况异常并决定是否要对其进行特别处理的,所以只采用上市公司前一年的年报数据预测其是否会被ST显然会夸大模型的预测能力。因此,本文选择困境公司被ST前两年的面板数据,健康公司和亚健康公司采用近两年(2011-2012)的数据来进行预测研究(在具体的实证研究中去掉了一些含有异常值的数据样本)。数据来源是Resset金融研究数据库,相关检验及模型估计是用SPSS 16.0和Matlab软件来完成的。
3 初始指标选取
在财务困境预测的实证研究中,财务指标的选取到目前还没有统一的结论。本文借鉴以往的经验,从公司的盈利能力、偿债能力、营运能力、成长能力、现金流量和每股指标6个方面选取了20个财务变量(见表1)作为备选指标。
(注:***表示在1%水平上显著, **表示在5%水平上显著)
从检验结果可以看出,在5%的置信水平上除了存货周转率接受原假设外,其余变量均拒绝原假设,即除了存货周转率以外,其余变量在各个类别之间均存在显著差异。所以将存货周转率剔除,其余19个指标进行变量筛选。
4.2 变量筛选
对于变量筛选,大量的实证研究采用统计方法,但统计方法往往有严格的假设条件限制,使得其有效应用受到制约。所以本文提出了一种基于平均影响值(Mean Impact Value,MIV)的SVM变量筛选方法,通过该方法可以筛选出对结果有重要影响的输入变量,从而提高模型的预测精度。
4.2.1 基于平均影响值MIV的SVM变量筛选方法
MIV是用于确定输入变量对输出变量影响大小的一个指标,其符号代表相关的方向,绝对值代表影响的大小。本文选择MIV作为评价各个自变量对因变量影响大小的指标。具体计算过程如下:
(1)用原始训练样本P对SVM进行训练,并对训练集P进行回归预测。
(2)将训练样本P中每一自变量在其原值的基础上分别加/减10%构成两个新的训练样本P1和P2,将P1和P2分别作为仿真样本利用已建成的模型进行仿真,得到两个仿真结果A1和A2,求出A1和A2的差值,即为变动该自变量后对输出产生的影响变化值(IV,Impact Value)。
(3)将IV按观测例数平均得出该自变量对因变量的平均影响值MIV。同理可算出各个自变量的MIV值。
(4)根据MIV绝对值的大小为各自变量排序,得到各自变量对因变量影响相对重要性的位次表,从而判断出输入变量对输出结果的影响程度,即实现了变量筛选。
4.2.2 变量筛选的Matlab实现
4.2.2.1 选定训练集和测试集
在原始数据的231个样本中,有145个健康公司样本(类别标签为1),38个亚健康公司样本(类别标签为2),48个困境公司样本(类别标签为3)。将每个类别分成两组,重新组合数据,最后本文选择了150个样本作为训练集,用于训练SVM模型,选择了81个样本作为测试集,用于测试模型分类的准确率。
4.2.2.2 数据归一化
在进行SVM模型训练之前一般需要对数据进行归一化预处理。本文采用的归一化映射为:
f:x→y=■
式中,x,y∈Rn,xmin=min(x),xmax=max(x),yi∈[0,1],i=1,2,…,n。
归一化的效果是将原始数据规整到[0,1]范围内。
4.2.2.3 参数寻优
用SVM进行预测时,为了得到比较理想的预测效果,需要调整两个主要的参数(惩罚参数c和核函数参数g)。本文选择K-CV方法来进行参数寻优,其基本思想是:将原始数据分成K组(一般是均分),将每个子集分别作一次验证集,同时其余的K-1组数据作为训练集,这样会得到K个模型,用这K个模型验证集的MSE(均方误差)的平均数作为此K-CV的性能指标。在此基础上让c和g在一定的范围内变化,对于取定的每一对c和g ,都将得到一个平均的MSE,最后选择使平均MSE最小的c和g。经过Matlab编程运算,最后得到的最优参数为:c=1,g=3.031 4 。
4.2.2.4 训练并对训练集回归预测
最优参数确定以后,利用这两个参数来训练模型,并对训练集进行回归预测。该模型的相关性能指标为:
MSE = 0.044 546 R2 = 0.729 932
式中,MSE为均方误差,R为相关系数。
4.2.2.5 变量筛选
对于训练集数据运用MIV方法分别求出各自变量的MIV值,结果如表3所示。考虑到指标的完整性和全面性,本文选取每个类别中MIV绝对值最大的指标作为输入变量,即成本费用利润率、资产负债率、总资产周转率、净利润增长率、总资产现金回收率和每股收益作为输入变量。