粗集—遗传支持向量机在制造业上市公司财务危机预警中的应用
2015-11-05葛新旗周虹
葛新旗 周虹
摘要:本文利用相关财务危机理论建立影响上市公司财务危机的指标体系,通过粗集理论对这些指标进行约简获得核心指标,再利用支持向量机对核心指标建模得到企业财务危机预警模型,并运用到未来三年的财务危机预测当中。实证分析表明,本模型前两年的综合预警准确率达90%以上,证明了该模型有较强的预测能力。从财务危机预警结果来看,与传统SVM方法相比,粗集及遗传算法的引入不仅能够提高预警效率,而且能够提高预测精度,与实际企业财务情况基本一致。实际应用表明,在企业财务危机预警建模中,粗集理论的约简和遗传支持向量机方法的实施充分利用了样本数据本身特点,并为后续的优异预警结果提供良好地理论基础。
关键词:制造业上市公司;财务危机预警;粗集;遗传算法;支持向量机
中图分类号:F275文献标识码:A
一、引言
任何公司财务危机的发生都不是一个突发事情,而是一个逐步显现、不断恶化的过程,具有一定程度的积累性和先兆性等特征。由于企业财务危机的这种可预知和可预测的,需要实时建立一个财务危机预警系统,对企业的财务状态进行实时跟踪和分析,提早发出危机预警信息,从而提早做相应准备或采取相应措施,以减少甚至避免相应损失。
当企业经营者由于经营不善或其它客观原因使得企业财务不能正常运转的一种持续性状态时,我们称之为财务危机。Beaver[1]最早把财务困境概念定义为企业不能偿付到期债务。财务危机预警主要是通过分析公司相关财务数据,从分析结果判定其陷入财务危机的某些本身所固有的特性或先兆,再通过相关理论对财务数据进行分析,从而建立财务危机预警模型,以期达到预警或防范作用。到目前为止,相关学者仍未寻找到财务危机发生所固有的特性或先兆,故通过建立财务预警模型来对相关公司在未来一段时间内的财务危机情况进行适度预警,不失为一个较好的解决方案或技术途径。
财务预警研究内容或方法一般分为以下两方面:一是从单变量数据分析模型到多变量数据分析模型;二是从传统统计分析方法到人工智能方法。Fitzpatrick[2]在1932年利用单个财务比率模型对19家选取样本进行判定,发现净利润/股东权益和股东权益/负债能够较好地判别。单变量分析模型可以对企业财务情况进行预测,其过程也比较简单,但其预警效果不是很好,预测准确率也不高。这是因为实际企业的财务状况一般是由多种因素决定,故从原理上来说,利用单变量模型对企业财务状况进行预警是不够合理的。于是相关学者试图通过构建多因素或多变量数据分析模型来解决这一问题。Altman在[3]1968年利用多变量数据模型对企业财务危机进行预警,通过选取33家破产企业及与其配对的企业进行分析,结果表明此模型具有较高的预警能力。尽管此后该模型被广泛运用到财务危机预警领域,但由于此模型的建立是需要诸多假设条件,而实际当中企业可能不能满足的条件,故其合理性、实用性及科学性不能得到很好保证[4]。而后相关学者尝试利用统计方法对财务危机领域进行研究。Ohlson[5]于1980年提出利用概率模型来对企业财务危机进行预警,他针对1970-1976年造业上市公司的财务数据进行梳理,选取106家破产公司及2000多家健康公司作为实验样本,采用财务比率来建立Logit模型。研究表明,预测精度较高,实际效果较为理想。但Logistic回归模型本身在各变量权重确定问题上未得到较好解决。故Jones[6]在2004年首次建立混合Logistic回归模型来解决这一问题,并应用到公司财务危机预警当中。尽管混合Logistic回归模型预测精度较高,也无需较为苛刻的假设条件,但需要大量样本进行训练来建立相应预警模型,这样才能取得较好地预警效果,可实际公司财务数据往往不能满足这一条件。由于这一新问题的出现,使得很多学者将解决这一问题的希望转移到具有智能特性的人工智能方法上,如人工神经网络方法(Artificial Neural Net Work,简称ANN模型)和支持向量机(Support Vector Machine, 简称SVM)。人工神经网络不仅能够克服传统统计方法的局限,还具有较好的模式识别能力。Sharda[4]于1990年首次对选取的样本企业利用神经网络方法进行财务危机预警。研究表明,利用神经网络方法构建的预警模型对检验样本的预测正确率可达79%,相对于传统方法所建立的预测模型具有明显优势,但其训练过程中权重确定问题未得到有效解决。于是,周敏[7]于2002年建立了模糊系统与神经网络模型相结合的财务危机预警方法。实证分析表明,该模型较传统的判别分析等单一预警方法具有更大优势。由于仅采用单一方法对企业财务情况进行预测,往往由于单一方法自身的缺陷,使得所建立模型的预测能力十分有限。还有许多学者利用多种方法相结合来构建预警模型,以期解决这一问题。如郭德仁[8]于2009年利用模糊聚类和模糊模式识别方法相结合来对企业财务危机进行预警。该模型首先对训练样本进行聚类,得到最优聚类中心,再对待分类模型进行模糊模式识别。结果表明,该模型预测正确率可达85%。Javier[9]在2011年提出用多元回归和均值聚类方法对企业财务危机进行预警,实证分析表明该模型预测效果良好。可以看出,神经网络自身及其与其它方法相结合的财务情况预警模型对上市公司财务危机预测中具有较大推广和应用价值。可神经网络方法本身具有拓扑结构的确定没有规范的方法、要求大样本、缺乏完备的理论基础等缺陷,其存在一定局限性。随着Vapnik[10]提出统计学习理论,这一问题能够得到较好解决,并且基于统计学习理论的支持,向量机在20世纪末被用于财务危机预警研究,并以其理论的优越性和预测的准确性倍受关注。Schaafer[11]于2000年首次将此方法引入财务危机预警当中,并与其他方法进行对比,结果表明此方法预警结果最优。宋姣[12]2007年选取上交所和深交所的86家ST上市公司及100家非ST上市公司作为样本,利用支持向量机模型对已经公布的财务数据进行实证分析,分别提前一年、两年、三年对企业财务危机情况进行预测,其预测正确率分别为9355%、8548%和7167%。
从上述实证分析表明,支持向量机在财务危机预警的应用中显示了更优越的性能。利用人工智能方法对企业财务危机进行预警尚处于发展阶段,需深入进行探索和研究,尤其是模型相关参数进行寻优方法方面更需深入探索和研究。与此同时,影响企业财务指标的因素很多,有些影响较大,有些基本没什么影响,但人为无法对此进行区分会增加模型的计算复杂度和计算效率,客观上影响了企业财务危机预测水平。鉴于此,本文提出一种基于粗集理论与遗传支持向量算法相结合并应用到制造业上市公司财务危机预测预警的新方法。该方法的基本内容如下:首先通过粗集理论对影响企业财务危机所有指标所建立的指标体系进行约简,约简后得到核心影响因素,再运用支持向量机对约简得到的核心指标进行建模训练,建立企业财务危机支持向量机预警模型,训练过程中相关参数通过遗传算法寻优得到,利用此算法建立的预警模型进行预测,完全能够满足企业实际财务危机分析需要。
二、粗集理论
ZPawlak于20世纪80年代提出粗集理论,用来处理模糊、不确定的分析方法。通过该理论可以从数据当中发现隐含的信息及知识,尝试去探寻和揭示蕴含在数据当中的规则和规律[13]。
(一)基本概念
1.论域。我们把研究对象组成的集合U称之为论域,记做U={x1,x2,…,xn},其中xi是第i个对象。目的是要把不同的对象区分开,即在知识R下把论域U划分为不同的等价类。划分的根据是能够反映对象不同特征的属性集R,一般称为等价关系R,也称R为知识。
(三)决策规则约简
信息系统S={U,A}利用最少属性集能提供与原属性集A同样多信息的方法来进行约简,有下面相同的等价类族:
U/A-{a}=U/A(7)
对于决策表T=(U,A=C∪D)来说。决策表可以通过以下两个步骤进行约简:
1.属性约简。它等价于从决策表中消去一些不必要的列,从决策表中,将条件属性C中属性逐个移去,每移去一个属性即刻检查其决策表,如果不出现新的不一致则该属性是可以被约去的;反之,该属性不能被约去。
2.属性值约简。设T=(U,C∪D)是一致性决策表,PC是C的D约简。值约简是针对相对约简P而言的。决策表上一条决策规则的条件属性值可以被约去,仍然保持该条规则的一致性。
约简算法的步骤为:(1)约简属性集;(2)属性值约简;(3)从算法中约简掉所有冗余指标。
三、支持向量机算法
支持向量机方法是基于结构化风险提出的,最先提出是为了解决分类问题,在本文中主要用来对训练相关财务危机数据,得到分类模型,再对检验样本进行分类,得到相应预警信息。
四、基于粗集与遗传支持向量机的制造业上市公司财务危机预警模型
Rough Set理论在不利用先验知识前提下,仅根据观测得到的数据信息来删除冗余信息。本文尝试通过粗糙集理论对制造业上市公司财务危机预警指标体系进行约简,获得核心影响因素,对财务危机预警问题具有很大的理论意义和现实意义,并为下一步的财务危机支持向量机预警模型的建立打下基础。
而支持向量机模型在建模过程中具有自我调整学习样本或训练样本权重及阈值的功能,可其自动调整得到的相关参数不一定是全局最优结果。因此,本文尝试利用具有全局寻优能力的遗传算法对这些参数进行寻优,以期得到全局最优参数。
将粗集理论和支持向量机算法相结合来建立财务危机预警模型,可以将这两种理论的优点有机结合起来,利用粗集理论对原始数据进行约简处理,得到更为有效的原始数据,再利用具有良好泛化能力的支持向量机对这些数据进行训练建模,这样就可以更好地回避了这两种方法本身所不完善之处,最大程度发挥各自优势和特性。这是因为通过粗集理论可以很好地在不需额外财务数据的基础上就可提取财务数据本身特性,约简掉冗余数据信息,得到核心影响因素,充分发挥粗集理论的数据预处理优势,为后续支持向量机建模提供客观、可靠、准确的信息来源。这是因为原始数据繁多会影响建模的复杂度及训练模型效率会得到大大降低,故预测精度及科学性将会随之大幅提高。基于以上阐述,本文将粗集与支持向量机算法有机融合起来,构建企业财务危机预警模型,相应流程如图1所示。
基于粗集与遗传支持向量机的中小板上市公司财务预警模型基本步骤如下:
1.为了更为有效地对制造业上市公司进行财务预警,就要保证构建的财务危机预警指标体系的完整性及系统性,首先根据相应财务危机理论建立一个全面、系统、广泛的指标体系,并结合影像公司财务危机的诸多因素进行归类,在此基础上了解每一个影响因素与财务危机之间的对应关系。
2.由于步骤1建立的财务预警指标体系非常全面系统,但不是最合理的,此时利用粗集理论对预警指标体系构成的决策表进行属性约简和属性值约简,可以得到这些预警指标体系哪些是核心属性,哪些是冗余属性,鉴于属性约简及属性值约简算法较为复杂,本文采用MATLAB编程来进行相应约简。此预警指标体系通过粗集约简掉冗余属性,得到核心属性,为步骤3利用支持向量机建模分类识别奠定了一个良好地基础。
3.支持向量机对步骤2的财务数据进行建模训练,直到训练模型达到事先设定的要求,建模过程中相关参数如松弛变量等通过遗传算法寻优得到最佳参数,具体流程如下[14]:(1)确定遗传算法编码方式;(2)生成初始种群;(3)计算全部染色体的适应度函数f(xi),xi为种群中第i个染色体;(4)将所有染色体的适应度值进行累加sum=∑f(xi),同时记录每一个染色体的中间累加值S-mid,其中S为总数目;(5)产生一个随机数N,0
4.利用步骤3得到最终遗传支持向量机预警模型对未来一段时间的财务数据进行预警,得到此时间段的财务危机状况。
通过以上四个步骤,就能够得到制造业上市公司财务危机状态的最终预警结果。
五、我国制造业上市公司财务危机预警实证分析
(一)样本及指标的选择
1.样本数据的选择。根据马若微的研究,在构造上市公司财务危机预测模型时应充分考虑行业类型和资产规模这两个指标的重要性[15]。本文选择制造业上市公司作为财务危机预警的样本公司,原因有两点:(1)从公司数量和市值来看,制造业在我国经济发展中均占有重要地位;(2)与其他行业相比,制造业行业内上市公司数量最多,次类行业数目较多,有利于数据搜集、比较各次类行业间的差异,研究行业类别对预警模型的影响。
本文将公司是否被ST作为陷入财务危机的标识。在公司样本上,由于我国1998年开始要求编制现金流量表,并于2001年对现金流量表进行了修改,考虑到数据的可比性,同时为了更全面地利用公司陷入财务危机过程中各指标的信息,本文搜集了2001-2011年的多个指标的原始数据,并通过计算得到了最终所用指标的数据。为了研究公司陷入财务危机前后各指标的变化情况,剔除在此期间退市的公司和交易状态为PT的公司。这样一共得到163家制造业上市公司十年的平衡面板数据。
2.指标选取原则。一个公司具有许多方面的特征,需要从不同的角度多方位地予以评价和衡量。财务危机预警也需要根据多方面的信息来衡量公司的财务状况。根据公司的财务报告可以引申出许多财务指标,并能得到股东、业务分布、审计信息、公司客户等方面的非财务指标。根据目前关于财务危机预警的研究来看,虽然可以找到相关理论解释财务危机形成的原因以及公司陷入财务危机,但是关于如何确定财务危机预警模型的指标体系,目前尚无定论。
从实证研究来看,指标体系的选择会对研究结果产生直接影响。本文认为,财务危机预警指标的选择原则有以下五点。(1)相关性原则。即所选指标必须与财务危机预警相关,在一定程度上能反映公司陷入财务危机的原因和过程,或者反映公司的财务状况。(2)先兆性原则。财务危机预警研究的目的是为了在财务危机发生前警示公司利益相关者及时采取应对措施,以尽可能地减少或规避损失。(3)系统性原则。(4)可获得性原则。(5)成本效益原则。
3.指标体系。评价企业的财务状况一般可以从盈利能力、营运能力、成长能力、偿债能力等多个方面来评价。本文在总结以往预警模型中显著指标的基础上,选择了34个财务指标。另外,由于国内学者关于财务危机预警的研究中很少使用非财务指标,为了探讨非财务指标对预警模型判别准确率的影响,根据上文的选取原则,选择了9个非财务指标。相关指标如表1所示,力求通过初选指标体系涵盖充足的信息量,以便为后续财务预警模型的建立提供科学、合理的指标体系。
(二)实证分析
1.均值差异性检验。为了分析两类公司财务指标均值是否存在显著性差异,本文通过PASW180 软件中的 Mann-Whitney U 非参数检验对指标均值进行差异性检验。由于 T 时期股票的交易状态需要根据前一年的财务状况确定,本文以T+1 期的股票交易状态(0表示非 ST,1表示ST)为分组变量,对2001-2011年ST和非ST公司的指标进行了 Mann-Whitney U 检验,结果如表2所示。
根据表2,在1%显著性水平下,财务指标外都通过了Mann-hitney U检验,即ST与非 ST公司的指标均值存在显著差异。对股权结构和其他虚拟变量的Mann-Whitney U 检验结果显示:除行业虚拟变量和Herfindahl_5以外,其他指标均在 5%显著性水平下通过检验,这说明各个行业的公司都可能发生财务危机;ST与非ST公司的股权结构、最终控制人类型和审计意见存在显著差异。
通过 Mann-Whitney U 非参数检验和相关性分析,本文剔除在 5%显著性水平上未通过这两类检验的指标,得到如表3所示的34个指标用于财务危机预警建模和7个非财务危机预警建模。通过筛选的指标从财务和非财务两个方面反映了公司情况,体现了公司的盈利、营运、成长、偿债能力,并涵盖股权集中度、行业类型、审计意见、最终控制人信息,系统地反映了公司多方面的状况。
2.粗集属性约简。首先对原始财务数据及非财务数据进行预处理,使得各数据范围均在0-1之间,并进行离散化处理。再利用MATLAB粗集约简程序对这些数据进行约简。其中,代号表示公司,条件属性集合由34个财务指标和7个非财务指标数据组成,决策属性为具体财务状况,相应处理结果如表4所示。
通过已经编写好的属性重要度程序进行相应运算,获得约简后的指标体系各个属性的重要度,约简后的指标体系重要度如表5所示。
约简后的预警指标体系仍然含有18个财务指标和4个非财务指标,这些指标仍较为系统地覆盖了如企业偿债能力、盈利能力、资产管理能力及成长能力等方面。由于约简后的财务数据量较少,但所蕴含的信息量并未发生太大变化,故可用来作为异常支持向量机模型的输入数据,这样在构建相应预警模型时,就更为高效、合理及科学。从而可以避免因为输入数据维度过多而导致模型训练效果下降,进而影响财务危机预警效果。
3.支持向量机模型训练。遗传支持向量机预警模型的输入数据为接受外部数据的缓冲存储器,支持向量机相关参数如松弛变量等可以通过遗传算法进行寻优获得,在本文中即为前述粗集约简后获得的18个财务指标和4个非财务指标。输入数据中每行由363家公司数据组成,每列由18个财务指标和4个非财务指标标准化后数值构成,预警值的每一列中1所在的行数代表该列公司是否为ST。
通过已经建立的遗传支持向量机预警模型对检验样本分析,本文将选取前300个样本作为学习和训练样本,这300个样本中25家被ST,275家没有被ST。剩下的63个样本公司作为检验样本,其中ST样本7个、非ST样本56个。将训练样本和检验样本代入构建好的遗传支持向量机预警模型中,提前一年遗传支持向量机预测结果与仅利用支持向量机建模预测对比结果如表6所示,提前两年遗传支持向量机预测结果与仅利用支持向量机建模预测对比结果如表7所示。
由表6可知,提前一年遗传支持向量机财务危机预警模型检验样本预测结果显示,0 家被误判,预测正确率为100% 。而利用支持向量机财务预警模型检验样本预测结果显示,56个非ST样本中有2个被误判为ST样本,7个ST样本中有1个被误判为非ST样本,预测正确率分别为964%和857%,综合预测正确率为952%。通过表6还可以知道,仅仅利用支持向量机进行建模预测,而不利用遗传算法对建模过程中的相关参数进行优化,会使得预测正确率下降,换言之,没有经过遗传算法寻优的支持向量机模型预测极有可能已经陷入局部最优过程当中。
由表7可知,提前两年遗传支持向量机财务危机预警模型检验样本预测结果显示,56个非ST样本中有1个被误判为ST样本,7个ST样本中没有被误判情况,预测正确率分别为982%和100%,综合预测正确率为984%。而利用支持向量机财务预警模型检验样本预测结果显示,56个非ST样本中有5个被误判为ST样本,7个ST样本中有2个被误判为非ST样本,预测正确率分别为911%和714%,综合预测正确率为889%。通过表7还可以知道,仅仅利用支持向量机进行建模预测,而不利用遗传算法对建模过程中的相关参数进行优化,会使得预测正确率从984%下降到889%。
对比表6及表7,可以知道,无论是遗传支持向量机预测模型还是支持向量机预测模型,提前一年的财务危机预测正确率明显高于提前两年的财务危机预测正确率。这是因为训练数据来源越是靠近警情发生的年份,数据信息中所蕴含的先兆信息就越多,也就越能够准确预测警情的发生。此外,不论是提前一年财务危机预测还是提前两年财务危机预测,遗传支持向量机模型预测正确率明显高于支持向量机模型预测正确率,这是因为遗传支持向量机建模过程中通过遗传算法对相关参数进行寻优,从而使得最后建立的预测模型具有全局最优特性,所以预测正确率更高。
六、结论
本文在总结已有财务危机预警文献的基础上,以上市公司被特别处理作为界定财务危机的标准,对制造业财务指标和非财务指标进行了财务危机预警研究。在系统地确定初步指标体系之后,应用 Mann-Whitney U 非参数检验方法检验了ST公司和非ST公司各指标均值的差异性,剔除了相关性较强的指标,得到初步选取的财务危机预警指标体系,再运用粗集理论约简冗余指标,获得核心指标作为粒遗传支持向量机的输入,分别构建了提前一年、提前两年的遗传支持向量机财务危机预警模型,并与提前一年、提前两年的支持向量机财务危机预警模型进行对比分析。通过实证分析,可以得到以下结论:
1.运用粗集方法约简得到财务危机预警指标体系具有很好地有效性。本文通过对粗集的属性重要度进行深入研究,剔除属性集中的冗余属性,进而对财务危机预警系统的原始指标体系进行有效约简。
2.本文构建的粗集-遗传支持向量机制造业上市公司财务危机预警模型预测正确率要优于粗集-支持向量机模型预测正确率,说明利用遗传算法对支持向量机预警模型进行寻优操作是非常有必要的。
3.实证研究结果表明,利用相关数据对制造业上市公司提前1年的财务状况预测效果要比提前2年的财务状况预测效果要好。这是因为来源于警情发生附近的年份,其数据就蕴含更多的先兆信息,也就能够更好地预测出相应警情的发生。
参考文献:
[1]Beaver W H, Prices M. Financial rations and the prediction of failure[J].Journal of Accounting Research, 1968(6):179-192.
[2]Fitzpatric. Acomparison of rations of successful industrial enterprises with those of failed firms[M].The accountants Publishing Company, 1932.
[3]Edward I. Altman. Financial Ratios, Discriminant Analysis and the Prediction of Corporate Bankruptcy[J].The Journal of Finance, 1968, 23:589-609.
[4]吴雯雯, 杨玉辉, 王家祥. 国内外财务预警方法的研究综述[J].黄河水利职业技术学院学报, 2006, 18(3): 24-31.
[5]J. A. Ohlson. Financial ratios and probabilistic prediction of bankruptcy[J].Journal of Accounting Research, 1980(18): 109-131.
[6]程晓娟.上市公司财务危机预警模型研究及实证分析[M].成都: 成都理工大学出版社.
[7]周敏, 王新宇. 基于模糊优选和神经网络的企业财务危机预警[J]. 管理科学学报, 2002(5): 86-90.
[8]郭德仁, 王培辉. 基于模糊聚类和模糊模式识别的财务预警[J]. 管理学报, 2009, 6(9): 1194-1197.
[9]Javier De Andrés, Pedro Lorca, Francisco Javier de Cos Juez, Fernando Sánchez-Lasheras. Bankruptcy forecasting: A hybrid approach using Fuzzy c-means clustering and Multivariate Adaptive Regression Splines (MARS)[J].Expert Systems with Applications, 2011 (38): 1866-1875.
[10]Vapnik V N. The nature of statistical learning theory[M].New York: Springer-Verlag,1995.
[11]庞素琳. 信用评价与股市预测模型研究及应用——统计学、神经网络与支持向量机方法[M].北京:科学出版社,2005.
[12]宋姣. 基于支持向量机的上市公司财务危机预警实证研究[J].商场现代化, 2007(9): 391-392.
[13]柯孔林,冯宗宪. 基于粗糙集与遗传算法集成的企业短期贷款违约判别[J].系统工程理论与实践,2008(4):27-34.
[14]温文波, 杜维.蚁群算法概述[J].控制系统, 2002(1):19-22.
[15]马若微. 基于RS与ANN的上市公司财务困境预测模型的实证研究[J].南开管理评论, 2006,9(3):85-91.
Abstract:This paper builds the index system affecting financial crisis of listed companies with related theory, and reduces these indicators by rough set theory to get core indicators,then it uses SVM to model the core indicators to get the model of enterprise financial crisis warning, and uses it to predict the financial crisis in the next three years. The financial crisis warning results show, compared with the traditional SVM method, the introduction of rough sets and genetic algorithms not only can improve the efficiency of early warning, but also can improve the prediction accuracy, and this warning results are consistent with the actual financial situation of enterprises. Practical application shows that the enterprise financial crisis modeling, reduction and implementation support vector machine genetic rough set theory take full advantage of the characteristics of the sample data itself, which provides good theoretical basis for subsequent warning excellent results.
Key words:manufacturing industry listed companies; financial crisis warning; rough set; genetic algorithm; Support Vector Machine (SVM);
(责任编辑:李江)