基于PCA的DE-SVM资源型企业财务风险识别模式研究
2019-06-03严良李淑雯蒋梦婷熊英楠
严良 李淑雯 蒋梦婷 熊英楠
【摘 要】 资源型企业与传统的制造业相比,财务风险在发展过程中有较大差异。文章立足于资源型企业财务风险,采用主成分分析法(PCA)提取代表资源型企业财务特点的七个关键因素指标;打破传统运用粒子群算法(PSO)对支持向量机(SVM)的优化,采用较粒子群算法更稳定,优化性能更好的差分进化算法(DE)对支持向量机(SVM)进行优化,形成DE-SVM财务预测模型。将上市的ST资源型企业和非ST资源型企业近三年财务数据放置于DE-SVM、PSO-SVM以及单一的SVM财务模型中进行对比后发现,DE-SVM预测结果比PSO-SVM以及SVM更精准,运行速度更快,效率更高。因此,DE-SVM财务预测模型有助于提高资源型企业对财务风险问题的识别。
【关键词】 财务风险识别; 资源型企业; 差分进化算法; 支持向量机; 主成分分析
【中图分类号】 F272 【文献标识码】 A 【文章编号】 1004-5937(2019)07-0058-08
资源型企业是中国经济发展的基础,其提供的大量煤炭、钢材、石油等矿产类资源对于区域经济及国民经济发展起着不可替代的作用,是国家能源安全和基础产业发展的动力系统。2017年中国500强企业排行榜前50名中石油、钢铁、煤炭、能源、铜、铝等资源型企业就有10家,资源型企业的重要地位可见一斑。根据曹翠珍和赵国浩[ 1 ]、吴树会[ 2 ]、谢雄标等[ 3 ]的研究可以发现财务问题是资源型企业发展需要解决的重要问题。但是目前关于资源型企业财务预警的研究甚少,对于一般工业类企业的研究较多,定性和定量相结合的模型方法是目前研究的主要现状[ 4 ]。
目前采用的模型主要分两种:一种是Altman et al.[ 5 ]、Ohlson[ 6 ]等提出的统计模型,另一种是人工智能模型。统计模型有一元判别分析模型、多元判别分析模型、多元逻辑回归分析方法和多元概率比回归方法。统计模型的模拟分类效果比较差,解释性明显但数据要求限制严格。人工智能模型目前有分类回归树、多分类集成、神经网络和支持向量机分类模型。人工神经网络的容错性、自适应性、泛化能力较好,但建模过程复杂,迭代次数较多且结果的精准度依赖人工调试[ 7 ]。人工神经网络常用于大样本数据分析,而本文所选样本较少,神经网络不大适合,而采用支持向量机模型较合适。
本文通过PCA降维实验证实了资源型企业与普通工业型企业的关键因素指标确有较大不同。总样本指标均来自于国泰安数据库中财务指标分类方法,选择了反映企业盈利能力、发展能力、偿债能力、现金流量、经营能力的21个财务指标作为备选变量来分析财务风险。通过PCA主成分因子分析方法进行主要指标降维后发现资源型企业与普通工业型企业降维后指标除管理费用率和流动资产周转率之外都存在较大差别,从而证实了资源型企业财务风险的影响因素与工业型企业财务风险不同。因此本文立足于资源型企业进行研究,建立符合资源型企业的财务风险识别模型以求更好地研究资源型企业财务问题。
一、原理与方法
(一)支持向量机概述
支持向量机(Support Vector Machine,SVM)主要运用数学和统计学习理论,而VC维理论和结构风险最小原理是其形成基础,在解决小样本分类和回归问题上具备普遍优越性[ 8 ]。线性不可分样本通常不易被分开,支持向量机运用非线性映射到高维度空间,由此数据点变成线性问题且可分,形成一个超平面使正反两种样本被分开,同时满足二者之间隔离边沿最大化,最终产生的结果超平面具有较强的鲁棒性和泛化能力[ 9 ]。
在样本空间,需要定义线性方程ωTx+b=0来划分超平面,其中ω=(ω1,ω2,…,ωd)是法向量,決定了超平面的方向;位移项为b,超平面与原点间距离由其决定。笔者将超平面记为(ω,b),由此可以得到超平面的间隔距离式(1),超平面(ω,b)能够将训练样本(xi,yi)∈D正确分类为式(2)。
(二)差分进化算法
差分进化算法(Differential Evolution,DE)[ 11 ]是启发式算法的一种,其基于群体差异进行随机搜索,是由R.Storn和K.Price为求解Chebyshev多项式而提出的。DE与PSO相似,是启发式优化算法的典型代表。其基本原理均包括变异、交叉和选择3个阶段,但该算法使用了差分策略,使得相对于遗传算法等其他启发式算法而言寻优能力更强,更具鲁棒性[ 12 ]。差分进化算法首先提取方向信息和搜索步长,然后进行随机差分和交叉,最终产生临时种群;通过将两个种群进行对比、选择,进一步生成新生代种群,不断循环上述流程,直至达到满足条件停止[ 13 ]。
1.种群初始化
二、DE-SVM财务风险识别模型建立
SVM参数是影响SVM性能的主要因素。根据相关文献,目前对SVM参数进行优化的算法有蚁群算法(ACO)、粒子群算法(PSO)、遗传算法(GA)和梯度下降算法(GD)[ 14 ]。梯度下降算法对初始点的位置选取较高,其他三种算法虽弱化对初始点位置选取的依附性,但算法本身原理复杂。对于不同的问题运行方式不同,因此该类算法易陷入局部最优中,不易达到全局最优效果。根据Storn和Price于1995年的观点,差分进化采取浮点矢量编码进行启发式并行随机搜索,全局搜寻能力强、鲁棒性强、优化速度高[ 15 ],提高了SVM参数的准确度。
核函数也是影响SVM性能的重要方面。径向基核函数(RBF)是应用最广泛的核函数,无论是低维或高维空间、无论小样本或大样本都适用且具备较为宽泛的收敛域,是较好的归类核函数。影响SVM性能的主要为惩罚参数c和RBF参数g。核参数g实质上是RBF核函数的宽度,本质上就是变化映射函数,从而变化特征子空间复杂程度[ 16 ]。
DE-SVM的财务风险模型属于黑盒类模型,只关心对象的输入与输出,不关心对象的具体结构。基于DE-SVM的财务风险模型中的惩罚参数c与核参数g由DE产生,DE的目标函数为SVM输出值与实际值y的误差平方和,具体建模步骤如下:
Step1:所有的被采集样本需被分成训练集、测试集两部分。
Step2:DE需进行初始化操作,包括大小规模M、维数N、迭代总次数maxgen、缩放因子F、交叉概率cr。
Step3:选择RBF作为SVM的核函数,将训练集输入SVM,然后将训练后的输出值与实际值相关的误差平方和作为DE的目标函数。此时需判断误差的大小是否符合要求,若符合即获得最优参数c和g,若不符合需进行循环操作。
Step4:将得到的最优参数c、g作为SVM参数,测试集作为输入函数,根据DE-SVM模型计算出预测值。
Step5:将测试集的实际值与预测值对比分析,判断预测精确程度。
三、实证研究
(一)研究样本
从样本筛选的真实性和可获得性出发,本文数据来源于深圳证券交易所、上海证券交易所、国泰安数据库、WIND数据库以及上市公司年报的财务信息。资源型企业样本集根据学者定义观点进行筛选,以开发和加工自然资源为主营业务,主要包括以石油、煤炭、矿藏、电力等资源加工为主的企业[ 3 ]。本文初步调查了2015—2016年的所有ST公司,通过查阅公司年报中主营业务成分所占比重,筛选出了12家资源型企业。根据大量研究资料,本文将ST企业定义为发生财务风险的企业[ 17 ]。为了显著地反映ST企业财务状况,本文采用被ST企业该年度与前一年度的数据共同对企业数据进行反映。本研究将36家资源型企业分为训练样本组与检验样本组两个组类,采用知名学者Zavagren提出的正常组与违约者2:1的配比方案确定训练组和检验组样本数量,分类情况见表1。
本文36家资源型企业共分为两组,训练样本有24个公司,其中ST资源型企业8个,非ST资源型企业16个;检验样本共有12个,其中ST资源型企业4个,非ST资源型企业8个。
(二)主成分分析
1.资源型企业财务指标提取
本文通过广泛研究资源型企业的财务风险特点、风险衡量方法,采用国泰安数据库中财务指标的分类方法,选择了反映企业盈利能力、发展能力、偿债能力、现金流量、经营能力的21个财务指标[ 18 ]作为备选变量来具体分析,使得模型中变量的选择范围更加全面、有针对性,具体见表2。
(1)KMO和Bartlett球形检验
多重共线性会对模型的准确度产生影响,通常情况下采用KMO和Bartlett观测变量是否适当进行主成分分析。因子分析以0—1作为衡量尺度,变量间相关性越强,KMO值越靠近1;反之KMO值越接近0时,变量间相关性越弱。通常情况下KMO在0.5以上表示适当进行主成分分析。Bartlett球形检测的P值小于或等于0.01时适合进行主成分分析。本文采用36家资源型企业2015—2016年的6大类21个财务指标分析后得到KMO值为0.645>0.6,P值为0.000<0.01,代表本文选取的6大类21个财务指标适合进行主成分分析,具体结果见表3。
[Kaiser-Meyer-Olkin测量取样的适当性 0.645 Bartlett的球形检验 大约卡方 1 668.442 df 210 显著性 0.000 ][表3 KMO和Bartlett检验结果]
(2)最大方差旋转法
最大方差旋转法通过实验降维使得因子的累积贡献率达到80%以上,提取指标才能够代表其他指標。本研究采用36家资源型企业2015—2016年的6大类21个财务指标数据进行分析后发现,提取的7个指标代表性达到了82.22%,可以有效代表其他21个指标,具体情况见表4。
2.资源型企业财务指标确定
确定影响因子指标个数并不能够解决实际问题,必须确定具体的分析指标才能够有效地进行下一步研究。笔者采用旋转的最大方差法使得单个因子的方差负荷达到最大值来确定因素的具体含义。取消小系数法仅显示值大于0.6的旋转因子负载指标可以使结果更加明晰直观。原始变量的代表性与旋转因子的荷载值有很大关系,值越大表明因子关系越密切,具体情况见表5。最终确定了7个代表性变量,分别为资产报酬率(X16)、速动比率(X2)、每股净资产增长率(X10)、管理费用率(X21)、流动资产周转率(X13)、存货周转率(X11)、净资产增长率(X9),具体情况见表6。
通过对资源型企业指标做KMO和Bartlett检验以及最大方差旋转以后,得到了旋转因子负载荷表,根据数据大小先后顺序及权重比较可以得到表6的7个指标为判断资源型企业财务风险分析的主要指标。经过对比后发现,提取的资源型企业财务风险指标与传统的工业型企业财务风险指标有较大不同。
3.资源型企业与工业型企业财务指标对比
对资源型企业与普通工业型企业财务指标对比可发现,其提取的总样本21个财务指标均来自于国泰安数据库。通过PCA主成分分析方法进行指标降维后可以发现资源型企业降维指标与普通工业型企业降维指标中除管理费用率和流动资产周转率之外的其他指标都存在较大差别,具体见表7,因此需立足于资源型企业进行专项研究。
(三)实验仿真与结果分析
本文采用2:1的比例将样本分为训练集和测试集,其中24个样本为训练集,12个样本为测试集,采用DE-SVM构造财务预警模型。特征集和核函数的参数同时通过DE-SVM模型进行优化,仿真实验平台为Macbook pro 2015、Intel Core i5、2.7GHz CPU、8GB RAM。采用DE-SVM模型进行参数寻优适应度与迭代次数后的结果如图2。
实验中ST资源型企业用类别1表示,非ST资源型企业用类别-1表示。实点表示预测集实际类别,虚点表示使用模型预测出的类别。为方便观察,分别使用实线和虚线连接实点和虚点,重合点即为结果预测为正确的点。
实验结果显示,在小样本情况下,SVM模型、PSO-SVM模型和DE-SVM模型对分类精确度有一定差别,但由于SVM具有数学模型特性,故而模拟实验的不确定性小,该模拟实验结果较为稳定。SVM模型、PSO-SVM模型和DE-SVM模型对训练集和样本集进行详细仿真实验后的训练结果如表8。
对比表8仿真结果可以发现,SVM遍历整个区间寻找出最优惩罚参数和核参数,增加了小样本分类问题的准确性。但通过对比运行时间发现,DE和PSO相对于SVM参数寻优更具优越性,可大量减少运行时间。但DE和PSO易陷入局部最优。观察PSO-SVM多次实验的正确性只有87.3%可知,用PSO-SVM进行预测比DE-SVM更易陷入局部最优。通过三种算法对比可清晰看出,DE-SVM在预测的正确性以及运行时间上相对于其他两种算法模型更具明显优势。
四、结论
第一,资源型企业与普通工业型企业财务指标选取均来自于国泰安数据库中的21个财务指标,但进行PCA降维后得到的7个代表型指标中有5个指标不相同,这说明资源型企业与普通工业型企业在财务风险问题上有较大不同。其不同之处是由资源型企业的特点所决定,这是以后进行深入研究的主要方向。
第二,本文运用主成分分析后再运用DE-SVM模型对资源型企业是否存在财务风险进行预测后发现运行时间大幅减小,说明DE-SVM模型对已有数据进行分类时更精确,对小样本分类具有更强的实际意义。
第三,由于资源型企业通过PCA进行指标降维后达到较好的预测效果,还需考虑PCA未进行指标降维前其他财务指标,考虑未进行指标降维前的其他指标是进行深入研究的主要方向。
第四,本文运用了相对PSO而言更为适当的DE与SVM进行结合,在小样本数据分类中具有良好的效果。以后的研究中,可适当提升样本数量并对已有算法进行改进,达到更好的分类效果,进一步提升算法模型的精准程度,这在大数据时代来临之际实际意义更加明显。
【参考文献】
[1] 曹翠珍,赵国浩.资源型企业绿色创新、绿色动态能力与竞争优势的实证检验[J].统计与决策,2017(6):177-181.
[2] 吴树会.资源型企业财务风险研究[J].财会通讯,2016(2):93-96.
[3] 谢雄标,严良,程勝.我国资源型企业资源效率管理行为分析及政策建议[J].中国人口·资源与环境,2008(1):207-211.
[4] 过新伟,胡晓.公司治理、宏观经济环境与财务失败预警研究:离散时间风险模型的应用[J].上海经济研究,2012,24(5):85-97.
[5] ALTMAN E I,HALDEMAN R G,NARAYANAN P. ZETA analysis: a new model to identify bankruptcy risk of corporations[J]. Journal of Banking and Finance,1977(1):29-54.
[6] OHLSON J A. Financial ratios and the probabilistic prediction of bankruptcy[J].Journal of Accounting Research,1980,19(Spring):109-131.
[7] 胡达沙,王坤华.基于PSO和SVM的上市公司财务危机预警模型[J].管理学报,2007(5):588-592.
[8] 业巧林,闫贺.基于最小二乘的孪生有界支持向量机分类算法[J].华中科技大学学报(自然科学版),2018,46(3):30-35.
[9] 朱发根,刘拓,傅毓维.基于非线性SVM的上市公司财务危机预警模型研究[J].统计与信息论坛,2009,24(6):49-53.
[10] 周志华.机器学习[M].北京:清华大学出版社,2016.
[11] 陈涛,雍龙泉,邓方安,等.基于差分进化算法的支持向量机参数选择[J].计算机工程与应用,2011,47(5):24-26.
[12] 贾立敬,张建文,王传林,等.基于DGA的差分进化支持向量机电力变压器故障诊断[J].高压电器,2015, 51(4):13-18.
[13] 隋学深,乔鹏,丁保利.基于支持向量机的贷款风险等级分类真实性审计研究[J].审计研究,2014(3):21-25.
[14] 蔡欢.基于遗传算法和LS-SVM的财务危机预测[J].统计与决策,2017(2):33-36.
[15] 张梦男.基于支持向量机的上市公司信用评价研究[J].财会通讯,2017(14):43-48.
[16] 王君萍,王娜.我国能源上市公司财务风险评价:基于主成分分析法[J].会计之友,2016(11):60-66.
[17] 张金贵,陈凡,王斌.基于PSO优化SVM制造业公司财务风险预警研究[J].会计之友,2017(14):52-56.
[18] 聂丽洁,赵艳芳.基于现金流的财务危机预警指标体系构建研究[J].经济问题,2011(3):108-112.