基于支持向量机的上市公司信用评价研究
2017-06-05南京信息工程大学经济管理学院张梦男
南京信息工程大学经济管理学院张梦男
基于支持向量机的上市公司信用评价研究
南京信息工程大学经济管理学院张梦男
上市公司作为市场经济重要组成部分,其信用评价研究逐渐受到人们重视,本文利用数据挖掘中支持向量机算法提出上市公司信用综合评价方法,并利用此方法结合上海证券交易所上市公司数据进行实证分析,结果表明:该方法能够很好地量化企业信用,通过实证分析发现上市公司信用状况不仅与公司规模、公司性质(国有或者民营)、所属行业有关,同时与产品及服务领域有着密切的关系。
支持向量机 信用评价 上市公司
一、引言
随着市场经济的不断发展,信用问题日益深刻的影响市场经济的各个部分,因此如何对企业进行客观准确的评价逐渐成为人们研究的重点。而上市公司因其数据的可获得性一直是研究的热点。刘淑莲等(2008)将因子分析的方法运用到信用评级当中,采用十五个上市公司财务指标,同时结合聚类分析法建立了一套上市公司信用评价模型,这套模型在实证当中能够很好地对上市公司的信用水平进行分类。以上方法基本思路都是通过建立指标体系,利用综合评价方法对目标企业进行评价,虽然评价结果可以用定量的方式表示,具有一定的可信度,但仍然不能够摆脱个人主观判断对评价的影响。因此让数据自己说话的技术及数据挖掘方法被引入这一领域。李菁苗(2012)等利用层次分析法建立了一套包含四大类十五项评价指标的电子商务企业的信用评价体系,这些指标概括了电子商务企业经营能力、盈利能力、清偿能力、发展能力、网络营销能力、网络客服能力和网络管理能力七个方面,较为全面的给出了能够反映电子商务企业信用水平的指标。黄章树(2011)运用数据挖掘方法中的支持向量机、BP神经网络和C4.5决策树算法结合机械制造业企业上市公司数据对机械制造业企业上市公司信用进行了研究,对比了三种方法的分类精度。闫海峰(2009)、迟晨(2010)等利用KMV模型结合上市公司财务数据建立了上市公司风险判别模型,指出该方法可以提前一到两年预测上市公司违约风险。辛金国(2012)利用数据挖掘方法中的伸进网络模型和C4.5决策树模型分别构建了上市公司的绩效评价体系并进行了实证分析,并利用变量重要性对影响上市公司绩效的因素进行了分析。以上四种方法均采用的是ST(special treat)企业和非ST企业作为训练样和测试样本。Petr Hájek(2011)利用神经网络算法,穆迪信用评级结果作为输出,选取经济发展水平、负债水平、财务能力和管理水平四个方面的指标构建城市信用评价模型。Ching-Chiang Yeh(2011)等利用混合KMV模型、随机森林和粗糙及理论建立了一套信用评价体系,发现利用市场信息能够对企业信用做出更准确的评价。Yao Ping等(2011)利用粗糙集和支持向量机的方法构建了一套新的信用评价方法,在一定程度上提高了评价的精确度You-Shyang Chen(2013)利用基于粗糙集分类器的混合模型建立了一套银行业信用评价模型,该模型主要解决了目前信用评价模型解释力不足,过于依赖统计分析的限制性假设和大量指标三个方面的不足。Dimitrios Niklis (2014)采用支持向量机的方法,基于希腊证券交易所上市公司的数据建立信用评价模型,并分别利用了线性和非线性支持向量机,两种方法均得到了较高的分类精度,说明支持向量机算法能够对企业信用进行准确的分类,SilviaAngilella(2015)利用创新型中小企业的信息建立了一套信用评价模型,这一模型中分别利用了线性和非线性支持向量机,两种方法均得到了较高的分类精度,说明支持向量机算法能够对企业信用进行准确的分类。数据挖掘方法的使用解决了评价中过多主观因素,但由于以上方法都通过分类方式来获得评价结果,又带来了评价结果无法量化的问题,因此本文引入数据挖掘中变量重要性,使得评价结果既能避免主观因素,又能够使评价结果得到量化。
二、评价方法
本文将采用数据挖掘算法当中目前使用较多的支持向量机算法,该算法在进行分类时可根据指标在分类中对分类结果影响的重要程度确定指标变量重要性,也就是指标重要性。得到变量重要性后既可作为权重参与综合评价。
(一)利用支持向量机算法分类支持向量机(Support Vector Machine,SVM)是在统计学理论VC维和结构风险最小化的基础上发展而来的分类技术,主要用于模式识别领域。最小二乘支持向量机是对标准支持向量机的拓展。最小二乘支持向量机的优化问题为:
最小二乘支持向量机优化问题转化为求解显形方程,最终的分类函数为:
其中K(xi,x)即为核函数,核函数的作用是将低维空间非线性的问题映射到高维空间使其转变为线性问题,目前使用的核函数类型主要包括以下四类:
(1)现行核函数:
此条件下得到的SVM是样本空间中的超平面。
(2)多项式核函数:
得到的是q阶多项式分类器。
(3)高斯核函数:
所得分类器与传统RBF方法的主要区别在于:每个奇函数中心对应一个支持向量,输出权值由算法自动确定。
(4)Sigmoid核函数:
此时,SVM是包含一个隐层的多层感知器,隐层节点数由算法自动确定。
不同的数据运用不同的核函数可以得到不同的分类精度,核函数的选择直接决定了建立模型的分类结果。
(二)计算变量重要性变量重要性是指在利用神经网络,支持向量机和C5.0等自学习分类算法中每个变量对分类结果影响的影响程度,对分类结果影响较大的则变量重要性较高,反之亦然,各变量重要性是一组和为1的数据。与关联权重类似,既可以反映研究问题的客观性,又能反映问题的主观性。变量重要性说明了所研究系统中的主要问题,可以对系统更加全面和深入的了解。
变量重要性的值是在分类结果出来以后计算所得,因此是一种逆推计算的方式,与特征选择类似,都是根据分类结果计算各指标与结果的相关程度进而得到变量重要性或特征变量,但变量重要性与特征选择结果的不同点在于变量重要性的计算中对具有相关性的变量只取其一,而特征选择中则不会对具有相关性的变量采取措施,选择特征后不考虑变量之间的相关性。
(三)计算综合评价值通过以上数据挖掘算法得到变量重要性,指标权重即为各指标的变量重要性,根据公式:
可求得第i个公司的信用综合评价值。其中Zi为第i个公司的综合评价值,xij为第i个公司第j个指标的具体值,wj第j个指标的权重,也就是第j个指标的变量重要性。
三、实证分析
本文建模数据选取我国A股沪市上市公司的财务数据进行分析,共获取1000家上市公司2014年财务数据,其中ST(特殊处理企业)30家非ST企业970家,ST主要针对财务或者其他方面出现问题的上市企业,表明该企业存在投资风险,因此可以作为衡量信用风险的一个方面。股票价格反映了公司现状和股民对于公司业绩的预期,同时,公司的财务数据处在不断的更新当中,能够反映公司的实际情况,完全适用于对公司信用状况的分析,结合企业财务数据的模型在对提高其他混合模型的精度方面也有帮助。因此本文最终选取了上市公司股票和财务数据加以分析。在指标选取方面,一方面剔除数据大量缺失的指标后,剩下的指标中通过Clementine软件计算变量重要性,剔除变量重要性比较小的指标,这一过程类似于特征选择,学者Petr Hajek也曾在企业信用评价当中用到类似方法,目的在于减少数据维度,从而方便运算。最终获得货币资金x1、流动资产合计x2、可供出售金融资产净额x3、长期股权投资净额x4、固定资产净额x5、无形资产净额x6、资产总计x7、应付账款x8、应付利息x9、负债合计x10、实收资本(或股本)x11、资本公积x12、盈余公积x13、归属于母公司所有者权益合计x14、所有者权益合计x15、负债与所有者权益总计x16、销售商品、提供劳务收到的现金x17、现金及现金等价物净增加额x18、营业总收入x19、投资收益x20、营业利润x21、营业外收入x22、利润总额x23、净利润x24、归属于母公司所有者的净利润x25、基本每股收益x26共26个指标。
由于原始数据在单位以及数量及上的差异,因此在建模之前需要对数据进行标准化处理,本文使用的标准化方法为离差标准化,标准化后的数据介于0到1之间,包含0和1。根据支持向量机分类要求,本文将70%样本用作训练样本,30%样本用作测试样本,样本的选择有软件自动完成,参数设置均为默认。
表1 支持向量机分类结果分析表
表1的数据可以看出训练样本和总体样本分类正确率均达到97%以上,可见其算法具有很强的适用性和较高的分类精度。
图1给出了模型建立中各指标对分类结果影响的重要程度,即变量重要性。由图1可知,这21个变量中基本每股收益的重要性最大,实际上上市公司最主要的衡量指标也就是基本每股收益,这预示经济情况是相符合的,其他重要性较高的指标也都反映了企业资产情况以及盈利能力。变量重要性反映了各指标在建立模型过程中的重要程度,因此在建立综合评价指标时可以将变量重要性作为权重参与计算。
图1 各指标变量重要性
再利用信用综合评价值公式(7)即可算得所有沪市上市公司的信用评价值,2014年度的数据显示沪市上市公司信用评价均值为0.0545,民营企业信用评价均值为0.0486,非民营企业(主要包含公有制企业)评价值为0.0583,与民营企业相比高出20%,这一结果反映了公有制企业无论是在盈利能力还是在信用水平方面都有着坚实的基础,这也是改革开放以来我国坚持公有制为基础的必然结果。反观民营企业,由于起步相对较晚,以及其所有制形式,其在信用水平方面远落后于公有制企业。在最高评价值方面,公有制企业最高分高达0.4936,民营企业得分最高得分仅为0.1301,相差接近四倍,可见民营企业的信用整体水平与公有制企业相比还存在一些差距。
接下来,本文随机选取三家民营企业和公有制企业进行分析,通过2007~2014年的信用评价值分析其信用水平的发展趋势。表2为2007~2014年六家上市企业信用评价结果表。
表2 2007~2014年六家上市企业信用评价结果表
表2中前三家企业为民营企业,后三家企业为公有制企业,显然公有制企业的信用水平较民营企业高,与前面的分析已知,下文通过图2的六家企业2007~2014年信用评价值的变化分析其信用水平变化情况。图2显示了2007~2014年间六家企业信用状况变化趋势,2008~2010年间六家企业均经历了一轮较大下跌,这是由金融危机引起的2007~2008年底结束的一轮股市下跌导致的信用水平的普遍下降,由于股票下跌对信用水平影响的滞后性,因此在2009年信用水平达到一个高点以后急速下降,这说明股市对上市公司的整体信用水平有着很大的影响,这一影响机制实际通过影响上市公司财务状况从而影响信用水平的。2010年后其信用水平逐渐稳定,公有制的三家企业虽然总体水平较高,但呈现出略微下降的趋势,而民营企业虽然信用水平相对较低,但与公有制企业相反的,他们则呈现出略微上升的趋势,可见民营企业虽然财务状况方面与公有制企业存在较大差距,但就发展潜力而言比公有制企业要高,这也充分说明了民营企业顽强的生命力和巨大的发展潜力。从图2可以看出高信用和低信用水平公司的在信用水平变化幅度上也有差别,为了比较这种差别接下来随机选取企业作图加以比较。
图3中五条曲线趋势总体平稳,没有出现太大的波动,即使在2008~2010年间受到国际金融危机和股票大跌的影响,其变化率最大的也仅为15.7%,但图4显示的信用水平较低企业的变化则幅度要大得多,2008~2010年间最大降幅达到90.9%,最低降幅也为77.16%,可见该类企业对风险的抵御能力有限,同时剧烈变动的曲线也显示了其在信用水平方面的不稳定性。但2011年后低信用水平企业的信用水平呈现震荡上行的趋势,可见其总体信用水平是在上升的。
通过以上的分析不难看出公司规模、企业所有制形式对企业的信用水平都有影响,这与学者Petr Hajek(2013)对美国企业的研究有相似性,他指出影响美国企业的最主要的因素正是企业规模,除了国外研究,国内学者张泽京等(2007)的研究也有相似的结论,他的研究指出资产规模对信用风险有显著影响,总资产小于3亿元的小公司抗风险能力最差。国有企业特别是中央所属企业无论在财务水平还是政策支持方面都有着明显的优越性,因此在信用水平最高的十家企业当中均为国有企业,民营企业排名最高的企业在总排名中仅仅处在第22位,相反在排名最低的企业中民营企业和国有企业的最低值几乎没有差别,这说明所有制形式对高信用企业的信用水平影响较大,对地信用水平企业几乎没有影响。同时在抗干扰性方面,低信用水平企业的抗干扰能力普遍较弱,高信用水平企业看干扰能力较强,与所有制形式没有关系。
图4 低信用评级企业信用变化图
以上分析主要是从企业规模以及企业性质方面入手。接下来本文将从不同行业入手对不同行业的整体信用水平进行分析,以发现不同行业间的信用水平差异。按照证监会对上市企业的行业分类可将上市企业分为金融保险业、制造业、批发和零售贸易、信息技术业、电力煤气及水的生产和供应、房地产业、社会服务业、建筑业、交通运输仓储业、采掘业、传播与文化产业、农林牧渔业和其他行业。本文随机选取前十二个行业中各五家企业利用2007~2014年的数据作为代表对行业整体信用水平进行分析。表3给出了各行业选区企业的信用评价结果。
表3中数据显示各行业的信用评价值存在显著差异,信用水平较高的行业依次为交通运输业,房地产业和农林牧渔业。社会服务业,电力、煤气及水的生产和供应以及信息技术产业的信用水平则相对较低。为了对各行业信用水平变化趋势有一个更深入的了解,本文将作图加以分析。图5为十二个行业2007~2014年信用状况变化图。
图5显示所有行业信用水平都呈上升趋势,且都比较稳定,稳定发展的同时差异也非常的明显,信用水平最高的行业为交通运输、仓储业,最低的为社会服务业,前者2014年信用评价值是后者的2.3倍,前者2007年的信用评价值也接近后者2014年信用评价值的1.5倍,可见差距是非常明显的。交通运输、仓储业作为经济发展的重要组成部分,联系着经济发展的各个部门,因此有着很重要的地位,通过评价值也可以看出这一行业的上市企业财务能力较高,发展前景也非常乐观。反观社会服务业,作为第三产业主题的社会服务业在我国起步较晚,目前还较为落后,因此通过财务状况反映的信用水平比较低,这也反映了社会服务业在我国目前的现状,但是其稳定的增长势头表明以社会服务业为主的第三产业将会得到更好的发展。
表3 分行业信用评价结果
图5 各行业2007~2014年信用变化图
除了交通运输、仓储业排名较高外,农林牧渔业信用评价值也相对较高,这体现了我国作为农业大国农业生产及农业深加工行业在我国的重要地位,在第一产业占比逐渐下降的情况下,农林牧渔业上市公司信用状况不仅非常乐观,而且信用水平呈现总体上升趋势,这主要是由于今年各级政府对农业及相关产业大力扶持的结果,可见政策引导对产业发展的推动作用之大。房地产业信用状况与农林牧渔业非常接近,也有着较高的信用评价值,这与近十年房地产业的发展有着密切的联系,房地产业的蓬勃发展给房地产业带来了巨大的收益,而人们对房地产企业发展有着较好的预期,也是房地产企业信用评价值较高的原因之一。
信用评价值较低的除了社会服务业还有电力、煤气及水的生产和供应以及制造业。电力、煤气其水的生产和供应行业评价值较低反映了这一行业发展的疲软,一方面可能与行业带有的公益性性质有关,这一行业的产品直接为经济发展提供动力,过多强调盈利势必会对经济发展造成影响;另一方面在政府大力推动电力体制改革没有取得成效的情况下,电力部门无法形成一套完整的电力生产及供应的体系,因此短时间内无法扭转盈利较低甚至亏损的情况,因此无论是财务状况还是信用情况都不太乐观。与这一行业相似的还有石化行业,与之相反,石化行业已经形成了一套完整的体系,从石油开采,进口,炼制到销售有一套完整的体系,在这套完整体系下盈利水平自然高于未形成体系的电力部门,因此两类行业信用水平存在显著差异。制造业作为沪市上市企业数量做多的行业,其信用水平却表现平平,究其原因很大程度上是由于近年来国内制造业发展势头减缓导致的,人口红利的减少,越南、老挝、印度等国制造业的崛起对我国的冲击非常大,同时由于我国制造业水平偏低,多为劳动密集型也极大地制约了制造业企业在财务表现及信用水平方面的发展,随着中国制造2025计划的提出,相信中国在制造业发展方面会有一个新的突破。
以上分析表明企业信用水平与企业性质、企业规模和行业有关,除了以上因素,行业内部不同企业信用评价值又存在怎样的差异?接下来本文从行业内部分析入手,分析在不同行业内部不同企业信用评价值差异的原因。在对十二个行业分别选取企业加以分析,结果显示除了制造业和社会服务业企业,其他行业企业信用评价值仍与企业性质和企业规模有关,下文将就制造业和社会服务业两行业加以分析。表4给出了本文选取的制造业企业的信用评价值。
表4 部分制造业企业信用评价值
表4中数据显示了不同类型制造业企业的信用综合评价值有着很大的差异同方股份和安彩高科的评价值明显高于其他四家公司,同方股份的主要业务涉及计算机系统、数字城市、安防系统、物联网应用、微电子与核心元器件、多媒体、知识网络、军工、数字电视系统、建筑节能和半导体与照明十一个产业,安彩高科主要业务涉及光伏玻璃、浮法玻璃及其深加工产品,以上两家企业属于高技术制造业,而其他四家公司则分别设计化工、纺织、供电、供热的传统制造业,可见制造业公司生产产品的属性与制造业企业的信用评价值有一定关系。传统制造业(主要包括纺织、食品制造、机械制造行业,化工行业,冶金行业,矿产行业)的整体信用水平偏低。与制造业相似的还有服务业,本文随机抽取的七家社会服务业上市公司中主要涉及医疗、交通、餐饮和汽车服务。
表5 社会服务业部分企业信用评价值
表5中数据显示华域汽车、国机汽车和申华控股三家公司的信用评价值明显高于其他四家,这三家企业有一个共同特点就是主要业务为汽车服务及其相关产业,而另外四家上市公司信用评价值则相对较低。图6和图7分别给出了七家企业的信用评价值折线图和2007~2014年间汽车产销量折线图。
图6 社会服务业部分企业信用评价值折线图
图7 2007~2014汽车产销量变化折线图
从图6中可以看出汽车服务业整体信用水平明显高于其他企业,同时结合图7分析不难发现图6中两家公司信用水平的变化趋势与图7中汽车产销量的变化趋势非常相似,利用灰色相对关联度方法计算得到汽车产量与两家企业信用评价值的关联度均达到0.71以上,说明随着汽车销量近几年的不断攀升,与之相关的汽车服务业也随之发展,好的发展态势带给汽车服务业的则是较高的信用评价值。
四、结论
本文利用数据挖掘中支持向量机算法建立了一套基于上市公司财务数据的信用评价方法,并利用上交所上市公司的数据进行了实证分析。实证分析结果显示该方法能够利用上市公司经济数据对上市公司信用水平做出较为准确评价。分析表明企业规模和所有制形式对上市公司信用评价均有显著影响。分析结果显示国有企业信用水平普遍较高,说明了国有企业,特别是中央所属大型企业在信用水平方面的绝对优势,排名前十的企业均为央企,这与其在国民经济中的重要地位是密切相关的,而排名较后的国企则基本上是地方管理的企业,可见地方政府对企业的管理水平还有待提高。相对国有企业信用水平较高的现实,民营上市企业整体信用水平明显偏低,作为民营企业中佼佼者的民营上市企业都现实出较低的信用水平,可见我国民营企业整体信用水平仍有待提高,因此在大力发展国有企业的同时也要采取相应的政策措施促进民营企业发展,由于民营企业特别是中小企业融资难问题很大程度上与其信用水平相关,采取措施促进民营企业发展,进而提高其信用水平是增强我国经济活力的重要手段。
此外,还要努力促进不同行业以及行业内部的协调发展,前面分析指出同一个行业内部不同部门间的信用水平也存在差异,差异的存在可以促进信用水平较低的企业通过技术改进等方式提高企业竞争力,但诸如制造业中的钢铁制造等传统制造业则需要通过调控手段提高其信用水平,让其在新兴制造业发展的大潮中仍然能够继续得以发展。
[1]刘淑莲、王真、赵建卫:《基于因子分析的上市公司信用评级应用研究》,《财经问题研究》2008年第7期。
[2]闫海峰、华雯君:《基于KMV模型的中国上市公司信用风险研究》,《产业经济研究》2009年第3期。
[3]迟晨:《KMV模型对我国上市公司信用风险度量的实证研究》,《海南金融》2010年第2期。
[4]辛金国、关建清:《基于数据挖掘民营上市公司绩效评价研究探索》,《中国管理科学》2012年第1期。
[5]张泽京、陈晓红、王傅强:《基于KMV模型的我国中小上市公司信用风险研究》,《财经研究》2007年第11期。
[6]Petr,Hájek.Municipal credit rating modelling by neural networks[J].Decision Support Systems,2011,(51): 108-118.
(编辑杜昌)