基于数据挖掘的中小企业客户信用评级模型的设计与实现
2019-06-19陈琳季凌
陈 琳 季 凌
1福建师范大学数学与信息学院,福建 福州 350117
2福建师范大学图书馆,福建 福州 350117
近年来,随着互联网技术的飞速发展,在国家支持民营经济发展、经济进入新常态的背景下,中小企业经济主体之间的信用往来日趋频繁,但由于中小企业信用评级体系不健全、技术手段不足等诸多因素,中小企业诚信问题日渐显露,中小企业融资困难、经营困难,严重阻碍了中小企业的自身发展,亟需建立良好的信用评级体系作为保障。信用评级体系的建立是促进中小企业发展的关键环境,风险评级可生成大量有价值、可利用的商业信息,这些信息将成为企业融资、银行授信、风险决策等重大事项的依据。
1 信用评级概念及研究现状
信用评级(Credit Rating)又称为资信评级,是一种社会的中介服务,为社会提供有价值的信息作为公司的决策依据。信用评级作为信用管理的重要方法之一,是企业偿还债务和履行合同的综合反映,可有效降低信息不对称性,这对于改善经营现状、强化风险防控的重要性不言而喻。目前,国内部分专家学者利用国内银行的数据开发信用评分模型,取得了一定的研究成果。刘高军[1]针对传统方法的不足,利用Logistic、决策树和神经网络算法,为建筑企业建立信用评价模型。庞素林等[2]建立了神经网络信用评价模型,但存在学习或者不稳定的缺点。吴冲等[3]采用支持向量机方法构建信用风险模型进行信用风险评估。陈建先生就Fair Isaac公司为全球客户设计、开发、实施各种模型的发展流程进行系统的介绍,为业界提供了宝贵的信用模型开发技术和应用经验。
2 信用评级实证分析
2.1 实验数据的处理及预处理
2.1.1 数据信息的来源
数据的选择和处理是数据挖掘过程的重要组成部分,对于模型的建立是前提条件。本研究所使用的原始数据取自厦门众欣金属制品有限公司,选取10年内、交易次数为3次以上的客户,从中筛选企业财务数据资料齐全作为研究分析对象。公司往来客户主要以零售业为主,故本研究的中小企业界定为营业收入500万~20 000万元之间。从样本中198家中小企业中挖掘信用等级分类的规则,建立信用等级评价模型。
2.1.2 数据指标的选择
公司原始客户信息数据表共33项数据项。经调研,数据表中有些信息对信用等级评价不具有显著性,对其作出调整,确定17个指标作为中小企业信用评级研究。根据中小企业经济发展的现状和企业特点分析,将17个指标共拟合成 5 个主成因,从偿还能力、经营能力、创利能力、成长能力、非财务指标五个方面设置指标。
2.1.3 相关性的检验
对评级指标进行相关性研究,使用SPSS软件进行分析,相关性系数如大于0.8以上,证明两者关系明显。因此需要消除评价指标的相关性减少对中小企业信用评价的影响。通过检验对流动比率、销售利润率、总资产报酬率、资产负债率指标进行剔除,剩余指标13个。检验结果显示Bartlett检验近似卡方为2115.378,自由度df 为 28,sig<0.01说明剩余变量之间可以作为信用等级评价的指标。
表1 KMO和Bartlett的检验
2.2 实证研究设计
为了获得最优的信用评价模型,从数据库中挖掘信用等级分类规则,把样本数据分为学习集和检验集。学习集是为了建立模型而确定的数据。验证集是为了检验模型的有效性而确定的数据。本研究将198个样本中的150作为训练集,剩余48个样本作为验证集。采取Logistic回归分析法和决策树C5.0建立模型,样本企业由公司领导层和专家评定划分为两大类,其中1代表信用好的客户,0代表信用差的客户。
2.3 模型算法
2.3.1 Logistic模型
该算法可排除异常数据信息的影响,将企业违约与自变量表示为Logistic曲线关系,假设违约对数发生比与信用属性xi(i=1,2,…,n)服从线性关系,构建违约概率等级的测算模型。假设用y表示货款状态,y=1表示违约或还款逾期,y=0表示按合同还款;p表示客户违约发生的概率,即p=Prob(y=1|x),1-p代表履约合同概率。
式(1)中βi(i=1,2,…,n)为信用属性的回归系数;
2.3.2 决策树模型
C5.0算法是参照ID3和C4.5算法改进而形成的新算法,根据全部样本数据作为基础,可生成一个多层次、多分支的决策树,目标变量为分类变量。第一次拆分确定的样本子集随后再次拆分,通常是根据另一个字段进行拆分,这一过程重复进行指导样本子集不能再被拆分为止。本文使用Clementine数据挖掘软件中的C5.0进行建模。
3 模型结果分析
Logistic模型能够得出企业信用等级发生违约的回归方程:
p=0.192x速动比率+0.188x逾期债务比率+0.194x固定资产周转率+0.171x流动资产周转率+0.021x存货周转率+0.113x应收账款周转率+0.061x销售利润率-0.0891x经营净利率-0.072x主营业收入增长率+0.113x净利润增长率+0.024xMERGEFORMAT-0.110x独立董事总人数-0.094x订单金额-0.063x还款期限
违约影响最大的是偿债能力因子,各指标中交易货款金额越高,合同违约风险越大;资金逾期越高,合同违约风险越大。企业的盈利质量对企业违约影响显著。
C5.0是决策树模型中的算法,该算法生成了一个六层的决策树模型,用来判别表示“if…then… ”规则集,这说明此算法的优越性。在决策树中的每个分支都可以挖掘出信用等级规则,按照形成的规则,每个检验数据从树的根节点出发,直达树的分支节点,形成企业的信用等级。这其中的13个属性作为决策树的节点。
模型效果的评价采用混淆矩阵开展研究,对学习集的验证,可从下面数据表得出信息,两个模型对好客户和坏客户的敏感度不同,Logistic模型预测坏客户的准确度较高,但对实际的敏感度相对较差,而决策树在预测坏客户恰好与之相反。
表2 Logistic和决策树模型评价
4 结语
研究结果表明,数据挖掘技术对中小企业信用评级是一种有效且准确的方法。基于数据挖掘的中小企业信用等级,采用两种方法进行信用等级评价效果是有效的,其一致性结果可以获得更高的评价准确率。说明本研究的变量选取和模型设计效果较好,由此可以确定信用等级模型具有较强的预测能力,可以客观反映中小企业客户的信用状况,为企业发展、控制金融风险提供决策依据。同时结合实际提出如下建议:一是企业应建立客户历史信用数据交易库,以及客户的财务基本信息,用精准的数据信息提高模型的预测准度。二是随着相关经济学理论和优化理论的不断发展,未来对评估模型进一步优化,可采取更贴近实际的评级方法,提高评级模型的预测能力。三是政府应建立统一的中小企业信用体系,实现金融风险可防、可控,促进中小企业的健康发展。