基于树模型的企业信用风险管理预测
2020-03-15王涛
王 涛
摘 要 随着大数据时代的来临,信用越来越成为机构与机构之间和机构与政府之间能够顺利沟通的重要因素,但由于难以获取中小企业的数据,针对一些企业征信的报告的研究探索分析还不够丰富。然而企业信用预测不仅能够分析出影响企业信用风险的重要特征,而且还可以对企业的抗风险能力作出预测,可见本文其重要意义。随着机器学习的热潮,决策树算法发展最近几年火速发展,该算法优点繁多,稳定,生成的决策规则易于理解,易于解释,因此我们主要根据C&RT决策树、随机森林、梯度增强树,这三个模型分别对中小企业的信用风险进行预测,对比分析,希望通过分析征信报告中所列特征的数据,能够识别出高违约风险的企业,以达到警示放贷风险的目的。
关键词 机器学习 决策树 Bootstrap 随机森林 adaBoost GBDT
中图分类号:TP311.13 文献标识码:A 文章编号:1007-0745(2020)02-0052-03
在数据挖掘中决策树方法[1]是一个有效并且常用的方法。它的目标是创建一个模型来预测样本的目标值。这种决策树的自顶向下归纳是贪心算法[2]一种,也是目前为止最为常用的一种训练方法,与相对其他的训练方法相比,决策树最大的特点是符合人类的直觉,根据某些条件进行分类,具有很强的解释性,有利于分析影响因素,[3]可使用决策树方法分析影响违约风险因素。
随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别众数而定。随机森林的引入最初是由Leo Breiman[4]在一篇论文中提出的。这篇文章描述了一种结合随机节点优化和Bagging,利用了C&RT[5]过程构建不相关树的森林的方法。梯度提升是一种用于回归和分类问题的机器学习技术,其产生的预测模型是弱预测模型的集成,如采用典型的决策树作为弱预测模型,这时则为梯度提升树(GBDT)。梯度提升的思想源自Leo Breiman[6]的一个观察:可以将提升方法解释为针对适当成本函数的优化算法。也就是通过不断的弱分类模型集成最终得到一个强分类器。
本文第一部分概述,第二部分介绍C&RT决策树、随机森林、梯度增强树的基本理论,第三部分进行数据预处理,第四部分进行数值实验,第五部分结论。
1 模型
在本篇文章中我们从最基本的决策树模型开始,延伸到随机森林、梯度提升树,介绍这些模型的基本概念、核心思想、以及三者之间的对比差异,接下来再对三个模型进行数据实验,分析不同效果。
1.1 决策树
决策树是一个传统的根据条件聚集的学习模型,在这里我们主要分析classification and Regression Tree(C&RT)。那么我们的决策树模型可以表示为:
其中,c为每一个分支,G(x)为全体树,b(x)为分枝规则, 为在c分枝时的子树。我们主要从三个角度来讨论C&RT。
(1)分枝的数量:由于是C\&RT树,那么我们假设每个节点都有且只有两个子节点。
(2)分枝规则:
其中h(x)是分枝函数,分为左枝(c=1)和右(c=2)枝。上式第一项表示左(右)枝的数据集大小,第二项表示左(右)枝的纯度大小。对于二分类决策树来说,我们的纯度用基尼指数来衡量
其中k是种类,n代表样本数量,是当时等于1,否则等于0。
(3)分枝终止条件:所有的y都一样,也就是纯度等于0。所有的x都一样,则无法分为左右枝。
依据以上的三个条件,我们可以建立算法表示C&RT决策树模型。
现在讨论过拟合情况,我们需要剪枝。设为训练模型的误差,那么对于过拟合情况来说则有,导致测试误差大幅上升。为了降低拟合度,我们加入一个正则项:表示G树的叶子数量。那么转化为问题:
其中表示权衡参数。我们实验时可以条件参数控制决策树的深度,这个深度由叶子的数量来衡量,进而调控模型的过拟合程度[7]。
1.2 随机森林
从决策树的推导过程中发现,决策树容易重现过拟合现象,也就是说当我们的测试集合不一样时,预测的方差比较大,为了降低这个方差,我们引入随机森林[8]。首先在这里引入Bootstrap[9]:采用重复抽样方法从初始样本中抽取一定数量的样本,此过程允许重复抽样。应用这个方法我们可以估计到很多不同的目标函数,然后再来求这些目标函数的均值即得到最终的目标函数。我们将C&RT与Bootstrap结合起来,也就是说我们有以下过程:
(1)从总样本n中,抽取样本数量;
(2)由此样本训练C&RT模型,得到目标函数;
(3)返回第一步,并且重复N次;
(4)最终目标函数为。
在实验的时候,我们可以控制N的大小,进而控制模型的拟合度。
1.3 梯度提升树(GBDT)
首先梯度提升树是自适应增强Adaboost和C&RT的结合。那么我们先来介绍AdaBoost。AdaBoost方法[10]是一种迭代算法,它通过输入不同弱分类器,不断的调整样本匹配权重,得到新的弱分类器,最后将所有分类器叠加[11],那么Adaboost可以转化为下面这个优化问题:
其中h(x)是第t次拟合数据最佳的梯度变化量,也就是先求出第t次的gt,然后再求其對应的最佳,最后我们求得的目标函数是,对应的GBDT可以转化为下面的优化问题:
其中,那么称为残差。因此,在使用平方损失函数时,GBDT算法的每一步在生成决策树时只需要拟合前面的模型的残差。
2 数据预处理
在这一部分我们首先对数据作简单的介绍,用python对数据做缺失值处理,为了从特征中提取更多的信息,必须对特征进行特定属性处理。针对本文章的数据特点,出现了类别不平衡的问题,下面我们给出具体的解决办法。
2.1 数据介绍
数据来源于全国部分中小企业的政府登记数据,样本数量为14366个,178个特征,1个标签。特征主要有以下部分:ID、企业类型、经营期限至、登记机关、企业状态、邮政编码、投资总额、核准日期、行业代码、注销时间、经营期限自、成立日期、行业门类、企业类别、管辖机关、经营范围、城建税、递延收益、长期负债合计、长期借款、长期应付款、短期借款、递延所得税负债、非流动负债合计、负债合计等共178个。
2.2 缺失值处理
查看发现许多特征缺失严重。我们特别删除缺失比例超过70%的特征:经营期限至,投资总额,注销时间。
下面分析每个特征和标签之间的相关系数,并删除相关系数不存在的特征,即:长期负债合计_年初数,其他负债(或长期负债)_年初数,其他应交款_年初数,应付福利费_年初数,预提费用_年初数,长期负债合计_年末数等。经查看这些数据不仅缺失严重,而且值变化方差很小,故删去。
最后对类型数据处理:邮政编码、核准日期、经营期限、成立日期、经营范围和特殊无信息特征ID,由于处理较困难,这些特征都删去。
在这些处理之后我们有152个特征,1个标签。为简单起见,我们给每一列特征的缺失值赋值为该特征的均值。
2.3 类别不均衡处理
查看标签值{0,1}在样本中所占的比例,我们发现未违约所占比例为93.4%,违约比例为6.6%,那么在这里我们需要处理类别不平衡问题。在这里主要有三种方式,我们主要采用第三种方式,对数据进行扩充。
(1)对较多的那个类别进行欠采样(under-sampling),舍弃一部分数据,使其与较少类别的数据相当。
(2)对较少的类别进行过采样(over-sampling),重复使用一部分数据,使其与较多类别的数据相。
(3)对数据进行采用的过程中通过相似性同时生成并插样“少数类别数据”,叫做SMOTE算法。具体SMOTE算法介绍可以参考[12],SMOTE算法是对较少数类别的样本进行扩充,扩充的方法类似于k近邻方法进行样本间差值,最后得到新的数据集合。
3 数值实验
这一部分主要介绍拟合模型、参数的选择、以及拟合的效果与分析。主要利用三个模型来进行拟合数据。
·决策树
·随机森林
·梯度上升树(GBDT)
我们将数据的70%的作为训练集合,数据的30%作为测试集合,并做10层的交叉验证。
经查看表,我们可以看出企业所得税、城建税、印花税对企业信用风险的影响因素最大(如表1)。下面对几个税种做简要介绍。
企业所得税:是对我国境内的企业和其他取得收入的组织的生产经营所得和其他所得征收的一种所得税。
城建税:是以纳税人实际缴纳的产品税、增值税、营业税税额为计税依据。该税主要有以下两个特征:(1)以纳税人实际缴纳的产品税、增值税、营业税税额为计税依据,分别与产品税、增值税、营业税同时缴纳;(2)加强城市的维护建设,扩大和稳定城市维护建设资金的来源。
印花税:是对经济活动和经济交往中订立、领受具有法律效力的凭证的行为所征收的一种税。因采用在应税凭证上粘贴印花税票作为完税的标志而得名。
再者对比分析三个模型,我们可以得到以下结论:
(1)决策树在识别违约企业中,准确率最高。
(2)随机森林和GBDT这两个模型效果差不多,因此复杂模型针对风险问题可能是无力的。
(3)说明简单模型的在某些情况下有可能是最好的。
4 结论
在中小企业信用评估过程中,企业借款违约不归还本金和利息是比较常见的现象。如何控制企业风险是中小企业健康发展的关键。本文站在银行角度,研究企业这一主题的信用违约风险的方法。通过总结和比较目前信用评估模型的基本原理和优缺点,提出了应用集成学习方法改进决策树模型来度量企业信用违约风险的思路。
本文采用的数据是全国部分中小企业的政府登记数据。我们采用协方差矩阵的形式,摘除部分步相关特征,在此数据的基础上做缺失值处理。然而由于本数据类别不平衡问题严重,我们采用SMOTE算法进行数据预处理。接下来用决策树,随机森林,GBDT来进行分类评估效果,并取得了满意的效果。
本文的主要結论如下:
第一:本文以中小企业这一贷款主体参与主体为切入点,研究其违约风险度量方法的问题,目前国内外对中国国内中小企业信用违约风险度量较少且都不够深入,本文将中小企业信用风险评估与集成学习联系在一起,对中小企业的违约风险进行了初步探究与度量。
第二:本文终结了决策树中集中流行的风险评估方法及其它们的应用。通过比较几类模型的优缺点和几种模型的侧重点得到:决策树容易过拟合,随机森林可以有效的降低过拟合,GBDT可以关注于分错的目标,提高分类的准确率,进而得出在本数据情况下,决策树模型在识别企业有信用违约风险有很大优势。
第三:本文最后得出对中小企业风险影响的重要特征有以下十项:企业所得税、城建税、印花税、增值税、行业门类、管辖机关、企业状态、行业代码、注册资本、存货中的原材料_年末数,可以看出对中小企业运行影响最大的因素是税收,随着这几年中小企业生存环境恶劣,对中小企业减税不乏是一种很不错的政策。
参考文献:
[1] QUINLAN J R.Simplifying decision trees[J].International journal of man-machine studies,1987,27(03):221–234.
[2] BLACK P E.Greedy algorithm[J].Dictionary of Algorithms and Data Structures,2005:2.
[3] 唐剑琴.基于决策树算法的P2P网贷借款人违约风险度量研究[D]. 湖南师范大学.2016.
[4] BREIMAN L.Random forests[J].Machine learning, 2001,45(01):5–32.
[5] SHALEV-SHWARTZ S,BEN-DAVID S.Understanding machine learning:From theory to algorithms[M].[S.l.]:Cambridge university press,2014.
[6] BREIMAN L.Arcing the edge[R].[S.l.]:Technical Report 486,Stati stics Depart-ment,University of California at...,1997.
[7] ABDI H,WILLIAMS L J.Principal component analysis[J].Wiley interdisci-plinary reviews:computational statistics,2010,02(04):433–459.
[8] RODRIGUEZ J J,KUNCHEVA L I,ALONSO C J.Rotation fore st:A new clas-sifier ensemble method[J].IEEE transactions on pattern analysis and machine in-telligence,2006,28(10):1619–1630.
[9] BREIMAN L.Bagging predictors[J].Machine learning,1996, 24(02):123–140.
[10] FREUND Y,SCHAPIRE R E.A decision-theoretic generalization of on-line learning and an application to boosting[J].Journal of computer and system sci-ences,1997,55(01):119–139.
[11] FRIEDMAN J H.Greedy function approximation:a gradient boosting machine[J].Annals of statistics,2001:1189–1232.
[12] CHAWLA N V,BOWYER K W,HALL L O,et al.SMOTE:synthe tic minority over-sampling technique[J].Journal of artificial intelligence research,2002,16:321–357.
上海對外经贸大学,上海