基于迭代自适应随机决策树的个人信用评估模型研究
2018-10-11兰军严广乐
兰军 严广乐
摘要信用评估是商业银行控制和防范信贷风险的关键途径.决策树模型较好的直观解释性使其成为当前个人信用评估中的常用模型,但决策树模型存在容易导致过拟合且预测精度有限的问题.通过在决策树模型算法中引入类随机森林随机有放回的抽样模式,运用机器自动循环迭代寻求最优树的建模思想,建立了自适应最优C5.0决策树个人信用评估模型.该模型具有快速收敛特征变量、较好的泛化能力和高预测精度的特点,在实证分析中对商业银行个人信用评估模型质量提升带来比较明显的改进效果.
关键词数量经济学;个人信用评估;决策树;随机森林;迭代
中图分类号N945文献标识码A
Research and Empirical Analysis on Personal
Credit Evaluation Model Based on Iterative Adaptive
Random Decision Tree Algorithm
Jun Lan,Guangle Yan
(Management School University of Shanghai for Science and Technology, Shanghai200093 China)
AbstractCredit evaluation is a crucial approach to control and reduce credit risk. The direct expression feature of decision tree model has made it a commonly used model in individual credit evaluation. However, this model has the disadvantages of over fitting and limited accuracy. By utilizing random forest sampling with replacement in decision tree model, with autoiteration for optimal result, an autofitting optimal C50 decision tree for individual credit evaluation model is established. The model has features such as rapidly converging character variables, good generalization ability and high predicting accuracy, and is shown to have phenomenal improvement on quality of individual credit evaluation in real practical analysis.
Key wordsmathematical economics; personal credit assessment; decision tree; random forest; iteration
1引言
近年來,随着中国经济的飞速发展,个人的信用状况越来越受到重视,贷款购房、贷款购车、申领信用卡等各种个人消费贷款都需要了解个人的信用信息.个人信用制度是国家信用体系的一部分,科学合理有效的个人信用评估体系是个人信用体系的核心问题之一.对个人信用状况进行科学评估,是发展个人消费信贷的基础,也是中国市场经济发展的有益补充和完善.中国已经加入世界贸易组织(WTO)多年,逐步开放的信用市场,对建立个人信用评估体系提出了严峻挑战.当前中国个人信用制度不完善,个人信用信息欠完备,个人信用难以评估,已经比较严重地影响了经济增长.如何建立一个统一、科学的个人信用评估体系已经成为一个亟待解决的重要课题.目前,中国个人信用评估体系尚不够健全和完善,评估的指标和权重带有较大的主观性,需要引入科学方法来确定评估指标,采用科学的评估方法来评估个人信用.
个人信用评级是预测贷款申请人或现有借款人违约可能性的一种定量分析方法,这种方法量化分析现有的客户资料,找出客户信用行为的影响因子,以现有的客户资料为样本建立数学模型,然后再使用该模型预测新客户进行违约风险.国外的经验表明,个人信用具有快速处理客户贷款申请、处理客户申请的成本较低、对客户申请的处理标准具有一致性和客观性以及能够定量地评估客户的信用风险等优点.自从上世纪80年代起,在美国等社会信用体系较为发达的国家已经将信用方法引入到消费信贷管理领域.Makowski(1985) [1]第一次把分类树方法应用于个人信用评估.美联储曾在《平等贷款机会法案》中称这种方法是在信用系统中经过实证检验并且在统计意义上完美的办法,Coffman对分类树和线性判别分析在个人信用评估方面的应用进行了比较,并认为当指标之间存在相互作用时前者优于后者,而当指标之间相互联系时后者优于前者.经过数十年的发展,个人信用评估方法已经取得了长足的发展,不仅被广泛地应用于信用卡等消费信贷、住房按揭贷款等领域,也被成功地应用于中小企业贷款申请评估、信用卡欺诈预防、基于风险的利率定价、相应评分及资产证券化等领域.
与国外商业银行广泛将信用作为有效的信用风险管理技术相比,符合中国国情的个人信用评分模型在中国金融实业界使用刚刚开始起步.学术界对于个人信用评分模型的研究主要集中在个人信用评分模型数据挖掘技术的探讨、基于各种技术建立个人信用评分模型的实证比较以及个人信用评分模型的应用领域探讨等几个方面.姜明辉、王欢、王雅林(2003) [2]在阐述分类树基本原理的基础上,结合国内外学者的研究成果将分类树与其他方法进行比较研究,分析了其对个人信用评估的适用性.通过建立符合中国实际情况的指标体系,选取样本数据进行应用分析,证实了分类树在变量选择和分类准确度上明显优于其他方法.徐少锋、王延臣(2003) [3]利用美国花旗银行某分支机构部分客户的贷款数据,用回归模型进行实证分析,指出通过对以信贷申请书为基础的风险程度进行定量分析,使信贷决策合理化,从而降低个人信用风险.詹原瑞、田宏伟(2003)[4]就中国商业银行在个人消费信贷中如何使用分类树设计个人信用评分模型作了介绍,设计出了个人信用评分模型并作了实证检验.楼际通,楼文高,余秀荣(2013) [5]年在商业银行个人信用风险评价的投影寻踪建模及其实证研究中运用于商业银行个人信用分类问题,可以提升风险识别正确率,还有利于银行降低采集数据的成本和节约时间.王颖,聂广礼,石勇(2012) [6]在基于信用评分模型的中国商业银行客户违约概率研究中通过对历史数据构建模型测算客户的违约概率,发现债务人或交易对手无力履行合同所规定的义务或信用质量发生变化,影响金融产品价值,从而给债权人或金融产品持有人造成经济损失.龚尚花(2013)[7]年在互联网环境下消费信贷行为研究中运用从而建立了消费信贷行为影响因素的概念模型.
2个人信用评估模型
提升模型对用户信用风险的识别和预测准确率,目前正式投入使用的主要建模算法为逻辑回归和决策树两大类.逻辑回归建模方法通过分析消费者还款能力与意愿与违约概率之间的作用路径关系.相比较逻辑回归,决策树因为较好的直观解释能力和预测精度,被广泛地应用于银行信用风险领域中.决策树模型,通过对训练样本的学习,建立并依据分类规则,实现对新样本的分类,属于有监督式的机器学习,有两类变量:目标变量(输出变量)和特征变量(输入变量).C5.0是经典的决策树模型算法之一,JRQuinlan(1979) [8]年提出了ID3算法,主要针对离散型属性数据,其后又不断的改进,形成C4.5,它在ID3基础上增加了对连续属性的离散化,采用增益率来加以改进方法,选取有最大增益率的分割变量作为准则,避免ID3算法过度适配的问题.C5.0是C4.5应用于大数据集上的分类算法,采用最大信息增益来计算属性差异,同时采用Boosting方式提高模型准确率,在软件上计算速度比较快,占用的内存资源较少,在执行效率和内存使用方面都得到了提升.
C5.0决策树属于单一分类器,容易导致过拟合且预测精度有限的问题.通过对C5.0算法进行优化改进,改善C5.0在信用评估模型建立过程中存在的过度拟合的缺点,提高模型的有效性和泛化能力,具體表现为在保持训练集预测精度不大幅降低的情况下提高测试集的预测精度,同时保证模型的直观解释性.
2.1基于自适应随机决策树的个人信用评估模型
对于单一分类器C5.0决策树存在的缺点,Yangchang(2013) [9]提出了组合分类器的改进方式,随机森林就是利用多棵树对样本进行训练并预测的一种分类器.简单来说,随机森林就是由多棵CART(Classification And Regression Tree)构成的.对于每棵树,它们使用的训练集是从总的训练集中有放回采样出来的,这意味着,总的训练集中的有些样本可能多次出现在一棵树的训练集中,也可能从未出现在一棵树的训练集中.在训练每棵树的节点时,使用的属性是从所有属性中按照一定比例随机地无放回的抽取的,最终形成一组CART.Jafa (2013) [10]对于分类问题,发现预测结果为所有树中预测概率总和最大的那一个分类.随机森林虽然提高了预测的精度,但是与决策树不同,需要费工夫才能使得模型符合数据,而且该模型不容易理解,无法生成可解释性的模型,在个人信用评估模型应用中,风险模型更多是决策的参考,风险专家根据业务特点和发展人为的调整模型以适应于信用评估,模型的可解释性非常重要.
在模型训练中,导致模型存在过度拟合和有偏的问题,往往是由于关键变量没有进入模型或者引入了噪音变量(即非重要变量),能否在给定数据样本中提取出关键变量是提高模型预测精度的关键.考虑到C5.0决策树在根据大量水平的属性进行划分时往往是有偏的和存在过度拟合的问题,以及随机森林预测结果的不可解释性,尝试提出了一种基于机器迭代自适应随机决策树改进算法的个人信用评估模型,通过借鉴随机森林训练子树的方式,对样本集和特征集进行有条件的随机抽样,同时引入变量淘汰机制,通过机器自动循环迭代不断生成多颗C5.0决策树,比较每颗决策树预测精度,选择出性能最优的C5.0决策树,这样模型既防止了在训练集上过度拟合的情况,又可以提高在测试集上的预测精度,并保证模型树形结构良好的可解释性.
基于机器迭代自适应随机决策树算法充分利用计算机计算资源,先剔除噪音变量,优先剔除噪音变量对模型产生的副作用影响,防止有偏的问题,能够在大范围的属性变量中快速收敛得到特征变量,利用机器自动化循环迭代能力建立模型,不断自动重复抽取建模的样本和入模属性,生成决策树,每次抽样建模完毕,得到本次基于测试集T的预测精度,迭代模型在迭代次数足够多的情况下,能找到最优的模型,在训练集和测试集上表现都好,从而达到高的泛化能力,解决模型的过度拟合问题.自动化迭代建模结束后,比较所有循环建模中预测精度最优的C5.0决策树提供给因为最终模型结果.因为模型结果依然为层次状树形结构,可解释性强,通俗易懂,能够较好帮助风险管理人员作为信用评估决策参考.
3算法步骤
通过上述描述,基于机器迭代自适应随机决策树模型的具体建模过程如图1所示.模型算法流程图如图2所示.
1)给定训练集S和测试集T,属性维数F.在训练集上首先对全部属性做一次C5.0决策树建模,得到模型C,同时在测试集T上预测得到预测精度A,根据建模结果,剔除重要性5%以下的属性维数,得到属性维数M;
设定迭代次数t,对于i=1-t:
2)对训练集S随机抽取n个样本(n 3)不断重复2),直到达到迭代次数t或者其他预设条件(如执行时间或预测精度等); 4)输出最后的模型Ci; 4案例分析 4.1数据说明和处理 利用基于机器迭代自适应随机决策树算法,在某商业银行个人信用评估模型建立过程中进行实证研究.数据采用某商业银行个人贷款违约数据样本进行建模比对,抽取了2013至2017年的已结束的业务数据,共计41518条样本数,经过前期的数据处理(缺失值替换、变量删除和变量衍生),选择22个属性变量进行建模,数据和建模均采用R进行处理.数据包含了41518个观察值和22个属性(变量),22个属性中包含1个因子属性、1个整数数据类型属性和2个数值类型属性;数据主要包含了个人的基本信息和贷款的信息,从个人和业务的角度出发去评估该客户的信用,其中breachIndex变量为本次建模的目标变量,取值yes表示客户违约,no值则相反,其他变量含义如表1所示.
圖4展示了各个属性变量与目标变量的相关图,由于属性存在离散和连续两类变量,而目标变量本身为离散变量,故图中表现出两类图,箱图为目标变量与连续变量的关系图,块图表现为目标变量与离散变量之间的关系图.
从业务类型可以看出,违约中个人类业务占比要超过小微企业类业务;而非行员的违约情况要大大超过行员;违约的人群,合同平均金额较高;还有违约客户群中,担保方式大都为保证类型,而非违约客户国有公司担保占大部分;而客户群中,平均年龄为40;男性违约占比略高于女性,等等.
由于目标变量“是否违约”为二分变量,现计算所有特征变量与目标变量的IV值,能得到各特征变量对于目标变量的信息量,有助于进一步的模型构建,结果如图5所示.
根据Yue He(2016) [11]的对信用模型入模变量选择的研究,一般选择IV值大于0.02的变量进入模型,通过IV值可筛选有效变量,剔除噪音变量.从图5可以看出,合同业务品种、合同担保方式、合同金额和贷款期限IV较高,对目标变量影响较大(后面的实证研究也证实了这几个变量属于模型的重要变量,影响决策树的决策分支).
将数据按照7:3的比例随机拆分训练集和测试集,分别为trainData和testData,训练集和测试集分别包含29062和12456个观察值和22个属性(变量).以下模型均基于训练集做建模,评估标准均采用在同一测试集上的预测精度和在各自训练集上的表现.
4.2模型结果
设置自适应的随机决策树的迭代次数为5000次,属性重要度为5%以上,抽取样本比例为70%,抽取特征集个数为2Sqrt(属性总个数平方根的两倍),并返回最优的模型,结果如图6所示.
决策树的节点数为32.经计算,个人信用评估模型在训练集和测试集上的预测精度分别为91.201%和91.3392%,在训练精度降低了0.46%之后,测试精度同步上升了0.43%,模型用到的特征变量进一步确定,最终锁定到了contractBusinessType、contractAmount、contractGuaranteeType、position、career、marital、businessType和contractTerm这8个变量,最后决策树经过翻译和整合,得到如图7所示的个人信用评估模型.
基于最优决策树的个人信用评估模型的AUC值达到0.87,KS值为0.59,模型ROC曲线和KS曲线如图8所示.
4.3模型对比结果
分别运用单一C5.0决策树、随机森林、迭代自适应随机决策树三种算法,在同一训练集上建模,并计算基于同一测试集的预测精度,比较模型的有效性和泛化能力.模型对比结果如表2所示.
第一,单一C5.0决策树在全属性建模下训练集精度较高,但可能存在过度拟合的问题,而通过迭代自适应随机决策树算法,虽然训练集精度比单一C5.0决策树低,但在测试集精度却更高,说明通过抽样属性的方式有效的解决了过度拟合的问题,同时也提高了模型的泛化能力.
第二,由于组合分类器,随机森林在三种算法中训练集的精度最高,测试集精度也高于单一C5.0,但稍低于迭代自适应随机决策树算法,稳定度也略低.
第三,迭代自适应随机决策树算法选择的最优C5.0决策树,不但提高了测试集的精度,同时模型的K值也得到提升,说明既提高了泛化能力,同时也提高了模型的稳定性.
5结论
商业银行在个人信用风险管理领域越来越多地运用数据和模型技术,以提升自身风险管理能力和水平.提出了一种可应用在商业银行个人信用评估实证分析中的基于机器迭代自适应随机决策树算法,与单一C5.0决策树和随机森林模型进行对比分析,结果显示基于机器迭代的自适应随机决策树模型,能够实现特征变量在大规模属性变量中的快速收敛,自动迭代生成的最优树具有更好的泛化能力和稳定性,以直观的层次状树形结构解释在个人信用评估模型中,贷款业务品种、合同金额、合同担保方式、职务、职业、婚姻状况、业务类型和贷款期限对信用风险预测准确率有显著的影响.为风险管理人员的科学决策提供有力的数据支持.
从实证改进的效果来看,机器迭代自适应决策树算法的预测精度的提升幅度没有泛化能力的提升明显,后续研究可以考虑将以有方向的方式抽取样本和特征集,保证精度按梯度提升作为进一步优化的方向.
参考文献
[1]张美灵,欧志伟 信用评估理论与实务[M].上海:复旦大学出版社,2004.
[2]姜明辉,姜磊,王雅林,线性判别式分析在个人信用评估中的应用[J].管理科学, 2003,16(8):78-87.
[3]徐少锋,土延臣,个人信用评估中的模型[J].天津轻业学院学报, 2003,18(9):78-87.
[4]詹原瑞,宏伟,信用评分模型的设计与决策分析[J].中国管理科学, 2003,6(4):78-87.
[5]楼际通,楼文高,余秀荣.商业银行个人信用风险评价的投影寻踪建模及其实证研究[J]. 经济数学.2013, 30(4):27-33.
[6]王颖,聂广礼,石勇.基于信用评分模型的我国商业银行客户违约概率研究[J].管理评论,2012,12(2):78-87.
[7]龚尚花 互联网环境下消费信贷行为研究[J]. 经济数学2013, 30(4):71-78.
[8]SATHYADEVAN S, REMYA R. Nair.Comparative analysis of decision tree algorithms: ID3, C4.5 and Random Forest[J].Springer,2014,12(3):549-562.
[9]ZHAO Y.Decision trees and random forest[J].Elsevier,2013(10):27-40.
[10]TANHA J. Semisupervised selftraining for decision tree classifiers[J].International Journal of Machine Learning and Cybernetics, 2017,8(1):355-370.
[11]HE Y. An approach to group decision making with hesitant information and its application in credit risk evaluation of enterprises[J].Elsevier B.V.,2016,6(2):02-10.