APP下载

数据挖掘在个人信用评估中的研究

2016-12-12陶超李超李杰赵骞

商丘师范学院学报 2016年12期
关键词:个人信用训练样本准确率

陶超,李超,李杰,赵骞

(1.安徽财经大学 统计与应用数学学院,安徽 蚌埠 233030;2.安徽财经大学 财政与公共管理学院,安徽 蚌埠 233030)



数据挖掘在个人信用评估中的研究

陶超1,李超1,李杰1,赵骞2

(1.安徽财经大学 统计与应用数学学院,安徽 蚌埠 233030;2.安徽财经大学 财政与公共管理学院,安徽 蚌埠 233030)

个人信用评估是现代商业银行个人信用管理的核心.本文将数据挖掘中的随机森林算法(Random Forests,RF)运用到现代个人信用评估模型中,实现了逐步优化和评估.实证分析的结果证明,随机森林模型具有较高的精确性和泛化能力,能够克服噪声数据的影响.通过对各特征变量的重要性评分,得到贷款期限和总额等对风险预测的准确率具有显著作用.

随机森林;特征变量;个人信用评估;R软件

0 引 言

金融危机过后,随着经济的逐渐复苏,个人消费贷款不断升温,消费贷款已成为了全球各商业银行一个重要的利润增长点.个人消费信贷迅速发展的同时也增加了商业银行的信用风险,个人信用风险指个人在信贷发生后,借款人由于各种原因无法按时还款的风险,此时银行会面临利润的损失.但个人信用评估涉及的指标繁杂,数据往往存在缺失和分布复杂等缺点,给目前个人信用评估中的单分类器模型带来了很强的噪声干扰,降低了模型的预测精度和稳健性等.因此本文运用单个分类器的组合算法—随机森林模型对样本数据进行仿真,并对特征变量评估.

1 实验数据准备和指标描述

1.1 数据来源

本文的实验数据来源于欧洲Stat log数据库中德国教授Han.Hofmann收集的消费贷款数据:German Credit Dataset[1].贷款者的详细资料和最终的信用分类指标如表1所示:

表1 用户历史数据指标及代码

该数据集一共有20个指标变量,包括13个分类变量和7个数值变量,共有1000个样本数据,其中最终未发生违约的客户为700个(下文用良好表示),发生违约的客户为300个(下文用不良表示).

1.2 数据归一化处理

为了提高模型分类的准确性,本文首先对样本集中的定性指标赋予相应的数值,由于个人信用的各指标变量是以不同尺度测量的.因此需要通过最小—最大规范化法对原始数据中的定性指标进行线性转换,使之落在区间[0,1]内[2],即:

本文指标中借贷者的年龄、贷款时间、贷款金额三个属性值都近似服从正态分布,因此可以利用正态分布函数对这些指标的属性值进行转换,使其规范在(0,10)区间内,正态分布的概率密度函数为:

将其进行标准化得到标准正态分布函数为:

运用R软件构建标准正态函数即可得到变换后的新属性值,组成本文的实验数据样本.

1.3 确定训练样本和测试样本

本文将所有样本分为训练样本和测试样本两部分,并按0.8∶0.2的比例设置随机数种子,以有放回抽样的方式得到训练样本的样本数为822个,测试样本的样本数为178个.

2 随机森林模型

2.1 随机森林算法

本文采用的随机森林模型(Random Forest)是一种基于的决策树(CART)分类器和Bootstrap抽样的组合算法.由于信用贷款样本数据集中的指标变量都是独立同分布的,故采用Gini系数作为决策树停止生长的指标[3]:

Gini=1-∑(P(i)*P(i))

P(i)为当前节点上样本中第i类样本的比例.类别分布越平均,Gini值越大,类分布越不均匀,Gini值就越小.

应用Bootstrap Sampling自助法在训练样本中有放回地随机抽取k个样本,组成k棵决策树,因此每个样本未被抽到的概率为:

p=(1-1/n)n

此时约有37% 的样本不会出现在训练样本中,这些未被抽取的样本就被称为袋外数据(Out-Of-Bag,OOB),主要用于计算单棵决策树的预测误差;

随机森林采用简单多数投票原则作为其组合规则最终的分类结果:

式中I(·)表示示性函数,mg(x,y)函数衡量分类器集将样本x分到正确类别的平均票数u1与将x分到其他错误类别的平均票数u2之间的差.一般来说,mg(x,y)的值越大,随机森林模型预测效果就越准确.

2.2 随机森林模型参数的确定

本文的随机森林模型在R环境中运行,因此需要对模型参数进行调整,使误差率达到最小.ntree (随机森林中树的数目)、mtry (节点处供选择特征的数目)是众多参数中对模型影响最大的参数[4].一般来说,ntree的值越大,模型的误差就越小,在达到某一固定值后误差不再变化.因此本文先对mtry值进行调整,先设定ntree=1000,接着再对ntree的值进行调整,求得最优解,以减少模型的迭代次数,提高泛化能力.

(1)mtry值的确定

随机森林的分类模型中参数mtry指决策树的变量个数,一般默认取样本数据中变量个数的二分之一次方,由于本文的指标变量共20个,故以客户信用分类属性值为因变量迭代20次,并计算每次迭代的平均误差率,最后得到不同mtry值下的平均误差趋势图1.

从图1中可以看出,模型平均误差率随着mtry的值增大而减少,最终当mtry=12时平均误差达到最低点,故取mtry=12为最优的单棵决策树变量个数.

(2)ntree值的确定

参数ntree是指随机森林模型中决策树的数目,根据上文的论述,ntree的值越大越好,故先设定ntree的初始值为1000,mtry值为12进行迭代,得到随机模型的误差率与ntree值的关系,如图2所示:

图1 模型误差率与mtry值趋势

图2 模型误差率与ntree值趋势

图2显示当mtry=12时,随机森林模型的误差率随着ntree的增大而减小,当ntree值为400,误差稳定在10%左右.故ntree=400,mtry=12为该随机森林模型的最优参数解.

2.3 随机森林模型的优化

将随机森林模型的最优解代入模型后运用训练样本对模型进行优化.其中错判率定义为模型将i类样本错判给j类的个数占该类样本总数的比率.得到训练样本的错判矩阵如表1.

表2 训练样本下模型错判矩阵

表1中客户的贷款分类良好和不良两种.从表2中可以看出,在训练样本中,属于良好类的样本有576个,不良类样本有256个.其中,在良好类的样本中错判率为11.28%,不良类样本的错判率为52.85%,模型总的分类准确率为76.28%

2.4 随机森林模型的评估

利用测试样本对训练后的随机森林模型进行评估,并与测试样本中客户贷款状态已分类的结果进行对比,计算模型的预测准确率,如表2所示:

表3 测试样本下模型错判矩阵

表2中良好类贷款的错判率为18.38%,不良类的错判率为30.95%,得到最终模型的准确率为78.65%.对比测试样本,模型对不良客户贷款的分类准确率有了显著增加.同时随机森林模型的预测准确率有所增加,表明模型具有较强的泛化能力.

2.5 各指标(特征)变量重要性度量

特征变量重要性测度定义为OOB数据中某个特征变量值发生轻微扰动后的模型分类正确率与扰动前分类正确率的平均减少量.本文采用平均精度下降(Mean Decrease Accuracy)方法给各指标变量的重要性进行评分[5]:

(1)对于每棵决策树,利用OOB数据进行验证,将OOB数据的预测误差记录下来,每棵树的误差为:

err1,err2,err3,…errn

(2)随机变换OOB数据中的每个特征变量(即人工加入噪声干扰),从而形成新的袋外数据,再利用袋外数据进行验证,则每个变量的OOB准确率为:

图3 特征变量重要性评分降序

从图3中可以看出,借贷者的贷款总额,年龄,目前的账户的状态,贷款期限对客户贷款的分类精确率有显著影响.同时借贷者是否有电话注册,需要抚养的人数和是否为国外工作人员则对分类准确率的影响较小,可以忽略不计.

3 结 论

随机森林模型是一种基于单棵分类树的组合算法.该算法对变量的多元共线性不敏感以及对缺失数据比较稳定,可以很好地应用到具有几千个解释变量的数据集合中.模型随机选择特征对分支进行属性分裂,使模型不仅具有良好的分类效果,而且能够对数据中存在的噪声问题有较好的容忍能力.本文的随机森林模型对德国个人信贷数据进行的实证研究,得到了较高的预测准确率和泛化性能.同时对特征变量评分得到的结论具有一定的参考价值.

[1]http://archive.ics.uci.edu/ml/machine-leaming_databases/statlog/german/[EB/OL].

[2]张建.商业银行个人信用评估模型研究[D].广西大学,2012.

[3]基于Logistic和神经网络的个人信用评估组合模型研究[D].电子科技大学,2012.

[4]萧超武,蔡文学,黄晓宇,等.基于随机森林的个人信用评估模型研究及实证分析[J].2014(06):111-113.

[5]林成德,彭国兰.随机森林在企业信用评估指标体系确定中的应用[J].2007(2):200-203.

[责任编辑:王军]

The research of data mining in personal credit evaluation

TAO Chao1,LI Chao1,LI Jie1,ZHAO Qian2

(1.Institute of Statistics and Applied Mathematics,Anhui University of Finance and Economics,Bengbu 233030,China;2.Institute of Finance and Public Management,Anhui University of Finance and Economics,Bengbu 233030,China)

Personal credit assessment is the core of modern commercial bank personal credit management.In this paper,the Random Forest algorithm in data mining (the Random Forest,RF) apply to the modern personal credit evaluation model,realized step by step optimization and evaluation.Empirical analysis proves that the result of the random forest model has high accuracy and generalization ability,and can overcome the influence of the noise data.Through to the importance of each feature variables score,loan time limit and the total accuracy of risk prediction has a significant effect.

random forests; characteristics of the variable; personal credit assessment; R software

2016-03-11

国家社会科学基金“代际转移视角下缩小我国收入差距的路径与仿真模拟研究” (11CTJ006)资助项目

李超(1980-),男,安徽合肥人,安徽财经大学副教授,博士,硕士生导师,主要从事宏观经济统计分析、综合评价方法与应用的研究.

F832.332

A

1672-3600(2016)12-0012-04

猜你喜欢

个人信用训练样本准确率
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
人工智能
个人信用信息何以应由宪法保护?——一个制度论证的进路
高速公路车牌识别标识站准确率验证法
论完善我国个人信用制度
个人信用云平台
严重交通违法行为将直接与个人信用挂钩
宽带光谱成像系统最优训练样本选择方法研究