APP下载

基于带多数类权重的少数类过采样技术和随机森林的信用评估方法

2019-08-27田臣周丽娟

计算机应用 2019年6期
关键词:分类器样本信用

田臣 周丽娟

摘 要:针对信用评估中最为常见的不均衡数据集问题以及单个分类器在不平衡数据上分类效果有限的问题,提出了一种基于带多数类权重的少数类过采样技术和随机森林(MWMOTE-RF)结合的信用评估方法。首先,在数据预处理过程中利用MWMOTE技术增加少数类别样本的样本数;然后,在预处理后的较平衡的新数据集上利用监督式机器学习算法中的随机森林算法对数据进行分类预测。使用受测者工作特征曲线下面积(AUC)作为分类评价指标,在UCI机器学习数据库中的德国信用卡数据集和某公司的汽车违约贷款数据集上的仿真实验表明,在相同数据集上,MWMOTE-RF方法与随机森林方法和朴素贝叶斯方法相比,AUC值分别提高了18%和20%。与此同时,随机森林方法分别与合成少数类过采样技术(SMOTE)方法和自适应综合过采样(ADASYN)方法结合,MWMOTE-RF方法与它们相比,AUC值分别提高了1.47%和2.34%,从而验证了所提方法的有效性及其对分类器性能的优化。

关键词:

不平衡数据集;机器学习;带多数类权重的少数类过采样技术;随机森林;信用评估

中图分类号: TP18;TP399

文献标志码:A

Abstract: In order to solve the problem of unbalanced dataset in credit assessment and the limited classification effect of single classifier on unbalanced data, a Majority Weighted Minority Oversampling TEchnique-Random Forest (MWMOTE-RF) credit assessment method was proposed. Firstly, MWMOTE technology was applied to increase the samples of minority classes in the preprocessing stage. Then, on the preprocessed balanced dataset, random forest algorithm, one of supervised machine learning algorithms, was used to classify and predict the data. With Area Under the Carve (AUC) used to evaluate the performance of classifier, experiments were conducted on German credict card dataset from UCI database and a companys car default loan dataset. The results show that the AUC value of MWMOTE-RF method increases by 18% and 20% respectively compared with random forest method and Naive Bayes method on the same data set. At the same time, random forest method was combined with Synthetic Minority Over-sampling TEchnique (SMOTE) and ADAptive SYNthetic over-sampling (ADASYN), respectively, and the AUC value of MWMOTE-RF method increases by 1.47% and 2.34% respectively compared with them. The results prove the effectiveness and the optimization of classifier performance of the proposed method.

Key words: umbalanced dataset; machine learning; Majority Weight Minority Oversampling TEchnique (MWMOTE); random forest; credit assessment

0 引言

伴随着互联网金融的日渐兴起,数据挖掘和机器学习等新兴技术在企业经营和科学决策中的普遍应用,在线信贷作为一种更高效的借贷服务早已颠覆了传统银行相关部门的地位,传统的信用评分模型已经不能高效准确地处理信贷客户数据。因此,构建并应用精确、客观和可靠的信用风险评估方法,对于银行业和有信贷业务的公司,在不同的商业周期和环境下减轻信贷业务危机和损失[1]有着十分重要的现实意义。

迄今为止,大量数据分析技术和建模技術被应用到风险评估领域,从而出现了四大类风险评估方法:统计学方法、运筹学方法、非参数分析法和人工智能方法。基于统计学方法中最具代表性的就是逻辑回归分析,其是当前理论体系中最为成熟的一种分类模型,最早由Wiginton等[2]于1980年应用于信用风险评估 中。人工智能方法中包括专家系统、神经网络评估系统、支持向量机、遗传算法和随机森林方法。Desai等[3]于20世纪90年代将神经网络应用于信用风险分析,同时期Baesens等[4]将支持向量机方法运用于信用评分领域。Davis 将[5]遗传算法应用在了信用评分领域。国内的诸多学者也在信用评估领域中有所研究,李志辉等[6]采用主成分分析法和Fisher线性方法、Logit模型、BP神经网络技术构造我国商业银行信用风险识别模型,通过实证分析得出相对于其他两类模型,Logit模型具有更强的信用风险识别和预测能力。王春峰等[7]改进了蚁群算法并将其应用在了商业银行信用风险评估中,分析结果相较于判别分析、回归分类算法更好。随机森林方法是一种既可用于分类也能用于回归任务的数据挖掘方法,预测准确率高、不容易出现过拟合、训练速度快等优点使其在很多领域都有广泛的应用[8-10]。

就我国银行业的个人信贷业务而言,发展较晚,信贷风险控制方面还存在着明显的不足[11],而最为核心的问题,仍然是如何有效地对不对称信息进行处理,如何高效解决数据类别不平衡问题。所谓类别不平衡数据就是在数据集中,各类别样本数目差别很大,样本分布不均,其中类别数量多的为多数类,类别数量少的为少数类,又称为稀有类。在多数情况下,诸如如网络入侵检测[12]、欺诈检测、垃圾邮件识别,信用评估领域等少数类往往是研究的重点。目前处理不平衡问题的主要数据层面方法是过采样或者欠采样,重新分配类别分布,例如:合成少数类过采样技术(Synthetic Minority Over-sampling TEchnique, SMOTE)方法[13]、自适应综合过采样(ADAptive SYNthetic over-sampling, ADASYN)方法[14]和Borderline-SMOTE方法[15]等。

基于以上分析与认识,考虑到单一方法难以在不平衡数据集上达到良好预测效果,本文提出了一种基于带多数类权重的少数类过采样技术和随机森林(Majority Weighted Minority Oversampling Technique-Random Forest, MWMOTE-RF)结合的信用评估方法。本文方法的基本思想是将MWMOTE数据处理作为随机森林算法的前置预处理系统,通过MWMOTE对信用样本数据进行少数类样本数量增加,从而改善随机森林向多数类类别样本的倾向性问题。最后结合UCI数据集和汽车违约贷款数据集与传统的随机森林方法和朴素贝叶斯方法进行实验分析对比。除此之外,分别通过SMOTE方法、ADASYN方法和Borderline-SMOTE方法产生平衡数据集训练随机森林模型作为实验对比模型。

1 相关方法及模型的构建

1.1 MWMOTE

在信用评估领域,客户评估数据中履约的客户占绝大多数,而违约的客户作为少数类样本是我们重点研究的对象。随机森林算法在处理不平衡数据的问题上存在着缺陷,主要是由于少数类样本占比少,在此数据集上训练出来的决策树不能很好地体现少数类的特点,只有增大少数类占有量或是平衡多数类样本数量才能使随机森林算法更加健壮。针对不平衡数据的处理方法有三大类[16]:抽样法、代价敏感方法和集成方法。其中抽样方法分为欠抽样和过抽样,在处理不平数据集问题上目前应用最广的是SMOTE方法,作为过抽样方法的一种,其主要是结合少数类样本按照一定规则合成少数类样本,最终达到平衡数据集的目的[17]。但其存在着几点不足[18]:不能精确控制合成新样本数量;不能对少数类样本进行区别性选择;样本混叠现象严重。

鉴于SMOTE方法存在的不足,本文采用了带多数类权重的少数类过采样法[19],相较于应用广泛的SMOTE方法,可以有效避免新合成樣本混叠问题。该方法的核心思路是首先识别难以学习的信息丰富的少数类样本,并根据它们与最近的多数类样本之间的欧氏距离给它们赋值;然后,使用聚类方法从加权信息量大的少数类样本中合成新样本。通过这种方式,所有生成的新样本都位于某个少数类簇中。

1.2 随机森林

随机森林是一种统计学理论,是bagging算法和分类回归树(Classification And Regression Tree, CART)的结合。通过组合多个CART进行预测,最终通过投票得到预测结果。

Bagging算法又称自举汇聚法,是一种基于数据随机重抽样的分类器构建方法,在原始数据集上进行有放回的抽样N次,得到N个新数据集。新数据集与原始数据集大小相等。在这N个数据集上分别对学习算法进行训练,得到了N个弱分类器,由此方法集成为一个强分类器并最终选择分类器投票结果中最多的类别作为分类结果。此处的学习算法为CART,一种改进的决策树。与ID3和C4.5两种影响较大的决策树方法相比,CART算法是基于基尼系数的决策树算法。CART包括分类树和回归树两部分,其中分类树根据基尼系数进行特征空间的划分,回归树通过最小化平方误差进行特征选择和特征值选择。

随机森林的构建过程如下:

1)假设原样本集有N个样例,则每轮从原始样本集中有放回地抽取n个样例,得到一个与原始样本集相同大小的样本集。经过K轮的抽取获得的训练集分别为T1,T2,…, TK。

2)每个训练集训练一个决策树模型。共得到K个CART模型。

3)假设原始样本的特征个数为D,从D个特征中随机选择其中的d个特征(d

4)每棵树不断分裂,直到该节点的所有训练样本都属于同一类。这期间不需要剪枝处理。

5)K个CART相互独立,其被赋予的权重均相等。对于分类问题,最终的分类结果使用所有的CART投票来确定最终分类结果;对于回归问题,使用所有决策时输出的均值来作为最终的输出结果。

选择随机森林方法主要基于以下考虑:随机森林方法作为一种集成学习方法相较于单一学习器有着优越的泛化性能。文献[9]中,通过实验分析对比可知,随机森林方法的准确率和稳定性要优于支持向量机方法、k-近邻方法、CART方法、基于径向基的神经网络方法和梯度提升决策树(Gradient Boosting Decison Tree, GBDT)方法等。

本文所用的随机森林算法是python的sklearn库中封装好的。随机森林在sklearn的分类库中所属类是RandomForestClassifier,重要的调节参数如表1所示。

1.3 模型融合过程

在MWMOTE的实现过程中,构建了一个用来合成新样本的少数类信息集Simin。然而,这个集合的所有样本可能并不同等重要。一些样本可能比其他样本为数据提供更有用的信息,因此,有必要根据样本的重要性为其分配权重。权重越大的样本意味着需要从它附近产生许多合成样品。MWMOTE所用到的选择权重计算公式是鉴于三点观察:接近决策边界的样本包含的信息比距离远的样本多;稀疏簇中的少数类样本比稠密簇中的样本更重要;在密集多数类群附近的少数类样本比在稠密多数类群附近的样本更重要。

2 實验数据和评价指标

2.1 数据集

本文所用的是UCI KDD Archive提供的德国信用卡数据以及某公司提供的汽车违约贷款数据作为有信用记录的样本。汽车违约贷款数据含有5845个样本,每一个样本有19个连续变量、1个离散性变量。通过类别标签划分用户,其中,4648个信用好的用户、1197个信用差的用户。按照4∶1的比例,本文选取793个信用好的用户,207个信用差的用户,共计1000个用户样本作为最终的实验使用数据集。汽车违约贷款数据集的基本特征如表2所示。德国信用卡数据有1000个样本,每一个样本有7个连续型变量、13个离散型变量。类别标签将样本用户进行区分,其中,700个信用好的样本数据作为多数类,300个信用差的样本数据作为少数类,是一个非平衡数据集。德国信用数据集的基础特征如表3所示。

参考文献[20]数据预处理的特征选择,消除不相关和冗余的特征,最终实验用的德国信用数据训练集中,只选取{status,amount,duration,age,purpose,history,employment,bonds,property,installmentrate}作为最后的特征集,以达到提高分类精度和缩短训练时间的目的。

2.2 评价指标

受测工作者特征曲线(Receiver Operating Characteristic Curve, ROC)作为公认的不平衡数据集分类器的评价标准,并不能定量评价分类器[21],因此本文采用AUC(Area Under Curve)值作为性能度量标准。AUC值被定义为ROC曲线下的面积。对于二分类问题,文献[22]给出了计算式如下:

3 实验和结果分析

为了提高实验分析的准确性,本文采用多次随机实验进行验证,将原始数据集划分为训练集和测试集,共进行100次实验验证。数据划分情况如表4所示,模型相关参数如表5所示。

将实验数据划分出的测试集作为最终模型实验分析对比所用的测试集。在实验用的德国信用数据集的基础上通过MWMOTE方法扩充200个少数类合成新样本,在实验用的汽车违约贷款数据集的基础上通过MWMOTE方法扩充300个少数类合成新样本以达到平衡数据集的目的,作为新的样本数据集,其数据划分标准和原始数据集一样。在平衡数据集上训练出的模型称之为MWMOTE-RF,在原始数据集上训练出的随机森林模型称为RF,朴素贝叶斯模型称为NB。

除此之外,本文分别通过SMOTE方法,自适应综合过采样方法和Borderline-SMOTE方法对实验数据进行处理,在各自产生的平衡数据集上训练随机森林模型,对应生成的模型分别称之为SMOTE-RF、ADA-RF和BSMOTE-RF。

4 结语

为了提高不平衡数据中对可能存在的少数类样本(违约客户)的预测准确率,本文提出了一种基于MWMOTE和随机森林结合的信用评估方法,改进了对违约客户的信用评估分析预测能力。经过MWMOTE技术处理后,该方法有效解决了信用评估中不平衡数据集的问题,一定程度上解决了分类器向多数类类别样本的倾向性问题。实验结果表明,在处理后的平衡数据集上训练的随机森林模型,其AUC值有很大程度提升。但随机森林和MWMOTE中的部分参数为人工设置,不一定是最优的模型参数,其次在高维和规模大的数据集上存在训练效率低的问题,因此如何选取合理参数并提升模型训练效率是下一步解决的问题。

参考文献 (References)

[1] WIN S. What are the possible future research directions for banks credit risk assessment research? A systematic review of literature [J]. International Economics and Economic Policy, 2018, 15(4): 743-759.

[2] WIGINTON J C. A note on the comparison of logit and discriminant models of consumer credit behavior [J]. Journal of Financial and Quantitative Analysis, 1980, 15(3): 757-771.

[3] DESAI V S, CROOK J N, JR OVERSTREET G A. A comparison of neural networks and linear scoring models in the credit union environment [J]. European Journal of Operational Research, 1996, 95(1):24-37.

[4] BAESENS B, van GESTEL T, VIAENE S, et al. Benchmarking state-of-the-art classification algorithms for credit scoring [J]. Journal of the Operational Research Society, 2003, 54(6):627-635.

[5] DAVIS S, ALBRIGHT T. An investigation of the effect of Balanced Scorecard implementation on financial performance [J]. Management Accounting Research, 2004, 15(2): 135-153.

[6] 李志辉,李萌.我国商业银行信用风险识别模型及其实证研究[J].经济科学,2005(5):61-71.(LI Z H, LI M. Credit risk identification model of Chinese commercial banks and its empirical study [J]. Economic Science, 2005(5):61-71.)

[7] 王春峰,赵欣,韩冬.基于改进蚁群算法的商业银行信用风险评估方法[J].天津大学学报(社会科学版),2005,7(2):81-85.(WANG C F, ZHAO X, HAN D. A model on modified ants algorithm for credit risk assessment in commercial banks [J].Journal of Tianjin University (Social Sciences), 2005, 7(2): 81-85.)

[8] 方匡南,吴见彬,朱建平,等.随机森林方法研究综述[J].统计与信息论坛,2011,26(3):32-38.(FANG K N, WU J B, ZHU J P, et al. A review of technologies on random forests [J]. Statistic & Information Forum, 2011, 26(3): 32-38.)

[9] 萧超武,蔡文学,黄晓宇,等.基于隨机森林的个人信用评估模型研究及实证分析[J].管理现代化,2014,34(6):111-113.(XIAO C W, CAI W X, HUANG X Y, et al. Research and empirical analysis of personal credit evaluation model based on random forest [J]. Modernization of Management, 2014, 34 (6): 111-113.)

[10] 李进.基于随机森林算法的绿色信贷信用风险评估研究[J].金融理论与实践,2015(11):14-18.(LI J. Study on green-credit risk assessment based on random forest algorithm [J]. Financial Theory & Practice, 2015 (11): 14-18.)

[11] 杨爱香.浅析我国商业银行信贷风险管理的现状及对策[J].时代金融,2015(30):37,39.(YANG A X. A brief analysis of Chinas commercial banks credit risk management status and countermeasures [J]. Times Finance, 2015(30): 37,39.)

[12] 封化民,李明伟,侯晓莲,等.基于SMOTE和GBDT的网络入侵检测方法研究[J].计算机应用研究,2017,34(12):3745-3748.(FENG H M, LI M W, HOU X L, et al. Study of network intrusion detection method based on SMOTE and GBDT [J]. Application Research of Computers, 2017, 34(12): 3745-3748.)

[13] CHAWLA N V, BOWYER K W, HALL L O, et al. SMOTE: synthetic minority over-sampling technique [J]. Journal of Artificial Intelligence Research, 2002, 16(1): 321-357.

[14] HE H B, BAI Y, GARCIA E A, et al. ADASYN: adaptive synthetic sampling approach for imbalanced learning [C] // Proceeding of the 2008 IEEE International Joint Conference on Neural Networks. Piscataway, NJ: IEEE, 2008: 1322-1328.

[15] HAN H, WANG W Y, MAO B H. Borderline-SMOTE: a new over-sampling method in imbalanced data sets learning [C]// ICIC 2005: Proceedings of the 2005 International Conference on Advances in Intelligent Computing. Berlin: Springer, 2005: 878-887.

[16] 赵楠,张小芳,张利军.不平衡数据分类研究综述[J].计算机科学,2018,45(6A):22-27,57.(ZHAO N, ZHANG X F, ZHANG L J. Overview of imbalanced data classification [J].Computer Science, 2018, 45(6A): 22-27,57.)

[17] 沈学利,覃淑娟.基于SMOTE和深度信念网络的异常检测[J].计算机应用,2018,38(7):1941-1945.(SHEN X L, QIN S J. Anomaly detection based on synthetic minority oversampling technique and deep belief network [J]. Journal of Computer Applications, 2018, 38(7): 1941-1945.)

[18] 王超学,张涛,马春森.面向不平衡数据集的改进型SMOTE算法[J].计算机科学与探索,2014,8(6):727-734.(WANG C X, ZHANG T, MA C S. Improved SMOTE algorithm for imbalanced datasets [J]. Journal of Frontiers of Computer Science and Technology, 2014, 8(6): 727-734.)

[19] BARUA S, ISLAM M M, YAO X, et al. MWMOTE — Majority weighted minority oversampling technique for imbalanced data set learning [J]. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(2): 405-425.

[20] 葉晓枫,鲁亚会.基于随机森林融合朴素贝叶斯的信用评估模型[J].数学的实践与认识,2017,47(2):68-73.(YE X F, LU Y H. Credit assessment model based on random forest and navie bayes [J]. Mathematics in Practice and Theory, 2017, 47(2): 68-73.)

[21] 李诒靖,郭海湘,李亚楠,等.一种基于Boosting的集成学习算法在不均衡数据中的分类[J].系统工程理论与实践,2016,36(1):189-199.(LI Y J, GUO H X, LI Y N, et all. A boosting based ensemble learning algorithm in imbalanced data classification [J]. Systems Engineering — Theory & Practice, 2016, 36(1): 189-199)

[22] HAND D J, TILL R J. A simple generalization of the area under the ROC curve for multiple class classification problems [J].Machine Learning, 2001, 45(2): 171-186

[23] 蒋帅.基于AUC的分类器性能评估问题研究[D].长春:吉林大学,2016:10-17.(JIANG S. Researches of performance evaluation of classifier based on AUC [D]. Changchun:Jilin University, 2016: 10-17.)

猜你喜欢

分类器样本信用
神秘的植物工厂
学贯中西(6):阐述ML分类器的工作流程
失信商人的悲剧
基于AdaBoost算法的在线连续极限学习机集成算法
一种统计分类方法的学习
直击高考中的用样本估计总体
随机微分方程的样本Lyapunov二次型估计
信用消费有多爽?
“信用山东”微信号正式启动发布
基于支持向量机的测厚仪CS值电压漂移故障判定及处理