APP下载

基于集成学习的银行信用卡逾期客户识别

2019-05-24何黎松

大众投资指南 2019年15期
关键词:决策树信用卡准确度

何黎松

(西安欧亚学院金融学院,陕西 西安 710065)

引言

银行客户信用卡逾期客户识别指的是根据银行信用卡业务客户的基本属性、信用记录,将逾期客户和非逾期客户识别出来。银行信用卡逾期识别的研究文献较少。周颖(2015)[1]讨论了信用卡违约的责任问题,慧梅(2015)[2]对比信用卡使用状况和逾期行为,葛绯(2015)[3]给出了控制信用卡风险的方法,这些研究都基本处于定性分析层面。后来逐渐有学者将数据挖掘算法迅速应用到这一商业问题的应用中,徐超(2016)[4]用神经网络模型对信用卡逾期风险做出了研究识别;张秋菊(2018)[5]使用BP神经优化算法对信用卡还款风险做了评估研究,但是单个的分类模型往往准确度不高。

本文从集成学习方法入手,集成逻辑回归、判别分析、决策树和神经网络模型,对某商业银行的信用卡客户逾期行为进行识别,以提高总体的预测精度。

一、数据准备

本文数据,来自某商业银行脱敏后的2016年客户信用信息作为数据。

分析变量共15个,其中将性别、年龄、婚姻状况、学历、职业、职务、司龄、个人住房贷款笔数、贷款笔数、贷记卡账户数、贷记卡授信总额、贷记卡单家最高授信额度、贷记卡单家最低授信额度、贷记卡已用额度共14个变量作为输入变量进行分析,是否逾期作为目标变量进行分析。

二、理论基础

(一)单个分类模型

1、逻辑回归

逻辑回归原理与多元回归类似,只不过其因变量Y取值为二元的“0”和“1”,或者多元的取值;二分类得更为常用,也更容易解释。通过对自变量和因变量建立回归方程,借助方程预测,从而实现分类功能。实际中最为常用的就是二分类的logistic回归。逻辑回归在处理自变量为数值型时效果较好,自变量为分类变量时,效果有时不佳。

2、判别分析

判别分析是分类模型的一种,算法较为简单:距离算法,函数转化;距离算法近似于聚类,通过计算每类中心点和新元素的距离,以距离远近判断其归属类别;矩阵转换和函数拟合近似于回归,根据自变量和因变量建立判别函数,从而实现对新的变量的预测分类。

3、决策树

决策树是数据挖掘算法兴起之后的分类模型,分类结果近似计算机的 if else 形式,通过算法,生成树状的分类节点。算法拟合是,每个分类对应着一个预测准确度,通过对准确度优化,找到最近的分类规则。决策树算法不断发展,常见的有决策树,CHAID,QUESTION,C5.0等等。决策树的结果解读性高,在现代商业应用较多;但是在数据中存在干扰信息时,分类效果往往不好。

4、神经网络

神经网络是近年来比较热门的分类模型,其思路是:在输入变量X和输出变量Y之间设定函数框架,框架中放有激活函数,这些激活函数包括:Sigmoid,tanh,ReLU等等。变量输入进来,函数激活,获得输出,与实际输出对比,根据差距(损失),机器自动返回去调节函数权重,如此反复迭代,最终获得拟合度很好的、可用的函数框架。神经网络因其层数不同、激活函数组培不同、试错修正方式不同,有很多分类,且随层数加深,函数丰富,而在逐渐发展,目前已有的模型包括简单的径向基函数、多层感知器,深层的DNN、LSTM、HMM等等,且在不断复杂化。神经网络具有非线性,局部自洽等特点,整体复杂而难以描述,在现代语音、图像识别中使用广泛。

(二)集成学习

集成学习的思想是:当一个分类模型效果不好时,可以使用多个分类模型分别用于分类,最后将多个结果结合在一起,以投票,少数服从多数的机制,集成获得结果。有时候往往会取得比单个分类模型更好的效果。

三、建模实证

(一)单个分类模型的效果

分别用逻辑回归、判别分析、决策树、神经网络对数据进行模型训练,预测结果如表1。

表1 单个分类模型分类效果表

结果表明,对本文的银行客户风险识别问题,分类效果最好的是逻辑回归,其次是神经网络,决策树,盘被分析结果最差。

(二)集成学习效果

将四个分类模型,三三组合,共四种,利用其预测结果,表决获得最终预测结果,规则是:少数服从多数,当超过两个预测为1时,结果为1;超过两个预测为0时,结果为0。将综合的预测结果和实际值比较,计算预测准确度,得到表2。

表2 集成学习准确度表

结果表明,集成学习的准确度,基本上都达到86%以上,最高的超过了90%,总的来看,预测效果明显地获得了提升。如果选择神经网络、判别分析、逻辑回归集成三个模型作为最后的集成模型,模型效果为90.7%,比每个单个分类模型的准确度都高。

四、结论

本文以集成学习思想,集成逻辑回归、判别分析、决策树、神经网络,对商业银行信用卡逾期行为进行分类识别。结果表明,集成的分类模型,基本上都达到86%以上,最高的超过了90%,比单个的分类模型具有更好的分类识别效果。集成多个分类模型预测分类的思路,可用于商业应用中。

猜你喜欢

决策树信用卡准确度
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
幕墙用挂件安装准确度控制技术
信用卡资深用户
信用卡诈骗
基于决策树的出租车乘客出行目的识别
动态汽车衡准确度等级的现实意义
办信用卡透支还债夫妻均获刑10年
基于肺癌CT的决策树模型在肺癌诊断中的应用
高炉重量布料准确度的提高