APP下载

基于Logistic回归的个人消费贷款预测

2017-11-22李哲瑜简宋全李青海

现代计算机 2017年29期
关键词:分类器实例阈值

李哲瑜,简宋全,李青海

(广东精点数据科技股份有限公司,广州510630)

基于Logistic回归的个人消费贷款预测

李哲瑜,简宋全,李青海

(广东精点数据科技股份有限公司,广州510630)

研究个人住房贷款与个人消费贷款之间的关系,通过住房贷款业务累积的客户账户信息,作为自变量构建一个Lo⁃gistic回归模型来预测客户是否会申请消费贷款,以此来精准定位客户群体,实现精准营销。

0 引言

消费贷款也称消费者贷款,是商业银行和金融机构以消费者信用为基础,对消费者个人发放的,用于购置耐用消费品或支付其他费用的贷款。从种类上看,包括居民住宅抵押贷款、非住宅贷款和信用卡贷款。具有高风险、高收益、周期性和利率不敏感性,是商业银行和金融机构的一项很重要的业务,带来很大的利润,所以有必要对其潜在客户进行定位和挖掘,实现精准营销。

消费贷款和住房贷款都是针对个人客户的业务,它们之间会共享一些客户信息。本文研究的就是能否通过住房贷款业务累积的客户信息来预测客户是否会申请消费贷款。

1 数据与方法

1.1 数据

本文使用的数据包含20229个客户的信息,12个属性,具体描述如表1。

1.2 方法

(1)Logistic回归

在很多定量分析的研究中比较常使用的基本统计方法是线性回归方法,然而现实生活中很多应变量都只是分类变量,特别是二分类变量,例如客户是否拖欠贷款、贷款审批是否通过等等,这时线性回归方法就显得不太适用。

Logistic回归是解决这种二分类问题的有效方法之一。首先考虑函数:

hw(x)=g(wTx)=moid函数,它的图形如下,当横坐标刻度足够大时,就像一个阶跃函数。

表1

假设在给定x,w的条件下,y=1出现的概率服从伯努利分布,表示为:

图1

在m个独立样本情况下,可得似然函数为:

训练模型的过程就是选择恰当的w使得l(w)达到最大。常用的方法有梯度上升法和牛顿法。

(2)ROC曲线与AUC值

接收者操作特征曲线(Receiver Operating Charac⁃teristic Curve,简称ROC曲线),又称为感受性曲线(Sen⁃sitivity Curve),ROC曲线上每个点反映着对同一信号刺激的感受性,是一种在二分类建模问题中比较常见的检验指标。

根据实际结果和预测结果可以做出如下列联表,1代表正例,0代表负例:

表2

根据表2,分别定义下面几个变量:

(1)真正类率(True Postive Rate)TPR:TP/(TP+FN),代表分类器正确预测的正例占所有真实正实例的比例,又称灵敏度(Sensitivity)。

(2)负正类率(False Postive Rate)FPR:FP/(FP+TN)=1-Specificity,代表分类器错误预测的负例占所有真实负实例的比例。

(3)真负类率(True Negative Rate)TNR:TN/(FP+TN),代表分类器预测的坏客户中实际负实例占所有负实例的比例,TNR=1-FPR。又称特异度(Specificity)。

采用逻辑回归分类器时,其给出针对每个实例为正类的概率,那么通过设定一个阈值如0.5,概率大于等于0.5的为正类,小于0.5的为负类,对应的就可以算出一组(FPR,TPR),在平面中得到对应坐标点。随着阈值的逐渐减小,越来越多的实例被划分为正类,但是这些正类中同样也掺杂着真正的负实例,即TPR和FPR会同时增大。阈值最大时,对应坐标点为(0,0),阈值最小时,对应坐标点(1,1)。

如下面这幅图,(a)图中实线为ROC曲线,线上每个点对应一个阈值。

图2

横轴FPR:1-TNR,1-Specificity,FPR越大,预测正类中实际负类越多。

纵轴TPR:Sensitivity(正类覆盖率),TPR越大,预测正类中实际正类越多。

理想目标:TPR=1,FPR=0,即图中(0,1)点,故 ROC曲线越靠拢(0,1)点,越偏离45度对角线越好,Sensitiv⁃ity、Specificity越大效果越好。

ROC曲线有个很好的特性:当测试集中的正负样本的分布变换的时候,ROC曲线能够保持不变。在实际的数据集中经常会出现类不平衡现象,即正负样本比例差距较大,而且测试数据中的正负样本的分布也可能随着时间变化。

ROC曲线下的面积被称为AUC统计量(Area un⁃der the Curve),介于0.1和1之间。由上述描述可知,一个随机预测模型对应的AUC值为0.5,而一个完美的预测模型对应的AUC值为1.AUC作为数值可以直观的评价分类器测好坏,值越大越好。一般情况下,一个评分模型的AUC值在0.7与0.8之间则表示该模型的区分能力尚可接受,若在0.8和0.9之间,则表示模型有着良好的区分能力,而如果AUC值大于0.9则说明模型的区分能力非常好。使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好。

2 实验过程

2.1 特征提取

数据集中包含所属地市、贷款种类等分类变量,这些变量都包含多个取值。如果用哑变量来直接处理这些分类变量的话,会增加很多变量,但可能包含一些对最终结果没有太大影响的特征,造成结果的不准确,所以先对分类变量做处理。步骤如下:

(1)选定一个分类变量,计算不同取值下的贷款概率

(2)计算所有概率的均值

(3)不考虑均值附近的取值,将剩下的概率相同或近似的取值归为一类,生成一个哑变量

通过这种方法可以简化模型并且提升模型的效果。最终得到的部分特征如表3:

表3

2.2 拟合模型

从样本集中随机抽取70%的数据作为训练集,训练Logistic回归模型,并用不同的逐步回归方法对自变量进行筛选,最终得到10个模型,整合结果如下:

表4

综合上表,我们选取第二个模型作为最终的拟合模型。结果如下:

Call:

glm(formula=V17~V1+V5+V6+V7+V8+V10+

V11+V12+V13+V14+V16,family=binomial(link="log⁃

it"),data=train_data)

Deviance Residuals:

Min1Q Median 3QMax

-1.0876-0.4224-0.3374-0.2653 3.1793

Coefficients:

Estimate Std.Error z value Pr(>|z|)

(Intercept)0.166569 1.114357 0.149 0.8812

V10.7954150.157199 5.060 4.19e-07***

V5-1.0245840.164124-6.243 4.30e-10***

V6 -0.4590670.094846-4.840 1.30e-06***

V70.544794 0.087695 6.212 5.22e-10***

V8-0.1721730.076259-2.258 0.0240*

V10 0.182286 0.076137 2.394 0.0167*

V110.2522490.109495 2.304 0.0212*

V12 -0.477404 0.101634-4.697 2.64e-06***

V130.1726750.098817 1.747 0.0806.

V14 1.1416730.183889 6.209 5.35e-10***

V16 0.0394490.005739 6.874 6.24e-12***

Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1

‘’1

(Dispersion parameter for binomial family taken to be 1)

Null deviance:7300.2 on 14157 degrees of freedom

Residual deviance:6904.3 on 14146 degrees of freedom

AIC:6928.3

Number of Fisher Scoring iterations:6

用模型二来预测测试集的结果。下图为模型二的ROC曲线。

图3

2.3 选取阈值

步骤如下:

(1)对所有训练集的预测结果进行排序

(2)获取十分位点对应的值

以②得到的值为阈值计算训练集和测试集的召回率,得到表5。

根据实际业务需求和经验,选择第五个分位点,即-2.75194作为阈值得到的结果是最好的。

3 讨论

本文的研究目的是预测客户是否有意愿申请个人消费贷款,提出的方法是以客户的住房贷款情况构建一个Logistic回归模型。在构建模型之前,先对分类型特征做了处理,删去一些多余特征,简化模型。用ROC曲线和AUC值为指标选择拟合效果最好的模型,并用召回率来确定最终的阈值。最终通过实验验证表明,该模型可行且有效。

表5

[1]施朝建,张明铭.Logistic回归模型分析[J].计算机辅助工程,2005,14(3):74-78.

[2]廖国民,涂稳华,宁静.基于Logistic模型的个人消费信贷风险评估[J].广东外语外贸大学学报,2013,(5):27-33.

李哲瑜(1993-),女,广东广州人,硕士研究生,助理工程师,研究方向为计算机软件和信息服务领域

简宋全(1971-),男,广东广州人,硕士研究生,工程师,研究方向为计算机软件和信息服务领域

李青海(1980-),男,广东广州人,硕士研究生,工程师,研究方向为计算机软件和信息服务领域

2017-07-19

2017-09-26

Individual Consumer Loans;Logistic Regression Model;ROC Curve and AUC

Prediction of Personal Consumption Loan Based on Logistic Regression

LI Zhe-yu,JIAN Song-quan,LI Qing-hai

(Guangdong Fine Point Data Polytron Technologies Inc,Guangzhou 510630)

Digs into the relationship between housing loads and individual consumer loans,builds a logistic regression model to predict customers'willingness to apply for consumer loans.The dependent variable is customers'account information,which is gained from the housing loan business.Using the model,we can locate customer groups precisely and realize precision marketing.

个人消费贷款;Logistic回归;ROC曲线和AUC值

天河区科技计划项目(No.201502YH019)

1007-1423(2017)29-0009-04

10.3969/j.issn.1007-1423.2017.29.002

猜你喜欢

分类器实例阈值
学贯中西(6):阐述ML分类器的工作流程
土石坝坝体失稳破坏降水阈值的确定方法
基于朴素Bayes组合的简易集成分类器①
采用红细胞沉降率和C-反应蛋白作为假体周围感染的阈值
基于差异性测度的遥感自适应分类器选择
辽宁强对流天气物理量阈值探索统计分析
浅谈多分类器动态集成技术
完形填空Ⅱ
完形填空Ⅰ
一种改进的小波阈值降噪方法