APP下载

基于Lasso-Logistic模型的P2P网络借贷信用风险度量

2018-04-27邹明芮

长春大学学报 2018年3期
关键词:借款人信用风险网贷

邹明芮

(广东外语外贸大学 金融学院,广州510000)

伴随着P2P行业的快速发展,借款人的信用风险度量是P2P网贷平台亟待解决的问题之一。国内外学者对P2P网络借贷信用风险的度量做了诸多研究。但是,目前我国还存在以下两方面问题:一是P2P网贷平台还沿用传统的信用评价方法,方法过于简单,不能准确反映个人的信用风险;二是影响信用风险的因素众多,如何选取影响因素对信用风险进行度量至关重要。本文在Logistic模型的基础上,引入Lasso算法来建立P2P网贷的信用风险度量模型,从众多的影响因素中科学地选出度量指标,以期更为准确地度量出借款人的信用风险,为P2P网贷平台信用风险防范提供参考。

1 文献综述

孙英隽、苏颜芹主要研究了P2P借贷过程中的信息不对称和逆向选择问题,认为在此平台上虚假信息是不可避免的,这是由网贷平台信息认证方式的不确定性和不可靠性造成的[1]。陈霄、丁晓裕、王贝芬采用Logitic模型并利用网贷平台借贷数据进行实证分析,研究影响信用风险的各因素[2]。宋丽平、张利坤、徐玮采用BP神经网络模型,利用“人人贷”的借贷数据对借款人的信用风险进行评估,为出借人的投资提供一定的参考[3]。于晓虹、楼文高利用随机森林的方法,从有效样本中抽样得到不同的样本集,并分别利用决策树模型对P2P借款人的违约风险进行度量,发现借款金额、期限、违约次数、年收入对违约有很大影响,为投资者进行投资决策提供参考[4]。孙同阳、谢朝阳通过抓取P2P网贷平台的借贷数据,建立决策树模型,以信用等级作为其输出变量,得到了很好的预测效果[5]。方匡南、章贵军、张惠颖在Logistic模型的基础上引入Lasso算法,利用银行数据对影响个人信用风险的因素进行了实证研究,发现模型能够抓住主要的影响因素且预测的准确性更高[6]。

从文献整理来看,国内学者大多利用网贷平台上公布的借款信息筛选指标对信用风险进行度量。但是, 大多数学者没有考虑过多变量之间可能存在共线性,以及无关变量对模型准确性的干扰。因此,本文将在Logistic模型的基础上引入Lasso算法,实现对变量的筛选,使所建立的信用风险度量模型更简洁,预测更准确。

2 借款人信用风险影响因素

投资人根据网站公布的借款信息进行判断投资,从网贷平台上可获得的信息主要分为4类:借款标的信息、借款人基本信息、借款人收入及资产负债信息、借款人历史表现及信用信息。

(1)借款标的信息包括借款的金额、借款利率、借款期限。一般借款金额越大,借款人的还款压力越大,违约风险越大;借款的利率越高,表明还款所支付的成本越高,还款压力越大,违约的风险越大;借款的期限越长,还款期间的不确定性越大,可能造成还款违约的风险越大。

(2)借款人基本信息包括借款人的年龄、性别、受教育程度、婚姻状况、所在地、工作类型、工作年限。年龄和性别一般会影响借款人的风险偏好或是道德观念;受教育程度可能影响借款人的还款能力和道德观念,一般来说学历高的人,工作待遇较好,还款能力强,且法律观念强,对自己的信用更在乎;婚姻状况可能影响借款人的责任感和还款能力;工作类型和工作年限也会影响到借款人的还款能力、风险偏好和责任感。上述因素都会影响到借款人的信用风险。

(3)借款人收入及资产负债信息包括借款人的收入、月还本息收入比、是否拥有房产和车产、是否担负房贷和车贷。这些信息都能反映借款人的还款能力,进而影响借款人的信用风险。一般拥有较高收入的人还款能力强,违约可能性较低。但是,如果高收入者对自己有较高的还款预期,而大量借款且投资高风险项目,一旦投资失败且还款金额较大,也很可能发生违约的情况。

(4)信款人历史表现及信用信息包括借款人的逾期次数、申请借款次数、成功借款次数、信用等级。虽然网贷平台会对借款人进行信用评估,给出相应的信用等级,但这一信用等级是根据借款人提供的认证信息的多少以及以往的交易记录而得出的,不能完全反映借款人的信用风险。其他的历史表现能够反映出借款人的借贷习惯,对借款人的信用风险有一定的预测能力。

3 P2P网贷信用风险度量实证分析

3.1 Lasso-Logistic模型介绍

Lasso估计是由Tibshirani提出的一种压缩估计方法,通过构造一个惩罚函数,使得系数被压缩,是一种处理多重共线性的有偏估计。Lasso的基本思想是在回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和最小,从而能够产生某些严格等于零的回归系数,得到可以解释的模型。

假设有独立同分布的观测值(X,yi),自变量为X=xij为n×p的矩阵,因变量yi为二元离散变量,即yi∈{0,1},则Logistic线性模型可写为:

(1)

(2)

其中l(β)为对数似然函数,则式(2)中的l(β)可写成如下形式:

(3)

(4)

通过对调和参数λ的控制,可以实现对变量的筛选。

3.2 数据来源及处理

本文数据均来自于“人人贷”平台。在“人人贷”网站上,每一笔借款都有一个页面来公布借款标的及借款人的详细信息。笔者通过设计爬虫软件来获取贷款数据。所抓取的借款信息存在5种状态,分别是“已还清”“已流标”“还款中”“逾期中”“已垫付”。为确保分析的有效性,将未成功借款的“已流标”以及信息不全的贷款剔除掉。由于“还款中”和“逾期中”的借款在未来还款期间存在不确定性,也将其剔除。再在剩余贷款中,将重复用户的贷款剔除掉,最后剩余32260组用户数据。将借款状态显示“已垫付”的用户定义为“违约用户”,“已还清”用户定义为“正常用户”。其中,违约用户数据1465组,正常用户数据30795组。违约率约为4.5%。“人人贷”上的借款总共分成3种类型,分别是实地认证标、机构担保标和信用认证标。实地认证标是相对信用认证标增添了友信或友信合作机构的认证审核的借款标;机构担保标是指“人人贷”的合作伙伴为相应的借款承担连带保证责任的借款标;信用认证标是对借款用户的个人信用资质进行全面审核后,推荐并代理用户在平台发布的借款标。通过观察所收集到的借款标数据发现,实地认证标和机构担保标不存在违约的情况。由于本文是针对建立信用风险度量模型,所以主要对信用认证标进行探究,剔除其余两种标后,剩余6146组数据,其中违约用户1465组,正常用户4681组。同时,本文从这6146组数据中随机抽取600组数据作为测试组,其中违约用户128组,正常用户472组,

剩余的5546组数据为实验组用于建模。

3.3 变量介绍

影响个人信用风险的变量如表1所示。

表1 信用风险变量介绍

3.4 实证分析

本文利用Lasso-Logistic模型回归。

首先,画出Lasso系数解的路径图(见图1),横坐标为Lambda的对数,纵坐标为系数值,最上面的数字为不同Lambda所对应的筛选出的变量的个数。随着Lambda的增大,越来越多的变量的系数趋向于0,对Lambda的选择可实现对变量的筛选。

其次,利用交叉检验的方法,得到最优的协调参数λ的值(见图2),CV误差曲线图表示的是不同的Lambda的值所对应的模型误差,横轴是Lambda值的对数,纵轴对应的是模型误差,最上面的数字表示不同Lambda所筛选出的变量个数。

图1 系数解路径图

图2 CV误差曲线图

由图2可以看出,随着Lambda取值的逐渐增大,压缩程度增大,所选入模型的变量个数越少。左边的虚线表示Lambda.min取值的位置,右侧的虚线是Lambda.lse取值的位置,对应着一倍标准误差内更简洁的模型。Tibshirani认为,模型变动偏差在两虚线之间变动较小,Lambda应在此区间内取值,一般建议选取Lambda.lse,使模型相对简洁。所以,本文选取Lambda.1se进行变量筛选。基于Lambda的取值,可以得到筛选出的变量参数估计值如表2所示。

表2中的9个变量分别为:信用等级、年龄、受教育程度、逾期次数、月平均收入、房贷、车产、工作年限以及成功借款笔数。从回归结果可以看出,信用等级越低的人越容易违约,而信用等级高低主要根据出借人提供的信息认证的多少以及以往的交易记录的综合情况来确定。一般来说,信息认证提供得越多,则信息的真实性越强,交易情况好的出借人违约率较低。身负房贷和拥有车产的借款人违约率较低。身负房贷说明借款者能够从银行贷到款,通过了国家征信体系认证,具有较好的信用。拥有车产说明家庭的经济基础较好,具有较强的还债能力。工作年限对违约率有正向的影响,可能工作时间比较短的借款人越注重自己的信用。

表2 参数估计

3.5 模型的准确性检验

基于前文的实证分析,风险度量模型已经确定。为了检验模型预测的准确性,本文利用模型对测试组进行预测,并将预测的结果与实际发生的结果进行对比。详情如表3所示。从表3可以算出,测试组的预测准确率为90.33%。

表3 测试组的预测分类表

ROC(Receiver Operating Characteristic)曲线常被用来判断一个二值分类器的优劣,可以直观地通过构图来显示模型的准确性。测试组的ROC曲线如图3所示。

图3 测试组的ROC曲线

利用该曲线与45度线的偏离程度来判断模型的拟合程度,同时与ROC曲线一起判断的还有一个指标AUC(Area Under Curve),即ROC曲线下面的面积。AUC的取值一般在0.5~1之间,越接近1说明模型判断越准确。AUC值位于0.7~0.8时,认为该模型有一定的区分能力;AUC值位于0.8~0.9时,模型区分能力良好;AUC值大于0.9时,区分能力非常好。根据图3所示的测试组的ROC曲线,AUC值为0.946,说明所建立的风险度量模型对信用风险具有非常好的判断能力。

4 政策建议

第一,健全平台信用征信体系,完善信息认证模式。信息的不对称极易造成道德风险,对个人的信用违约有极大的影响。P2P网贷平台应加大对个人信息的审核力度,扩充新的信息认证方式,如可通过信用卡认证、水电煤气账单认证、微信认证等方式来确认借款人的真实信息和信用状况。

第二,建立科学全面的信用风险评估体系,提高平台内部工作人员的专业水平。对借款人事先进行专业的评估,控制信用风险的发生。针对不同信用风险的借款人,平台应制定不同的个性化的借款合同来控制风险的发生。

第三,设立统一的评分标准,实现网贷平台间的信息共享。由于各P2P平台的信息不共享,使得一些借款人在一个平台上违约了,又跑到另一个平台上继续借款。实现平台间的信息共享,能够有效地减少个人的多平台借款违约行为,而且通过借助其他平台上借款人的信息,可以更加全面准确地度量出借款人的信用风险情况。

第四,增加违约成本,提高对违约行为的惩罚力度,如增加违约罚金等。将借款人在网贷平台上的信用记录与其生活相联系,使其信用记录像银行贷款违约一样,影响今后的买房、买车贷款,迫使借款人及时还款,降低信用风险。

第五,健全相关法律法规,完善监管机制。政府及相关部门应该加强对网贷平台的监管,制定统一的规章制度及平台准入机制,全面披露行业的有关数据,明确监管部门、网贷平台、借款人和出借人各方的权利和义务。

参考文献:

[1] 孙英隽,苏颜芹. 微金融的发展趋势:网络借贷[J]. 科技与管理,2012(1): 92-95.

[2] 陈霄,丁晓裕,王贝芬. 民间借贷逾期行为的研究:基于P2P网络借贷的实证分析[J]. 金融论坛,2013(11): 65-72.

[3] 宋丽平,张利坤,徐玮. P2P网络借贷个人信用风险评估[J]. 财会月刊,2015(12): 94-96.

[4] 于晓虹,楼文高. 基于随机森林的P2P网贷信用风险评价、预警与实证研究[J]. 金融理论与实践,2016(2): 53-58.

[5] 孙同阳,谢朝阳. 基于决策树的P2P网贷信用风险评价[J]. 商业经济研究,2015(2): 81-82.

[6] 方匡南,张贵军,张惠颖. 基于Lasso-Logistic模型的个人信用风险预警方法[J]. 数量经济技术经济研究,2014(2): 125-136.

猜你喜欢

借款人信用风险网贷
P2P网贷中的消费者权益保护
乡城流动借款人信用风险与空间收入差异决定
小微企业借款人
网贷十年:迎来“去伪存真” 时代
网贷平台未来亟需转型
浅析我国商业银行信用风险管理
京东商城电子商务信用风险防范策略
商业银行对借贷人贷后监控与风险治理
个人信用风险评分的指标选择研究
中国网贷地图