个人网络信贷平台信用风险评估实证分析
2018-03-30
个人网络信贷平台在为投融资者提供便捷的渠道与服务,为个人投资者将闲置资金通过互联网平台借给资金短缺者提供了新的途径。但是,近年来由于信贷平台不规范、个人信用体系不健全等原因,网贷平台市场出现了巨大的违约风险。本文采取定性与定量相结合的方法,从借款人信用信息入手,通过信息价值和共线性诊断筛选出适当的指标变量,将原始数据以WOE替代代入Logistic回归模型,根据回归结果评判其信用风险的大小。通过构建模型对个人网络信贷平台的借款者信用信息风险进行量化评估,为网络信贷平台的参与者提供有效的信用风险评估方法。
一、证据权重逻辑回归模型
在众多的评级模型中,逻辑回归使用率占绝对优势。然而,该模型在实际运用中存在着诸多缺陷,由于真实数据的采集质量比较差导致模型偏差较大,需要新的方法来解决。信息论中相对熵的运用,使得违约样本分布与正常样本分布之间的距离的刻画更为精确,恰好解决逻辑回归运用中的问题,即将证据权重(weight of evidence,简称WOE)和逻辑回归结合起来。
(一)证据权重(WOE)
WOE反映的是债务人正常还款概率与债务人违约概率自然对数之比,WOE的增加意味着违约风险的降低。
(二)Logistic回归
二、实证分析
(一)数据说明
根据国内著名个人网络信贷平台红岭创投网站公布的2012年—2016年的借款信息,其中违约借款信息选择2012—2016年公布的信贷黑名单。将收集的样本经过重复剔除和完整性筛选后,保留1382笔贷款数据作为进入模型回归拟合的总样本,其中1152笔贷款数据为训练样本,348笔贷款数据作为测试样本。
(二)实证分析
(1)首先计算IV值与WOE值,并对指标进行分组
本文抓取了借贷信息包括借款金额、年利率、借款期限、借款类型、还款方式、投标笔数、会员等级、借入信用、借出信用、还款状态以及各项资料的审核认证等19个变量。由于指标较多,以借款金额为例。采集1152条数据,其中好客户960个,坏客户192个。Good表示好客户个数,Bad表示坏客户个数,P1=Gi/G表示第i区间好客户与总体好客户的比重,P0=Bi/B表示第i区间坏客户与总体坏客户的比重。具体分组如下:
表1 借款金额4组
通过对比发现,将借款金额分为4组时,IV值最大,因此借款金额的合理分组为4组。
(2)通过IV值与共线性诊断剔除指标变量
IV值即为信息价值,借鉴FICO等机构的使用经验,取舍阀值设为0.03,当IV值大于0.03且小于0.18时,该指标变量区分度有限,可排除该指标;当IV值大于0.18时,则认为指标变量是有区分度的。经过数据处理以及可操作性计算,共有以下9种指标变量被选出来,其总IV值如下表2所示。
表2 初选指标变量及总IV值
将经过IV值剔除的指标变量进行共线性诊断。经过多重共线性回归分析结果可知,这些指标之间存在多重共线性。经过逐步回归法分析,年利率、借款金额、逾期未还笔数、准时还款笔数、借款笔数以及是否有收入证明6个变量通过检测。
(3)模型系数的综合检验
将各组的WOE值代替原值代入Logistic模型中,反复比较各模型之间的运行结果,最终利用向前——LR的方法确定最终的模型版本,其结果显示,参数整体是显著不为0的,p值都低于0.05的显著性水平,参数估计效果较好;而经修正的R方等于0.875,数据较高,可以接受该模型拟合性;以0.05作为置信水平,6个指标变量都通过了wald假设检验,被保留在模型之中。即该模型同时通过了参数整体检验、拟合优度的检验和wald假设检验。通过数据处理和模型检验得到的回归结果,6个变量对能否成功借款均有显著的影响。得到的样本模型为:
从上述模型中可以看出,借款准时还款笔数对借款人的信用风险影响最大,借款金额、年利率、投标笔数、逾期未还笔数以及是否有收入证明对借款人的信用风险影响较大。
(4)对训练样本进行检验
本文确定最优分割点的方法是通过ROC曲线偏离度最大的一点来确定的,即在此概率下,所抓取的好客户的比例与坏客户比例的差值达到最大,此时是最优的切割点。
训练样本ROC曲线下方的面积为0.948,拟合效果非常好,其显著性较为明显,通过检验,能够显著区分好坏客户。
拟合过程太多,中间过程的灵敏度与特异度使用省略号省略,根据灵敏度与特异度的乘积最大的原则,计算得出0.872*(1-0.052)=0.82557,其对应的概率值为0.802433,即为最佳分割点。因此,当返回概率大于0.802433时,客户将被模型预测为好客户,当返回概率小于0.802433时,则被预测为坏客户。
图1 训练样本的ROC曲线
(5)对模型进行检验
由表3可知,该模型对训练样本的总体预测准确率达到86.45%,其中192个坏客户中,只有8个坏客户被误判为好客户,正确识别率达到95.83%;960个好客户中,有162个好客户被误判为坏客户,正确识别率为84.58%。
表3 训练样本回带检验预测准确性
(6)模型预测准确度测试
为进一步说明模型的区分能力,选取348个测试样本,经过上述数据处理过程,代入模型,得到的ROC曲线下方的面积为0.972,拟合效果较好,其显著性也通过相关检验.
同时,该模型对测试样本的总体预测准确率达到94.25%,如下表4所示。
表4 测试样本回带检验预测准确性
测试样本的判断结果与训练样本的预测准确率基本一致,预测准确度高,模型稳定,证据权重逻辑回归模型具有推广应用的价值。
三、结论与建议
(一)结论
经检验模型有很好的预测效果,同时得到以下一些结论:
(1)在所有影响较大的变量中,有借款金额、年利率、投标笔数、否有收入证明以及准时还款笔数都与借款成功率成正比,且准时还款笔数对借款成功率的影响最大,仅逾期还款笔数呈负相关。
(2)由于其客观不可获得性而被剔除的部分变量,可能是借款成功率较有影响的因素,信贷平台应加强信用信息的审核与完善,模型预测应进行动态更新,以提高其实用价值。
(3)对模型进行测试需要更多的样本数据支持,对模型也需要不断测试和调整,在正确率有所保障的前提下再代入测试样本做回带检验,以达到更好的预测效果。
(二)相关建议
基于上述结论,本文针对性的对网贷平台的发展提出下列相关建议。
(1)建设平台信息核实制度
首先是网贷平台对个人信用信息的真实性核实与验证,应建立和完善个人网贷平台的个人信息登记与管理制度。其次是审核借款者的信用信息,理性分析借款金额、年利率等因素,正确处理借款者的借款行为。最后是平台应建立信用信息动态监控机制,定期要求借款者更新相关信用信息,掌控违约风险。
(2)成立行业协会规范平台运营
成立个人网络信贷行业协会,制定相关行业准则,并将制定好的行业准则与有关金融机构沟通,促使机构立法保证行业监管;个人网贷平台管理机构应该建立信息共享平台,对外公布的数据应统一全面,结构体系完整。
(3)完善政府监管体系
完善政府监管体系应当从以下几个方面入手:第一,政府推动第三方机构成立,对个人网贷平台资金进行托管与监督,对个人网贷平台的账务及借款者资料进行独立审计,保障平台运作流程的合法合理性。第二,完善社会征信系统。加快政府各部门信息化,采集完整的个人信息、住房公积金、社保等公共事业单位记录,实现借款者信用信息联网化,控制平台信用风险。第三,目前个人网贷平台尚未接入央行征信系统,应促使人民银行、银监会、证监会等部门建立个人评级体系,高等级平台可优先接入央行征信系统。第四,政府应主导制定相关法律措施对违约行为进行处罚并公示,解决个人网贷平台借款者违约成本低的难题,降低违约率。
(南京航空航天大学经济与管理学院,江苏 南京 210016)
[1] 张婧婕. P2P网贷成功率影响因素实证研究 [D].陕西师范大学,2015.
[2] 李孟来. 我国个人信用评分模型的应用探讨 [J]. 金融管理与研究:杭州金融研修学院学报,2009,2):52-4.
[3] 甘信军,杨维强. 证据权重方法与信用风险控制 [J]. 山东大学学报(理学版),2014,49(12):55-9.
[4] 史小康,何晓群. 有偏logistic回归模型及其在个人信用评级中的应用研究 [J]. 数理统计与管理,2015,34(6):1048-56.