大数据下P2P网络信贷行为的风险研究
2018-04-03韩颖
韩 颖
(铜陵学院新校区,安徽 铜陵 244061)
P2P网络借贷(简称“P2P网贷”)又称为互联网金融点对点借贷,随着计算机技术的快速发展,传统金融业与互联网相互融合,形成了新的行业——互联网金融,而P2P网络借贷则是互联网金融的一个重要的组成部分,P2P网络借贷平台,是P2P借贷与网络借贷相结合的互联网金融(ITFIN)服务网站,P2P借贷是英文peer to peer lending的简写,其中peer指的是个人.近几年来,P2P网贷平台大量涌现,同时也伴随着巨大的风险,为了了解P2P网络借贷借款人的信用风险,本文通过建立二元Logistic回归模型分析影响借款人借款行为的影响因素,从而可以减小借款违约率,降低借款人的信用风险,同时为能够建立一个能使客户放心的、安全的、高效的交易平台提供决策依据,使P2P网贷行业得到健康地发展,为客户提供更优质的服务.
1 Logistic回归模型
当回归模型里的被解释变量为二分类变量时,二元Logistic回归模型[1]是研究被解释变量与解释变量之间关系的常用方法,本文中将被解释变量分为正常借款人(没有违约)和非正常的借款人(违约客户),这正是一个二分类问题,二元Logistic回归模型能很好地解决此类问题.二元Logistic回归模型里解释变量可以是分类变量,也可以是数值型变量,此模型的核心思想是:假设用y表示借款人申请贷款这一事件,取值为1时表示借款人没有正常还款(违约),取值为0时表示借款人正常还款(履约),用1和0作为被解释变量的取值进行回归[3].本文通过建立二元Logistic回归模型得到借款人发生违约的可能性,即因变量取值为1的概率,所以回归模型结果具有直观含义.
2 数据预处理与指标选取
2.1 数据来源
本文采用的分析数据来自P2P网贷公司(青蚨普惠)关于借款人信息数据,它全面记录了每一个借款人的信息资料,由于部分数据缺失,并且本文里重点对P2P网贷平台里安徽省借款人的信用进行信用评价,本文选取了安徽省5个地区的借款人的177条信息,这5个地区分别为合肥、安庆、马鞍山、阜阳和蚌埠.迄今为止,正常的借款人(没有违约)人数为120位,非正常的借款人(违约)人数为57位.
其中,借款人的信息资料里包括借款人的姓名、性别、年龄、借款人所在地区、借款人电话号码、开户银行、银行账号、身份证号、工作性质、有无住房、婚姻状况、借款合同金额、借款期数、借款利率、期供(每期还款额)、产品类型、客户状态、合同编号、客户经理和户口所在地等信息.
由于客户资料的隐私性,这些借款人信息资料只是内部资料,没有公开,但是资料信息较为全面,可以将以此数据资料作为数据分析的来源,分析我国(特别是安徽省)目前P2P网贷平台的现状以及风险,具有很好的现实指导意义.
2.2 数据预处理
在建立回归模型前,要对数据进行整理,同时还需要对数据进行转换,数据整理是为了确保模型建立的有效性,将原始数据里与借款人个人信用风险评价体系没有关系的数据去掉,例如将借款人姓名、合同编号、借款人电话号码、开户银行、银行账号、身份证号、客户经理、户口所在地等这些数据信息删除.数据转换是将数据按照同一种方法、同一种模式将里面存在不规范的数据进行转换.
2.3 指标选取
指标的选取对模型的建立相当重要,特别是自变量的选取.通过阅读大量文献[5]并结合P2P网贷平台客户资料的特点,从借款人基本信息、借款状况、财务信息等方面,确定了下列借款人4个方面的信息指标作为借款人信用风险评价的备选指标.
2.3.1借款人基本信息
借款人自身的信息,包括性别、年龄、婚姻状况、借款人所在地,这些信息为借款人的基本信息资料,获取这些数据资料的难度不大,同时通过基本信息资料能够了解借款人的基本偿还债务的能力,此类指标对借款人是否有违约风险有一定的影响作用.
2.3.2借款人职业信息
借款人职业相关的信息,包括所属行业、工作年限.
2.3.3借款人固定资产信息
主要指借款人住房性质(有无自有住房),根据此类信息可以掌握借款人的固定资产状况.
2.3.4借款产品信息
借款产品信息包括产品类型、借款期限、借款合同金额、月还本息、借款利率,这些指标对借款人是否有违约风险影响作用很大.
通过以上的分析,表1给出了借款人信用风险评价备选指标表,包括一级指标和二级指标.
表1 借款人信用风险评价备选指标表
从借款人信用风险评价备选指标表中可以看到,其中的备选指标有12个,解释变量指标比较多,有些指标间存在着很强的相关关系,例如借款金额与月还本息这两项指标具有明显的正相关关系,一般借款金额越大,月还本息就越大,如果我们将这两个指标同时都引到回归模型里会造成多重共线性的后果.如果模型里的解释变量之间存在多重共线性,会对Wald统计量产生影响,进而影响模型的参数估计及预测效果.因此应消除多重共线性,
对于可能产生的多重共线性本文采用VIF(方差膨胀因子)进行检验,VIF越大,显示共线性越严重.一般认为当VIF值>10时,存在较强的多重共线性,通过共线性的检验,除去月还本息(x11)和工作年限(x12)这两个变量,保留在模型里有10个变量.
对应的10个解释变量的取值情况如表2所示,其中的解释变量包括数值型变量和分类型变量,下表为10个解释变量和被解释变量(y)的具体取值信息.
表2 变量分类取值表
3 模型建立与分析
首先得出样本数据及变量的描述性统计量的基本信息,如表3和表4所示.
表3 样本数据说明表
表4 样本描述性统计量表
表3显示本文的有效样本量为177个,其中,违约的借款人有57人,没有发生违约的借款人有120人,同时,表4给出了变量的简单描述性统计量,筛选后的10个变量的均值和标准差,发生违约与不发生违约的借款人对应的变量的均值和标准差相差不大.
3.1 模型检验
对二元Logistic回归方程进行检验包括回归方程的显著性、回归系数的显著性检验、回归方程的拟合优度检验.
3.1.1回归方程的显著性检验
3.1.2回归系数的显著性检验
3.1.3回归方程的拟合优度检验
在logit回归模型里,对于模型的拟合程度的好坏,可以从两个方面来考察,第一:回归方程能够解释被解释变量变差的程度,第二,由回归方程计算出的预测值与实际值之间吻合的程度,即方程错判率的高低.常见的指标有:1)Cox&Snell R2统计量;2)Nagelkerke R2统计量;3)混淆矩阵;4)HL 检验.
本文用y表示借款人借款这一事件,取值为1时表示借款人没有正常还款(违约),取值为0时表示借款人正常还款(履行合约),用1和0作为被解释变量的取值建立回归模型,得到模型系数的综合检验如表5所示.
表5 模型系数的综合检验[4]
从表5中可知,本步所选变量均进入方程,似然比卡方检验的观测值为17.360,概率p值为0.002,如果显著性水平为0.05,此时p值远远小于显著性水平,应拒绝所有回归系数同时为0的原假设,认为所有回归系数不同时为0,解释变量整体与logit P之间的线性关系显著,因此采用该模型合理.
表6 模型汇总
表6显示了当前模型的拟合程度优劣的指标,-2倍的对数似然函数值越小则模型的拟合优度越高,同时,Nagelkerke R2为 0.561,可以看出,模型的拟合程度较好.
3.2 回归结果分析
通过在SPSS统计软件里选择向后逐步进入法建立二元回归模型,经过十步回归,最终保留在模型里的解释变量为年龄(X2)、工作性质(X4)、借款人所在地(X5)、合同金额(X7)和借款利率(X9).结果如表7所示.
从Logit回归方程中可以看出,留在模型里的5个指标是:年龄、工作性质、借款人所在地、合同金额和借款利率.这5个指标对模型具有显著的影响作用,对评价借款人信用风险起着关键性的作用.其中:借款人的年龄越大,其违约的可能性越低,信用风险就越小;借款人的工作性质里职位越高,其违约的概率越小,风险越低;借款人所在地经济越发达,违约的概率就越小,风险越低,借款人的借款合同金额越大,违约的概率越大,风险越高,借款人的借款利率越大,违约的概率越大,风险越高,同时,Exp(B)值代表自变量对因变量的影响程度,取值越大,说明违约的概率就越高,从回归模型可知,年龄、借款人的工作性质、借款人所在地对因变量影响较大,而借款合同金额、借款利率对因变量的影响效果相对而言较小.
表7 方程中的变量
4 模型效果验证
表8 分类表
表8显示了Logit回归初始阶段的混淆矩阵[6],120人没有逾期且模型预测正确,正确率为100%,57个人逾期了但模型均预测错误,正确率为0%,模型总的预测正确率为67.8%,效果不是很理想.
从表9的结果可以看出,当所选择的指标作为方程的解释变量时,模型对于没有逾期的分类准确率为90.8%,对于逾期的分类准确率为42.1%,模型总的分类准确率达到75.1%.这个结果比之前没有解释变量进入模型时准确率要提高很多,因此二元Logit模型评价效果较好.
表9 分类表a
5 结论与建议
(1)借款人的年龄、工作性质、借款人所在地、借款合同金额、借款利率对借款人的违约率有显著的影响;(2)从回归模型可知,在影响因素里,年龄、借款人的工作性质、借款人所在地对因变量影响较大,而借款合同金融、利率对因变量的影响效果相对较小.(3)当所选择的指标作为方程的解释变量时,模型总的分类准确率达到75.1%,比之前没有解释变量进入模型时的分类准确率要提高很多,二元Logit模型评价效果较好.
因此,本文认为,对于借款人而言,不要一次性借高数额的贷款,这样违约的风险就大,对于监管部门而言,应该实现大数据资源共享,逐步完善个人征信体系[7],能够充分读取到借款人的个人信息,从而降低借款人信用风险.
参考文献:
〔1〕薛薇.SPSS统计分析方法及应用[M].北京:电子工业出版社,2013.212-229.
〔2〕袁羽.基于Logistic回归的P2P网络贷款信用风险度量[J].上海社会科学院,2014(04):32-36.
〔3〕董梁,虎明雅.基于Logistic回归模型的P2P网贷平台新进借款人信用风险研究[J].江苏科技大学学报(社会科学版),2016(9):3-5.
〔4〕温小霓,武小娟.P2P网络借贷成功率影响因素分析——以拍拍贷为例[J].金融论坛,2014(3):1-2.
〔5〕王梦佳.基于Logistic回归模型的P2P网贷平台借款人信用风险评估[J].北京外国语大学,2015(6):13-16.
〔6〕汪莉.基于Logistic回归模型的中小企业信用评分研究[J].合肥工业大学,2008(4):30-35.
〔7〕杜永红,石买红,史慧敏.大数据环境下P2P网贷平台的风险防范与评估 [J].会计之友,2016(22).