P2P网络借贷借款人违约风险及影响因素探究
2018-08-10管河山
李 星 管河山 王 谦 刘 倩 涂 俊
(南华大学经济与法学学院,湖南 衡阳 421000)
一、引言
P2P网络借贷(Peer to Peer Lending)是投资人通过网络借贷平台将资金出借给资金需求一方的一种互联网借贷方式。传统的借贷则需要传统金融机构作为媒介,而P2P网络借贷直接跳过该种方式是一种个人对个人的借贷模式。借款人和投资方通过在P2P网络借贷平台上注册后,由借款人发布借款信息、投资方自由选择合意的投资。P2P网贷平台主要负责对借款人信用情况进行审查与评估并收取账户管理费和服务费,借款人逾期违约则P2P网贷平台则有追讨的责任,其本质是一种民间借贷形式,但是借助互联网将区域甚至全球的借贷行为紧密的联系在一起。P2P网络借贷作为我国多层次金融市场的重要组成部分,经过十多年的发展,我们可以看到其在普惠金融方面带来的价值,如解决中小借款者资金困难,为资金富裕者提供高收益的理财平台,为资金供求方搭建了高效、快捷的资金投融资平台。P2P网络借贷平台的发展难免遇到的问题——风险管理。P2P网络借贷平台,因其发展历史较短、行业数据积累有限、规模所限等原因,其风险控制能力相比传统的商业银行有待提高。其所存在的风险常见有信用风险、法律风险、监管风险、投资风险、自律风险、结算风险和信息安全风险等等。诸多风险中由于信息不对称导致的信用风险是P2P网络借贷平台本身所面临的最主要风险之一,国内第一家P2P网络借贷平台拍拍贷的CEO张俊(2016)表示个人信用评估体系是核心竞争力[1]。
本文研究的主要目的在于通过P2P网贷平台中借款人身份特质信息对其进行信用进行简单的评估,其评估的标准用流标次数来表达,即同等条件下,流标次数越多表示借款人的信用水平越不受投资者认可。P2P网贷平台筛选影响借款人信用风险的主要因素,确定适当的自变量,建立一个简易的信用风险评估模型,以其提高平台对借款人信用风险判别的准确度并给出一个相应的评估,从而帮助投资者提高鉴别信借款人信用风险能力,降低投资者潜在的损失。
二、文献综述
P2P网贷借款人信用风险评估的影响因素首先需要对信用风险评估指标选取研究。对评估影响借款人个人信用风险指标选取的研究主要分为两大类:如婚姻、教育、借款描述、地区、种族等定性信息;如年龄、收入、工作年限等定量信息。借贷人的生理特征甚至会影响P2P网络借贷信用风险。Ravina(2007)指出,人种、性别、体重、容貌、年龄等特征是成功获取P2P网络贷款的重要因素[2]。Ravina(2008)利用Prosper平台的交易记录来研究借款人生理特征对其行为的影响,发现借款人种族和相貌对其是否能借到款项以及借款利率有着显著影响,例如,由于部分地区存在种族歧视等问题,投资者普遍认为黑人的信用风险高、违约率高,黑人借款成功率极为低下[3]。Barasinska(2009)则从投资者角度研宄发现投资者性别会影响他们对借款人的选择:女性本身比男性更厌恶风险,倾向于选择风险较低的借款人,但女性却不如男性理性,通常会要求较高的收益,所以在投资决策时,女性容易受到非理性问题干扰,投资于信用较差的借款人,更易出现逆向选择问题[4]。但是Herzenstein等(2010)指出,种族和性别等特征对于成功获取贷款的影响很小[5]。性别在借贷中的影响有学者对此进行了佐证。汤英汉(2014)借款人违约表现中性别和区域分布有一定的影响,女性要高于男性,区域分布上在网贷违约中表现出差异,西部、中部、东部依次增高,但是实证研究显示相关性并不明显[6]。婚姻在网络P2P网贷中对借款者个人信用评估有一定的作用,婚姻与否,在一定程度反映借款人的工作与生活的稳定与否以及财产的支配权。不同特征的人结婚,对于信用提高所起到的作用也是不相同的。男性、年轻人、低学历结婚分别不如女性、高年龄、和高学历的借款者结婚(郭峰,2017)[7]。学历从某种程度上反映一个人的认知和一定的学习能力和教育水平,按照常规来说,借款人的学历与收入呈现为正相关,违约风险越低。但是唐艺军等(2015)对来自陆金所P2P网贷平台的借款人数据分析发现,学历和信用风险呈正相关,这些借款人的的多数在本科以下,这可能与这些借款者长期在社会上,社会交往中更加重视个人信用不无关系[8]。借款描述往往是对借款用途、自我定义、目前现状和潜在的未来希望等的状况的一种反映,可以有效的缓解对借贷双方的信息不对称问题(Herzenstein et al,2011)[9]对借款描述是否会影响借款行为进行了分析,结果显示借款人人格数量与借款成功率呈正相关。但是借款描述便不是越多越好,信用等等级越低的借款人,往往有添加借款描述的倾向。王会娟等(2015)通过人人贷P2P网贷交易数据中选取有借款描述的样本,提取其中有展示借款人人格的信息,发现借款描述中人格描述的数量展示越多,越能吸引投标人,能用更短的时间获得借款[10]。借款描述中的标点数量甚至都透露着借款人信用信息。Xiao Chen(2017)等研究指出数量一定的词语中,标点符号的过度使用会使借款描述变得不正式,又降低了文本的可读性进一步的降低投资者对借款人的信任[11]。
近些年随着互联网的发展对信用风险的评估已经不在局限于传统的数据,已经开始涉及一些网络数据。乔启昌(2014)借助于互联网技术的发展,以及社交网络和云计算的广泛应用,将它们和P2P网贷结合起来,完全有可能促进P2P网贷在信用判断环节的判断能力,也可以提升借款人的申请效率,同时改善国内的信用体系[12]。王楚珺等(2015)利用大数据对P2P网贷进行风险控制在大数据时代的背景下考虑P2P网贷的风险控制,研究出个人基本资料、社交网络情况、电子商务平台、借款人的资金情况这四个数据指标会影响到借款者信用[13]。当然除了这些定性分析,关于社交网络等新兴数据对信用风险影响定量目前也有相关研究。李明思等(2016)将Probit回归模型运用在社交朋友网络资本与借贷交易两者之间的影响。研究发现,借款人在P2P网贷市场中的社交朋友网络资本的质量的高低与其借款成功的可能性大小成正比,与支付的利率、违约的可能性大小成反比[14]。
三、基于拍拍贷网贷平台的实证分析
(一)数据采集
通过爬虫编程对拍拍贷网站借款人数据进行采集。采集到的数据包括借款人ID、标题、借款日期、第一次成功借款时间、借款金额(元)、借款年利率、期限(月)、借款进度、性别、年龄、文化程度、毕业院校、学习形式、成功借款次数、流标次数、成功还款次数、信用等级(AAA、AA、A、B、C、D、E、F)、认证。共采集有效数据 7144条。这些数据类型既包括刻度级如借款年利率,又包括序次级如文化程度,还包括名义级如性别,数据类型丰富。
(二)数据处理
由于采集到数据的数据不能完全符合目标数据,需要对采集到的数据进行一定程度的清洗和预处理。
1.数据清洗。“文化程度”一栏中,大部分数据(6155/7144)为“无”,所以对该部分数据分析意义不大。“毕业院校”、“学习形式”因同样原因对此统一删除。最终清洗出来的数据如下所示,ID为借款人账号,为保护其隐私对其ID后四位隐去,x2表借款年利率、x12表示拍拍贷平台给他的信用的等级划分、x13为拍拍贷平台对他的认证个数、y表示流标次数。
2.数据预处理。“信用等级”(X12)为序次级数据。共有AAA、AA、A、B、C、D、E、F八个等级,这八个等级的信用等级逐渐降低。对八个等级分别用 1、2、3、4、5、6、7、8 八个数字标记。当信用等级在AAA、AA、A 是计为 y1=1,否则 y1=0。
表3-1 信用等级频率分布
“认证”(X13),数据类型为刻度级。数据的属性值分别有身份证认证、手机认证、学历认证、户籍认证、人行征信认证、视频认证。每个人认证的个数不同,因此该栏包含的认证个数也不同。如果有一个认证则计为 1,两个认证计为 2,依此类推,分别是 3、4、5、6。当“认证”个数为 0,1 或 2 时记 y2=1,否则,y2=0。
表3-2 认证个数频率统计
“借款年利率”(x2),数据类型为刻度级;当借款年利率小于等于20%时计为y3=1,否则y3=0。频率统计中由于0.07~0.1、0.14~0.19、0.21~0.22、0.23~0.31、0.33~0.36 区间跨度大、区间统计可统计数据少,同时为了制作表格美观,进行了合并。借款年利率小于21%的标记为y3=1,大于等于21%的标记为y3=0。
表3-3 年利率频率统计(%)
“流标次数”(y)一栏中,数据类型为刻度级。记录着该借款人的流标次数。流标是该借款人在规定的时间内,没有投资人投标或者投资额度不够从而未能完成标的。在一定程度上反映了市场对该借款人的认可。而该认可主要来源于平台对借款人信息的披露等多方面因素。因此该栏作为因变量。频率统计中由于区间7~31统计中少同时为了制作表格美观进行了合并。通过本次统计可知:流标次数分别有 0、1、2、...、31。当流标次数为 0,1,2 时,记 result=1,否则result=0。通过分类输出变量result(流标次数,1表示流标次小于3,0表示流标次数大于等于3)。现在主要目的就是考察前三个变量与流标次数之间的关系。
表3-4 流标次数频率统计
(三)实证分析
1.Logistic回归模型简介。通过《SAS编程与数据挖掘商业案例》易知,假设在自变量X1,X2,...Xn下作用下,某事件发生的概率为p,则该事件不发生的概率为1-P,P/(1-P)为发生和不发生的概率之比,记做 odds,odds=p/(1-p),对 odds取自然对数,得到:longit(p)=ln(odds)=ln(p/1-p);称为P的longit变换,则longistic回归模型为:
概率计算公式为:
Logistic回归是一个分类模型,目标变量的值是一个分类标识,更关注观测值和预测值之间的相对一致性,而不是绝对一致性。
2.结果分析。本文采用SAS软件进行处理,建立Logistic回归模型,数据分析结果如下图:
图3-1 SAS数据处理结果分析图
图3-2 SAS数据处理结果分析图
输出结果中模型拟合统计量一项是拟合优度检验。主要通过Testing Global Null Hypothesis:BETA=0(测试全局零假设:Beta=0)这部分来观察是否符合要求。原假设是所有变量的参数为0,根据检验结果可以看出P<0.001拒绝原假设,即变量的参数不全为0。参数估计一项中通过输出的结果可以发现Intercept(截距)、y1,y2,y3他们的 p 值均小于 0.0001,可以说 y1,y2,y3三者均是非常显著的解释变量。据此可以得到回归方程的表达式子如下:
其中参数y1,表示拍拍贷网贷平台对借款人的信用评级;y2,表示拍拍贷网贷平台对借款人的认证的个数;y3,表示借款人发出的标的承诺的年利率。该模型,表示借款人流标次数小于3次的成功概率。
图3-3 Logistic回归模型实例应用
由前文分析可知:odds=p/(1-p),有p=odds/(l+odds)。假设有一借款人,发出的借款标的的年利率低于21%,拍拍贷平台给他的信用等级划分为.大于等于4(即其信用等级在B及B以下)、他在平台“认证”的个数小于3个,那么他流标次数小于3次(信用水平受市场认可的概率)仅为40.64%。如图所示。
优比估计对比率Odds Ratio的估计。y1的odds ration的点估是0.577,对y1来说,95%的置信区间不包括1,说明y1是一个非常显著的解释变量(注:比率的置信区间不包括1,就跟p值小于0.05一样是一个规则);同理,y2、y3的95%的置信区间不包括1,也是一个非常显著的变量。
预测概率与观测到的因变量间的关联性这项看到一致性比率Percent Concordant为38.7%,不一致性比率Percent Discordant为26.1%,说明预测值与观测值在现有水平上有较强的关联性,回归模型有较强的预测能力。C统计量度量观测值和条件预测概率之间的相一致性。该值越大越好。C统计量为0.563,说明观测值和条件预测概率之间的相一致性较高。
四、结论与展望
本文构建了违约风险的logistic回归该模型,可以简易分析市场通过借款年利率、平台给借款人的信用等级及平台对借款人的认证数量来评估该借款人的个人信用水平受市场的认可度。未来P2P网贷对借款人的信用风险评估不仅仅局限于借款人的传统数据,将会在大数据技术之下结合借款人的传统数据如年龄、性别、学历等和网络数据如社交数据、网上消费数据等数据的基础上建立一个更为完善信用风险评估模型,以帮助P2P网贷平台和投资者更好的规避潜在风险和做出正确的抉择。