APP下载

P2P网贷出借人投资行为影响因素研究

2018-04-04金颖婕

关键词:信用等级借款人决策树

宋 华,金颖婕

(武汉理工大学 管理学院,湖北 武汉 430070)

P2P(peer to peer)网贷是一种以点对点形式进行的互联网民间借贷模式。近年来,互联网金融的发展势头越来越强劲,P2P凭借其低门槛、方便快捷的特性受到了人们的热捧。在我国缺少资金实力的中小企业普遍存在融资难的问题,成为企业发展滞缓的主要因素之一,所以P2P信贷的产生从某种程度上来说是个人和中小企业的福音。对于这种金融脱媒的信贷渠道,很大程度上加快了金融资本的流动速度,缓解了企业融资压力,从而促进了企业与国家经济的发展。然而,由于出借人与借款人之间存在的信息不对称而产生逆向选择,使得许多本可以成交的融资活动以失败告终。笔者将探讨影响出借人投资意愿的因素以期提高借贷成功率。另外,由于相关学术研究起步较晚,监管体系不够健全,因此对于P2P网络借贷市场进行研究有着重要的意义。

1 文献综述

国外对于网络信贷研究起步较早,网络信贷行为影响因素的文献也较多。FREEDMAN等[1]利用Prosper平台上2006年6月至2008年7月的数据进行研究,发现随着Prosper平台的不断发展和改善,要求借款人提供的信用信息更加详细,出借人的逆向选择程度有所减轻,从而促进借款成功率的提高。LIN等[2]研究表明借款人的信用等级、社交网络影响着其借款成功率。IYER等[3]指出,出借人会根据借款人丰富的硬信息和软信息评判借款人的信用表现。HERZENSTEIN等[4]通过对人口特征、经济实力和努力程度等变量的分析,发现种族、性别因素对于融资成功率的影响远小于经济实力和努力程度的影响。POPE等[5]不仅分析出各影响因素及其不同取值产生的影响大小,还指出年龄与借款成功率成反比。由于国外拥有健全的征信系统,出借人对于信用等级的信任程度远大于国内出借人,不同的金融市场背景也会对研究结果产生影响,因此国内的研究对于笔者更具有参考价值。但国内的研究起步较晚,早期研究主要是阐述P2P存在的风险及监管模式。近年来,已有较多学者对网络信贷行为进行研究。如董梁等[6]利用社会网络分析法对P2P网络借贷领域的研究现状和发展阶段进行分析,认为P2P网贷研究已逐渐成为学术界关注的热点。宋文[7]研究表明,网贷行为最重大的影响因素是P2P平台的抵押担保信息和借款人的信用信息,极大程度上影响了借款成功率和融资成本。王会娟等[8-9]认为线上与线下相结合的信用认证机制能够提高融资成功率,降低借贷双方的信息不对称性;且不同的人格特征会对信贷行为产生不同程度的影响。从上述文献可以发现,以借款人详细的个人信息作为影响因素进行研究是必要的。在借款人信息中,不同信息的影响强弱均有差别,同时在研究内容上更趋向于精细化。

现有的研究中,主要使用计量模型对影响因素进行建模,而笔者采用数据挖掘的方法进行分析,避免了传统量化研究中的先验假设,不需要理性人假设以及变量的优先级,仅利用行为数据进行挖掘,这在研究不足的探索性问题上有更强的适用性[10]。

2 研究方法

2.1 样本选择与变量定义

笔者选择人人贷网站的数据作为样本。人人贷建立于2010年5月,是国内P2P平台的领军者之一,并且人人贷的借贷人的信息披露较为完善,数据丰富。笔者随机选取了不同时间段的散标投资数据,利用Gooseeker网络爬虫软件,对网页中的主要借贷数据进行采集。初始样本为1 488个,剔除有缺失值的样本数据后,最终样本为1 440个。选取的变量主要可以分成两大类:标的信息和借款人信息。筛选后的具体变量如表1所示。

表1 变量定义

对数据进行了如下处理:对某些数值型变量的类型进行处理,将信用评分按照网站的信用评级机制进行处理,分为AA,A,B,C,D,E,HR 7个等级;对连续性变量进行分箱处理;对二分类型变量进行0-1化处理。将散标状态作为目标变量,即“成交”变量,其中已流标的样本散标状态记为0,成交的记为1。选取65%的样本数据作为训练集,35%作为测试集。

2.2 研究模型建立

由于所采集的样本变量中含有许多分类变量,用一般的计量模型时需要对这些变量进行转化,而决策树算法、贝叶斯网络可以直接对分类变量进行有效分析,因此作为首选模型。笔者尝试利用C5.0决策树算法、贝叶斯网络得出的结果进行综合分析,并得出最终结论。

2.2.1C5.0决策树算法

C5.0决策树算法用于建立多叉的分类树,要求输入变量为数值型或分类型,输出变量为分类型。其原理是通过比较信息增益率大小,选择信息增益率最大者作为最佳分组变量。

信息增益率是在信息增益的基础上得到的,而信息增益又是通过信息熵进行计算的。信息熵表示信息量的期望值,是在信息未知情况下的平均不确定性,即先验熵。其数学表达式为:

(1)

当信宿收到vj后获得的对信号U的信息度量值,即后验熵。其数学表达式为:

Ent(U|V)=

(2)

其中,P(ui|vj)表示在已知vj信息的条件下,ui信号产生的概率。信息增益反映了收到信息后所消除的不确定性,记为Gains(U,V)。

Gains(U,V)=Ent(U)-Ent(U|V)

(3)

为消除类别数目所带来的影响,C5.0引入信息增益率作为选择标准。其数学表达式为:

GainsR(U,V)=Gains(U,V)/Ent(V)

(4)

因此,信息增益率最大说明增加此信息可以消除信宿对信源的不确定性最大,因此将该变量作为最佳分组变量,同时也说明该变量对信宿影响最大。对于数值型变量,通常是先进行分箱处理,再根据以上步骤进行判断。同时,为了防止出现过度拟合的现象,对C5.0决策树进行修剪,通过设置置信度来确定决策树的深度。

2.2.2贝叶斯网络

贝叶斯网络利用概率的思想计算后验概率,比较在不同已知条件下目标变量发生的概率,从中选择概率最大的作为最具影响力的变量。贝叶斯公式,则有:

P(y|x1,x2,…,xn)=

(5)

式中:x1,x2,…,xn为输入变量X1,X2,…,Xn对应的一个取值集合;y为输出变量。另外,式(5)成立的前提为输入变量之间有条件独立,即:

(6)

将式(6)代入式(5)中,可得后验概率为:

P(y|x1,x2,…,xn)=

(7)

在对测试集数据的输出变量进行预测时,可利用训练集中的相关变量取值集的后验概率大小来预测最终结果。然而,贝叶斯网络的假设前提要求各输入变量相互独立,使其不适用于许多实际情况。由于输入变量间可能存在依赖性,因此概率乘法公式为:

P(x1,x2,…,xn)=P(x1)P(x2|x1)·

P(x3|x1,x2)…P(xn|x1,x2,…,xn-1)

(8)

因为当变量之间相互独立时,P(xi|x1,x2,…,xi-1)=P(xi),所以,只要确定哪些变量之间有依赖性,即可将变量之间相互独立的条件概率简化。贝叶斯网络图能够更直接地观测各输入变量之间的关联性并简化计算。马尔科夫毯网络是贝叶斯网络结构的一种,其构建方式主要是利用条件独立性检验,笔者采用条件对数似然率检验的方法。对数似然率检验的原假设(H0)为变量Xi和变量Xj独立。采用的检验统计量为:

(9)

在原假设成立时,检验统计量服从(|Xi|-1)×(|Xj|-1)个自由度的卡方分布。若检验统计量对应的概率小于指定的显著性水平,则拒绝原假设,并删除对应变量节点间的连接弧线。马尔科夫毯网络并不要求输出变量必须是所有输入变量的父节点,因此适合于笔者所研究的样本情况。

3 实证研究与分析

3.1 实验结果

利用SPSS Modeler软件建立上述模型,从误差和收益两个方面对模型质量进行评估。表2所示为C5.0决策树模型和马尔科夫毯网络模型的误差分析,分别记录了训练样本集和测试样本集的正确率和错误率。

表2 C5.0决策树模型和马尔科夫毯网络模型预测结果

从各模型预测结果的正确率来看,C5.0决策树和马尔科夫毯网络所构建模型的整体预测精度均较为理想。图1所示为不同模型的收益图,可以直观地看出这两个模型的累计散点图十分接近最优模型线。因此,笔者选择通过C5.0决策树与马尔科夫毯网络所得出的预测变量重要性的结果来分析出借人意愿的影响因素,可信度较高。

3.1.1C5.0决策树结果分析

当输入输出变量均为分类型时,利用卡方检验方法中的似然比卡方预测变量重要性;当输入变量为数值型、输出变量为分类型时,利用方差分析法预测变量重要性,再自动计算对应的1-p,在此基础上进行转换得到一个相对值,将第i个输入变量的重要性定义为:

(10)

图2所示为运用C5.0决策树算法计算得出的各影响因素的重要性,可以看出保障方式、信用等级、利率是众多变量中较为重要的影响借款成功的因素。其形成的决策树如图3所示,其中根结点“是”表示成交,“否”表示流标。

图1 C5.0决策树模型与马尔科夫毯网络模型收益图

图2 C5.0决策树得出的预测变量重要性

图3 借款成功决策树

3.1.2马尔科夫毯网络结果分析

运用马尔科夫毯网络分析各影响因素的重要性,如图4所示。其中预测变量重要性的测度指标是输入、输出变量独立性检验的1-p,经归一化处理后的结果。

图4 马尔科夫毯网络得出的预测变量重要性

从图4可以得出,保障方式、利率和还款期限是所有解释变量中最重要的。标的信息的重要性更加凸显,出借人对于标的信息的偏好也更趋于一致性。另外,由于P2P网贷市场的开放性和低门槛性,出借人的背景、价值取向也是多种多样的,因此不同价值取向的出借人表现出对借款人信息的不同偏好。

3.2 影响因素分析

出借人对于标的信息的偏好更趋于一致性,但对借款人信息的信赖程度不同,整体上标的信息比借款人信息对出借人的决策影响略强。笔者主要对重要性程度高的因素进行分析。

3.2.1标的信息的影响

(1)保障方式。保障方式是所有因素中最能影响出借人出借意愿的。用户利益保障机制是人人贷网站为保护出借人的共同利益而建立的信用风险承担机制,取代了以前的本金制度。与本金保障相比,用户利益保障机制增加了合作机构保障的内容,对于信用等级较低的借款人保证金计提比例提高了0.5个百分比,这说明了用户利益保障机制增强了保障力度。由此可见,人人贷网站保障力度的提高有助于借款成功率的提升,出借人对于保障力度强的借款出借意愿更强。

(2)利率。出借人倾向于选择利率介于10%~13%之间的散标,过低或过高的利率都更容易流标。由此可见,大多数出借人是较为理性的,对于风险的把握较为稳妥。

(3)还款期限。出借人更倾向于还款期限较长的散标,对于期限为3个月、6个月的这种短期借款出借意愿不强。

3.2.2借款人信息的影响

(1)成功借款数。出借人也十分重视借款人的历史成功借款记录,成功借款次数越多,所获得的借款成功的概率就越大。

(2)信用等级。信用等级与成交状态散点图分布如图5所示(为避免样本重叠,笔者设置图形显示方式为点散开),可以看出信用等级与借贷成功率并不完全呈正相关关系,反映出出借人对于信用等级高的借款人的认可度不一,但信用等级低普遍会给出借人带来不好的印象。这与国外许多文献中认为的信用等级越高,其借款成功率越高的结论不符。主要原因在于国外的征信系统十分完善,投资者对于信用等级的真实性较为相信,而中国征信系统尚不完善并且笔者研究的信用等级是网站根据借款人在该网站上的信息进行评分得出的,并不能全面真实地反映借款人的信用情况,因此,出借人对其认可度不一。根据信任理论,信赖度的提升能够降低交易成本,保证交易过程的顺利进展[11],因此提高信用等级的信赖度对于提高借款成功率很有帮助。

图5 信用等级与成交状态散点图分布

(3)学历。学历与借款成功率呈正相关关系,研究生或以上、本科、大专、高中或以下4类借贷人的成交率分别为88.9%、82.5%、80.0%、56.6%,学历为高中及以下的人群成交率最低。

4 结论

笔者利用数据挖掘技术从标的信息和借款人信息两个方面研究了P2P网贷出借人行为的影响因素,最终得出结论,认为出借人对于标的信息的偏好更趋于一致,其中保障方式、利率、还款期限对于投资者出借意愿的影响较大。出借人更偏好保障度高、利率适中、还款期限较长的借款。在借款人信息中,信用等级、历史借款信息、学历、收入等因素都会影响出借人的出借行为,但年龄、婚姻对于出借人影响不显著。高学历、历史成功借款数多的借款人更容易获得借款,信用等级高的不一定借款成功率高,但信用等级低的借款成功率普遍低。总体而言,出借人会综合考虑标的信息和借款人信息来进行投资。

根据上述结论,对目前的P2P市场及相关角色提出了一些建议。首先,从P2P平台角度考虑,为出借人提供更多样化的投资保障能在一定程度上提高出借人的投资热情;同时,P2P平台可以针对不同风险的借款制定利率上下限,这样一方面可以避免利率过高带来的违约率的提高,一方面又能防止利率过低而无法吸引出借人的投资热情;另外,P2P平台应加强对借款人身份的核实,增强信用等级的认可度,对借款人信息的真实性进行把关。其次,借款人可以通过完善个人信息以及保持良好的历史履约记录来降低融资成本。最后,监管部门应加大力度建设完善个人征信系统,规范违约惩处措施,提高信用等级评判的准确性,从而提高投资者对其的信赖度。个人征信系统的完善使借款人更重视违约后果的严重性,从而有效降低P2P市场的道德风险,信用评级可信度的提升也将很大程度地降低出借人的逆向选择问题,从而促使P2P市场的发展走向成熟。

参考文献:

[1]FREEDMAN S M, JIN G Z. Learning by doing with asymmetric information: evidence from prosper.com[R]. Cambridge, MA: National Bureau of Economic Research,2011.

[2]LIN M.F, PRABHALA N R, VISWANGTHAN S. Can social networks help mitigate information asymmetry in online markets[R]. Phoenix: Thirtieth International Conference on Information Systems,2009.

[3]IYER R, KHWAJA A I, LUTTMER E F P, et al. Screening in new credit markets can individual lenders infer borrower credit worthiness in peer-to-peer lending management[R]. Cambridge, MA: Harvard Kennedy School of Government,2010.

[4]HERZENSTEIN M, ANDREWS R L, DHOLAKIA U M, et al. The democratization of personal consumer loans? determinants of success in online peer-to-peer lending communities[J]. Bulletin of the University of Delaware, 2008,15(3):274-277.

[5]POPE D G, SYDNOR J R. What′s in a picture: evidence of discrimination from prosper. com[J]. Journal of Human Resources,2011,46(1):53-92.

[6]董梁,胡明雅.基于社会网络分析法的P2P网络信贷研究评述[J].武汉理工大学学报(信息与管理工程版),2016,38(4):508-511.

[7]宋文.P2P网络借贷行为的实证研究[D].上海:上海交通大学,2013.

[8]王会娟,廖理.中国P2P网络借贷平台信用认证机制研究:来自“人人贷”的经验证据[J].中国工业经济,2014(4):136-147.

[9]王会娟,何琳.借款描述对P2P网络借贷行为影响的实证研究[J].金融经济学究,2015,30(1):77-85.

[10]盛浙湘,尹优平,盛辉.中国P2P信贷市场中的借贷行为监管研究:基于前景理论的PPDai数据挖掘[J].公司金融研究,2015(2):1-23.

[11]SUH B, HAN I. The impact of customer trust and perception of security control on the acceptance of electronic commerce[J]. International Journal of Electronic Commerce,2003,7(3):135-161.

猜你喜欢

信用等级借款人决策树
浅论借户贷款情形下隐名代理的法律适用
一种针对不均衡数据集的SVM决策树算法
乡城流动借款人信用风险与空间收入差异决定
决策树和随机森林方法在管理决策中的应用
武器装备科研生产单位信用评价工作取得阶段性成果
协会圆满完成武器装备科研生产单位信用等级评价扩大试点工作
小微企业借款人
昌吉州建立事业单位法人信用等级评价体系
热词
基于决策树的出租车乘客出行目的识别