APP下载

基于随机森林的P2P网络借贷成功率预测研究

2016-02-07周玉琴张晓玫罗璇

关键词:借款人借款借贷

周玉琴 张晓玫 罗璇

(西南财经大学,四川成都 611130)

基于随机森林的P2P网络借贷成功率预测研究

周玉琴 张晓玫 罗璇

(西南财经大学,四川成都 611130)

P2P网络借贷成功率较低是P2P网络借贷市场快速发展瓶颈。探索借贷成功率提高路径,构建基于随机森林的网络借贷成功率评估模型,根据“人人贷”平台2015年一季度订单数据,选取借款人基本特征、历史信息、贷款特征及认证信息等33个变量,最大限度包含借款订单信息。研究表明历史借款成功率、未还清借款量、收入认证等是借贷成功率重要影响因素;预测P2P网络借贷成功率时,随机森林方法准确率明显优于Logistic回归模型等方法。

随机森林;smote算法;P2P网络;历史借贷成功率

P2P网络借贷依托于互联网技术与民间借贷,可快速发布信息并被投资者检索,促成交易高效匹配,提升市场效率。P2P网络借贷准入门槛较低[1](投资者仅需出资50元以上即可),参与方式较灵活,借贷双方具有广泛性。然而,由于交易通过互联网渠道完成,借款人可能是传统金融机构筛选后的“次级客户”,而借贷平台无法考查所有借款人情况,且出借人可能不具备良好风险识别与承受力,导致基于信用的网络借贷平台借贷成功率偏低,制约网络借贷市场持续健康发展。如何从大量借款订单信息中挑选少量预测P2P网络借贷平台借贷成功率,进而减少信息搜集成本,一直被监管层、投资者以及学者广泛关注。研究表明性别、借款人信用等级、年龄以及信用评级等对P2P网络借贷成功率具有显著影响[2-3],已有文献多采用统计模型(多元回归、Logistic回归和Tobit回归等)研究网络借贷成功率影响因素,但并未给出变量重要程度排序。虽然统计模型具有广泛适用性,但线性、非线性传统统计学严格假设条件要求预测变量、函数形式间相互独立,与实际函数关系不符。因此,本文运用机器学习方法中的随机森林算法研究P2P网络借贷成功率影响因素。

随机森林是一种非参数统计方法,预测准确率与噪声容忍度明显优于支持向量机、神经网络、决策树等机器学习方法[4]。近年来,随机森林被广泛运用到客户流失、信用风险管理、客户忠诚度研究等领域,学者发现较之Logistic回归与普通线性回归,随机森林预测效果明显更优[5-6]。因此研究引入非参数随机森林模型评估与预测P2P网络借贷成功率,为网络借贷平台、借款人及投资者提供参考。本研究与已有研究主要区别:一是运用随机森林模型评估P2P网络借贷成功率,并与其他模型比较评估准确率;二是运用随机森林模型分析各变量重要程度,降低数据维度,为投资者选取标的提供指标参考;三是在借贷成功率影响因素选择上,选取33个变量,最大限度包含借款订单信息。

一、网络借贷成功率评估模型

(一)Logistic回归模型

选择通用Logistic回归模型作为其他方法比较基准,可识别自变量对P2P网络借贷成功率的影响方向与程度。Logistic模型具体形式见式(1):

其中Pi为网络借贷成功率,βi(i=0,1,…,n)为待估计系数,Xi(i=0,1,…,n)为自变量,εi为随机误差项。网络借贷成功率指借款成功率变量为1的概率,自变量包括借款人基本特征、历史信息、贷款特征、认证信息等33个变量。

(二)随机森林分类模型

Logistic回归模型解决因变量不连续回归问题,但线性或非线性以及变量间独立传统统计假设与现实数据不符,为开发一种更精确通用方法解决此问题,数据挖掘与机器学习方法被广泛应用于预测,取得较好效果。大量理论与实证研究证明随机森林预测准确率较高,对异常值与噪声具有容忍度,且不易出现过拟合[4]。随机森林方法在生物信息学、农学和医学等领域应用,但尚未运用于P2P网络借贷成功率影响因素分析。因此,本研究选用此方法评估P2P网络借贷成功率。

随机森林方法具有很好自适应功能,结合随机子空间算法和Bagging算法特点与优势,以决策树为基分类器。在训练集抽样时采用Bagging算法无放回抽样法,借鉴随机子空间方法,在训练集中仅抽取部分特征训练,最终由训练决策树投票决定分类结果,如图1所示。即随机森林分类是组合分类模型,由若干决策树分类模型{h(X,θi),i= 1,…k}组成,且参数集{θi}是独立分布随机变量,在给定自变量X下,各决策树分类模型均有一票投票权选择最优分类结果。网络借贷成功率问题中,因变量为P2P网络借贷成功率(成功为1,失败为0),由于因变量是二值变量,估计模型采用随机森林二分类模型,而非随机森林回归模型。

随机森林分类器算法如下:第一步,从P2P网络借贷数据中抽取一定比例包含借款订单信息的样本集D作为原始训练集,剩余样本集作为预测集;第二步,运用Bootstrap重抽样方法从D中抽取k个子样本集,其中子样本集与原始样本集D样本容量一致,记为Di(i=1,2,…,k),并生成随机向量序列θi(i=1,…,k),通过构造不同训练集增加模型间差异,提高组合分类模型外推预测能力;第三步,从P2P网络借贷数据中筛选出用于研究网络借贷成功率的自变量矩阵X,然后对各子集样本Di(i=1,2,…,k)分别建立网络借贷决策模型{h(X,θi),i=1,…,k};第四步,构建多分类模型系统,该系统由经过k轮学习得到分类模型序列{h1(X),h2(X),…,hk(X)}组成,且最终分类决策可用公式(2)(说明最终分类由多数投票决策方式确定)表示,其中,Y为目标变量(或称输出变量),hi表示单个决策树分类模型,H(X)为组合分类模型,I(·)表示性函数。

筛选变量是随机森林重要特征,运用预测精度法与基尼值法评价变量重要性。首先,对生成的随机森林,用OOB(out-of-bag)数据(在使用Bootstrap方法抽样时,训练集中数据不会出现在各Bootstrap样本中,OOB数据即未被抽中数据)测试性能,得到原始OOB基尼值;其次,在OOB某特征值中人为添加噪声干扰(即随机改变特征值),用改变后OOB数据测试随机森林性能,得到加入噪声后的OOB基尼值;最后,相应特征重要性度量值为原OOB基尼值与加入噪声后OOB基尼值之差。加入噪声后OOB基尼值下降幅度越大,则该特征重要程度越高。

(三)模型评价标准

运用准确度、灵敏度和特异性指标比较各模型结果,准确度度量全部样本被正确分类比例,灵敏度度量正例样本被正确分类比例,特异性度量负例样本被正确分类比例。指标值越大,说明模型效果越好。通过混淆矩阵(见表1)定义三个指标,将值得关注的数据称为正类(本研究指贷款成功样本),其他称为反类。

准确度=100×(TP+TN)/(TP+TN+FP+FN)

灵敏度=100×TP/(TP+FN)

特异性=100×TN/(TN+FP)

二、变量描述与模型构建

(一)变量选择

根据已有研究,认为借款人基本特征及历史信息、借款特征、平台认证信息等与P2P网络借贷成功率存在相关关系。

借款人基本特征主要包含借款人婚姻状况、学历、性别、年龄、行业、公司规模、工作城市、收入范围、工作阶层、房产、房贷、车产、车贷、信用等级等指标。借款人历史信息指借款人历史借贷成功率、未还清借款数量、逾期金额、严重逾期笔数,借款人持有债权数量、U计划①U计划在用户认可标的范围内,对符合要求标的自动投标,且回款本金在相应期限内自动复投,期限结束后U计划会通过“人人贷”债券转让平台转让退台,详细信息可参考http://www.renrendai.com/financeplan/listPlan.action。数量、薪计划②薪计划是针对工薪族理财需求的高效自动投标工具,用户可在每月固定日期投入固定金额,详细信息可以参考http://www.renrendai. com/autoinvestplan/listPlan!detailPlan.action。数量等特征。

借款特征指借款金额、期限、用途、利率、保障方式等,借款金额与借贷成功关系研究最多。大量研究表明,借款人借贷行为与其基本特征及贷款特征高度相关。Seth研究指出借款人基本信息与借款金额影响投资者最终投资决策,借款人提高借款金额时,借贷成功率相对下降[7];Pope等分析借贷成功率与借款人年龄关系,研究表明较之35岁以下人群,35~60岁人群贷款成功机率更高[3]。

图1 随机森林结构示意

表1 混淆矩阵

认证信息包含机构担保、信用报告、工作认证、实地认证、身份认证、收入认证、房产认证、车产认证、婚姻认证等特征。Puro等研究表明当前拖欠记录、总负债偿还比例及信用得分等是借贷成功率主要影响因素[8];王会娟和廖理[9]研究P2P网络借贷平台信用认证机制对借贷行为的影响,发现信用评级越高,借款成功率越高且借款成本越低,进一步分析认证指标与方式对借贷行为的影响,研究表明工作、收入、车产、房产等认证指标对借贷行为影响较大。

(二)变量说明与数据处理

1.数据来源与变量说明。采用2015年一季度“人人贷”网站全部借款订单作为初始样本,共收集56 614笔真实交易数据,其中借款失败样本46 062份,借款成功样本10 552份。数据集包含33个变量,包括借款人基本特征、借款人历史信息、借款特征及认证信息等,见表2。

2.数据预处理。为剔除缺失值对实证分析的影响,必须检测缺失值,原始样本中含有缺失值29 261个,其中成功借款1 030个,失败借款28 231个,剔除缺失值后剩余有效样本27 353个,其中成功借款9 522个,失败借款17 831个。从原始数据缺失变量个数(见表3)发现,缺失变量超过3个的借款订单成功概率极小,说明借贷成功率与借款人信息完整程度成正比。由于实地认证标③实地认证标由“人人贷”与友众信业金融信息服务(上海)有限公司(以下简称“友信”)共同推出,产品在原有审核基础上,增加友信前端工作人员对借款人情况实地走访,审核调查以及贷中、贷后服务环节中,加强风险管理控制,达到双重保障效果。、机构担保标④“人人贷”为提高资金借贷安全性,引入“中安信业”“证大速贷”作为合作伙伴,为相应借款承担连带保证责任,有机构担保的借款为机构担保标。本研究讨论借贷行为影响因素,主要针对无担保借款,因此剔除此类观测值。及信用认证标认证机制不同,因此剔除机构担保标576个和实地认证标8 222个,剩余有效样本18 555个。样本中非信用认证标8 798个,其中成功借款8 796个,失败借款2个,说明经过实地认证与机构担保的借款成功率较高。

表2 变量说明

表3 样本中缺失变量个数

剔除缺失值和非信用认证标后,剩余有效样本中成功借款726个,失败借款17 829个,数据集过多集中于失败借款,造成数据严重失衡,即样本非对称分布问题,使模型无法正确分类预测成功借款类别[10]。因此,本研究采用Smote算法平衡数据,该方法以新生成数据丰富原数据样本,综合运用过采样与欠采样技术,解决数据分布稀疏性问题[11]。

运用有效样本集生成训练集、测试集及预测集。首先,在有效样本中随机抽取约20%样本(3 711个数据)作为预测集,主要检验平衡后模型对有效样本集适应性;其次,用剩余14 844个数据(包含586个成功借款)平衡抽样,采用Smote算法,将成功与失败比例约平衡为1∶3[12]。平衡后数据集中包含1 172个成功借款和3 516个失败借款,最后将2/3平衡后数据作为训练集(包含782个成功借款,2 344个失败借款),1/3作为测试集(包含390个成功借款,1 172个失败借款)。

(三)特征描述

有效样本数据集中,总体成功率约3.9%。为了解各类借款人成功率情况,将借贷成功情况与已有研究中关注较多变量交叉分析,包括性别、年龄及信用等级(见图2、3、4)。

图2 不同性别借款成功率

从图2可知,女性借款者成功率略高于男性借款者,但差距不明显。图3表明30~40岁借款者成功率最高,而50岁以上借款者成功率最低,说明各年龄层借贷成功率存在差异。图4显示HR信用等级借款者(占有效样本97%)中仅2.49%借款者能够获得资金,说明信用等级较低借款者,无法通过传统银行体系获得借款时,也很难通过P2P网络借贷平台获得借款,但其他等级中未出现信用等级越高借入者越易获得借款情况。

图3 不同年龄借款成功率

图4 不同信用等级借款成功率

三、实证分析

(一)确定指标体系

由于原始自变量较多,变量间包含一些共性信息,非所有变量均有助于评估借贷成功率,可能因变量间相关性等降低了模型有效性,因此在确定借贷成功率评估模型前,从原始变量中选取合适变量建立成功率评估指标体系,有助于投资者在投标时审核和重点关注。为选取合适评估指标体系,运用随机森林方法计算变量重要性(通过在变量加入噪声前后的预测准确性差异判断),并筛选出预测模型自变量。

从表4发现借款者历史信息与认证信息重要性强于贷款特征与借款者基本特征变量,其中“历史借贷成功率”和“未还清借款数量”是影响贷款成功率极重要变量。在认证信息中,“收入认证”“工作认证”“信用认证”比其他认证信息重要;在借款者基本特征中,“信用等级”重要性强于其他变量;在贷款特征中,“贷款金额”“贷款利率”更重要。

表4 变量重要性

根据变量重要性排序,分别选取前6个变量、前10个变量、前14个变量、前18个变量为输入变量集,运用随机森林方法分别计算训练集、测试集及预测集准确度、灵敏度与特异性,其中随机森林参数取值为系统默认值,以此确定最优指标体系。

为检验平衡后模型对有效样本集的适应性,重点关注预测集评价指标,由于投资者更关注成功可能性较高借款订单,因此重点关注准确度与灵敏度指标。结果进一步验证选取合适指标体系必要性(见表5)。前10个变量模型在训练集与预测集里灵敏度最高,准确度和特异性也高于前6个变量模型;虽前10个变量模型准确度非最高,但总体精度较高,在预测集中为98.14%。综合而言,10个变量最合适,且该模型相对14个变量与18个变量所需变量较少,可提高投资者选择效率,缩短订单满标时间。

表5 不同输入变量评价指标

(二)模型结果与解释

以前10个变量为输入变量,建立随机森林模型,同时建立决策树、神经网络、贝叶斯、支持向量机及Logistic模型预测模型并比较。各模型预测结果表明随机森林模型预测准确度、灵敏度和特异性均较高,支持向量机与贝叶斯在预测灵敏度方面较好,但预测准确度低于神经网络和Logistic模型。此外,贝叶斯、支持向量机和随机森林模型对成功借款预测准确率(灵敏度)高于失败借款预测准确率(灵敏度)(见表6)。随机森林模型在训练集、测试集和预测集准确度与特异性均优于其他模型。

(三)稳健性检验

为检验平衡比例对模型效果影响,采用Smote算法对剩余14 844个数据平衡抽样,将成功和失败比例分别平衡为1∶2与1∶4,平衡后数据2/3作为训练集,其余数据作为测试集,平衡后样本情况如表7所示。不同比例下模型在预测集中准确度表明,随机森林模型在预测集准确度均高于其他模型,且比例越高的预测集准确度越高,如图5所示。

表6 六种模型比较

表7 平衡后样本统计表

图5 不同平衡比例预测集准确度

四、结语

本研究根据“人人贷”2015年一季度数据,建立基于非参数随机森林的借贷成功率评估模型,并与决策树、支持向量机、贝叶斯、神经网络和Logistic回归算法比较,其中随机森林模型预测集准确度最高,约98%。随机森林借贷成功率模型评估所有变量重要程度,选取33个变量中前10个重要变量(历史借贷成功率、未还清借款数量、收入认证、工作认证、信用认证、信用等级、身份认证、预期金额、贷款金额和借款成本)预测借款订单成功率,可降低信息搜集成本。基于随机森林借贷成功率评估模型快捷筛选出成功率较高订单,提高投资者选择有效性,且模型避免复杂计算过程,适用于网络借贷平台海量且不断增加的订单。将随机森林方法应用到我国网络借贷成功率评估模型上,为进一步实际应用网络金融提供实证参考,充实网络借贷行为理论研究。由于随机森林模型未给出变量对借贷成功率的影响方向,后续研究中可深入分析。

[1]帅青红.P2P网络借贷监管的博弈分析[J].四川大学学报(哲学社会科学版),2014(4).

[2]Lin M,Prabhala N R,Viswanathan S.Judging Borrowers by the Company They Keep:Social Networks and Adverse Selection in Online Peer-to-Peer Lending[J].Management Science,2012(1).

[3]Pope D G,Sydnor J R.What’s in a Picture?Evidence of Discrimination from Prosper.com[J].Journal of Human Resources,2011(1).

[4]Breiman L.Random Forests[J].Machine Learning,2001(1).

[5]Lariviere B,Den Poel D V.Predicting Customer Retention and Profitability by Using Random Forests and Regression ForestsTechniques[J].Export Systems with Application,2005(29).

[6]方匡南,吴见彬.个人住房贷款违约预测与利率政策模拟[J].统计研究,2013(10).

[7]Seth Freedman,Ginger Z J.Do Social Networks Solve Information Problems for Peer-to-Peer Lending?Evidence from Prosper.com [EB/OL].(2016-04-20).https://ideas.repec.org/p/net/wpaper/0843. html.

[8]Puro L,Eieh J E T,Wallenius H,et al.Borrower Decision Aid for People-to-people lending[J].Decision Support System,2010(1).

[9]王会娟,廖理.中国P2P网络借贷平台信用认证机制研究—来自“人人贷”的经验证据[J].中国工业经济,2014(1).

[10]方匡南,吴见彬,谢邦昌.基于随机森林的保险客户利润贡献度研究[J].数理统计与管理,2014(6).

[11]Chawla N V,Bowyer K W,Hall L O,et al.Smote:Synthetic Minority Over-sampling Technique[J].Journal of Artificial Intelligence Research,2002(1).

[12]石晓军.Logistic违约率模型最优样本配比与分界点的模拟分析[J].数理统计与管理,2006(6).

F832

A

1672-3805(2016)06-0011-07

2016-10-12

国家自然科学基金项目“小微企业互联网平台融资模式研究—基于双向拍卖和信号博弈双重视角”(71503210)

周玉琴(1990-),女,西南财经大学金融智能与金融工程四川省重点实验室博士研究生,研究方向为金融风险管理、金融工程。

猜你喜欢

借款人借款借贷
微信上小额借款 请务必通话确认
中东铁路与三喇嘛借款
浅论借户贷款情形下隐名代理的法律适用
乡城流动借款人信用风险与空间收入差异决定
小微企业借款人
让民间借贷驶入法治轨道
热词
信息不对称下P2P网络借贷投资者行为的实证
一张图看懂民间借贷“防火墙”
一般借款利息费用资本化金额确定之我见