P2P借贷违约风险识别模型比较
2019-03-06安英博程冬玲
安英博 程冬玲
【摘 要】 近年来,随着互联网经济的不断发展,P2P借贷业务日益扩张,但同时也暴露出各种问题,特别是违约造成的坏账问题给P2P网络借贷平台及其投资者带来了极大负面影响,所以构建合理的P2P借贷违约识别模型对控制平台风险、促进其持续发展具有重要的现实意义。文章以隆金宝为研究对象,探究决策树模型、支持向量机模型、神经网络模型、逻辑回归模型、Stacking模型对P2P借贷违约风险的识别效果,并进行评估与对比,从而选出最佳P2P借贷违约风险模型,进而帮助P2P网络借贷平台有效规避违约风险,实现其长远发展。
【关键词】 P2P借贷; 违约风险; 数据挖掘
【中图分类号】 F832 【文献标识码】 A 【文章编号】 1004-5937(2019)02-0045-05
一、引言
P2P网贷作为互联网金融的重要组成部分,為人们的投资和融资提供了新的渠道。自2007年开始,P2P网络借贷平台在我国呈现出蓬勃发展的势头,截至2016年底,我国网络信贷规模超过1万亿元。但伴随着P2P借贷业务的快速膨胀,许多问题接踵而至,与传统金融借贷相比,网贷平台的坏账率普遍较高,由于资金链断裂问题导致平台跑路的现象屡屡发生[ 1 ]。问题产生的原因归根结底是P2P借贷业务本身存在巨大风险。因为我国的P2P借贷相关法律制度不完善,有些信用度较低的借款人可能会凭借政策监管的漏洞,故意违反借款合同,不及时归还资金,甚至发生恶意骗贷等行为。虽然大多数P2P平台为了防范风险建立了规范的信用审核程序,但是受互联网虚拟性特征的影响,借款人可能会向平台提供虚假信息,平台无法准确预测和监督借款人的偿款违约情况,从而导致违约风险大幅度提升,严重阻碍了平台的持续经营,因而如何有效识别违约风险、减少借贷业务坏账率成为相关企业急需解决的问题。通过梳理国内与违约风险相关的研究发现,我国学者的研究重点集中在对传统金融领域的风险控制上,而与识别、防范、控制P2P借贷违约风险相关的研究则相对较少,因此本文从数据挖掘视角出发,对识别P2P借贷违约的模型进行研究具有重要的理论意义。
二、P2P借贷违约风险
(一)P2P借贷业务流程分析
由于P2P平台借款资金的主要来源为自有资金与平台用户的理财投资,所以为了维持平台正常运转,满足用户理财需求,P2P平台在确保资金及时收回的同时还应保证其收益,这就要求平台必须尽量减少借贷违约风险的发生[ 2 ]。基于此,P2P平台设置了以下业务流程:首先,借款人需要利用平台移动端应用或网站完成账号注册、登陆及身份认证;其次,P2P平台通过借款人自主填写以及自动获取等方式收集借款人资料,如央行征信报告、收入信息、身份证信息等;再次,基于以上资料运用模型规则或人工对借款人信用进行评估,以此确定是否放款与具体的放款额度;最后,由于放款之前的信息审核无法完全避免违约风险,所以为了确保资金的安全回收,平台还会在放贷后,对借款人使用资金的情况进行持续监控,以便及时识别潜藏的违约情况并实施相应的解决方案,敦促借款人按时偿还借款[ 3 ]。
(二)借款人信用考察维度
与传统金融机构相似,为了规避借贷违约的风险,P2P平台在作出是否放款的决定之前会从多个维度对借款人信用进行考察。随着移动端以及大数据技术的普及,P2P平台的信用考察依据不再局限于传统的申请资料以及信贷数据,其考察维度在借款人历史信用数据以及基本信息基础上得以扩展,具体内容如表1所示。
(三)P2P借贷违约类型、特点及影响因素
P2P借贷违约是指借款人在借款期间内的行为与合同规定不相符的情况,其类型、特点及影响因素具体如表2所示。
三、数据集的收集和预处理
(一)数据集基本情况说明及分割
1.数据集来源
本文收集的数据集来自隆金宝向外公开的借款人数据集,其中,与借款人相关的敏感信息以及隐私信息均已通过隐藏、加密等手段进行了处理。隆金宝于2014年5月上线,隶属于重庆市隆金宝网络科技有限公司,是一家具备国有和上市公司控股双重背景的互联网金融平台,主要从事P2P相关业务。
2.数据集构成
数据集主要由三张表构成:(1)借款人登录网站的日志信息表,该表共包含5个字段数据,用户一次登录行为对应一行记录,通过该表可以获取用户的登录日志参数、次数、时间等信息。(2)借款用户信息更新表,该表包含4个字段,通过该表可以获取借款人修改用户信息的详细时间与内容。(3)借款记录信息表,该表涵盖了20 000笔借款的216个维度的字段信息,其中一行记录对应一次P2P借贷行为,表中的字段记录可划分8个部分,即六个月内是否存在违约、借款成交时间、社交网络字段、第三方数据字段、学籍学历字段、网络行为字段、借款人基本特征字段、借款编号。以上三张表均可凭借借款记录的时间和ID实现对接。
3.数据集的分割
为了保障模型预测效果评估工作的有效实施,本文在处理数据集和建立模型之前,需要把原始数据集分割为训练集和测试集两部分,具体分割方法为:在保证测试集和训练集中样本六个月内是否存在违约比例相等的基础上,在借款记录信息表的20 000条借款记录中随机抽取4 000条数据记录作为测试集,其余部分则作为训练集进行模型的训练工作。
(二)数据集清洗
1.处理缺失值
由于平台没有收集、用户没有填写等原因,原始数据记录表中可能会存在部分缺失值,缺失值的处理方式应根据信息缺失的程度以及字段本身特征进行选择。通过检查上文所述三张数据表发现,借款人登录网站的日志信息表与借款用户信息更新表中没有缺失值,而借款记录信息表中有36列存在缺失值,其中有7列字段缺失情况较为严重。具体处理方法为:针对只有少数记录中包含详细数值、信息提供数量有限、缺失值比重高于5%的字段进行剔除处理;对于缺失值比例较低,且属于有限个值类别数据的字段,选择利用字段中的众数对其进行填充[ 5 ]。
2.去除近零方差字段
由于不同字段对识别违约具有不同的价值,只有字段数值分布较为均衡的情况下,才能更好地对模型进行测试。核算字段是方差,是衡量字段价值的重要方式,方差越趋向于0,则说明该字段所含信息越少,目标价值最低,因此应将其予以删除。
3.转化字段
通过对三张数据表进行检查发现以下问题:(1)部分字段的记录出现了空格问题,由于在软件分析过程中没有空格的记录与含有空格的记录可能会被认为具有不同的意义,所以,本文采取逐列对字符型字段进行检查的方式,对没有特殊含义的空格进行剔除;(2)借款记录信息表中的城市名称字段类别超出了实际数量,这是因为有些城市名称后添加了“市”,被软件自动划分为单独类别,所以,本文将字段内所有的“市”进行删除;(3)字段中的字符存在大小写不一致的问题,软件将意思相同但大小写不同的内容划分为不同类别,所以为了减少信息量,本文将所有字段中的字符转化为小写形式。通过上述一系列工作,本文可以用于模型训练的字段共剩余206个。
四、以数据挖据技术为基础的P2P借贷违约风险模型及其预测效果
(一)模型评估指标说明
1.混淆矩阵
混淆矩阵是一种模型评价工具,由测试样本真实结果与模型预测结果交叉形成,具体形式如表3所示。其中,1代表阳性类别,0代表阴性类别,TN代表真阴性样本数量,FP代表假阳性样本数量,FN代表假阴性样本数量,TP代表真阳性样本数量。
2.准确度、查准率、召回率与F1统计值
本文中用于评估模型预测效果的指标均可利用混淆矩阵进行推导。其中,最基础的评估指标即为准确度,代表模型预测正确的数量占样本总数的比重,具体计算见式(1)。由于本文的研究重点在于P2P借贷违约的识别,对模型能否准确识别出违约用户的关注度更高,所以本文引入了召回率和查准率两个指标。召回率是指预测为阳性的样本在总体样本中所占的比重,查准率是指实际为阳性的样本在预测为阳性的样本中占據的比重。具体核算公式分别如式(2)和式(3)所示。但是因为召回率与查准率之间存在一定的矛盾,难以在模型之间进行比较,因此本文为了平衡召回率和查准率引入了F1统计值,具体核算公式如式(4)所示。
)
(二)单一模型下P2P借贷违约风险的预测效果
1.逻辑回归模型与神经网络模型的预测效果
(1)逻辑回归模型。该模型是一种确定多个自变量与二分类观察结果之间关系的方法,主要用于解决分类问题。其形式较为简洁、易于理解且训练效果极高,但是在实际应用过程中其结果极易受到自变量多重共线性的影响。逻辑回归模型的基本形式分别如式(5)和式(6)所示。其中,模型输出值P的取值范围为1和0之间,当p趋于0时,y归属于0类;反之,则归属于1类。
本文主要运用了R语言中的GLM函数训练得到识别P2P借贷违约风险的逻辑回归模型,并利用其对测试集中包含的4 000条借款记录进行预测。在具体操作过程中,本文将阈值设定为0.5,当输出概率位于0和0.5之间时,则判断其为0类,即没有违约;当输出概率位于0.5和1之间时,则判断其为1类,即发生违约[ 6 ]。最终通过预测结果可知:逻辑回归模型在识别P2P借贷违约时的准确度高达0.789,预测效果较好;该模型判断为违约的借款记录为1 229条,但其中实际违约数量为228条,所以该模型的查准率为0.185;本文所选测试样本中实际发生违约的记录为445条,通过逻辑回归模型顺利识别出了224条,所以,该模型的召回率为0.503;基于此,利用式(4)可得出逻辑回归模型对测试数据集的F1统计值为0.271。
(2)神经网络模型。该模型来源于对生物神经网络的模仿,是由多个简单的处理单元(神经元)相互连接形成的一种非线性动力系统。该系统主要依靠神经元的相互作用实现信息的处理,各神经元之间的连接都代表一个加权值,神经网络模型的运用就是不断调节加权值,使实际输出结果逼近期望值的过程。神经网络模型种类众多,目前使用最为广泛的前向型神经网络模型,所以本文选用了该类模型进行研究。该类模型下的神经网络可划分为三个部分,即输入层、隐藏层和输出层,隐藏层可由多个层级构成,上层输出变量即为下层的输入变量,初始输入数据经各层转化形成最终输出结果。神经网络模型的基本核算见式(7)和式(8)所示。其中,wi表示连接加权值即阈值,xi表示从上层神经元传递来的输入数据,f(x)表示激活函数。
本文在利用神经网络模型对测试数据集进行预测时,首先运用Neuralnet包在R语言中构建单隐层神经网络,然后将输入层和隐藏层中的神经元数量分别设置为206个和8个,并选取sigmoid函数为激活函数,将最终预测结果设定在1和0之间,阈值同样设置为0.5。通过最终预测结果发现,神经网络模型预测的准确度、召回率、查准率、F1统计值分别为0.779、0.105、0.258、0.149。
通过对比逻辑回归模型与神经网络模型的预测效果发现,两个模型的准确度水平基本相符,但是就召回率、查准率、F1统计值三个指标而言,逻辑回归模型在识别P2P借贷违约方面的效果高于神经网络模型。
2.支持向量机模型(SVM)的预测效果
支持向量机模型是一种在VC维与结构风险最小化两种理论基础之上,将在高维空间获取最优分类超平面作为重要目标,将解决二次规划问题作为重要手段,将获取支持向量作为结果的机器学习方法。该模型可划分非线性和线性两个类别。其中非线性支持向量机模型的表现形式如式(9)所示,线性支持向量机模型的表现形式如式(10)和式(11)所示。
因为在字段维度与数据量较大的情况下,支持向量机模型训练的复杂度与时间会大幅度提高,所以为了减少模型训练的时间成本在模型训练之前采用了Ensemble SVM模型的方法,即通过对训练数据集实施多次抽样形成子训练集,针对每一个子训练集建立子模型然后利用子模型对测试样本进行预测,最后以投票方式获取最终预测结果。为了进行对比,本文还构建了Ensemble SVM模型以及涵盖所有训练数据的SVM模型。出于对P2P违约识别问题性质的考虑,又分别将Ensemble SVM模型与SVM模型划分为线性和非线性两类,其中非线性支持向量机模型以RBF径向基为基础。四种SVM模型预测效果的对比情况如表4所示。
根据表4四种SVM模型预测效果对比情况可知,从预测的准确度和查准率方面来说,Ensemble SVM模型的效果仅略低于SVM模型,但是差距相对较少。从预测效率方面来看,Ensemble SVM模型高于SVM模型,从召回率方面而言,Ensemble SVM模型优于SVM模型,其中,以RBF径向基为基础的Ensemble SVM模型效果明显高于以RBF径向基为基础的SVM模型。通过整体指标对比情况而言,以RBF径向基为基础的Ensemble SVM在识别P2P借贷违约方面效果最佳。
3.决策树类算法的预测效果
决策树类算法中最为常见的四种模型如下:决策树模型、随机森林模型、GBDT迭代决策树模型以及XGBoost模型。其中单一决策树模型是通过对已经有确切结果的历史数据进行分析获取其特征,然后以此为依据对新数据进行预测的方法,呈现树状结构。与其他模型相比,单一决策树模型更易于理解且效率较高,但是极易出现过度拟合问题。随机森林模型中包含多棵决策树,各决策树独立存在,通过投票确定预测结果,可有效缓解单一决策树的过度拟合问题。GBDT迭代决策树模型同样也是由多棵决策树构成,但其最终输出结果是由各个决策树结果相互累加形成。与上文所述模型相比,GBDT迭代决策树模型通过迭代可以有效拟合决策树的残差,降低样本损失,其训练效率更高,具有良好的建模和测试效果。而XGBoost模型是在GBDT迭代决策树模型基础之上进一步优化形成的,与GBDT迭代决策树模型相比,XGBoost模型的优势得到进一步提升,具体表现在建模效果、训练效率、大规模并行化、二次收敛等方面[ 7 ]。本文分别以上述四种决策树算法为基础训练得到四种P2P借贷风险识别模型,并利用其对测试集中包含的4 000条借款记录分别进行预测,最终预测效果如表5所示。
通过表5可知,单一决策树模型的准确度和查准率仅为0.732和0.117,由此可见其效果最差;随机森林虽然训练效率过低,但是其准确度高达0.827,其F1统计值也较单一决策树模型有所上升;GBDT迭代决策树的准确度与随机森林模型基本达成一致,但是其查准率、召回率、训练效率以及F1统计值均高于随机森林模型;XGBoost的准确度和F1统计值均高于其他三种决策树模型,其训练效率也处于极高水平。综上所述,单一模型下,XGBoost模型的预测效果最佳,Ensemble SVM模型以及逻辑回归模型的預测效果相对较好。
(三)Stacking集成学习方法下P2P借贷违约的预测效果
通过上文分析发现,以XGBoost模型、Ensemble SVM以及逻辑回归模型等单一模型为基础建立的P2P借贷违约模型具有较好的预测效果。但是单一模型也存在一定问题,如泛化能力低。因此本文运用Stacking集成学习方法对P2P借贷风险识别模型进行了进一步优化。
1.Stacking集成学习方法
Stacking集成学习方法就是将多个模型的能力进行结合,博采众长从而提高模型性能。其操作过程可分为两个阶段:第一阶段,以训练集为基础训练得出多个单一模型,这些模型的种类可以不同,也可以种类相同但是取不同的参数,然后利用交叉验证的方法获取有差异的预测结果。除此之外,还需将测试集输入各个模型进行预测,训练集和测试集的预测结果分别进行合并作为下一阶段模型的输入。第二阶段,为了避免过度拟合的风险多使用逻辑回归这一简单模型。首先将训练集结果与真实结果整合形成新的数据集训练得出逻辑回归模型,其次将上一阶段测试集输出结果输入进行预测。在该方法下通过第一阶段的交叉验证能够有效避免过度拟合的问题,进而促进模型泛化能力的提高[ 8 ]。
2.Stacking集成学习方法下P2P借贷违约的预测效果
经过上文分析可知,单一模型中XGBoost模型的预测效果最好,所以本文首先以16 000条借贷记录为基础进行训练得出20个XGBoost模型后分别对其进行五折交叉验证获取有差异的预测结果,并以此模型对测试集中的4 000条借贷记录进行预测,然后对训练集预测输出的结果以及真实结果构成的数据集进行训练得到逻辑回归模型,最后将测试集输出结果输入得出最终预测结果。利用混淆矩阵对其结果进行分析后与XGBoost、Ensemble SVM、逻辑回归四类模型的预测效果进行对比,具体情况如表6所示。
通过表6四类模型的预测效果对比情况来看,Stacking模型准确度高达0.872,预测查准率以及F1统计值分别为0.225和0.286,三项指标均超过其他单一模型,预测召回率为0.393,也处于良好水平,这说明从整体来看,Stacking模型在识别P2P借贷风险方面的优势明显高于其他模型,可以准确识别出P2P借贷业务中存在的风险。
五、研究结论
本文以隆金宝为例,基于借款用户的社交网络、第三方信息、学历、登陆行为、基本信息等数百个字段,利用不同数据挖据技术建立P2P借贷违约风险识别模型,并对其预测效果进行对比分析得出以下结论:第一,结构较为简单的模型也存在一定的预测能力,例如XGBoost、Ensemble SVM、逻辑回归三类单一数据挖据模型在识别P2P借贷违约方面具有较好的效果,在F1统计值、准确度等方面的表现均处于良好水平,相较于比较复杂的神经网络以及SVM模型而言,上述三类模型在训练效率方面也比较高。第二,以Stacking集成学习方法为基础建立的P2P借贷违约风险识别模型可以有效综合其他模型的长处,获取比任一单一模型更好的预测效果,因此其在F1统计值、准确度、模型训练效率、查准率等各方面的表现均优于其他单一模型,该模型不但能够对P2P借贷业务中的违约行为进行识别,而且能在一定程度上减少对非违约客户的误杀。
【参考文献】
[1] 吕喜明.大数据背景下互联网金融风险评价研究:基于广义DEA模型及P2P网贷视角[J].会计与经济研究,2017,31(4):91-110.
[2] 阮素梅,何浩然,李敬明.P2P借贷中借款人的违约风险评估:基于“人人贷”数据的实证分析[J].经济问题,2017(12):45-50.
[3] 叶青,李增泉,徐伟航.P2P网络借贷平台的风险识别研究[J].会计研究,2016(6):38-45.
[4] 范超,王磊,解明明.新经济业态P2P网络借贷的风险甄别研究[J].统计研究,2017,34(2):33-43.
[5] 胡金焱,宋唯实.P2P借贷中投资者的理性意识与权衡行为:基于“人人贷”数据的实证分析[J].金融研究,2017(7):86-104.
[6] 肖曼君,欧缘媛,李颖.我国P2P网络借贷信用风险影响因素研究:基于排序选择模型的实证分析[J].财经理论与实践,2015,36(1):2-6.
[7] 顾慧莹,姚铮.P2P网络借贷平台中借款人违约风险影响因素研究:以WDW为例[J].上海经济研究,2015(11):37-46.
[8] 王锦虹.基于逆向选择的互联网金融P2P模式风险防范研究[J].财经问题研究,2015(5):61-68.
【基金项目】 2016年河北省社会科学基金项目“大数据技术下互联网金融风险评价研究”(HB16YJ047)
【作者简介】 安英博(1983— ),女,河北保定人,河北金融学院讲师,研究方向:信息化、数据挖掘;程冬玲(1983— ),女,山东莱芜人,河北金融学院助教,研究方向:移动应用、互联网金融