APP下载

基于CatBoost算法的P2P违约预测模型应用研究

2020-07-22马晓君宋嫣琦常百舒袁铭忆

统计与信息论坛 2020年7期
关键词:借款人借款借贷

马晓君,宋嫣琦,常百舒,袁铭忆,苏 衡

(东北财经大学 a.统计学院,b.教务处,辽宁 大连 116025)

一、引言

随着互联网技术的发展,“互联网+”模式已成为经济发展的必要趋势,其中互联网金融已获得一定程度地快速发展。而P2P网络借贷作为互联网金融的代表,以网络为媒介实现了投资人与借款人的直接对接,简化了银行借贷的复杂程序,在小额借贷及小微企业间获得广泛发展,其中,“人人贷”作为中国P2P借贷平台的中坚力量,始终保持着稳健运营,并持续蓬勃发展。然而,纵观中国P2P行业的整体发展状况,虽然其已先后提出惠普金融计划、互联网金融阳光计划等,但大量平台跑路、倒闭等现象依然未得到有效改善。原因在于中国P2P借贷平台对借款人的信用评估能力较弱、平台违约率较高,从而造成平台风险控制能力较为薄弱。因此,我们必须意识到P2P网络借贷发展的核心在于风险管理,而降低违约率是风险管理的主要方面。

大数据时代,传统计量经济方法已无法满足经济领域海量数据的处理需求,而智能算法作为大数据处理的重要方法之一,为电商、医疗、教育、交通等诸多领域转向“大数据智能化”提供了技术支持,因此我们迫切需要应用智能算法来为经济问题的解决提供新的思路与方向。P2P网络借贷平台拥有着庞大的数据存储,故智能算法凭借其较强的学习能力与数据处理能力,具有引领P2P借贷领域进行技术变革的优势。因此,如何及时、有效地利用数据挖掘信息,运用智能方法探索P2P风险控制新路径具有十分重要的研究意义与应用价值。本文是智能方法在P2P风险控制领域的一次尝试,也是智能算法迈进经济领域的一次探索,更是推动中国互联网金融转向“互联网+金融+智能”模式的一次尝试。

二、文献综述

2005年,英国伦敦首次成立Zopa交易平台,拉开国外P2P网络借贷的序幕。国外P2P借贷平台通过收集借款人的用户信息以及历史交易数据,利用数据挖掘技术进行风险控制,在一定程度上降低了信息不对称带来的风险。2007年,中国成立第一家P2P网络借贷平台——拍拍贷,成为中国P2P网络借贷的开端。P2P网络借贷作为互联网金融的新兴代表,呈现蓬勃发展的态势,市场规模将超过5000亿,其已成为金融市场的新业态和学术研究中最受关注的前沿性领域之一[1]。

现阶段,国内外学者主要从P2P线上借贷平台、借款人的违约影响因素以及构建平台预测模型三大方面展开研究。关于P2P借贷平台的研究呈现出从探究P2P借贷平台出现的原因到探索P2P行业运营模式的深入趋势。由于P2P 借贷平台解决了线下信贷市场的信贷配给问题[2],从而在借贷市场,特别是小额借贷市场获得迅速发展。同时,廖理等认为投资者能够借助借款人的公开信息识别所包含的不同违约风险,从而为P2P行业的发展提供了可能[3]。虽然P2P网络借贷平台的出现在很大程度上简化了银行复杂的申请认证程序,但缺乏信任是导致中国P2P网贷行业发展缓慢、借款成功率低的主要原因[4]。由于不同国家对在线贷款有不同的监管标准,从而导致P2P网络借贷平台具有“本地偏好”及“羊群效应”[2,5]。数据与信息是P2P网贷平台发展的基石,平台信息披露程度的提高,有利于平台的持久运营以及风险控制能力的提升[6]。

P2P网贷平台的借款人违约影响因素可分为借款人特征和借款特征两方面。借款人特征主要包括借款人年薪、借款人财务情况、银行卡数量、资产情况、信用得分等可被客观证实的内容;借款特征可从借款人的贷款金额和借款人的出价时间等进行研究。廖理等认为不同地域的借款成功率存在显著差异[7]。Burtch G等研究发现文化差异增加一个标准差将导致平均减少大约430个贷款行动[8]。Chen等对比分析中美两国的P2P网贷平台,发现“硬信息”与“软信息”对两国的借贷结果均有显著影响,同时中国贷方在“软信息”方面更可靠[9]。Han等认为借款人自愿信息的说服可通过P2P贷款中的两条不同路径来实现,中心线索与周边线索均对贷款人的决策有显著影响[10]。此外,借款人的贷款订单、基本特征、社会资本因素以及文本描述能力均对借款成功率有显著影响[11]。

由于P2P网络借贷平台的信用数据表现出非均衡、非线性、高维等特征,Z-Score模型、ZETA模型、Logit回归等传统方法无法达到信用数据的处理要求,从而导致模型准确性较低。随着机器学习的发展,传统智能化方法逐渐应用到信用风险预测研究中,如随机森林、神经网络[12-16]。陈诗一、Hajek等均通过实证研究发现机器学习方法的预测准确度比Logit模型有明显改进[17-18]。随着算法技术的不断革新,XGBoost、LightGBM、Catboost等梯度提升树(GBDT)前沿算法在训练集利用程度、效率及准确度上均具有较大优势,周荣喜等基于XGBoost算法构建了信用债违约预测模型[19];马晓君等通过实证研究认为LightGBM算法结果对实际情况具有较好的拟合效果,同时LightGBM算法有效缓解了传统机器学习算法过拟合、学习时间长、参数设置的主观性强等不足,对违约项目的预测具有较高的准确性[20]。

综上所述,国内外学者对于P2P网贷的研究主要围绕借款人违约影响因素的定性分析,而定量分析违约预测模型的研究较少。同时,中国学者对于风险量化分析的研究多立足于银行、证券等机构,对P2P网贷行业的应用较少。因此,本文的主要工作和贡献在于:(1)数据方面。由于中国目前暂无成熟的P2P借贷信息相关数据库,因此本文选择国内具有一定代表性及影响力的人人贷平台作为实证研究对象,运用火车头抓取程序和Python软件爬虫程序,获取其官网公开数据进行研究;同时,本文运用特征工程技术进行数据处理,充分提高数据质量,以减少模型计算的复杂度与时间、提高算法准确率与性能。(2)算法方面。本文将CatBoost算法应用于P2P网络借贷领域,扩展了违约预测模型算法的选择范围。(3)前沿性方面。本文比较分析了梯度提升树(GBDT)的三种前沿算法——CatBoost算法、LightGBM算法与XGboost算法的理论与性能,拓展了三种机器学习算法的使用范围。(4)全面性方面。中国对于P2P网贷的研究多为定性研究,定量研究较少,本文将定性研究与定量研究相结合,在研究算法理论的基础上,选取三大前沿GBDT算法对人人贷平台的信用风险进行实证研究,为中国P2P行业的风险控制提供有力的技术支持。

三、模型理论

(一)CatBoost理论基础

1.Boosting

Boosting算法是串行集成学习的代表算法,其通过对弱学习器的不断训练,形成强学习器,各学习器间存在强依赖关系,拥有较高的分类精确度,其训练机制如图1所示。

首先赋予训练集初始权重,并运用初始权重进行训练,从而获得弱学习器a;根据弱学习器a的学习偏差率对训练样本的权重进行迭代更新,使得学习偏差率较大的训练样本点在模型中被赋予更高的权重,从而这些训练样本点在弱学习器b中将获得更多的重视。其次,运用更新权重后的训练集训练弱学习器b,并采用上述更新权重的方式对弱学习器进行不断迭代,直到弱学习器的总数达到训练前指定的数目N;最后,这N个弱学习器通过串行集合的策略进行整合,从而形成强学习器。

2.Gradient Boosting

Boosting可分为AdaBoost与Gradient Boosting。Gradient Boosting在一次性更新迭代变量的同时不断增加模型的数量,保证损失函数不断下降。

首先假设Gradient Boosting中fi(x)为子模型,则其复合模型为:

fm(x)=α0f0(x)+α1f1(x)+…+αmfm(x)

(1)

损失函数为L(fm(x),Y),每一次更新迭代变量的同时加入新的子模型,使得损失函数朝着信息含量更高的变量下降:

L(fm(x),Y)

(2)

3.GBDT

GBDT(Gradient Boosting Decision Tree)将Gradient Boosting与决策树(Decision Tree)结构相结合,即设定Gradient Boosting中的每个子模型均为一个决策树:设前一轮迭代所得强学习器为ft-1(x),其对应损失函数为L(y,ft-1(x));则本轮迭代目标为寻找CART回归树模型的弱学习器ht(x),使得本轮对应的损失函数L(y,ft(x))=L(y,ft-1(x))+ht(x)最小。

为实现损失函数最小化,GBDT算法利用损失函数的负梯度拟合其近似值,从而拟合出CART回归树:设训练集S={(x1,y1),(x2,y2),…,(xn,yn)}。

(1)选择初始化弱学习器:

(3)

其中,i(i=1,2,…,n)为S中所含样本个数。

(2)计算t次迭代的负梯度:

(4)

迭代次数为t=1,2,…,T,其中T为设定参数。利用(xi,γit)拟合第t棵CART回归树,其对应叶结点区域为Rjt(j=1,2,…,J),J为回归树的叶结点个数。

(3)计算叶结点区域J的最优拟合值:

(5)

(4)更新强学习器:

(6)

(5)重复(2)~(4)迭代过程T次,获得最终强学习器:

(7)

(二)CatBoost算法

CatBoost由俄罗斯搜索巨头Yandex公司于2017年4月开发,该算法在GBDT算法框架基础上,具有更好处理类别型特征的能力;同时,利用组合类别特征,极大丰富了特征维度。CatBoost使用更有效的策略以减少过度拟合,同时使用整个数据集参与训练,对数据信息进行了有效利用。

设观测数据集S={(X1,Y1),(X2,Y2),…,(Xn,Yn)},其中Xi=(xi1,xi2,…,xim)为包含数值型特征及类别型特征的m维向量,Yi为标记值。

首先,CatBoost算法对所有数值型特征进行二值化处理:使用oblivious树作为基预测器,将浮点特征、统计信息与one-hot编码进行二值化。

其次,将类别型特征转化为数值型特征:

(1)随机排列观察值,生成多个随机序列。

(2)给定某一序列,利用训练数据集的平均标记值替换类别:

(8)

其中,若xjk=xik,则[xjk=xik]=1,否则为0,相同的类别值放置在排列的给定值之前。

(3)设θ=(θ1,θ2,…,θn),将分类型特征值转换为数值:

(9)

此处增加了先验值P与参数a(a>0),即先验权重有助于减少低频类别的噪声。

最后,处理特征组合时,CatBoost算法以“贪婪策略”进行组合:(1)树的第一次拆分不进行任何组合;(2)第二次拆分时,组合当前树中已存在的所有组合及分类特征与数据集中所有的分类特征,组合值即时转换为数字;(3)树中选择的所有拆分都视为具有两个值的分类,并组合使用,从而生成数字和分类特征的组合。

在克服梯度偏差处理中,CatBoost算法构建一棵树分为两个阶段:(1)选择树结构,并在树结构固定后计算叶结点的值;(2)枚举不同拆分方式,通过计算叶结点的值,对获得的树进行评分,从而选择最佳分割。两阶段叶结点的值均利用梯度或牛顿步长的近似值来计算。

CatBoost实现了训练数据集与处理类别型特征的同步,使得特征处理效率获得大幅提高;同时计算叶结点的算法能够有效避免“过拟合”并减少超参数调优的需求,使得模型更具通用性。同时,CatBoost将浮点型特征、统计值以及one-hot编码的特征进行二值化处理,在打分过程中实现了模型输出的二值化。

四、基于特征工程的数据处理

在人工智能领域,数据质量对算法表现有较大影响。由于大规模数据集含有大量冗余及声音数据,因此,运用特征工程构建特征和清洗数据,可以在很大程度上提高数据质量、提升算法表现。

特征工程主要包括数据收集、数据清洗、数据探索性分析、特征构建、特征选取五个步骤。数据清洗解决数据噪声以及脏数据问题,并将问题数据转化为干净数据;数据探索性分析旨在分析数据结构,为特征构建打下基础;特征构建通过、观察原始数据挖掘出具有实际意义的特征;特征选择旨在删除无关特征,提高模型的精确度。经特征选择后得到的子集能够较好地解释分类问题,计算复杂度较低、效率较高,能够更好发挥算法和模型的优势。

图2 特征工程处理流程图

(一)数据收集与数据清洗

人人贷作为网络借贷信息中介服务机构,成立于2010年,是中国早期成立的网络借贷服务平台之一。从成立至今,人人贷一直保持着稳健运营;截止2018年底,人人贷累计成交额764亿元,实现资金银行存管,并获评AAA级(最高级)互联网信用认证。人人贷作为中国极具影响力与代表性的P2P网络借贷平台之一,用户信息采集较为全面,数据质量较好,因此本文选取人人贷平台作为实证研究对象,研究Catboost算法应用于P2P网贷违约预测模型的性能。

本文运用python爬虫技术,获取人人贷官网自2015年10月至2018年4月的历史公开交易数据,共210 348条;其中,满标数据为104 250条,还款期数据为56 707条,违约数据为4 186条,未违约数据为43 357条。根据人人贷的运营机制,满标借款人为通过人人贷平台审核并认定为信用良好的借款人,故人人贷满标违约率为4.1%。

本文在数据清洗过程中主要解决人人贷数据的数据缺失、噪声等问题。一方面,由于缺失值较少,且均为连续变量,故采用属性平均值以填补缺失值,从而充分利用了全部数据集,未丢失关键信息。另一方面,噪声数据是指数据集中存在错误或异常的数据,噪声数据的存在将对数据分析、模型计算结果等方面造成影响,故本文采用统计量分析的方式寻找噪声数据,例如分析借款人年龄时,通过年龄的最大值与最小值来确定年龄的合适范围。

(二)数据探索性分析

经过数据清洗,本文对人人贷平台数据进行整体分析,以探索数据特征与数据维度,从而有效提高数据质量,提高算法运行速度及准确性。

表1及图3显示了人人贷平台的借款期限分布,可以看出借款期限为25~36个月占借款笔数的频率最高,为63%;其次为10~12个月,占总借款笔数的14.64%。

表1 借款期限分布

图3 借款期限分布图

金额逾期率是反映贷款按时归还情况的重要指标,因此,该数据是了解平台资产质量与运营情况的重要指标。表2及图4显示了人人贷平台金额逾期率情况,可以看出,2015—2018年,人人贷平台各逾期期限贷款的贷款本金比率均持续下降,且已还本金率持续上升,并于2018年得到大幅提高。

表2 平台金额逾期率

图4 平台金额逾期率分布图

为分析个人违约情况,本文将借款人信息数据分为五个特征维度:借款人基本信息、借款人动机、借款人还款能力、借款人信用情况以及平台验证,具体内容如表3所示。

表3 数据维度基本内容

(三)特征构建与特征选择

特征构建是指从原始数据中挖掘具有实际意义的特征。本文基于五个特征维度的原始字段,对特征进行单变量处理以及衍生变量构建。

本文使用到的单变量处理方法主要有无量纲化、连续值离散化、分箱操作、整数编码等。首先,采用特征标准化方法,将特征值转化成符合标准正态分布的值。其次,通过连续值离散化将特征的连续属性转为分类属性。此外,本文选取one-hot编码方法对学历和婚姻状况等特征进行编码。经one-hot编码后的特征,可作为连续特征。最后,在对原始变量进行分析时,根据基础变量的不同需求维度选择具有实际意义且对模型有影响的变量作为衍生变量。本文生成的衍生变量有贷款成功率、逾期率、还款率等。

特征选择通过去除无关特征,减少了模型特征的数量,使模型的泛化能力更好,大大降低过拟合风险,同时也增强了特征与特征值的解释能力。本文基于统计学的特征选择方法,通过计算变量间的相关系数,去除无关变量和多余变量,从而缩短模型的运行时间。经过特征选择后得到的各特征变量名称、类型、值分布情况如表4所示:

表4 各变量名称、类型和值分布表

五、模型检验

(一)基于CatBoost算法的二分类模型

本文运用Python软件对人人贷借款人数据进行CatBoost算法的二分类预测分析。首先采用交叉验证以及网格搜索法,计算模型的最优参数(结果如表5所示),使模型获得最优分类精度参数,然后基于CatBoost算法进行二分类模型训练。

表5 网格搜索下CatBoost算法最优参数

由图5~6所示,在模型迭代48次时,测试集的准确率和训练集的准确率同时达到最大值,此时训练集的错误率为3%,测试集的错误率为4%,即测试集的准确率达到96%。当迭代48次时,模型测试集和训练集的错误率与损失值出现同步下降的趋势,说明模型没有发生过拟合,预测结果具有有效性。

图5 基于CatBoost算法的准确率

图6 基于CatBoost算法的损失值

图7列出解释变量对模型的贡献情况,贡献度从高到低的前十个特征变量分别为还清贷款次数、逾期次数、借款类型、信用分数、成功借款次数、借款利率、申请贷款次数、借款人工作收入、年龄、以及工作地点;还清贷款次数的贡献度最大,高达43%;逾期次数与借款类型分别贡献了14%、9%;前十个变量贡献度高达84%。

图7 基于CatBoost算法的特征贡献度排序

(二)模型综合分析

为全面分析CatBoost构建的违约预测模型性能,本文选取GBDT前沿算法中的Light GBM、XG Boost 分别构建P2P违约预测模型(算法参数设定及结果见附表),并从分类精度、AUC值、模型稳健性、模型错误率的损失成本、模型运行速度五方面对各模型的分类预测效果进行比较。根据表6可知:

(1)分类精度反映模型的违约预测能力。从测试集分类准确度上看,CatBoost的分类准确度最高,次之为LightGBM,最后为XGBoost。

(2)AUC值客观评判了分类精度,AUC值越大,模型分类效果越好。因此,由AUC值可以判断,CatBoost分类精度最高,次之为LightGBM,最后为XGBoost。

(3)模型稳健性代表准确率的变化,即测试集与训练集分类精度的近似程度。由AUC值的波动情况可以判断,LightGBM的稳健性最好,其次为CatBoost,最后为XGBoost。

(4)模型错误率分为两类:第一类错误为将未违约借款人预测为违约借款人的概率,第二类错误为将违约借款人预测为未违约借款人的概率。由于在违约预测中,第二类错误的损失成本远大于第一类错误的损失成本,故本文运用第二类错误率来衡量各模型的预期错误分类的损失成本。因此,由第二类错误率值可以判断,CatBoost的预期错误分类的损失成本最低,次之为LightGBM,最后为XGBoost。

(5)由模型的运行速率可以发现,LightGBM的运行速率最快,次之为CatBoost,最后为XGBoost。

表6 十折交叉验证下各模型分类预测性能指标

在模型优势方面,传统Logic、Logistic模型对非线性、高维数据模拟效果较差,支持向量机不适用于海量数据,神经网络模型学习时间较长、效率较低,随机森林预测效果较差,而CatBoost构建的违约预测模型均在一定程度对上述问题进行了有效解决。同时,依据以往研究成果,Logistic回归、随机森林、神经网络构建的违约预测模型的准确率分别为62%、57%和75%[14-16],而CatBoost算法的预测准确率达96%,比传统预测模型与传统智能方法的预测准确性提高超过20%。结合模型比较结果,CatBoost构建的P2P违约预测模型的性能总体上优于LightGBM与XGBoost,同时CatBoost模型的第二类错误率较低,说明该算法能够对模型出错所导致的损失成本进行良好地控制。

(三)违约影响因素分析

本文将对借款人基本信息、借款人动机、借款人还款能力、借款人信用情况以及平台认证五个维度包含的各变量内容进行综合分析,以分析违约影响因素。

表7 违约影响因素贡献度分布

表8 基于CatBoost算法的违约影响因素

违约影响因素的五个维度的贡献度中,借款人的信用情况占比最高,说明借款人的信用情况对借款人违约与否的影响最大;而借款人的基本信息和平台认证对借款人的违约情况影响较小。综合来看,五个维度的影响程度由高到低依次为:借款人信用情况、还款能力、借款人动机、借款人基本信息、平台认证。

从违约影响因素中可以发现:(1)还清贷款次数的贡献度高达43%,是影响因素中贡献度最高的指标;逾期次数的贡献度为14%。还清贷款次数与逾期次数可以有效辨别借款人过去的信贷状况,能够在一定程度上代表借款人未来的还款能力;(2)借款类型与借款利率的累计贡献度达12%,说明不同的金融产品与利率设置会影响借款者的违约行为;(3)信用分数与成功借款次数累计贡献率达12%,信用分数的高低对成功借款次数有直接影响,而信用分数与成功借款次数能够有效体现借款人的信用级别和信用表现。除上述指标,其他指标的贡献率均低于3%,因此对借款人进行违约评估时,还清贷款次数、逾期次数与成功借款次数应作为借款人信用状况的主要参考指标,借款类型和借款期限应作为借款人动机的主要参考指标,信用分数应作为借款人基本信息的主要参考指标,同时,上述指标应在借款人违约行为分析中作为重要参考因素。

六、结论与建议

本文以人人贷平台为研究对象,运用特征工程技术和CatBoost算法构建P2P违约预测模型,全面分析了模型的性能优势,同时综合分析了违约影响因素。实证结果表明,CatBoost算法的预测准确率达96%,即预测平台违约率为4%,而根据人人贷满标数据计算得出的实际违约率为4.1%,说明运用CatBoost算法构建P2P违约预测模型在分类精度、分类准确度上具有一定优势,对实际结果的拟合效果较好。同时,CatBoost算法能够对模型出错所导致的损失成本进行良好地控制,为平台及时止损。

自2012年以来,P2P 平台数量大幅增加,但由于中国互联网金融市场尚未健全成熟,一些运营模式存在漏洞、风险管控与监管机制不完善的平台出现资金链断裂、运营停滞等现象。2018年以来,国家及地方监管层出台相应整治文件及退出政策,通过良性退出降低网络借贷整体风险。为此,结合本文的研究成果与中国P2P行业发展状况,为推进中国互联网金融的发展,本文提出三方面建议:

第一,通过行业集中方式促进规范机构发展。纵观国内外关于P2P行业的研究,众多学者普遍认为P2P是显著提高资金配置效率的创新渠道,其中,中国学者均认可P2P模式有效缓解了中国中小企业及中低收入人员的融资压力。因此,中国应对运营状况良好、风险管控能力较强的P2P平台予以保留,通过良性退出、行业集中等方式推动市场出清,使得P2P规范机构持续良性发展,从而促进行业长远发展。

第二,积极促进数据分析与测算分析技术的革新与应用。网络借贷平台通过现有网络技术及大数据分析,建立起投资人与小额借款人之间的信贷关系。就平台运营而言,数据分析与测算分析技术是有效降低违约率、保障借贷双方利益、维持平台良好运营的关键。P2P网贷平台应积极革新数据分析与测算分析技术,将智能算法等核心大数据前沿技术进行合理创新,并有效应用到平台运营中,为平台稳健运营与互联网金融的持久发展创造动力。

第三,有效形成技术与政策合力发展的态势。政府应不断完善并出台稳定且细致的P2P行业相关法律法规,有效保障P2P行业内借贷双方权益及行业的长足发展。同时,有效借鉴他国监管经验,建立专门监管部门,明确监管责任。从而在平台提高技术水平的基础上,政府及相关部门形成政策法规的同步发展,积极促成从平台内部到外部环境的合力发展态势。

猜你喜欢

借款人借款借贷
民间借贷纠纷频发 诚信为本依法融资
微信上小额借款 请务必通话确认
妻子的借款该如何认定债务关系呢
浅论借户贷款情形下隐名代理的法律适用
小微企业借款人
让民间借贷驶入法治轨道
热词
一张图看懂民间借贷“防火墙”
一般借款利息费用资本化金额确定之我见
民间借贷年利率超过36%无效