APP下载

P2P平台贷款决策研究
——利用收益评分取代违约概率评分

2018-10-19

上海管理科学 2018年5期
关键词:借款人决策树收益率

陈 卓 蒋 炜

(上海交通大学 安泰经济与管理学院,上海 200030)

1 研究背景

目前,以Lending Club和拍拍贷为首的国内外多数P2P平台都将贷款人的信用评分作为投资人的参考依据。信用评分是一个分类问题,它以二元的“是否会违约”作为因变量,并应用逻辑回归或神经网络等技术试图估计借款人的违约概率(PD)。然而在P2P平台上,对于投资人而言,相较于借款人是否会违约,如何使自己的投资获得最大的盈利才是更为直观的最终目的。在这一点上,违约概率似乎并不是最佳放贷标准。低违约率的借款人虽然坏账率低,但其利率也远低于高违约率的借款人。而高违约率的借款人虽然很可能不偿还整个贷款,但也会收回一定的金额,且风险最高的贷款类别也支持高利率,可以在一定程度上弥补拖欠的贷款。一个例子是小额信贷,贷款给经济上被排除在外的人,但是鉴于他们的高利率,这些贷款可能有风险但有利可图。

在贷款市场,内部收益率(Internal Rate of Return(IRR))是评估投资回报率的常用指标。IRR即资金流入现值总额与资金流出现值总额相等、净现值等于零时的折现率。IRR的使用有两个好处:首先,IRR是一个连续变量,与二分变量相比,可以提供更准确的信息。第二个好处是IRR不仅考虑贷款支付,而且还考虑贷款利率。风险最高的贷款有很高的违约率,但也为贷款人提供高利率来补偿他们的高PD。

2 CHAID模型的建立

2.1 数据描述性分析

本论文采用Lending Club 2015年的贷款数据,删除缺失率大于70%的记录以及还款仍在进行中的记录后,共剩余213 730条贷款记录,65个变量。其中,违约记录为56 348条,占总记录数的26.3%。

本文利用还款周期、月供金额以及总还款额来计算每笔贷款的内部收益率。结果表明,213 730条贷款记录中,IRR为负值的记录数为53 216,占总贷款记录数的25%。具体IRR分布图见图1。由图1可以看出,IRR并不遵循正态分布,而是不对称分布。这种扭曲的分配是由于尾部极端的违约贷款造成的负IRR值较多。整体的平均内部收益率为-5.15%,中位数为6.01%,标准差为0.259 0。

表1呈现了不同FICO等级的借款记录间IRR的差异。可以看出,FICO等级越高,IRR的均值就越大,但与此同时,IRR的波动也逐渐增大。这从一定程度上说明,若以IRR作为投资决策的依据,现有的信用等级系统仍有很大的改进空间。

图1 所有贷款记录的IRR分布直方图

表1 按FICO等级对利率与IRR的分组分析

2.2 CHAID模型的建立

CHAID算法通过计算类别变量与特征变量之间的相关性检验统计量的p值,即卡方统计量对应的p值,p值越小,说明特征变量与类别变量之间的关系越密切,应当被选为最佳分组特征变量。然后继续按此准则选择后续特征变量,直至所有样本被分类完毕。CHAID算法在构建决策树时具有一定的优势,它从统计显著性的角度来确定特征变量和分割数值,对决策树的分枝过程优化明显。且CHAID算法是为数不多的可将连续型数值变量作为因变量的决策树算法,因此,本文选择了CHAID算法。

本文所建立的CHAID模型通过使用IBM SPSS Modeler来实施,旨在建立以连续型数值变量IRR为目标变量的决策树模型,实现对贷款利润率的准确预测。

此次建模,从213 730条贷款数据中随机选取80%作为训练集,剩余20%的记录作为测试集,用于对模型拟合结果进行检测。图2展示了决策树在预测贷款IRR的过程中,从65个自变量中所筛选采用的10个自变量及其相应的重要程度。表2是对上述变量的含义所作出的解释。

图2 决策树所采用变量及其重要程度

此决策树包含84个终端节点,表3总结列举了其中8个节点的训练和测试结果,显示了该节点的分支,并揭示了获得正向异常收益的某些策略。例如,向dti为11.26~13.79,按揭账户为1~3,且过去24个月内的交易数量不超过4的用户借款,可获得高于整体水平的收益。

表2 CHAID决策树所用变量

3 CHAID模型与传统LR模型对比

为了将CHAID分析所得结果与传统的信用评估方法相对比,本文参照前人的建模经验,采用和CHAID一样的训练集和测试集,对上述建模所用数据进行逻辑回归(Logistic Regression-LR)分析以评估其违约概率。LR提供从0到1的分数,可以将其解释为贷款的偿付能力指标。将测试样本中的贷款根据其LR评分进行排名,如果贷款人根据LR信用评分结果选择前10%的最佳借款人,则将获得平均1.0%的内部收益率。而在同样的借款人集合中,根据FICO得分选择前10%的最佳借款人将获得平均1.6%的内部收益率,按CHAID得分选择前10%的最佳借款人将获得平均1.9%的内部收益率。图3展示了两种模型结果的差异,可以看出,CHAID模型在选择高IRR的借款人时,较LR和FICO评分有着明显而稳定的优势。

表3 CHAID决策树部分节点展示

图3 CHAID模型和LR模型预测结果对比

4 结论与建议

由前文可以知晓,目前P2P行业存在较高的违约率和较低的IRR。这与目前P2P市场以信用评分为唯一的投资参考标准有关。在本文的研究中,我们提出了一个通过CHAID决策树模型预测P2P贷款收益率,并将其作为P2P平台投资人决策依据的思路。在建模过程中,本文发现了影响贷款收益率的重要因素,且模型结果显示,使用CHAID模型的预测结果作为投资决策依据可以在一定范围内稳健提升投资人的收益率,使投资者更有积极性地将资金应用到网贷平台,有助于网贷平台更健康的发展。

本文的局限性在于,由于P2P数据获取较为困难,本研究仅分析Lending Club单一电子平台的数据。尽管确定内部收益率的因素已经确定,但这些结果不能扩展到其他P2P借贷平台,所获得的规则仅适用于分析的案例。

猜你喜欢

借款人决策树收益率
浅论借户贷款情形下隐名代理的法律适用
一种针对不均衡数据集的SVM决策树算法
乡城流动借款人信用风险与空间收入差异决定
决策树和随机森林方法在管理决策中的应用
小微企业借款人
2016年10月债券平均久期、凸性及到期收益率
2016年10月底中短期票据与央票收益率点差图
2016年9月底中短期票据与央票收益率点差图
2016年9月债券平均久期、凸性及到期收益率
基于决策树的出租车乘客出行目的识别