关于P2P网络贷款信用风险的研究
2018-05-14刘畅徐卓婷
刘畅 徐卓婷
[摘 要]P2P网络信贷作为一种信贷业务,但其风险管理能力远低于传统商业银行,所面临的最大风险就是信用风险。本文则对P2P网贷风险产生的原因进行分析,并且用全球最大P2P公司Lending Club的贷款数据建立风险预测模型并给出了预测精度,以期为国内P2P公司提供可借鉴的信用风险管理方法。
[关键词] P2P;网络贷款;信用;风险
[中图分类号]F832.4 [文献标识码]A
1 引言
中国的金融改革正值互联网金融潮流兴起,在传统金融部门和互联网金融的推动下,中国的金融效率、交易结构将发生深刻变革。P2P因其较高的收益成为广大投资者的新型理财工具,是对现有银行体系的巨大补充,提高了整个社会的资金使用效率,同时满足借款人的资金需求。
P2P作为金融行业的重要组成部分,控制其信用风险对金融行业乃至整个国民经济发展具有重要意义。而目前大多数P2P网络平台尚未建立自己的信用风险评估模型。于是本文将利用Logistic回归模型以Lending Club平台数据为例对P2P网贷风险做出分析与预测。
2 文献综述
白金瑞(2012)提出,将神经网络和Logistic回归相结合,在P2P信贷领域有着较好的应用效果。袁羽(2014)基于个人财务指标,利用Logistic模型对Prosper信贷平台进行了建模分析,证明了该方法具有较显著的准确性。张晴(2014)利用了支持向量机模型对银行的个人信贷数据进行了分析,为P2P项目风险审核及建模控制提供了参考。傅彦铭等(2015)研究发现,支持向量机这类的非线性模型在信用预测中存在着实际的可能。在他的研究中,利用主成分分析来筛选变量,取得了85.7%准确率的预测效果。蒋云彬(2015)主要在信用违约方面做了研究,利用logistic信用模型在计算中小企业违约概率和VAR风险模型在控制抵押物风险方面取得了良好的效果。
3 理论
3.1 主成分分析法
主成分分析是一种对原始指标变量进行降维的处理方法,它通过将具有一定相关性的原始变量进行重新组合,得到包含数量较少且相互之间不存在相关性的综合性指标。而这些新得到的综合指标不仅含有原始变量的大部分信息,能够较好地代表原始变量,而且它们之间不相关的特点有利于对经济内涵释义,使所研究的问题简单化。
3.2 Logistic回归模型
Logistic回归模型是一种非线性概率回归模型,该模型在使用时不要求数据变量服从正态分布或变量之间具有同方差,也不限制变量的类型。它是主要用于对分类变量进行回归分析,在各领域具体的实际应用中,以多元二分类因变量Logistic回归模型使用最为广泛。
4 P2P信用风险预测实证分析
P2P行业自身发展不够成熟,借款人信用风险产生的原因是多种多样的。目前,几个主流平台还在采用线性预测模型来对借款人未来违约与否进行预测。国内外学者已经发现,信贷这类的信用数据普遍具有非线性的特点,因此,利用非线性模型来进行违约预测具有重要的現实意义。本节将以Lending Club平台网站为数据来源,建立逻辑回归模型并给出预测精度,得出借款人信用风险评估方法,为平台预测借款人违约概率提供借鉴。
4.1 数据采集与处理
本文选取的是Lending Club2012年到2016年这五年最新的贷款数据。其中去除掉当前贷款状态loan-status字段中为Current目前还在还款状态的项目,筛选出已经结束贷款的项目共517607条记录,每个记录即为一个贷款项目,数据集每条记录以用户ID和贷款ID 作为标识,共有87个变量。
由于样本数据丰富,我们需要对数据继续进行处理,其中有56565条记录变量数据严重缺失,采取删除的处理办法。最后剩余461042条记录构成最终的研究数据。
4.2 变量筛选
针对高维变量的数据,我们需要进行变量筛选,通过观察数据,可以首先删除一些空白变量、无效变量(指每条记录该变量数值均相等,无分析意义)、文本类不相关变量(包括借款记录页面网址、借款人自己填写的贷款标题、借款人名字、自我描述等),最后得到一个含有32个变量的数据集。
4.3 主成分分析
在使用主成分分析之前,先对所选取的32个初始变量进行标准化处理。
4.3.1 相关性检验中,KMO检验的结果为0.641>0.6,适合做因子分析,Bartlett球形检验的sig.的P值为0.000,表示拒绝原假设,即这些变量之间存在相关性,适合做因子分析。
4.3.2 提取主成分因子。本文利用主成分分析方法提取主成分因子,在此我们提取特征值大于1的主成分,有16个指标的特征值大于1,分别为:8.064、3.792、2.753、2.355、1.908、1.790、1.606、1.450、1.430、1.202、1.035、1.028、1.015、1.010、1.007、1.006;前16个指标特征值的方差贡献率分别为:16.415、8.958、6.069、5.342、5.327、4.791、4.710、4.069、3.657、2.840、2.822、2.503、2.477、2.447、2.426、2.409,累计贡献率为77.261%,即前16个指标涵盖了原始变量数据77.261%的信息量,能够比较好地解释原始变量的变异,所以本文提取了16个因子做主成分分析。
4.4 Logistic回归模型的构建
根据上文得到的主成分因子,将其作为建模的指标变量,在SPSS软件中进行回归分析。经过软件处理,最终得到16个因子的参数估计值分别为:-0.064、-0.195、0.994、5.393、45.032、0.984、1.602、-0.433、-0.223、0.144、0.045、0.920、-0.107、0.275、-0.146、-0.051;显著性水平均低于0.05,因此,可以得到该模型拟合效果较好。
在模型的检验结果中,该回归方程对信用风险发生与否判断的准确度为98.3%。总体来说,本文所建立的信用风险预测模型对违约预测的准确度比较高。
5 政策建议
P2P网贷平台作为金融行业的重要补充,其健康活跃发展对我国经济发展有着重要作用。根据以上的分析,可以给出以下几点建议来改善P2P行业的信用风险情况:
行业内建立统一的征信系统。P2P平台之间可以实现信用信息的共享、建立信用黑名单、完善违约风险通报制度。每个平台都有义务跟其他平台合作,通力实现信用风险的有效控制,而众多平台也将是信用信息的受益者。征信系统的完善关系着投资者的切身利益以及整个P2P行业的未来。
完善平台风险预测系统。能够对违约与否进行较准确的分析是控制平台风险的关键和核心。平台应当善于利用历史数据对预测模型进行不断优化。把模型分析结果作为审核时的参考指标,有助于提高平台贷款审核的准确率,减少平台违约项目,从而提高平台利润率。
完善P2P行业违约惩处机制。我国P2P行业不断出现的跑路、违约事件,不仅是因为平台本身的运营和风险控制系统出了问题,还因为缺乏一个强有力的惩罚机制。由于惩罚机制的缺失,平台违约行为得不到遏制,进而更加猖獗,这无疑会阻碍P2P行业的稳步健康发展,建立强有力的违约惩处机制对行业的发展具有重要意义。
[参考文献]
[1] 白金瑞.基于Logistic回归的神经网络模型在个人信用评估中的应用[D].内蒙古大学,2012.
[2] 袁羽.基于Logistic回归的P2P网络贷款信用风险度量[D].上海社会科学院,2014.
[3] 张晴.基于支持向量机的商业银行信用风险研究[D].浙江大学,2014.
[4] 傅彦铭,臧敦刚,戚名钰.P2P网络贷款信用的风险评估[J].统计与决策,2014(21).
[5] 蒋云彬.国内P2P平台融资风险分析研究[D].云南大学,2015.