基于Lasso—logistic模型的P2P网贷平台信用风险评价研究
2018-11-16罗文琦
罗文琦
一、引言
随着我国现代信息化的发展,“互联网+”的出现,P2P已经成为“互联网+金融”的主要发展模式之一。在传统金融服务模式僵化造成投资渠道单一,个人、中小企业融资难等问题日益突出的背景下,P2P 网贷迅猛发展。门槛低、回报较高,且以互联网为媒介实现快速买入和变现的投资交易模式,更适合于大众创业、万众创新时代的个人小额借贷,且为经济转型升级提供了有效途径。截止2018年3月,因经营不善、携款跑路、黑客攻击等原因使网站无法正常运营而停业的平台就有151家,2017年有643家,2016年有1711家。以上数据表明,在P2P欣欣向荣发展的背后,潜在的风险日益明显。信用风险是指平台上的借款者因种种原因,不愿或无力履行合同条件而构成违约,致使 P2P 网贷平台遭受损失的可能性,这是 P2P 平台最基本的风险之一。平台作为中介为借贷双方提供直接的交易平台,无抵押、无门槛、申请程序方便易懂,为小微企业融资和个人贷款提供了便捷通道。但是,对于投资者来说,其需要选择一个平台进行投资,在借款方的条件如此宽松的下,为保证投资者投资收益,对投资平台风险的研究是研究投资行为扩散研究的必然前提。因此,本文通过构建Lasso-logistic模型对网贷平台的风险进行评估的研究具有一定的研究意义。
二、P2P 网贷平台信用风险评价实证分析
(一)数据来源及处理
网贷之家是我国首家P2P网贷理财行业门户网站,提供全方位、权威的网贷平台数据。目前,P2P网贷在我国发展速度非常快,从网贷之家官网公布的数据可以看出其发展趋势与速度。本文通过从网贷之家官方网站爬取网贷之家上的从业人员资质审查机制、设立投资人资格标准、贷款审查程序合理、完整性、对借款人进行身份审核及资信评估、制定借款违约应急计划的一些数据,截至2018年4月,共有网贷平台6114家,正常运营的平台有1887家,累计问题平台4237家。本文选取正常运营的1887家平台作为研究对象,分别从从业人员资质审查机制、设立投资人资格标准、贷款审查程序合理、完整性、对借款人进行身份审核及资信评估、制定借款违约应急计划获取研究数据进行研究,指标体系见表1。
(二)指标选取
根据研究对象 P2P 网贷信用风险的基本情况,本文主要选择贷款审查程序合理性和完整性、制定贷款人违约应急计划、设立投资人资格标准、对借款人进行身份审核及资信评估、平台从业人员资质审查机制五个指标来评价信用风险。一般认为,贷款审查程序合理性和完整性、制定贷款人违约应急计划、借款人的身份审核及资信评估是体现信用风险最敏感的指标,这三个指标基本可以反映 P2P 网贷企业信用风险控制水平。投资人的资格标准虽然表面看起来跟信用风险没有太大联系,但是在一定程度上也会对其产生影响。如果平台对借款人进行身份审核及资信评估,那么制定借款违约应急计划对于平台可能发生的信用风险来说也是一种有效防范。公司内部从业人员的素质直接体现了一家 P2P 网贷企业对上述四项的审查程序的公正程度,对信用风险评价来说,平台从业人员资质审查机制也是一项不可或缺的指标。
(三)指标取值
根据指标的性质可以对指标数据进行处理,并将指标量化。目的在于更好地和模型结合起来。数据的处理要根据指标变量化的结果按照变量要求进行处理。变量量化结果见表2。
(四)实证分析
1.模型运算过程
本文的研究是对P2P网贷平台的信用风险评价,即风险识别与预测的研究,Logistic模型具有预测准确率高、计算方法简单、变量解释能力强、数据分析中拟合度高的优点,是信用风险识别和预测能力目前最强的模型。Lasso具有计算快捷、变量选择和参数估计等特点,而且能更准确地筛选出重要的变量。为显示 Lasso-Logistic 模型与其他 logistic 模型的优势,在做回归分析时特意将该模型与全变量 logistic 进行比较。
如Lasso 系数解路径图,横坐标Lambda的对数,纵坐标为系数值,最上面的数字为不同 Lambda 所对应的筛选出的变量的个数。随着 Lambda 的增大,越来越多的变量的系数趋向于0,对Lambda 的选择可实现对变量的筛选,如图1所示。
利用交叉检验的方法,得到最优的协调参数 λ的值( 见图 2) ,CV 误差曲线图表示的是不同的 Lambda 的值所对应的模型误差,横轴是 Lambda值的对数,纵轴对应的是模型误差,最上面的数字表示不同Lambda 所筛选出的变量个数。从图中可以看出此时λ=e-5。
Lasso-logistic模型的变量选择,其关键在于调和参数λ的选取,常用方法有Boot-strap、交叉验证、广义交叉验证法等,本文采用广义交叉核实 (Generalized Cross-validation)方法确定罚参数λ的值。
其具体算法如下:
显然,使交叉验证值GCV达到最小的罚函数为最优的罚参数λ,则最优λ的估计值为公式6所示的表达式。
由图2可以看出,随着Lambda取值的逐渐增大,压缩程度增大,所选入模型的变量个数越少。左边的虚线表示Lambda.min 取值的位置,右侧的虚线是 Lambda.lse取值的位置,对应着一倍标准误差内更简洁的模型。Tibshirani 认为,模型变动偏差在兩虚线之间变动较小,Lambda 应在此区间内取值,一般建议选取 Lambda.lse,使模型相对简洁。所以,本文选取 Lambda.1se 进行变量筛选。基于Lambda的取值, 可以得到筛选出的变量参数估计值如表 3所示。
从 Lasso-logistic 模型的结果可以看出,信用风险的相关性由高到低依次为D4,D3,D5,X1,D2,这些变量分别的是:对借款人进行身份审核及资信评估、贷款审查程序合理、完整性、制定借款违约应急计划、平台从业人员资质审查机制、设立投资人资格标准。以上排序仅仅是关联程度未考虑正向还是反向关系。
2.模型准确率比较
在选取的样本中还有预测样本没有用到,接下来将用模型估计的结果所形成的关系模型对预测模型进行预测,同用全变量logistic进行对比其结果如表4。
表 4 中的结果表明,无论在实验样本还是在预测样本中 Lasso-logistic 模型都要比全变量 logistic 模型有更高的准确率,同样的利用网贷平台的数据,传统的全变量logistic 模型具有预测准确率高、计算方法简单、变量解释能力强、数据分析中拟合度高的优点,是信用风险识别和预测能力最强的模型,进行实验,得出的结果是62.20结果,而我们采用Lasso-logistic模型进行计算,得出72.16的违约结果。72.16>62.20,在总体水平达到 74%左右的预测准确率在一定程度上还是比较高的,所以本文采用的Lasso-logistic模型具有较高的预测准确率。
三、结语
本文将Lasso-logistic 模型引入P2P网贷平台的信用风险评估之中,利用网贷之家的数据对平台的信用风险进行了实证分析。本文的主要结论有:第一,全变量Logistic模型将所有变量选入模型,然而并不是所有变量参数均能通过显著性水平检验,这在一定程度上降低了模型解释性,Lasso-logistic模型克服了全变量Logistic模型多重共线性的同时也增强了模型解释性。第二,Lasso-logistic模型不管是对违约平台的预测还是评估,其准确率都是最高的,并且对测试集的预测也保持了较高的准确率,说明 Lasso-logistic模型具有较高的外推性。
因此,将Lasso-logistic模型引入P2P平台信用风险预警模型,可以更加科学地选择评估指标体系,并构建适合我国国情且行之有效的P2P平台信用风险评估模型,提高P2P平台信用风险的预警效果。
参考文献:
[1]王 丹,张洪潮.P2P网贷平台信用风险评级模型构建[J].财会月刊,2016(9):76-80.
[2]孙同阳,谢朝阳.基于决策树的P2P 网贷信用风险评价[J].商业经济研究,2015(2):81-82.
[3]方匡南,章贵军,张惠颖.基于Lasso-logistic模型的个人信用风险预警方法[J].数量经济技术经济研究,2014(2):125-136.
[4]潘 爽,魏建国.P2P网贷平台的信用风险及其分散机制设计——基于信号传递模型[J].财会月刊,2017(11):88-91.
[5]刘峙廷.我國P2P网络信贷风险评估研究[D].南宁:广西大学,2013.
[6]索云腾.P2P网贷信用风险评价研究[D].重庆:重庆师范大学,2016.
[7]张志强.当前我国P2P信贷现状及发展对策[J].华北金融,2013(7).