基于投影寻踪动态聚类模型的p2p网贷风险评价体系构建及实例分析
2019-10-08张亚晶楼文高
张亚晶 楼文高
摘 要: 由于市场监管等一系列政策的不完善,导致如今p2p网贷在给用户带来便利的同时也存在巨大的风险。为防范该风险,本文根据平台风险指数1个一级指标、平台成交量等4个二级指标和平均预期收益率等14个三级指标构成的评价指标体系和采集到的样本数据应用投影寻踪动态聚类(PPDC)对100家网贷平台进行实证评估研究,建模结果表明:PPDC模型与投影寻踪聚类(PPC)模型的结果基本一致,排名与网贷之家排名结果的一致性好,且不受人为主观因素的影响,又能求得平台风险和评价指标权重的大小及其排序,在p2p网贷风险评价中能够取得良好的效果,是分析p2p风险指标的一种新方法。
关键词: p2p网贷;风险评价;投影寻踪;动态聚类;GSO算法
【Abstract】: Due to the imperfection of a series of policies such as market supervision, P2P lending has brought convenience to users, but also exists great risks. To guard against this risk,this paper evaluates 100 online lending platforms by using projection pursuit dynamic clustering (PPDC) based on an evaluating indicator system of one first-level indicator including platform risk index、four second-level indicators including platform trading volumes、fourteen third-level indicators including average expected returns and collected samples data.Modeling results show that the results of PPDC model and projection pursuit clustering (PPC) model are basically the same and the ranking is consistent with the ranking results of online lending homes, and is not affected by subjective factors.Simultaneously,it can also find the platform risk and the weight of the evaluating indicator and their ranking. Because it can achieve good results in p2p lending risk assessment, it is a new method to analyze p2p risk indicators.
【Key words】: Peer-to-peer lending; Risk evaluation; Projection pursuit; Dynamic clustering; GSO algorithm
0 引言
p2p網贷是Peer to Peer网络借贷的简称,是平台以信用贷款的方式进行牵线搭桥,让有资金的个人将资金贷给其他有借款需求的个人,并从中获取利息的一种信贷方式。2005年3月,“Zopa”作为全球首家网上在线借贷平台诞生于英国伦敦。然后它很快被复制到美国、日本以及欧洲大陆[1]。2006年,宜信作为我国第一家P2P小额信用贷款服务机构在北京亮相。从那时起,P2P在中国掀起了一股热潮,到目前为止已有包括宜信、安信贷、点点贷、人人贷、红岭创投等数千家网络信贷平台,其发展之迅捷令许多业内人士始料不及。但是,在其看似欣欣向荣的表象下,P2P潜在的风险也日益暴露。截止2017年8月,问题平台数据已达到3362家[2]。随着这些问题平台的破产倒闭,在一定程度上已经引起了业内投资者的恐慌,很多投资者纷纷撤资,导致P2P网贷平台的资金只出不进,一系列连锁反应让更多网贷平台相继破产倒闭,形成闭合死路,给投资者造成很大损失。然而造成这些问题平台的倒闭的根本原因就是分析信贷水平的技术差、管理风险的方法不成熟、循环借贷以及催收债务困难。由此可见,投资者选择投资平台的重要依据主要是该平台的信用风险度,因此,如何选用恰当的方法对平台进行信用风险评价将是研究网贷领域的焦点。
因此国内外很多学者基于网贷平台真实数据对信用风险领域展开了广泛研究[4]。Freedman等[3]认为,借款者为了既能够获得贷款又能保护自身隐,在借款难度较大的情形下必然会提供某些虚假信息来遮掩那些对自己不利的因素,这样就使得了网贷平台的逆向选择情况加深。王丹[5]选用了传统金融机构对微小企业信用评价的方法,运用层次分析法和模糊数学综合评价法对网贷平台进行了信用评级。李浩然[6]利用Logit模型对数十家网贷平台进行回归分析,得出了影响网贷平台信用风险的重要指标。李从刚和童中文等[7]在骆驼评级法指标体系的基础上添加了能够反映平台综合实力的四项指标,构建出P2P网贷平台的风险评价指标体系,通过BP神经网络学习训练过程,得出P2P网贷平台的风险情况。上述方法[8]虽然进行了探索性研究,但是他们在评价过程中对P2P网贷平台风险的分析大多数都是定性分析,仅有的一些定量分析也只是集中在对借款人违约因素的分析上,使用情景分析法、德尔菲法等定性方法或者BP神经网络等定量方法进行风险的综合计量,缺乏对平台整体风险的度量与评价。针对上述问题,本文以投影寻踪理论为基础结合动态聚类思想建立了一种网贷风险评价模型,即基于投影寻踪原理的动态聚类(Dynamic ClusterBased on Projection Pursuit)模型[9-14],本文将详细介绍基于投影寻踪原理的动态聚类模型的建模过程,并在此基础上为评价我国p2p网贷平台风险提供理论支持。
1 P2P网贷平台的风险评价指标体系构建
由于社会体系构建的复杂性,p2p网贷不会只仅仅受一个风险因素的影响,而是诸多风险因素汇集一身的结果。这里面不仅仅有传统融资模式所存在的风险因素,还有互联网自身安全性所导致的风险。各方面的风险因素相互影响、相互作用,综合构成了网贷平台的风险评价体系。由于涉及到的风险因素种类众多,也比较复杂以及现阶段没有统一的网贷平台信用评价指标体系,相关文献不全,评级难度较大。因此,笔者在参考P2P网贷平台风险相关研究成果[2-8]的基础上,借鉴了商业银行的信用风险评价方法[20]以及中国社科院首个P2P网贷评价指标体系,从平台成交量、平台人气、平台运营、平台分散度4个方面,挑选出14个重要风险指标进行评估,构建p2p网贷平台信用风险评级指标体系,如表1所示。
2 投影寻踪动态聚类模型的建立
2.1 投影寻踪动态聚类建模原理
投影寻踪的本质是将数据从高维空间向低维空间进行投影,在低维投影空间上分析高维数据的分类排序等结构特征,从而让人们用低维上的角度去观察高维的数据,最终获得更多的数据信息。通过分析以往学者的实际聚类过程,投影寻踪聚类模型尚且存在不足,主要体现在两个方面:一是在求解模型的过程中,存在着唯一参数——密度窗宽(R),该参数取值目前必须依靠经验或试算来确定,缺乏相应的理论依据;二是投影寻踪聚类模型的结果需要利用其他方法进行分类处理,才能得到最终的聚类结果[9-14]。针对上述问题,倪长健[9-12]等引入动态聚类方法[19],提出了PPDC模型,其建模过程如下[9-21]。
2.2 投影寻踪动态聚类建模过程[9-21]
由于(7)式既含有等式與不等式并属于高维非线性最优化问题,不易求解。为此笔者编制了全局搜索能力强、收敛速度较快的群搜索算法(Group Search OPtimization,简称GSO)[22] Matlab最优化程序来求解(7)式。由于目标函数(7)是由不同样本点之间的绝对值距离构成,因此可直接使用楼文高[11]提出的定理1、2和3判断最优解过程是否求得了真正的全局最优解。
3 实例分析
本文数据来源于网贷之家、网贷天眼数据库,选取陆金所、人人贷、拍拍贷、宜贷网,开鑫贷、积木盒子、红岭创投等100家网贷平台进行研究,以2017年1~12月的数据平均值作为原始数据。表2给出了部分网贷平台的平均样本数据。
首先根据《中国p2p网贷平台风险评级报告》[23]可以确定样本分类数为4,即N=4。然后将100家平台数据导入笔者编制的基于GSO的PPDC程序,求得最佳投影方向
由表3可知:平台的危险性从大到小依次是:平台3>平台10>平台9>平台2>平台4>平台7>平台8>平台6>平台5>平台1,该分析结果和网贷之家、网贷天下等网站的评估结果排序大体一致。在评定平台危险性的同时,表3还直接给出了平台样本的聚类结果,避免了平台等级划分的不确定性,因而模型的分类结果明确,评价客观性强。此外,样本的类间投影值有明显的差异,而类内投影值则非常相近,这表明该模型能更好地实现投影寻踪的建模思想。总之,投影寻踪动态聚类模型不仅切实可行,而且在p2p网贷风险评价中能取得更好的实际应用效果。
4 结果与讨论
PPDC建模思想与以往学者进行综合评价的方法理念如出一辙,具备了综合评价方法的多数特 征[24-25]。而评估P2P网贷平台风险则是一种典型的综合评价问题,因此必须处理综合评价模型的两个最基本的问题,一是确定各个评价指标的权重,提出降低风险的有效措施和建议,二是确定研究对象(网贷平台)的风险等级(即得到模型的投影特征值和聚类结果)。以下就针对这些问题展开讨论和 分析。
4.1 判定评价指标的特性
从建模原理以及结果可知,最佳投影向量系数(也称为权重)越大的指标越重要。因此,14个评估指标中,C44(前十大借款人待还金额占比)最重要,然后按指标重要性从高到低的排序为C44>C42>C43>C24>C12>C11>C21>C31>C41>C14>C22>C32>C23>C13。其中C44~C21共7个指标的权重大于0.9,C31~C32共5个指标的权重介于0.1~0.9之间,其他2个指标的权重小于0.1,最大权重与最下权重之比为167.9,说明指标的重要性差异较大,可以删除指标C13和C23。
在4大方面中,平台分散度对平台危险评估的影响最大,占归一化权重的38.2%,其次是平台成交量和平台人气,分别占比26.2%和25.6%,平台运营占比10%。从中可以看出,平台分散度、平台人气和平台成交量基本就决定了信贷风险水平。
从整体上讲,提高权重越大的指标值,越有利于降低平台危险,反之亦然。改善平台运营对降低平台风险具有决定意义。
4.2 判定网贷平台的危险等级
由于从高维空间向低维空间进行投影得到的结果都是一维实数,这不仅可以轻易判定平台风险等级,还可以对处于同一风险等级的平台,进行精细的排序研究。投影值越大其风险越低,如对于同为较低风险的平台9、2、4、7和8,平台9的风险最大,其次是平台2、4,然后是7和8。据此可以判定所选样本平台的风险高低排序:平台3>平台10>平台9>平台2>平台4>平台7>平台8>平台6>平台5>平台1。
4.3 PPDC模型结果与投影寻踪聚类(PPC)[21]建模结果的比较
为了进一步验证PPDC模型结果的可靠性和有效性,笔者针对相同数据,又应用PPC模型进行建模[15],由于窗宽半径值是决定PPC模型最佳投影向量及其系数(权重)的唯一参数,即建模结果与窗宽半径值大小直接相关。故选取R值的基本原则[3]:是在窗口内的样本点不能过少,同时,样本点个数增加时,在窗口内的样本点也不能增加太多。由文献[15]可知,选取符合上述选取R值的基本原则。即通过PPC模型可以得到所选平台的投影值a=(0.9578,0.9816,0.0059,0.427,0.9573,0.3683, 0.0091,0.9864,0.772,0.1315,0.4621,0.9983,0.9943,0.9991)。因此可以很便捷地判定上述平台的风险等级以及风险排序,平台3>平台10>平台9>平台2>平台4>平台7>平台8>平台6>平台5>平台1与PPDC模型的结果完全一致。但是与传统的一维PPC模型相比,PPDC模型结果不受选取不同窗口半径值的主观影响,建模结果具有为唯一性和更好的客观性。
5 结论
如何快速、有效、综合的评价p2p网贷平台风险已成为互联网金融能否可持续健发展的关键环节之一,越来越受到学界、金融业界和监管部门的重视。虽然研究已取得了一定成效,但有待进一步深入研究。
应用PPDC模型对p2p网贷平台风险进行客观评价,不仅可以求得各个评价指标的客观权重,还可以得出各个样本平台的风险排序及其聚类结果,具有较好的时效性和可行性。与传统的PPC模型相比,PPDC模型结果不受唯一参数窗口半径值R的主观影响,建模结果具有唯一性和较好的客观性。
PPDC模型的建模过程简洁清晰,具有理论上的优越性和创新性,在综合评价、排序、分类等方面都具有广泛的应用[9-16]。根据各评价指标的最优权重,可以很容易地确定各个评价指标的重要性及其排序,有利于提出降低平臺风险的措施和建议。
参考文献
贾希凌, 马秋萍. P2P网贷平台的主要风险及防范策略[J]. 经济管理, 2014, 23-29.
刘晓宇, 孟枫平. P2P平台信用风险评价模型研究[J]. 长春理工大学学报: 社会科学版, 2018(3).
Freedm an S, Jin Z G. Do social networks solve inform ation problems for peer-to-peer lending? Evidence from Prospercon[R]. Net Institute Working Paper, 2008, No. 08—43.
余华银, 雷雅慧. 基于决策树与Logistic回归的P2P网贷平台信用风险评价比较分析[J]. 长春大学学报, 2017, 27(9): 13-16.
王丹, 张洪潮. P2P网贷平台信用风险评级模型构建[J]. 金融与理财, 2016(9).
严复雷, 李浩然. P2P 网贷平台信用风险影响因素分析[J].西南金融, 2016(10): 13-17
李从刚, 童中文, 曹筱珏. 基于BP神经网络的P2P网贷市场信用风险评估[J]. 管理现代化, 2015(4).
梁寒冰, 赵琳皓, 陶玲玲. 基于改进GRA法构建P2P网贷平台风险评价体系[J]. 财会月刊(下), 2017(11), 55-60.
倪长健, 王顺久, 崔鹏. 投影寻踪动态聚类模型及其在地下水分类中的应用[J]. 四川大学工程学报: 工程科学版, 2006, 38(6): 29-33.
倪长健, 崔鹏. 区域泥石流危险度评价的投影寻踪动态聚类方法[J]. 山地学报: 2006, 24(4): 442-445.
倪长健, 王顺久, 崔鹏. 投影寻踪动态聚类模型及其在天然草地分类中的应用[J].安全与环境学报, 2006, 6(5): 68-71.
王卓, 倪长健. 投影寻踪动态聚类模型研究及其在洪灾评定中的应用[J]. 四川师范大学学报: 自然科学版, 2008, 31(5): 635-638.
康明, 王丽萍, 赵璧奎, 张验科. 基于投影寻踪动态聚类法的水库水质评价模型[J]. 水力发电, 2013, 39(1): 16-19 .
王久顺, 李跃清. 基于投影寻踪原理的动态聚类模型及其在气候区划中的应用[J]. 应用气象学报, 2007, 18(5): 722-725.
楼文高, 乔龙. 投影寻踪聚类建模理论的新探索与实证研究[J]. 数理统计与管理, 2015, 34(1): 47-58.
付强, 赵小勇. 投影寻踪模型原理及其应用[M]. 北京: 科学出版社, 2006.
于晓虹, 楼文高, 余秀荣. 中国省际普惠金融发展水平综合评价与实证研究[J]. 金融论坛, 2016(5): 18-32.
楼文高, 熊聘, 冯国珍, 于晓虹. 影响投影寻踪聚类建模的关键因素分析与实证研究[J]. 数理统计与管理, 2017, 36(5): 783-801.
任若恩, 王惠文. 多元统计数据分析-理论、方法、实例[M].北京: 国防工业出版社, 1999, 76-80.
曾筝. 商业银行信用风险评估方法研究[J]. 计算机仿真, 2011, 28(8).
王莎, 高茂庭. 一种基于混合PSO的投影寻踪动态聚类模型.计算机工程与应用, 2013, (8): 198-208.
张旲雰, 刘华艳. 改进的群搜索优化算法在matlab中的实现[J]. 电脑与信息技术, 2010, 18(3): 44-46.
王晓微, 张昭. P2P网贷平台风险指数报告(2015).
楼文高, 干瑞娟, 李坦. 基于投影寻踪模型的图书馆成效(绩效)评估研究[J]. 图书情报工作, 2017, 61(9): 65-73.
于晓红, 楼文高, 康海燕. 供应链线上企业信贷风险动态聚类投影寻踪建模与实证研究[J]. 数学的实践与认知, 2018, 48(11): 33-40.