机器学习算法在P2P网贷平台风险评级中的应用
2017-03-09张蜀林李萌萌
张蜀林+李萌萌
【摘要】P2P网贷平台的风险是巨大的,为了更好的研究平台风险,本文分两层进行:首先衡量网贷平台的风险大小;其次评估平台上借款人的信用风险。引入机器学习中的无监督学习算法二分k-means聚类,对网贷平台进行分类,分析各类平台的指标表现,确定各类别的等级,给出网贷平台风险评级结果。进一步使用有监督学习算法对网贷平台的借款人信用风险进行研究,结果显示AdaBoost算法效果最好。
【关键词】网贷平台 机器学习 风险评级
一、引言
P2P网络借貸作为互联网金融的重要组成部分,在普惠金融的发展过程中起重要作用。然而网贷平台的风险是巨大的,最新数据显示:问题平台的占比接近50%,如表1所示,这直接影响着整个网贷行业的健康发展。
据网贷之家发布报告显示,截止2016年8月底,正常运营平台数量为2235家,较半年期减少了114家;P2P网贷行业累计平台数量达到了4213家,累计停业及问题平台达到了1978家;8月单月停业及问题平台共99家,其中问题平台42家(跑路30家、提现困难12家),停业平台57家(停业57家、转型1家)。问题平台的数量多,并且发生的频率高,平均一天有3个平台出现问题。那么,辨别网贷平台的风险大小就显得尤为重要。这不仅关乎投资者的收益,也在一定程度上决定着网贷行业的发展前景。
对于网贷平台的风险评级,学者和机构进行了大量的研究。主要分为两个层次:一是网贷平台的风险研究,通过分析网贷平台的运营模式、盈利模式等,归纳总结其面临的风险;二是网贷平台的评级方法研究,主要是借鉴传统的评级方法。
对于网贷平台的风险研究,学者从三个不同的视角和立场进行深入。第一,从平台自身出发,其面临的风险主要分为内部风险和外部风险(杨胜刚和周骥,2015),内部风险有:信用风险、操作风险、运营风险、流动性风险;外部风险有:包括法律风险、市场风险。第二,站在投资者的角度,网贷平台的信用风险,信息透明度、网贷平台的背景、平台的合规性、借款标的信息的真实性等是非常重要的(刘绘和沈庆劼,2014)。第三,从金融中介视角看,网贷平台面临着中间账户风险(董裕平,2016),这会造成诈骗跑路、挪用资金、非法资金等问题的发生。
对于网贷平台风险评级,评级方法的选择至关重要。鉴于P2P网络借贷进入我国时间较短,对于网贷平台的风险评估或者评级方法的研究不够深入,很多借鉴资本市场信用评级的体系和标准,以定性方法为主,涉及的定量方法很少。
国际上三大信用评级机构对于网贷平台的风险评级还未有详细的研究,但是基于P2P网贷的发展需求,国内的机构和学者已有深入,可是并没有形成完整的体系。对于网贷平台的评级方法主要集中在层次分析法(唐嘉悦和郝蒙,2014;中国社会科学院金融研究,2015),专家打分法(大公国际,2015;融360和中国人民大学,2015)和主成分分析法(理财魔方和中央财经大学,2015;网贷之家,2015)等。还有将这些方法结合使用(王丹、张洪潮,2016),采用专家打分确定指标值,进而运用主成分分析确定权重。
虽然各机构使用的方法相近,但是评级结果的表现形式不尽相同。主要有黑名单或预警名单(大公国际,2015)、综合指数排名(网贷之家,2015)和等级划分(融360,2015)等。对于网贷平台的评级,不同的评级机构具有不同的评级结果,整个行业没有统一的规范。
P2P网贷平台具有互联网、大数据和高效等特点,这使得当前的研究面临着很多问题和挑战。首先,针对网贷平台借款人的200多个指标变量,三万多条样本的这些数据集,传统的评级方法是否适用,取得的研究结果是否准确;其次,传统的方法如何把握研究结果的客观性;最后,现有的评级只是给出评价结果,对于影响平台风险的因素揭示的不够充分,无法起到预警作用。基于此,本文结合网络借贷的特点,探索使用机器学习的算法对网贷平台分类,判断平台的风险等级。