基于标签传播的P2P网络借贷平台分类
2018-07-05邓旭东童泽平武汉科技大学管理学院湖北武汉40065武汉科技大学服务科学与工程研究中心湖北武汉40065智能信息处理与实时工业系统湖北省重点实验室湖北武汉40065
刘 翱 胡 超 邓旭东 童泽平 任 亮(武汉科技大学管理学院 湖北 武汉 40065)(武汉科技大学服务科学与工程研究中心 湖北 武汉 40065)(智能信息处理与实时工业系统湖北省重点实验室 湖北 武汉 40065)
0 引 言
截至2017年3月31日,我国P2P网络借贷行业全国成交额2 180.29亿元,P2P网络借贷平台数量达4 804家,其中运营平台1 810家,问题平台达2 994家[1]。一方面,P2P网络借贷平台良莠不齐,影响了P2P网络借贷行业的长远和健康发展;另一方面,部分P2P网络借贷投资者没有投资经验,且对收益率、流动性和风险有着不同的偏好,普通投资者难以选择合适的网络借贷平台和借贷标的进行投资。因而,如何结合P2P网络借贷平台的运营数据进行平台分类,识别其中的优良平台,就显得尤为重要[2-5]。这既有利于P2P网络借贷行业健康发展,也有利于投资者进行投资决策和风险控制。
目前,关于P2P网络借贷的研究主要集中在信息、学历、地域等因素对借贷交易的影响[6-9],P2P网络借贷行业缺乏对P2P网络借贷平台的定量效率评估和评级研究[2-5],少部分研究以定性分析为主[10-11]。尽管网络借贷天眼、网络借贷之家等第三方网站开始对网络借贷平台进行评级活动,但是2015年的短融网状告融360的网络借贷评级纠纷案凸显了P2P网络借贷评级的复杂性和争议性。P2P网络借贷行业数据难以获取、第三方评级独立性、科学性和公正性存疑等问题,无疑增加了普通投资者的投资难度和投资风险。
标签传播LP(label propagation)算法是一类基于图的半监督学习方法,对非平衡和非正态数据具有较好的学习效果,具有可调参数少、原理简单、容易实现等优点[12-13]。
鉴于此,本文从投资者视角出发,结合P2P网络借贷平台的运营数据,引入标签传播算法,开展P2P网络借贷平台分类研究,为缺乏经验的投资者提供投资决策和风险控制辅助支持工具。值得指出的是,本文是首次将标签传播算法应用于P2P网络借贷平台分类研究。
1 标签传播
监督学习主要研究如何同时利用有类别的标签数据和无类别的非标签数据来学习有用信息,并改进学习性能,已成为机器学习领域的重要主题[12-13]。记有类别的标签数据和无类别的非标签数据分别为L={(x1,y1),(x2,y2),…,(xl,yl)},l∈{1,2,…,C}和U={xl+1,xl+2,…,xl+u}。其中l≤u,n=l+u为样本量,C表示类别数。半监督学习是指利用L和U预测{xl+1,xl+2,…,xn}的标签{yl+1,yl+2,…,yn}。
标签传播算法是一类基于图的半监督学习算法,它通过将样本映射为节点构造图并定义节点相似性,在相似节点间传播标签分类,适用于具有少有带标签数据的分类问题[14]。
1.1 图的构建
样本Xi映射为节点,建立图G=(V,E),任意样本xi和xj定义为E中的一条边,边的权重wij定义为二者之间的相似度。
一种常见的基于RBF的相似度定义为[12]:
(1)
式中:σ为尺度参数。
标签传播算法通过节点之间的边来传播标签,边的权重越大,表明节点相似性越高,标签传播的概率越大。定义概率转移矩阵如下:
(2)
式中:Pij为节点i向节点j传播标签的概率。
1.2 标签传播
定义L×C标签矩阵YL=[ylic]L×C,第i行表示样本xi对应的标签向量,满足:
(3)
定义软标签矩阵F=[fic]n×C,fic表示样本xi属于类别c的概率。
标签传播算法通过计算软标签矩阵F,将概率最大的类作为样本类别。基本流程如下:
1) 以概率P进行标签传播:F=PF;
2) 重置有类别数据的标签:FL=YL。
重复1)和2),直到F收敛为止。
2 基于标签传播的网络借贷平台分类算法
结合P2P网络借贷平台分类的实际情况,本节提出基于标签传播的P2P网络借贷平台分类算法。算法流程如下:
1) 应用z-score进行数据标准化:
(4)
2) 使用主成分分析对z进行特征提取[15]:
b=Az
(5)
3) 考虑到P2P网络借贷平台的不同分类之间相似性较低,因而传播的概率较低。采用KNN思想来构造稀疏的KNN图模型,即标签只在K个最近邻居之间传播,转移概率定义如下[14,16]:
(6)
4) 应用标准的标签传播算法进行P2P网络借贷平台的分类标签传播,确定P2P网络借贷平台的类型。
3 仿真实验
3.1 数据准备
为验证标签传播算法在P2P网络借贷平台分类中的可行性和效果,本节利用八爪鱼数据采集器从网贷天眼网站采集2017年3月份50个网络借贷平台(编号为P1-P50)的运营数据和评级结果,数据汇总如表1所示,包括偿兑性等共9个运营指标X1-X9及相应的等级。
表1 150家P2P网络借贷平台的运营数据
3.2 实验环境
实验环境:Windows 7, CPU 奔腾T4400,主频2.2 GHz,内存为2 GB,编程语言为MATLAB 2014b。
3.3 实证分析
3.3.1 描述性分析
表2汇总了50家网络借贷平台运营数据的描述性统计结果。从表2可以看出,这些网络借贷平台在9个运营指标上具有较大的差异。可以预期,不同的P2P网络借贷平台的效率和风险等具有较大差异。因而,对P2P网络借贷平台进行合理分类,有助于区分网络借贷平台的优劣,并辅助普通投资者进行风险控制和个性化投资决策。
3.3.2 基于标签传播的网络平台分类
接下来,以表1的8家网络借贷平台P1-P8为标签数据,其余42家网络借贷平台为未标签数据,展示基于标签传播的平台评级主要步骤和结果。
(1) 数据标准化
表3 部分P2P网络借贷平台标准化后的z-score
(2) 主成分分析
利用50家平台的z,对其进行主成分分析,得出主成分分析的负荷矩阵A如表4所示,根据负荷矩阵算出50个平台的主成分得分矩阵b,如表5所示。
表4 主成分分析的负荷矩阵
表5 部分P2P网络借贷平台的主成分分析的得分矩阵
(3) 标签传播分类结果
实验过程如下:将等级{A+,A,B+,B}依次编码为{1,2,3,4},从50家平台中每类平台选取2家平台,利用得分矩阵和评级作为有类别的标签数据,其余的平台去掉标签组成无类别的非标签数据;其次,分别构造基于RBF和KNN的图模型(分别记为RBF-LP,KNN-LP)进行标签传播;最后统计分类正确率,以测试算法效果[14,17-18]。
限于篇幅,表6列出了P1、P2的转移概率。
表6 P1和P2基于KNN的转移概率
表7分别统计了基于RBF和KNN的标签传播的分类正确率。从表中可知,尽管基于RBF的标签传播最好的分类效果优于KNN,但是从最差值、平均值和标准差来看,基于KNN的标签传播分类效果却要优于RBF,也就是说,基于KNN的标签传播分类在平均性能和鲁棒性等是要优于RBF。
表7 基于RBF和KNN的标签传播分类准确率
图1展示了基于RBF和KNN的标签传播过程,该图统计了50次试验中每次标签传播的平均分类正确率和标准差。
图1 基于RBF和KNN的标签传播过程对比
从图1中可以看出:1) KNN的标签传播分类平均性能要优于RBF,且随着传播过程的进行效果越好,标准差也逐渐变小,也就是分类的鲁棒性越好;2) RBF的标签传播分类效果在初期较好,随后效果变差,在后期分类效果又逐渐增强,这也表明了基于RBF的标签传播分类效果不太稳定,鲁棒性较差。
为进一步验证标签传播的有效性,我们对比分析Naive Bayes、KNN、Random forest的分类效果。从表8结果可以看出:在同样样本数据下,标签传播算法的分类效果要优于其余对比算法。
表8 各算法的标签传播分类准确率
4 结 语
P2P网络借贷行业在迅猛发展的同时,风险事件时有发生。合理且科学的P2P网络借贷平台分类有助于能为普通投资者提供投资决策和风险识别辅助支持。鉴于此,本文从投资者视角出发,结合P2P网络借贷平台的运营数据,首次开展基于标签传播的P2P网络借贷平台分类研究,提出了基于RBF和KNN的P2P网络借贷平台分类算法。实验结果表明,基于标签传播的P2P网络借贷平台分类算法具有较高的识别正确率,且基于KNN的分类算法在平均性能和鲁棒性上均优于基于RBF的分类算法。
需要指出的是,本文只是使用机器学习算法进行P2P网络借贷平台分类的初步研究,验证机器学习算法应用到P2P网络借贷平台分类的可行性,在算法改进和效果上仍有改进空间。未来仍需深入研究P2P网络借贷平台分类的特征提取、标签算法的抗噪声性、稳定性、敏感性和振荡性等问题[14,17-21]、贝叶斯学习[22]、极限学习机[23]、随机森林[24]、SVM[25]、粗糙集[26]等方法对P2P网络借贷平台分类的应用研究。
[1] 网贷之家. 3月网贷行业报告[EB/OL].[2017-04-08.].http://news.p2peye.com/article-494445-1.html.
[2] 朱宗元, 王景裕.P2P网络借贷平台效率的综合评价:基于AHP-DEA方法[J].南方金融, 2016(4): 31- 38.
[3] 王正位, 向佳, 廖理,等.互联网金融环境下投资者学习行为的经济学分析[J].数量经济技术经济研究, 2016(3): 95- 111.
[4] 于晓虹, 楼文高. 基于随机森林的P2P网贷信用风险评价、预警与实证研究[J]. 金融理论与实践, 2016(2): 53- 58.
[5] Guo Y, Zhou W, Luo C, et al. Instance-based credit risk assessment for investment decision in P2P lending[J]. European Journal of Operational Research, 2015, 249(2): 417- 426.
[6] 廖理, 吉霖, 张伟强. 借贷市场能准确识别学历的价值吗?——来自P2P平台的经验证据[J]. 金融研究, 2015(3): 146- 159.
[7] 王会娟, 廖理. 中国P2P网络借贷平台信用认证机制研究-来自"人人贷"的经验证据[J]. 中国工业经济, 2014,13(4): 136- 147.
[8] 廖理, 张伟强. P2P网络借贷实证研究: 一个文献综述[J]. 清华大学学报(哲学社会科学版), 2017, 32(2):186- 196.
[9] 廖理, 李梦然, 王正位. 中国互联网金融的地域歧视研究[J]. 数量经济技术经济研究, 2014, 31(5): 54- 70.
[10] 田民, 刘思峰, 卜志坤. 灰色关联度算法模型的研究综述[J]. 统计与决策, 2008(1): 24- 27.
[11] 虞晓芬, 傅玳. 多指标综合评价方法综述[J]. 统计与决策, 2004(11): 119- 121.
[12] Zhu X, Ghahramani Z, Mit T J. Semi-Supervised Learning with Graphs[C]// International Joint Conference on Natural Language Processing. 2005: 2465- 2472.
[13] 刘建伟, 刘媛, 罗雄麟. 半监督学习方法[J]. 计算机学报, 2015, 38 (8): 1592- 1617.
[14] 汪西莉, 蔺洪帅. 最小代价路径标签传播算法[J]. 计算机学报, 2016, 39(7): 1407- 1418.
[15] Yang J, Yang J Y. Why can LDA be performed in PCA transformed space?[J]. Pattern Recognition, 2003, 36(2):563- 566.
[16] Zhang M L, Zhou Z H. M L-KNN : A lazy learning approach to multi-label learning[J]. Pattern Recognition, 2007, 40(7):2038- 2048.
[17] 王世旭, 吕干云. 基于标签传播半监督学习的电压暂降源识别[J]. 电力系统及其自动化学报, 2013, 25(4): 34- 38.
[18] 赵卓翔, 王轶彤, 田家堂,等. 社会网络中基于标签传播的社区发现新算法[J]. 计算机研究与发展, 2011, 48(3): 8- 15.
[19] 石梦雨, 周勇, 邢艳. 基于LeaderRank的标签传播社区发现算法[J]. 计算机应用, 2015, 35(2): 448- 451.
[20] 石立新, 张俊星. 基于势函数的标签传播社区发现算法[J]. 计算机应用, 2014, 34(3): 738- 741.
[21] 赵文涛, 赵好好, 孟令军. 基于相关拓扑势的社团发现算法[J]. 计算机应用与软件, 2017, 34(1): 258- 262.
[22] 苏志同, 李杨. 改进的增量贝叶斯模型的研究[J]. 计算机应用与软件, 2016, 33(8):254- 259.
[23] 杨毅, 卢诚波. 一种基于极限学习机的缺失数据填充方法[J]. 计算机应用与软件, 2016, 33(10): 243- 246.
[24] 姚立, 张曦煌. 基于主题模型的改进随机森林算法在文本分类中的应用[J]. 计算机应用与软件, 2017, 34(8): 173- 178.
[25] 王丹丹, 祖颖, 朱平. AABC-SVM模型及其在商品评论情感分类中的应用[J]. 计算机应用与软件, 2017, 34(9): 33- 37.
[26] 王兴柱, 颜君彪, 曾庆怀. 基于熵重要测度权重粗糙集的阿尔法多层凝聚入侵分类[J]. 计算机应用与软件, 2016, 33(3): 320- 323.