基于Fisher判别法的P2P网络借贷平台信誉等级评价模型
2014-07-18冯旭日张晶晶
冯旭日,张晶晶
(辽宁工程技术大学 工商管理学院,辽宁 葫芦岛 125105)
基于Fisher判别法的P2P网络借贷平台信誉等级评价模型
冯旭日,张晶晶
(辽宁工程技术大学 工商管理学院,辽宁 葫芦岛 125105)
P2P网络借贷是一种新兴的互联网金融,平台的信誉是影响投资者选择平台的主要影响因素之一。选取成交积分、人气积分、营收积分、分散积分、杠杆积分、透明度、品牌、流动性、收益积分9个影响因素作为判别平台等级预测的评价指标,同时对这9个评价指标做主成分分析,提取出3个主要成分,用Fisher判别法进行训练预测,建立了基于主成分分析的网络借贷平台信誉等级预测的Fisher判别模型。通过对“网贷之家”公布的37组平台数据作为训练样本数据集进行模型的训练,12组数据作为该预测模型的测试数据,进行网络借贷平台信誉等级的预测,同时通过其他预测模型预测结果的对比,验证了Fisher判别法在网络借贷平台信誉等级的预测中具有较低的误判率,其误判率仅为1/12。
P2P网络借贷;平台信誉;主成分分析;Fisher判别法
一、引言
P2P(peer-to-peer lending)网络借贷,是指个人与个人之间,不以银行等金融中介机构为媒介,直接通过第三方中介平台进行的网络借贷交易,借款人在平台发放借款标,投资人竞标成功后向借款人放贷的行为[1-3]。P2P网络借贷致力于将社会闲散资金收集起来,为急需小额贷款的个人、企业解决融资难问题,使更多穷人得到金融服务。2014年“互联网金融”首次进入政府工作报告,各地关于互联网金融的指导意见相继出台,这意味着P2P网络借贷平台将更加合法化、合规化。截至2014年上半年,我国P2P网贷平台数量约达1184家,网贷行业成交量约为818.37亿元,行业整体累计借款人数18.9万,累计投资人数44.36万。网贷行业现处于未饱和状态,还存在较大发展空间。
受穆罕默德∙尤努斯创建的小额贷款项目的启发,2005年世界首家P2P网络借贷平台——Zopa在英国成立,2007年中国借鉴国外成功平台的成功案例,结合国内互联网金融的现状,将P2P网络借贷引入中国,建立了国内首家网络借贷平台——拍拍贷。目前国外知名的P2P网络借贷平台还包括:美国的Prosper和Lengding Club、德国的Auxmoney、日本的Aqush、韩国Popfunding、西班牙的Comunitae以及巴西的Fairplace等[4]。英美国家P2P在线交易正成长为可替代传统储蓄投资工具的一种新型投资模式;欧亚国家,许多P2P借贷网站开始对公众服务[5]。国内则形成了以拍拍贷、宜信、红岭创投为代表的三种不同模式的P2P网络借贷平台[4]。2014年,中国银行业监督管理委员会接手P2P网络借贷行业的监管,这对存在乱象、监管不健全等现象的网络借贷行业是一个新的机遇和挑战。
然而,受2013年“跑路潮”和“倒闭潮”的影响,网贷行业成交总量呈现明显下降趋势,人们对P2P网络借贷平台的质疑声也越来越大。网贷平台在提供服务时代表着借贷双方的利益,为了帮助借贷双方选择正确、可信的投资平台,本文从网贷之家收集数据,建立了基于Fisher判别法的P2P网络借贷平台信誉等级评价模型,为促进平台又好又快的发展做出贡献。
二、文献综述
目前关于P2P网络借贷的研究主要集中在以下方面:
第一,借款者违约行为研究。陈霄、丁晓裕和王贝芬将影响逾期行为的因素分为信用、个人、标的及往期借款四个特征维度研究借款者违约风险[6]。缪莲英和陈金龙研究社会资本对借款者违约行为的影响[7]。李广明、诸唯君和周欢则对P2P网络融资平台中具有拖欠贷款行为的小额贷款者的基本特征进行分析,提取具有拖欠贷款可能性的小额贷款者的关键特征[8]。Lin等通过样本分析,认为社交网络能够增加融资成功的概率,并使融资成本即借款利率降低,同时也能降低事后违约率[9]。
第二,投资者投资决策研究。陈冬宇、李伟军和丁婕采用数理统计方法从出借人的出借意愿角度,对影响借贷成功率的关键因素及其影响程度进行了研究。结果表明,网络借贷市场的投资行为有其内在特征,以网络购物为基础的传统电子商务领域的研究成果在网络借贷市场中并不完全适用[10]。朱浩和郑海超等以拍拍贷网站用户为研究对象,分析信任和感知风险对出借意愿的影响及前导因素[11]。Mingfeng Lin等研究指出,借款人的个人信息是投资者对贷款人还款可能性进行评估的主要影响因素,影响投资者的投资决策[12-13]。
第三,借贷成功率研究。温小霓、武小娟的研究表明借款利率、借款人历史失败次数对借款成功率有负的影响,而借款金额、借款人历史成功次数、信用积分、审核项目数对借款结果有正的影响[1]。陈建中、宁欣以人人贷为例,对个人信息对借贷成功率的影响进行实证分析[14]。Puro等通过实证分析验证了借款额度会对借款成功率和借款利率产生显著影响,为了降低借款利率并提高借款成功率,借款人必须降低借款额度[15]。
第四,P2P网络借贷平台。钱金叶、杨飞研究我国P2P网贷的发展现状及前景,揭示了我国P2P网贷的发展面临着个人信用体系不健全、相关法律法规缺失和行业自律性较差等障碍[16]。徐文杰则基于双边市场的视角对P2P网贷平台定价问题进行研究[17]。万校基对我国P2P网络借贷平台的成长模型进行研究[18]。
以上关于P2P网络借贷平台的研究方法中,大部分没有考虑各个指标之间信息叠加导致的误判问题。因此,笔者将用主成分分析法对P2P网贷中影响借贷双方选择平台的因素进行信息提炼,把多个彼此相关联的指标变量通过线性组合转化为彼此独立新的样本指标,更加有效地描述不同平台的特征。然后,将结合Fisher判别分析法对处理过的样本数据进行判别,建立基于主成分分析的Fisher判别模型来判别P2P网络借贷平台。
三、相关理论
(一)主成分分析
主成分分析(Principal Components Analysis, PCA)是数学上处理降维的一种方法,它的基本思想就是设法将原来众多具有一定相关性的指标,重新组合成一组新的相互无关的综合指标来代替原来指标,同时根据需要从中选取几个较少的综合指标尽可能多地反映原来指标的信息[19]。本文通过对样本相关矩阵的内部结构关系的研究,找出影响投资者选择平台几个综合指标,使综合指标为原来变量的线性组合。综合指标不仅保留了原始变量的主要信息,彼此之间又不相关,又比原始变量具有某些更优越的性质,使得我们在评析平台等级时容易抓住主要矛盾[20-24]。其数学描述如下:
设有n个样本,每个样本观测k项指标(变量)x1,x2,…,xk,得到数据矩阵Xk*n:
用样本表达其协方差矩阵COV(X)的元素Cij,则有:
式(2)中,E()表示求均值,i,j=1,2,…,k。用数据矩阵X的k个向量(即k个指标向量)X1,X2,…,Xk,作线性组合为:
简记为:
式(4)中,Y的协方差矩阵COV(Y),为对角矩阵(即指标Yi之间是不相关的)。Y的方差尽可能大(即对n个对象的分辨率尽可能强,或者说信息损失尽可能小)。然后再从Y1,Y2,…,Yk中,选出对方差贡献最大的部分指标,就达到了主成分分析的目的。
(二)Fisher判别法
Fisher判别分析方法的基本思想是投影[20],即将高维数据点投影到低维空间上,使数据点就变得比较密集。利用一元方差分析的思想建立线性判别函数,确定了一组在类之间实现最大离散、在类内部实现最小离散的投影向量,然后依据判别函数来预测待判样本的分类。其数学描述如下[25-27]:
设有m个总体,G1,G2,…,Gm每个总体的特性指标都是p个,相应的p维均值向量和p*p阶协方差矩阵分别为u1,u2,…,um,v1,v2,…,vm。对任意新给的样本x=(x1,x2,…,xp)T,考虑其线性函数:
式(5)中,u为p维向量,而Y是一维的随机变量),在x来自Gi的条件下,Y在各类中的均值和方差为:
令B0是Y在各类中的均值ei的离差平方和:
B0反映出均值ei之间的离散程度。离散程度越大就越有可能把G1,G2,…,Gm划分开来。
令E0是Y在各类中的方差之和:
若B0/E0越大,则类别的可分性越大。Fisher典则判别方法的思想,就是选能够使B0/E0最大的u,作为判别函数公式(5)中的系数向量。对于预测样本,根据公式(5)计算数值,其值Y离哪个总体Gi的均值uTvi近,则样本x就属于哪个总体。
四、网络贷款平台信誉等级Fisher判别模型
(一)影响指标的选取
为了预测P2P网络贷款平台的信誉等级,文中选取了与平台相关的9个判别指标为平台等级预测指标,包括:成交积分(X1)、人气积分(X2)、营收积分(X3)、分散积分(X4)、杠杆积分(X5)、透明度(X6)、品牌(X7)、流动性(X8)、收益积分(X9),网络平台信誉等级分为四级,包括优(G1)、良(G2)、中(G3)、差(G4)。
选取的9个影响指标中,成交积分是根据当月实际成交量和当月时间加权成交量加权得出的,成交量积分越高,表明平台成交量越高;人气积分是根据投资人人数、借款人人数加权得出的,人气积分越高,表明在平台投资或者借款的人越多;营收积分是根据时间加权成交量确定的;分散积分是根据单人借款金额、单人投资金额以及借款集中度加权得出,分散积分越高,表明平台借款人越分散,平台运营风险越低;杠杆积分是对于承诺本金保障的平台,目前简单的定义平台的杠杆=平台待收/(注册资金×做实程度+风险准备金+担保公司注册资金×0.5%×做实程度),对部分借款业务来源于无关联的小贷公司或平台自身为担保公司的给予适当调整,杠杆积分越高,表明平台可能的资金杠杆越小,承受的运营风险越低;透明度是根据平台是否公布公司证照、逾期数据、借款资料及抵押资料照片、运营数据、借款人基本信息及信用等级等信息给予相应的评分,透明度积分越高,表明平台的信息公开得越多、越透明;品牌是根据资金认可度、上线时间、总部城市、Alexa排名、股东背景、团队背景、是否自主研发平台、平台垫付模式、事件影响等信息给予相应评分,品牌积分越高,表明平台知名度越高、越得到投资人的认可;流动性是主要参照平台借款期限,是否可以净值借款以及净值借款的比例;收益积分是根据平台综合收益率得出。
(二)判别指标的主成分分析
网络贷款平台信誉等级受众多因素的影响,如何分析提取主要影响因素是预测网络贷款平台信誉等级的关键问题。文中确定9个影响网络贷款平台信誉等级的因素为分析指标,通过“网贷之家”网站收集了49条相关的等级评定样本数据,其中前37组数据为训练样本,后12组数据为测试样本,数据见表1所示(篇幅有限,仅为部分数据)。
为了减少冗余因素对模型预测准确率的影响,对表1中数据进行标准化处理,对标准化处理后的样本数据进行主成分分析,由各指标之间的Spearman等级相关系数矩阵(表2)可知,这9个指标之间存在显著的相关性,如成交积分(X1)和人气积分(X2)之间的Spearman相关系数为0.801,成交积分(X1)和营收积分(X3)之间的Spearman相关系数为0.909,样本指标之间存在信息重叠,隐藏着冗余因素。如果直接使用这9个指标数据对P2P网络贷款平台等级进行评定,必定会对预测模型的预测精度造成影响,可能发生等级误判,误导借贷人对平台的选择。因此,文中利用主成分分析法具有对属性进行约简,消除冗余因素的作用,对样本数据进行主成分的提取,减少冗余信息对预测模型的干扰。
表1 样本数据
表2 各指标的Spearman等级相关系数矩阵
经过主成分分析处理后,得到碎石图见图1,由碎石图可看出前三个主成分因子特征值的变化比较明显,但从第3个主成分因子之后的特征值变化就比较平缓。根据碎石图准则,提取前3个主成分Y1、Y2和Y3,这三个主成分数据包含了原始数据中95.337%的信息,能够有效解释原始样本信息。三个主成分对应的特征根分别为3.880、1.401、1.053,由旋转前的因子负载矩阵和特征根对应求得相应的特征向量矩阵,见表3所示。
图1 碎石图
表3 特征向量矩阵
由表3中,a1、a2、a3对应的列为旋转前主成分因子负载,t1、t2、t3对应的列为主成分Y1、Y2和Y3的特征向量,根据特征向量矩阵,提取出来的主成分因子Y1、Y2和Y3与原始变量之间的关系表达式为:
根据以上3个公式可求得3个主成分对应的值。
(三)信誉等级Fisher判别模型
利用表1中前37组样本数据进行训练,以G1、G2、G3、G44个平台等级为4个不同总体,通过主成分分析得到的3个主成分Y1、Y2和Y3,作为Fisher判别分析模型的3个判别指标。通过样本数据的训练得到的Fisher判别函数如下:
第一判别函数:
Z1=1.029Y1+0.094Y2+0.243Y3
第二判别函数:
Z2=0.003Y1+0.729Y2+0.865Y3
第三判别函数:
Z3=0.001Y1+0.722Y2-0.551Y3
表4所示为第1、第2和第3判别函数在各分类中的中心值。以训练得到的第1个判别式为例,在G1类等级中的中心值为4.030,在G2类等级中的中心值为1.439,在G3类等级中的中心值为-0.784,在G4类等级中的中心值为-2.113。通过Fisher判别函数对待测样本计算函数值,并与表4中4类等级的中心值的距离比较来判断待识别样本的组别。
表5所示为3个判别函数对应的特征根,由表5可知,通过对Fisher判别函数的求解,得到三个判别函数对应的三个特征根,分别是λ1=3.281,λ2= 0.087,λ3=0.0。表5中对应的第一个判别函数的判别能力:
因此选用第一判别函数作为Fisher判别函数对新样本进行判别,不影响判别效果。同时,Wilks’Lambda统计量Sig。检验值为0.0,小于0.01的显著水平,认为该Fisher判别函数具有显著分类效果。将表1中37组训练样本数据回代到Fisher判别模型中,有3个样本误判,将2号样本、18号样本和27号样本错误分类,回判准确率为91.89%。
表4 关联系数判别函数在各分类的中心值
表5 特征根
通过37组训练样本数据建立Fisher判别分类模型,回代验证中有3个样本误判,其误判率为8.1%,具有较好的分类能力。用该方法建立的Fisher判别模型对表1中最后12组测试样本进行分类验证,同时对比了SVM预测模型和BP神经网络(BPNN)预测模型的预测结果,其中建立3-15-4结构的BP神经网络,网络输入层节点数为3,代表3个主成分因子,网络隐含层节点数为15,网络输出层节点数为4([1 0 0 0]代表G1,[0 1 0 0]代表G2,[0 0 1 0]代表G3,[0 0 0 1]代表G4),以同样的样本数据进行训练预测。对比结果见表6。图2是SVM和BPNN模型预测结果(1表示G1,2表示G2,3表示G3,4表示G4),由图2可知SVM和BPNN模型对P2P网络贷款平台的信誉等级均存在错误识别。同时,由表6对比结果得到,SVM预测模型将2号样本、4号样本和9号样本误判,误判率为1/4;BP神经网络预测模型将1号样本、3号样本、6号样本和8号样本误判,误判率为1/3;而本文中的Fisher判别分析方法根据距离类的最小距离值进行分类,其预测结果与真实值之间也存在错误判别,将8号样本误判,但误判率为1/12,低于其他对比模型。由此,本文基于主成分分析建立的Fisher网贷平台信誉等级预测模型具有较高的准确率。
表6 对比结果
图2 预测结果
五、总结
(1)本文在借鉴国内外文献理论基础上,运用主成分分析法,对影响P2P网络贷款平台信誉等级预测的9个因素,进行了主成分提取,提取出3个主成分因子,对属性进行约简,消除冗余信息对预测模型的影响,提高模型预测精度。
(2)文中建立了Fisher判别模型,通过主成分分析提取得到的3个主成分因子作为预测模型输入变量,对网络贷款平台信誉等级进行预测。同时对比了其他预测模型,对比的结果表明了基于主成分分析建立的Fisher判别模型具有较高的预测精度。
(3)文中初步尝试建立基于主成分分析Fisher判别模型,对P2P网络贷款平台信誉等级进行预测研究,但该预测模型仍有不足之处,存在误判情况。在后续的研究工作中,对影响网络贷款平台等级的因素进行充分考虑,收集更丰富的影响因素,对影响因素进行更加充分的分析提取。同时,寻找更好的预测模型,提高预测模型的判别能力,消除误判。
[1]温小霓,武小娟.P2P网络借贷成功率影响因素分析——以拍拍贷为例[J].金融论坛,2014,219(3):3-8.
[2]吴小英,鞠颖.基于最小二乘法的网络借贷模型[J].厦门大学学报,2012,51(6):980-984.
[3]温小霓,蔡瑞媛.基于用户行为的P2P网络借贷信用体系构建[J].西部金融,2014,(2):73-77.
[4]钱金叶,杨飞.中国P2P网络借贷的发展现状及前景[J].金融论坛,2013,192(1):46-51.
[5]Slavin,B.Peer-to-Peer Lending-An Industry Insight[EB/OL].http://www.bradslavin.com/wp-content/uploads/2007/06/peer-to-peerlending,2007.
[6]陈霄,丁晓裕,王贝芬.民间借贷逾期行为研究——基于P2P网络借贷的实证分析[J].金融论坛,2013,215(11):65-72.
[7]缪莲英,陈金龙.P2P网络借贷中社会资本对借款者违约风险的影响——以Prosper为例[J].金融论坛,2014,(3):9-15.
[8]李广明,诸唯君,周欢.P2P网络融资中贷款者欠款特征提取实证研究[J].商业时代,2011,(1):41-43.
[9]Lin,Mingfeng,Prabhala,N,and Viswanathan, R S.Judging Borrowers by the Company They Keep: Friendship Networks and Information Asymmetry in Online Peer-to-Peer Lending[J].ManagementScience,(1):17-35,2013.
[10]陈冬宇,李伟军,丁婕.网络借贷借款人决策辅助模型[J].吉林大学学报,2012,30(6):591-597.
[11]陈冬宇,朱浩,郑海超.风险、信任和出借意愿——基于拍拍贷注册用户的实证研究[J].管理评论,2014,26(1):150-158.
[12]Mingfeng Lin.Peer-to-peer Lending:An EmpiricalStudy[R].AMCIS 2009DoctoralConsortium.
[13]Mingfeng Lin NRPrabhalaand Siva Viswanathan.Judging Borrowers By The Company They Keep: Social Networks and Adverse Selection in Online Peerto-Peer Lending[J].2009.
[14]陈建中,宁欣.P2P网络借贷中个人信息对借贷成功率影响的实证研究——以人人贷为例[J].财务与金融,2013,146(6):13-17.
[15]Puro L,and Teich J E.Wallenius Hannele, Wallenius Jyrki.Borrower Decision Aid for People-topeople Lending[J].Decision Support Systems,(4):52-60,2010.
[16]钱金叶,杨飞.中国P2P网络借贷的发展现状及前景[J].金融论坛,2012,193(1):46-51.
[17]徐文杰.P2P网络借贷平台定价问题研究——基于双边市场的视角[D].大连:东北财经大学,2013.
[18]万校基.网络借贷(P2P)平台的成长模型研究[D].大连:大连理工大学,2013.
[19]林海明,张文霖.主成分分析与因子分析的异同和SPSS软件——兼与刘玉玫、卢纹岱等同志商榷[J].统计研究,2005,(3):65-68.
[20]江冬明.主成分分析在证券市场个股评析中的应用[J].数理统计与管理,2001,20(3):28-32.
[21]马庆国.管理统计[M].北京:科学出版社,2008:308-335.
[22]仇冬芳,柯飞帆,李宝宝,等.基于主成分分析的江苏省高技术服务业发展评价研究[J].科技与经济,2011,24(6):47-51.
[23]裴玲玲,陈万明,王正新.江苏科技与经济发展的协调性分析[J].科技与经济,2010,23(1):13-15.
[24]Richard A,Johnson DW W.Applied multivariate statisticalanalysis[M].Prentice Hall,2002.
[25]郝先虎.基于Fisher判别分析法的矿柱稳定性研究[J].煤炭技术,2014,33(3):11-14.
[26]周健,史秀志.冲击地压危险性等级预测的Fisher判别分析方法[J].煤炭学报,2010,35(s):22-27.
[27]董陇军,李夕兵,白云飞.急倾斜煤层顶煤可放性分类预测的Fisher判别分析模型及应用[J].煤炭学报,2009,34(1):58-63.
(责任编辑:王淑云)
P2P lending is a kind ofemerging Internet finance,the reliability of the platform is themain factor affecting the investors chooses the platform.This article selects volume integral,sentiment,revenue integral,scattered integral,integral liquidity,transparency,brand,leverage,earnings integral nine discriminant platform level forecast factors as evaluation index,evaluation indexes of the nine family component analysis,to extract the threemain ingredients,trained prediction with the Fisher discriminantmethod,based on principal componentanalysis of the Fisher discriminantmodelofnetwork platform for lending credit rating.Released bymeans of"net house"of the 37 group platform data as the training sample data setsmodelof training,12 groupsofdata as testdata,the predictionmodel for prediction ofnetwork platform for lending credit rating by comparison with other predictionmodel to predict the resultat the same time,fisher discriminantmethod is verified in the network platform for lending credit rating predictionwith lowmisjudgment rate,themiscarriage rate isonly 1/12.
P2P Lending;platform credibility;principal component analysis;Fisher discriminant method
1003-4625(2014)11-0051-06
F832
A
2014-08-19
冯旭日(1966-),男,副教授,硕士研究生导师,研究方向:企业管理;张晶晶(1988-),女,辽宁营口人,硕士研究生,研究方向:投资决策与风险研究。