大数据时代P2P网贷平台借款利率的影响因素分析
——来自友金服的经验证据
2019-05-18卢旭旭广西大学商学院
文/卢旭旭,广西大学商学院
1 引言
P2P网络借贷(Peer to Peer Lending)将互联网技术、金融服务模式及电子商务模式融合起来,通过互联网这一大平台为小微企业和小额资金需求者提供新的融资渠道,实现了与民间借贷资本市场的有机结合。我国第一家网贷公司是2007年成立的拍拍贷。据网贷之家的统计,截止到2018年12月,我国P2P网贷平台累计已达6449家。已有超过400万人进行投资和借款,每月成交量基本都在1100亿元以上。然而这种飞速发展必然会伴随各式各样的问题。在网贷之家上公布的信息中,我们可以发现截止到2019年1月已有2667家问题平台存在。大部分网贷平台都有着10%以上的坏账率,这显著高于传统金融借贷。近两年发生资金链断裂导致跑路的网贷平台不在少数,比如米宝理财、余盆、融金桥、点聚财、平安理财等等。并且由于借贷双方在交易中互不相识仅通过网络上的信息产生联系,借款人的真实信息通常是借款人所掌握,对比投资人有着明显的信息优势。这种信息不对称在交易过程中会产生诸多问题,大大影响网贷的交易成功率。这给平台的监管和运营以及投资人造成了很多困难,因此基于信息不对称,学术界关于P2P网络借贷的研究也日渐增多。
2 研究综述
在P2P网贷交易过程中,投资人主要依据借款人提供的借款信息来决定是否进行投资行为。Ravina(2008)通过收集Prosper平台的数据,分析了借款人个人生理特征对借贷交易的影响,研究得出借款人的种族和相貌对其能否顺利借到款项影响最大。Lee等(2012)利用韩国网贷数据,分析了韩国P2P市场上投资者中存在“羊群效应”行为。在国内,郭峰(2016)关注借款人在平台上使用昵称情况对借款成功率的影响,他通过实证分析发现借款人在P2P网贷平台上使用真实姓名作为昵称时并没有得到投资人更多的信任。王会娟、何琳(2015)对借款描述对P2P网贷行为的影响进行了实证研究,即在网络借贷中,借款人都会通过一段话表述自己的借款用途、个人品德、还款来源及能力意愿等作为借款描述,实证发现,这些借款描述会对借款成功与否产生显著影响。廖理、吉霖和张伟强(2015)同样对借贷市场中语言对借款成功与否产生的作用进行了研究。张海洋和蔡航(2018)借助人人贷数据,研究借款人的岗位头衔对借款成功与否的影响,他们发现如果借款人使用华丽头衔而非朴实头衔,那么借款成功率会显著增加,并且对来自小规模公司的借款人这种效应更加明显。
本文从网贷平台这一角度,依据友金服这一平台的数据进行实证分析,对网贷平台借款利率微观层面的影响因素进行研究,丰富了P2P网贷的研究领域,有助于对网贷平台利率决定机制有更加直观的认识。
3 数据和模型
3.1 数据来源及处理
本文所用的实证数据来源于友金服平台的真实借款信息,通过python爬虫抓取了友金服平台上起息日从2014年9月30日到2018年3月6日期间共64028条借贷人的信息,在剔除了部分异常值与缺失值之后,保留了63899条有效数据。本文所用变量每条数据包含的信息分为借款标的信息,包括起息日、年化利率、借款金额及借款期限四个属性,和借款人信息,包括姓名、性别、年龄、婚姻、学历、从业时间等等。本文基于友金服这些微观层面的借贷信息,研究平台在决定借贷利率时会考虑哪些因素,换句话说就是研究哪些因素会影响平台的利率决定。
3.2 变量说明及模型设定
通过观察友金服2014年9月30日—2018年3月6日这期间6 3899条有效数据特点,将被解释变量年化利率rate分为两类,其中年化利率大于9%的设定为1,表示平台会对借款人收取较高利息。年化利率小于等于9%设定为0,表示平台对这些人设定较低利率。解释变量则有借款金额amount,借款期限limit,借款人性别(男为1,女为0),年龄,婚姻 (已婚为1,未婚、离婚及丧偶均为0),学历,学历分布为初中及以下、高中/中专、大专、本科、硕士及以上五大类,本文用数字1,2,3,4,5表示学历等级,数字越大学历越高。此外解释变量还有从业时间,借款人是否有房产,有房贷(有为1,无为0),还款来源(工资收入设为1,经营收入设为0),最后还有贷款近6个月最高逾期次数。
本文基于友金服的数据研究平台设定借贷利率的影响因素,由数据特点及变量说明,选取Logistic回归模型进行实证分析。Logis tic回归模型如下:
4 实证分析
4.1 描述性统计
给出主体变量的描述性统计,见表1。表1中可以看到,借款人平均借款金额为190508.9元,最少3万元,最多50万元,跨越幅度很大,因此有很大的标准差105363.4,表示借款金额波动很大。在63899个样本中,所有人的借款期限都至少在一年以上,没有短期借款,偏向于长期贷款。借款人的年龄分布也较广,覆盖了25岁到59岁,平均40.93552岁。借款者从业时间最少1年,最多的则有39年,平均从业时间在6.058326年。这表明网上借贷的人大多是中年人,在事业或者家庭方面需要较多资金用来经营周转或者消费等。学历水平平均是2.806382,最小为1,最大为5,可以大致看出网上借贷的人群学历至少都在高中或中专水平以上。
表1 主体变量描述统计表
4.2 Logistic回归分析
在进行Logistic回归前,首先检验变量间的是否存在多重共线性。为了判断多重共线性,计算变量间的相关矩阵,由于篇幅原因未给出相关矩阵表,感兴趣的可向作者索要。从相关系数矩阵可以看出只有房贷和房产之间的相关系数达到了1,存在共线性。因此为了尽可能减小两个变量间的共线性对Logistic回归结果的影响,本文在做Logistic回归时会删去有无房贷,即去除ℎ_这一变量。
表2 Logistic回归结果
剔除此变量后,得到Logistic回归结果见表2。从表2的Lo gistic回归结果来看,可以发现所有解释变量都会显著影响因变量年化利率t,并且所有变量显著性水平都在5%水平之上。在回归结果中,借款标的方面借款金额越多网贷平台越可能对借款人收取较高利率,但这种影响相较于其他变量来说很微弱。借款期限越长,平台则倾向于为借款者设定较低利率。另一方面对于借款人信息,平台设定借贷利率时,相比男性,女性借贷者的年化利率要偏高一些。年龄越大,从业时间越久,还款来源是工资收入的借款者,其借款的年化利率也倾向于更低些,这说明平台更偏爱工作稳定,成熟的男性借款人。硕士及以上学历的人相比初中及以下学历的借款者会有较低的借款利率。已婚借贷人在网贷平台借款的利率会高于未婚、离婚及丧偶人士。另外如果借贷人没有个人独立的房产,那么借款利率会低于有独立房产的借贷人。是否已婚及是否拥有独立房产从一方面反映了个人的收入水平,已婚和拥有独立房产可从侧面说明个人或家庭收入较高。这两方面综合表明个人收入水平低的,借款利率相对较低,收入水平高的,平台为了盈利会对这类人设定较高利率,从中收取更多手续费。最后从贷款近6个月内贷款人的最高逾期次数来看,逾期次数越高,平台则会对这类借款者设定较高利率。这也是网贷平台对借款人信用风险的一种识别手段,从借贷人角度来说,这增加了更高的逾期成本。
5 结论及意义
本文通过网络爬虫对网贷平台友金服进行数据挖掘,抓取了6 3899条借款信息,并采用Logistic模型对网贷平台借贷利率的影响因素进行了实证分析。平台比较青睐于年龄成熟,工作稳定,有固定工资的男性借贷人。网贷平台或多或少会存在学历歧视现象,即借款人学历越高,借款利率较低。已婚和拥有房产的人士进行借款会面临较高利息。
本文最大的研究意义在于把研究P2P网络借贷的着眼点放在了平台利率的决定因素上,这与目前P2P网贷的主流研究领域不一样,丰富了这一领域的研究范围。从网贷平台借款人信息的微观层面研究其对借贷利率的影响,找出了对借贷利率有显著影响的因素,为以后综合微观数据信息、网贷平台的竞争机制及银行借款利率对借贷利率决定机制的研究提供了参考。