P2P借款文本长度对违约率、借款利率的影响
2020-11-12都红雯郑尚洲
都红雯,郑尚洲
(杭州电子科技大学 经济学院,浙江 杭州 310018)
随着互联网技术的日益推进,金融业务模式不断创新,P2P网络借贷凭借其进入门槛低、便捷高效、无担保无抵押等优势,逐渐成为小额借贷和民间融资的重要渠道。然而,由于网络平台的虚拟特性及征信体系不健全等多因素影响,投资者难以验证借款者信息的真实性,信息不对称现象较传统信贷更加突出,P2P模式面临着更大的借贷违约风险与信用问题。
据网贷之家2018年发布的《中国网络借贷行业年报》及艾瑞咨询的相关数据显示,十二五以来中国网贷成交量呈指数型爆发增长态势,由2011年初兴起时的31亿元扩大至2017年的28 048亿元,年均增长2.1倍。然而,2018年网贷规模骤减,成交额仅为17 948.01亿元,首次出现下行趋势,同比下降36.01%。受交易双方操作违规、平台风控缺失、政府监管滞后等多方影响,跑路、倒闭的P2P平台也开始野蛮生长。截至2018年底,我国违规停营企业及问题平台高达5 181家,覆盖了平台总数的4/5,其中问题平台集中爆发趋势显著。
层出不穷的问题事件表明互联网金融行业在我国的发展存在着严重的信用风险管理缺陷。因此,如何有效识别P2P平台上的借款者信用风险、探究其影响因素及作用机制,是整个行业亟待解决的关键问题。
一、文献回顾
在P2P网络借贷中,网贷信用风险取决于借款者的逆向选择和道德风险,而投资者规避经营者安全风险的重要依据之一是精准、有效地识别借款者在平台上披露的信息。如何降低信息不对称程度、规范信用评价体系,探索信用风险的影响因素引起了众多研究者的关注。
总结和梳理现有文献,国内外研究人员早期研究普遍聚焦于财务信息、人口特征等硬信息(如身份认证、信用评级等),这类信息能够被平台验证,实证可操作性强,结论客观,有一定的借鉴意义。而软信息(如借款者还款意愿、借款描述等)以文本等非标准形式存在,不规则和不可直接验证的特殊性质增加了研究难度。但近年来研究重心逐渐从借款人硬信息转移至软信息上,尤其是针对借款描述文本的探讨。一方面从文本内容展开分析,通过人工标注法提取出人格、情感等信息,试图挖掘复杂软信息中的内容特征(Loughran et al[1],2016;廖理等[2],2015;蒋翠清等[3],2017;彭红枫等[4-5],2018;陈霄等[6],2018;陈林等[7],2019等)。另一方面围绕可量化分析的软信息文本长度进行违约预测的实证检验及借款利率的相关研究。
对于违约率的分析,已有研究呈现出两类观点。一些学者认为借款描述的文本长度与违约率表现为反向影响关系,文本长度越短,内容越单薄,因此违约率越高。王会娟等[8](2015)在研究借款文本信息对P2P网络借贷行为的影响时,获取“人人贷”平台相关数据,统计分析得出借款描述的文本越长,越能有效规避交易双方的信息不对称,因而借款者成功筹集资金的几率较大。于军[9](2017)从语言内容及语言信息含量两方面对描述性文本与违约行为展开实证分析,结果显示文本长度越长意味着信息量越丰富、内容越充实,从而借款人的违约几率越低。陈霄等[6](2018)在探究借款描述可读性与借款成功率及违约率的相互关系时,得出借款描述中常用字字数每缩减一单位,借款成功率将降低0.14%,而借款违约率则上升0.12%。然而,另一部分学者则持相反观点,认为软信息文本长度越长,反而导致违约风险升级。Dorfleitner et al[10](2016)以欧洲两大P2P网贷平台为研究对象,得出在一定范围内借款描述的违约率与描述性文本长度呈现负增长关系,拼写错误、语法使用不当等问题也能引起借款违约率及成功率的差异。陈林等[7](2019)从“人人贷”借款项目中的借款陈述文本中,通过人工识别提取了文字特征信息等来检验借款人违约风险的显著性,实证表明借款描述字数多的文本中存在大篇幅的重复语句和符号,导致违约风险更大。
在借款利率的研究上,早期研究大多基于财务信息(如Klafft[11],2008;王会娟等[12],2014)、社会资本信息(如Guiso et al[13],2004)和人口特征信息(如Beller et al[14],2014;李悦雷等[15],2013;廖理等[16],2015)三个层面的借款信息,探究其与借款利率及借款成功率的相互关系,近期则聚焦于借款利率与违约率的相关关系研究(Dorfleitner et al[10],2016;姚风阁等[17],2016)。然而,基于借款描述的文本挖掘角度来探究借款信息对利率变化的文献甚少。Herzenstein et al[18](2011)分析了借款描述反映的身份认同信息对借贷成功率及借款利率的变化关系。基于Prosper的数据实证得出,借款描述信息中个人身份认同的信息含量越多,越能体现内容充分和自信度,借款成功率越高,借款利率也越低。彭红枫等[5](2018)研究发现利率竞拍模式下文本长度与实际借款利率存在线性正向影响关系。借款人信用等级越低导致其对自身的资信状况越不自信,成功借款几率较小,因此倾向于积极提供借款陈述信息,实际借款利率越高。此外,借款陈述的迷雾指数和文本长度均与借款成功率呈现倒“U”型关系。
现有文献为本文探讨借款描述的文本长度提供了丰富的研究基础,然而也存在一定的局限性,主要体现在:(1)研究对象大多以P2P网贷借款人硬信息或者软信息中的一者进行探讨,缺乏软、硬信息交互结合的信用风险相关研究;(2)研究视角大多以文本长度与借款成功率、违约率的相互关系为切入点,而针对借款描述和借款利率的主题研究较少,特别是基于统计分析的实证研究。
基于此,本文选取2018年6月1日至2019年9月30日的“人人贷”平台中借款者信息的相关数据为研究样本,采用信息挖掘法,运用Python编写网络爬虫程序,对“人人贷”平台中借款人信息的文本长度、教育程度、薪酬水平、信用等级、借款期限、借款总额等11个变量进行挖掘收集所需数据,并采用Logistics回归模型以及OLS回归模型分别就借款描述的文本长度对违约率、借款利率的影响进行统计分析。
二、研究设计
(一)模型构建
由于违约情况分为违约和不违约,可视为二分类变量,而借款利率又是连续变量,因此本文分别采用Logistics回归模型以及OLS回归模型就借款描述的文本长度对违约率和借款利率的影响进行实证检验。模型构建如下:
P(defaulti)=C+β1Length+∑αControli+δi
(1)
Ratei=C+β1Length+∑αControli+μi
(2)
∑αControli=α1Age+α2Marriage+α3House+α4Houseloan+α5Car+αtCarloan+
α7Salary+α8Level+α9Edu+α10Amount+α11Time
(3)
模型中的变量意义和赋值标准与表1相同,表1中所有的控制变量均集合为模型中的Control项(即(3)),δ和μ为误差项。此外,为了防止数据单位和大小差距带来的误差,本文将所有数据都做了标准化处理。
若(1)中β1为负值,则借款描述的文本长度与违约率表现为负向影响关系。即文本长度越长,借款违约率越低,反之同理。
若(2)中β1为负值,借款描述的文本长度与利率也为负向影响关系。即文本长度越长,借款利率越低,反之同理。
(二)变量选取
本文借鉴主流的模型构建方法并结合实际研究内容,在“人人贷”网站上抓取了文本长度变量、借款标的金额、借款人年龄、薪水、信用等级、婚姻状况等数据。其中,将借款人行为抽象为违约率和借款利率两个变量来探究P2P网贷市场中借款描述的文本长度对于借款人行为的影响。被解释变量包含是否违约(Default)和借款利率(Rate)两个变量,前者为虚拟变量,对其进行“0”、“1”赋值,后者按实际数值取值。解释变量为文本长度(Length),根据订单中借款描述的实际文本字数进行取值。此外,将工资水平、信用等级、学历、借款期限等影响因素作为控制变量加入到实证模型当中,从而增加实证回归方程的稳健性。总结并借鉴其他学者(吴佳哲[19],2015;彭红枫等[5],2018等)对各变量的选择和处理,具体如表1所示。
表1 实证模型中变量的选择及处理
(三)数据选取及处理
“人人贷”成立于2010年5月,考虑到早期借款数据在网站上获取难度较大且平台运营初期发展尚不完善,存在许多实验标,同时考虑数据的时效性,因此本文采用2018年6月1日到2019年9月30日“人人贷”网站上发布的全部成功借款(事先已清洗掉流标的样本)共40 955个数据为观测样本,并对其做了如下处理:(1)剔除信息不全的观测样本3 625个;(2)剔除借款人年龄小于18周岁的观测样本1 463个;(3)剔除机构担保的观测样本2 210个;(4)剔除所在地为香港、澳门及台湾的观测样本2 043个。最终样本个数为31 614个。
在展开实证分析之前,首先对上述数据进行描述性统计,具体如表2所示。
表2 所选取变量描述统计
通过表2可以看出,从“人人贷”网站上所选择的31 614笔成功借款订单样本数据中大约有5%左右的订单发生了违约行为。所选订单的借款利率值介于8%和24%之间,平均借款利率为15.70%,其中利率最大值超过同期银行借款利率4倍以上,可见P2P平台中交易的借款利率普遍偏高,因此其融资成本也相较传统银行借贷更高。借款金额方差较大,小至3 000元,最大值近300万,均值2.56万元,平均借款时长约12个月,与P2P网贷市场中借款额度小且借款时间短的特征相符。借款者的信用等级普遍较低,均值为1.82,平均信用等级集中在E级与D级之间。平均受教育程度低于本科学历,同时月均收入低于10 000元,可见P2P网贷市场中的借款者普遍为受教育程度不高且信用风险较大的低收入人群。此外,研究的解释变量借款描述的文本长度均值约为96个字符。其中,最少的借款描述仅有两个字符,而最多则达到513个字符,差距明显,为本文研究提供了条件。
通过表3对于不同信用等级下借款描述的平均文本长度统计可以看出,随着信用等级从HR到B的不断上升,其对应借款描述的文本长度相应下降。而信用等级为A与AA的借款人的借款订单中平均文本长度又有明显增长。经分析,其原因在于信用等级为AA与A的借款人仅占总样本5%左右的比例,人数较少,其借款描述文本长度的统计更容易受极端值影响。所以在忽略AA与A级借款人之后,发现借款表述文本长度随着信用等级的上升而下降。
表3 不同信用等级的平均文本长度分布
基于研究的严谨性考虑,本文将通过使用Logistics回归模型与OLS回归模型分别对借款描述的文本长度对违约率、借款利率的影响关系构建函数,从而进行实证分析。
三、实证分析
(一)文本长度对违约率的影响分析
表4显示了P2P网贷中借款描述的文本长度对借款人行为影响的回归结果。其中第二、第三列检验了文本长度对违约率的影响关系。文本长度(Length)的回归系数为正(0.002),并在1%的水平上显著。说明借款者的借款描述字数越多,违约风险反而越高,越容易发生违约行为,这与本文的预测截然相反。对于这种结果,本文做出两点解释:一方面,借款描述中包括有效信息与无效信息两个方面,一般而言随着借款描述文本长度的增长,借款描述中包含的无效信息也会随之增加,这样会加大出借人对于借款描述理解的难度,导致出借人对借款订单的违约风险做出错误判断,从而错误地选择了更高风险的借款订单进行投资;另一方面,虽然P2P网络借贷平台相较传统金融机构信息更加公开、透明,但总体而言交易双方仍存在信息不对称的局限。部分借款者之所以添加字数进行借款描述,往往是由于他们的信用评级较低,对自身的资信状况不自信,字数较少、内容单薄的借款描述难以实现成功筹款。借款人对“硬信息”内容越不自信,越需要通过字数更长、内容更繁复的软信息描述来进行自我掩饰,达到获取融资的目的。对于投资人而言,这是一种高风险的暗示,因此投资人会对这类借款要求更高的风险补偿,是借款描述给予决策者判断低效率的体现,所以这种情况下借款人更容易发生违约行为,这类似于传统文化中的“欲盖弥彰”、“言多必失”这一类心理。
表4 文本长度对P2P网络借贷中借款人行为影响的回归结果
在控制变量的分析中,除了住房情况这一变量未能通过显著性检验,剩余变量大多都通过了1%的显著性水平。其中,信用等级(Level)、借款期限(Time)和借款金额(Amount)的回归系数值分别为-0.031,-0.033,-0.226,均呈现负相关关系,表明信用评级越高,借款期限越长,借款金额越大,便越不容易发生违约行为。年龄(Age)、婚姻(Marriage)、房贷(House loan)、薪酬水平(Salary)的回归系数显著为正,表现为正相关关系。
(二)文本长度对借款利率的影响分析
表4中的第四、第五列展现了借款描述的文本长度对借款利率影响的回归结果。可知文本长度Length的系数值为正(0.001),并在1%的水平上显著,说明借款描述的文本长度与借款利率呈正向影响关系,文本长度越长,借款利率则越高。与违约率的结论类似,借款人在借款描述栏中填写更长的文字,并不等同于传递了更多高质量的信息给贷款人让其做出合理判断,反而是一种信息传达误导的表现,不能在实质上去降低贷款人决策风险,从而缓解借贷双方信息不对称问题。而根据经济理性人的利己性,贷款决策者在网站上收集借款人信息的行为本质上是一种规避风险的策略性行为。而决策者在信息不充足或者是信息低效率的情况下往往会倾向于风险厌恶。因此,在借款人对借款描述的内容传达信息低效率的情况下想要使得出借者借款意愿增加,就需要提高利率去刺激出借者的借款意愿,借款利率就会提高。
在控制变量的分析中,年龄和是否拥有车贷这两个变量没有通过显著性检验。其中,是否有房(Has house)、借款期限(Time)、工资水平(Salary)的回归系数显著为正,与借款利率的变动表现为正相关关系。借款期限(Time)的β值为0.076,在1%水平上显著为正,说明借款期限越长,借款利率则越高。除此以外,回归结果表明借款人年龄越大,薪酬水平越高,利率也将随之提高。而婚姻(Marriage)、房贷(House loan)、是否有车(Has car)、学历(Edu)、信用等级(Level)和借款金额(Amount)的回归系数显著为负,与借款利率的变动表现为负相关关系。信用等级(Level)和借款金额(Amount)的β值分别为-0.765和-0.098,均通过了1%的显著性水平,说明借款人信用等级越低、资信状况越欠缺,其借款利率则越高,借款金额越大的订单借款利率则越低。
四、研究结论及建议
(一)研究结论
一是借款描述的文本长度对违约率呈正向影响关系。即借款描述的字数越多、文本长度越长,越容易发生违约风险。这是由于借款人在借款描述中填写更多文本是对其借款描述的不良资信状况或其他缺陷的掩饰。
二是借款描述的文本长度对借款利率也呈正相关关系。借款描述的文本越长,借款利率越高,原因在于借款描述的字数越多会造成描述效率的下降,并不能降低借贷双方之间的信息不对称和表明自己信用的良好程度,再一次证明了前一个观点,即借款人提供借款描述的时候不能只关注字数,更要重视借款描述的质量,仅仅为了更多的字数而去填写一些缺乏信息含量或者会造成出借人理解困难的信息,反而由于“言多必失”而提高了借款成本。
(二)对策建议
首先,对于出借人而言,除了重点关注借款描述的长度和质量以外,甚至可以从标点符号、情感动词等方面深入探索,最大可能地挖掘借款描述软信息中暗含的隐性信息,同时也应该关注信用等级、职业、婚姻等其他信息来谨慎决定是否投标以避免违约风险,提高风险防范意识。结合软、硬信息全面综合评价借款者的资信状况。
其次,对于借款人,由于其大多属于非专业金融理财投资人员,清晰地阐述自身资信状况及借款目的以获取信任有助于增加借款成功率,把增强信任感放在首位,尤其是信用等级较差的借款人,应该更加侧重于借款描述的质量,在更短的篇幅里提供更多有用的信息来反映借款人的信用品质,从而得到出借人的信任,降低借款成本。
第三,相比传统金融机构借贷交易,P2P网络平台的大众化程度更高,借贷双方大多不具备专业的金融素养与风险防范意识。在传统金融机构的信贷领域,有经验的信贷人员能够通过与借款人面对面的交流,然后基于借款人的借款陈述对订单的风险做出判断并进行风险把控,而P2P平台缺乏类似的保障。因此,建议国内P2P平台学习国外成熟平台的做法,为借款人提供预设的“借款用途”选项,如债务整合、日常消费、教育投资等。借款人在自主填写借款描述之后,额外的在平台已经预设的借款用途条目中选择相应选项,或是利用国内先进的计算机技术研发基于借款描述文本信息识别的相关人工智能程序。通过识别借款描述透露出的深层信息,自动给订单进行风险评估,实现将程序充当一个“有经验的信贷员”的角色,使平台在健全硬信息指标体系的基础上,进一步丰富软信息尤其是借款描述的内涵。
最后,由于P2P借贷具有较大风险,因此建议网络借贷平台及其主管部门为借贷双方提供互联网金融常识科普,从而使得借款人能够在借款描述文本中准确地提供风险评估所需要的信息,让出借人能够更有效地通过借款描述识别出借款订单的风险等级。增强借贷双方风险防范意识,让投资人对投资收益有合理的预期,避免盲目跟风,促进P2P行业持续稳定发展。