APP下载

软信息有助于预测小微企业信用风险
——来自中国P2P平台的证据

2021-11-16李艳萍

宿州学院学报 2021年10期
关键词:信用风险借款小微

李艳萍,武 浩

1.安徽农业大学经济技术学院,安徽合肥,230013;2.合肥工业大学管理学院,安徽合肥,230009

在金融科技领域,P2P网络借贷是一种重要的金融创新模式,它为资金需求与供给双方提供了一个在线匹配与信息交换的服务平台。P2P平台的出现为小微企业(SMEs)提供了新的融资渠道,同时在一定程度上解决了融资难与融资贵的问题[1-2]。然而,学者Zhu[3]与封思贤等[4]认为P2P平台参与者往往信用水平不高且难以提供更多的信用信息,加大了信息不对称程度,造成了信用评价的困难。如何准确评价与预测小微企业信用风险,成为亟待解决的关键问题。

在大数据时代,软信息受到越来越多的关注。Liberti等[5]认为有些信息是难以用具体的数字分数概括的,需要结合上下文分析的信息才称为软信息。在P2P网贷中,软信息通常以文本形式进行交流,主要包括意见、计划、经济预测、借款人的面部特征以及借款申请的文本描述等。一些研究将财务信息定义为硬信息,将非财务信息定义为软信息[5-9]。

目前,软信息在P2P网贷中获得了成功应用[10-12]。第一,软信息可以反映借款人的信用风险,预测借款成功率[13-15]。第二,软信息对违约概率也有较好的预测作用[16-17]。如Ge等[18]使用一个结合了流行社交媒体网站数据的独特数据集,发现借款人对其社交媒体账户和社交媒体活动的自我披露可以成功预测违约概率。Gao等[19]发现借款申请说明的可读性和其中包含的积极情绪也与违约概率有关。Dorfleitner等[20]通过对比欧洲的两个P2P平台,发现在借款项目描述中提供了关于教育信息的借款人往往具有更低的违约概率。

软信息的内容往往是非结构化的,传统方法不能有效地处理。故Blei等[21]提出了潜在狄利克雷分配(LDA)主题模型,用于识别文档中的主题并挖掘语料库中隐藏的信息。到目前为止,LDA分析已被广泛应用于主题聚合、非结构化文本信息提取、特征选择等场景中。其中,情感分析就是一种主要的软信息分析方法,被广泛用于分析语篇中的态度、情感和评价,并使用情绪分析从借款人的自我报告中提取特征,并基于这些特征和金融特征分析借款人的信用风险。也可以应用情绪分析构建了情绪指数,发现负面情绪与借款成功率呈负相关。为此,本文基于LDA分析与机器学习模型,选取中国P2P平台上852家借款企业的真实交易数据进行实证分析,深入挖掘借款项目描述软信息并考察其对网络借贷信用风险预测能力。

1 LDA主题模型

LDA主题模型是一个三层贝叶斯概率模型[21],包括词、主题和文档三层结构。它属于无监督学习,可用于识别隐藏在大规模文档集合或语料库中的主题信息。为更好地处理P2P网贷文本信息,研究引入LDA主题模型,提取相应软信息特征。假设有K个主题,M个文档,每个文档有N个单词,文档中的主题服从参数为α的狄利克莱分布,主题中的单词服从参数为β的狄利克莱分布。LDA模型包括以下步骤:

步骤1:从M中选择一个文档d;

步骤2:从狄里克莱特分布Dir(α)中抽样一个主题分布θd;

步骤3:根据采样的主题分布θd随机选择一个主题Zdi;

步骤4:从先前选择的主题Zdi的多项式分布φzdi中随机选择文档d中的第i个单词的单词wi。

本文在上述步骤中选择了一种常见的Gibbs采样方法,并给出了图1中可视化处理过程。

图1 LDA主题模型的提取过程

2 数据、变量及描述性统计

2.1 样本数据

在中国的P2P网贷中,小微企业的借贷信息非常稀少。本文对比了网络借贷市场的76个平台,根据这些平台的综合实力和透明度选择研究对象,最终选定了为中小企业提供金融服务的P2P网贷平台“融金宝”。数据集来自两个渠道:第一,平台网站(https://www.rjb777.com/);第二,定期发布借款企业还款状态的微信官方账号。本文使用R包“Rselenium”从网站上收集了从2016年3月7日到2019年3月15日期间的样本,包括了1 459家企业的借款信息。然后,本文剔除了那些不能确定是否违约的借款企业,最终获得852家公司借款信息作为研究样本。

2.2 软特征提取

在训练LDA主题模型之前,需要确定一个重要的参数,即主题数量。本文从2到20个主题的数量中得到了19个主题分类结果,并检查提取的主题是否包含定义明确的相关词。结合语言模型和主观判断,选择了最优的7个主题:投资、工厂、材料、日用品、工程、销售和创新。表1显示了每个主题下出现频率最高的单词。在确定主题后,LDA主题模型会输出每一项文本被归类为7个主题的概率(本文实证分析使用的软特征是每个借款企业的项目描述属于7个主题的概率)。

表1 从借款项目描述中提取的软特征

2.3 描述性统计

除了上述七个软信息特征外,本文还考虑了另外七个解释变量:注册资本、员工人数、借款金额、借款利率、借款期限和注册地点、成立年限。响应变量为违约,当借款企业违反合同约定拒不支付本息时,响应变量被标记为1(发生违约),否则被标记为0(未违约),所有变量的描述性统计结果见表2。

表2 变量的描述性统计

表2中可以看出,违约企业的比例只占总样本的8%,一方面表示违约发生概率并不高;另一方面使得在训练时更多关注未违约企业的特征,可能会影响模型分类的准确性。这是一个典型的非平衡数据的二分类问题,本文在数据处理中引入多种重采样方法解决非平衡问题,以进一步提高模型的预测能力。

3 实证研究

3.1 软特征的分类效果

将特征集划分为三类:硬特征集、软特征集和硬-软特征集,同时考虑三种流行的机器学习模型,即L1-Logit、支持向量机(SVM)和随机森林(RF)。随机选取80%观测值作为训练集进行模型训练,其余的观测值则作为测试集进行模型测试。此外,本文通过ROC曲线下方的面积大小(AUC)、准确率(ACC)、综合评价(F1-MEASURE,简记F1)和召回率(RECALL)等指标对模型性能进行评估。

对于三种预测模型,本文采用5折交叉验证(CV)在训练集上选择最优参数,如L1-logit的λ、SVM的gamma和RF的tree。对于特定特征集上的每个模型,本文在每次实验中将5折交叉验证得到的五个AUC进行平均后,选择平均AUC最高的参数作为最优参数。然后,将拥有最优参数的模型应用于测试集中,计算出所有的评价指标。重复该过程50次,统计模型分类结果见表3。

表3 非平衡样本下软特征预测表现

注:(1)表中报告的结果为50次试验后的平均结果;(2)括号内展示实验结果的标准差。下同。

表3反映了L1-Logit、SVM和RF在50次重复实验后在不同特征集上的分类性能。总体而言,三种预测模型在硬-软特征集上取得了最佳违约预测效果,在12个实验(12=3个模型×4个评价指标)中,其预测效果有8次优于其他两个特征集。对于AUC指标,相比较其他特征集,硬-软特征集在所有的模型中获得最佳的表现。加入软特征后,AUC和Recall两种指标呈现上升趋势,如在RF中,分别增加到0.880和0.820。虽然加入软特征集后,ACC和F1-MEASURE在RF中没有明显改进,但在L1-Logit和SVM中,当考虑到软特征时,两项指标均有所提升。实证结果充分说明软信息有助于预测违约概率,它可以作为硬特征的有效补充,用于准确评估企业信用风险。

3.2 基于重采样方法的分类效果

在二分类问题中,当一类的比例超出另一类的比例很多时,就会出现非平衡数据问题,常出现在欺诈检测、风险管理等领域。非平衡数据问题导致模型对少数类缺乏关注,从而影响分类效果。为此,本文引入三种常用的重采样方法:随机过采样(简称ROS)、随机欠采样(简称RUS)与随机过欠采样(简称ROUS)。除额外的重采样过程外,其余建模过程没有变化,在硬-软特征集上模型结果见表4。可以看出,在解决了非平衡数据问题之后,可以提高预测效果,其中ROS方法显著提高了模型的预测能力,ROU方法也有较好的表现。

表4 非平衡样本与平衡样本下硬-软特征集预测表现

以上结果再次证明,本文构造的包含软信息在内的特征变量是有效的,能够准确预测小微企业的信用风险。此外,在利用非平衡数据评价小微企业信用风险时,可以选择合适的重采样方法,进一步提高预测效果。

3.3 基于软特征的信用风险分析

为了进一步说明各软特征对借款企业信用风险的影响,对全样本进行Logit回归(见表5)。以7个硬特征为控制变量,按先后顺序或同时加入软特征,模型的响应变量为违约。特别地,由于7个软特征的概率和为1,为了避免多重共线性的问题,在模型8中,移除了一个软特征。

表5 Logit回归结果

注:(1)*,**,和***分别表示在10%,5%,1%水平下显著。(2)括号内展示Z统计量。

由表5可知,尽管调整R2并不算高,但众多软信息特征都存在统计上的显著性。进一步,在模型8中,投资在5%的水平上显著,而日用品在10%的水平上显著。至于工程,在模型8中不显著,但在模型5中处于10%水平下显著。在这三个变量中,工程的系数为正,表明借款人的项目描述中包含的关于工程的信息越多,违约概率越高;而投资和日用品的系数为负,关于投资和日用品的信息意味着借款企业违约的概率较低。总之,软信息可以帮助筛选违约企业、预测信用风险,从而维护投资人的利益,促进P2P网贷健康发展。

4 结论与启示

本文以P2P网贷为研究对象,综合运用LDA主题分析、机器学习模型与Logit回归,选取中国P2P平台上852家借款企业的真实交易数据,实证考察了借款项目描述软信息对小微企业信用风险的预测能力。实证结果表明,软信息特征能够有效识别违约企业,有助于分析违约行为,预测企业违约概率。当借款企业提供的借款项目描述与工程有关时,则该企业违约的可能性较大;如果借款项目描述与投资和日用品有关,则违约的可能性较小。实证结果具有较好的管理学启示:第一,P2P平台应该规范软信息发布,减轻金融科技中的信息不对称程度,降低信用风险发生的概率;第二,小微企业应该积极发布借款项目描述,以获得市场的支持,解决融资难与融资贵问题;第三,投资者可以从借款项目描述中进行特征分析,识别出可能违约的企业,以避免投资风险。

猜你喜欢

信用风险借款小微
油气贸易企业信用风险管理研究
帮扶小微企业 山西成绩优异
《信用风险管理:从理论到实务》
小微课大应用
微信上小额借款 请务必通话确认
妻子的借款该如何认定债务关系呢
小微企业借款人
京东商城电子商务信用风险防范策略
一般借款利息费用资本化金额确定之我见
解决小微金融机构的风控难题