APP下载

基于LIME的P2P借款人信用风险的可解释性研究

2021-03-19陈为民赵艳秋

科技经济导刊 2021年5期
关键词:解释性借款人信用风险

陈为民,赵艳秋

(湖南科技大学商学院,湖南 湘潭 411100)

1.引言

机器学习常被应用于评估P2P领域内的借款人信用风险,信用风险评估(也称贷款违约预测)是利用不同的特征解释和预测借款人未按要求偿还贷款的过程,最终目的是为了帮助投资人做出决策以及借款人的信用得到合理的评估。通过阅读P2P信用风险评估领域的文献,我们可以发现,越来越多的研究使用信用风险评估模型来评估违约风险,并不断提出精确度更为优秀的评估模型,从传统的统计模型,发展到如火如荼的机器学习模型,以及近年来备受推崇的组合模型,但可以发现除模型准确度之外,可解释性也应被人们所重视。

虽然现有研究者们提出了一个又一个准确度极高的评估模型,但不排除最后得到的结果只是一堆“看上去”毫无意义的模型参数和高的准确度。而我们需要得到的不仅仅是准确的结果,我们也需要了解我们从数据或特征中学到了哪些知识,从而导致我们产生了最终的决策,这也是为什么在机器学习构建的模型准确率很高的情况下,统计模型依旧备受推崇的原因之一。如果一个模型完全不可解释,那么在很多领域的应用就会因为没办法给出更多可靠的信息而受到限制。

本文的可能贡献在于,基于真实的人人贷数据,在保证信用评估准确性的同时,利用LIME算法对借款人信用风险评估结果进行解释,希望可以为P2P领域内的信贷决策助力。具体来说,人人贷数据常被用于P2P领域的信用风险研究,但是以往文献的研究重点并非在可解释性的研究;机器学习中的树模型和逻辑回归被用于信用风险的评估;而在模型的结果解释方面,选用了LIME算法,该算法从局部解释的角度出发,对某个特定观测值的类别分类结果进行解释,并说明某个变量对于预测结果的贡献程度。

本文剩余部分结构为:第二部分是信用风险评估领域可解释性相关的研究。通过对相关研究的梳理,为研究方法和模型的选择提供了依据;第三部分是实证,包括对借款人信用风险的评估以及基于LIME算法的评估结果解释;第五部分是结论。

2.P2P信用评估领域的可解释性问题现状

现有的P2P信用风险评估多用特征重要性评分或者模型系数大小对评估结果进行解释,比如逻辑回归模型的系数大小;决策树模型、XGBoost以及性能更加优化的LightGBM模型,但这并满足可解释性的目标。

2.1 可解释性的体现

指出模型的可解释性可以从三方面来体现:全局和局部可解释性、时间限制以及不同受众的专业知识差异。具体到P2P信用风险评估领域,全局可解释性是指解释“黑箱”模型背后的整个逻辑,而局部可解释性是指解释预测结果的原因,即只需要解释特定选择的原因;在时间限制方面,和短的决策时间相比,决策者更需要复杂和详尽的解释;关于不同受众的专业知识差异,对于信贷领域的研究者来讲,他们会更加倾向于复杂的模型,而对于相关背景知识和经验较少的投资者而言,透明度高的模型会更具有可解释性。

2.2 局部可理解的与模型无关的解释

Interpretable Model-agnostic Explanations(LIME)是通过一个可解释的模型g在被解释分类的数据点x处近似拟合模型进而解释分类器f的预测一种算法,具体来说,为了做到与模型无关,LIME不会深入模型内部;为了搞清楚哪一部分输入对预测结果产生贡献,在被解释数据点x周围进行随机扰动,观察模型的预测行为,然后根据这些扰动的数据点z距离被解释分类点x的距离分配权重,基于上述学习得到一个可解释的模型和预测结果。

3.实证分析

3.1 数据来源及样本选取

人人贷是目前我国P2P网贷行业影响力较大的网贷平台之一,其在合法合规以及运营等方面都是P2P行业的典范,同时平台也积累了大量真实有效的交易数据,因此,本文选取人人贷平台的实际交易数据作为研究样本。

3.2 建模

我们通过逻辑回归模型以及以树模型为代表的机器学习模型(决策树以及LightGBM)对样本进行建模,由表1可知集成树模型LightGBM的表现要优于其余两个模型。

表1 各模型精度比较Tab.1 Comparison of accuracy of each model

由表1可知集成模型LightGBM在四种评价指标中的表现都是最优的,故接下来我们将针对LightGBM模型的结果进行进一步解释。

3.3 LightGBM的结果解释

3.3.1 LightGBM的特征重要性

一般情况下LightGBM结果的可解释性体现在该模型自带的特征重要性,结果如下:

表2 LightGBM特征重要性结果Tab.2 Lightgbm feature importance results

3.3.2 基于LIME算法的结果讨论

LIME在测试数据集中选择特定样本,以获得每个类的概率值并对分配概率的原因进行说明。

图1 Lime结果Fig.1 Lime results

图1是样本的预测结果,可以看出哪些特征决定样本被分类到类别0(蓝色),哪些特征决定样本被分类到类别1(橙色),且具体列出样本在这些特征的数值大小,具体来说,LightGBM中ProjectStatus和SuccessfulNum是影响借款人违约的重要因素。

4.结语

为了增加信用评估的可解释性,本文首先选择在建模前对相关变量进行数据探索性分析,找到可能会对借款人是否违约产生关键性作用的变量;接着选择具备特征重要性评分的树模型(决策树和LightGBM)以及以模型系数指代特征重要性的逻辑回归模型对数据进行建模,发现LightGBM的综合表现最优;最后基于LIME算法对LightGBM模型的结果进行说明,得出结论:在结构化的因素中,除财务因素外,借款人之前的借款成功次数也会对借款人是否会违约产生关键性影响。

猜你喜欢

解释性借款人信用风险
油气贸易企业信用风险管理研究
论行政自由裁量的“解释性控权”
大数据背景下的电子商务信用风险预警方法
浅论借户贷款情形下隐名代理的法律适用
小微企业借款人
英汉互译中的认知隐喻翻译探究
热词
一种基于词语计算的模糊分类系统的设计方法