基于机器学习的贷款违约风险预测
2021-08-30张佳倩阮素梅
张佳倩,李 伟,阮素梅
(安徽财经大学金融学院,安徽蚌埠,233030)
一、引言
随着经济的发展,公众对贷款的需求越来越大。央行数据显示,截止2020年2月,全国总贷款量为1 630 709.2亿元,其中大型商业银行贷款总量为749 435.34亿元;全国小型商业银行的贷款总量为748 799.3亿元,占全国总贷款量的91.8%。同比往期数据,居民和企业的贷款需求呈大幅增长、稳步上升的趋势。大量的贷款需求使得除了银行、信用社等传统的放贷机构,一些网络借贷平台也应运而生,如P2P,这种直接融资模式的诞生拓宽了传统贷款渠道,弥补了新时代下传统金融机构的不足。
在这样的背景下,仍有一部分公众因为没有信用记录、记录不全、资料有误无法核实等而难以获得贷款,从而被不可靠的放贷人利用。商业银行是我国金融市场的主要放贷主体,贷款业务是其主要赢利手段和高风险项目之一。不良贷款率增加会导致银行信用风险提高,每一笔贷款的风险控制情况最终会影响银行营运、偿付能力。因此,银行必须建立一种有效机制提高对借款人按时还贷的预测能力,在有效降低不良贷款率和信用风险的基础上为无信用记录或记录不足的人群提供贷款。
过去银行等传统金融业对贷款业务的评估主要依靠5C分类法和经验判断法,效率较低,且过于依赖审核人员的主观判断。因此,传统的资信审查和风控模式逐渐无法满足日益增长的庞大贷款需求。机器学习能够在短时间内对大量数据多次模拟训练达到理想效果。银行等贷款机构利用机器学习算法,结合借款人提交的信息和各种替代数据来预测客户的还款能力,既可以为银行构建智能风控模型,又可以为因征信信息不足等原因无法获得贷款但实际具有还款能力的公众提供便利。故本文选取Kaggle大赛中的Home Credit Default Risk中的样本数据进行研究,采用机器学习的方法,建立随机森林、逻辑回归、XGBoost和朴素贝叶斯等模型,分析朴素贝叶斯方法对贷款违约风险的预测准确率是否更高,并进一步分析几种模型的优劣。
二、文献回顾
贷款违约预测是业界长期关注的重要问题,已有众多学者对此进行研究,并将取得的理论模型应用于银行实践。最初主要用传统的统计类方法结合专家的个人经验进行预测,20世纪80年代学者们对模型应用的扩展到新兴的机器学习领域。
Malekipirbazari(2015)等将随机森林模型运用于信用风险评估领域,结果表明该模型能够有效识别违约贷款。[1]Guo等(2016)为了与已有的评级模型进行比较,基于Logistic模型和核回归模型建立贷款风险评级模型,结果表明改进的模型能更准确地评估出贷款风险。[2]刘开元(2016)选用商业银行汽车信贷数据,建立随机森林、逻辑回归、决策树和BP神经网络进行贷款违约预测,实验结果显示逻辑回归模型表现最优。[3]郭晓云(2017)为帮助P2P平台辨别贷款风险得到最优贷款组合,建立支持向量机模型对贷款样本进行分类。[4]阮素梅(2017)运用P2P网贷数据建立支持向量机与决策树模型,实验结果表明决策树能获得更高预测准确率。[5]陈耀飞等(2017)通过对比Logistic回归和GBDT等算法,发现XGBoost模型表现最优,不仅预测效果最好且训练速度最快。[6]舒扬等(2017)选用Logistic模型和Probit模型在汽车贷款领域进行违约预测,结果显示Logistic模型更适用于贷款违约预测。[7]涂艳等(2018)发现随机森林、神经网络和决策树算法用于P2P网络借贷违约风险预警能有效识别高风险借款人。[8]Ma Xiaojun(2018)等分别建立LightGBM模型对贷款违约原因进行分析,并建立贷款信用评级模型,发现LightGBM模型均有较好的表现[9-10]。Sing等人(2018)发现深度学习模型比传统模型在风险评估方面更具优势。[11]李天阳等(2020)在传统的二分类Logistic模型上进行改进,发现基于加权惩罚Logistic模型对于贷款违约预测起到重要作用。[12]张春杰(2020)选取Lending Club中97个特征变量构建基于卷积神经网络的贷款违约预测模型,结果显示卷积神经网络比传统模型评估更准确。[13]陶艳丽(2020)引进改进的随机森林模型,解决决策树分类效果差的问题,结果显示改进的随机森林模型更适应于个人信用评估。[14]
文献研究发现,机器学习模型在违约预测和风险评估方面,比传统模型表现出更高的预测精度和稳定性。但其中选用XGBoost、随机森林、SVM和神经网络的较多,少有尝试用贝叶斯模型来进行违约预测或风险评估分类。因此,本研究建立随机森林、逻辑回归、XGBoost和朴素贝叶斯模型,比较不同算法在贷款违约预测领域的预测准确率,探索朴素贝叶斯模型是否更优,并分析影响违约概率的因素。
三、研究设计
(一)数据来源与处理
1.数据来源
使用Home Credit提供的数据进行实验,共有307 511个样本。考虑到变量的重要性、相关性以及维数爆炸等因素,选择70个变量,其中包括借款人贷款类型、性别、子女人数、收入状况、贷款申请额、贷款年金、消费贷款的商品实际价格、借款人收入类型、受教育情况、职务、年龄、联系方式、婚姻状况、居住状况、居住地人口密集度、Home Credit对申请人居住区域的评分等级、借款人工作所属组织类型、外部数据源(1、2、3)的标准化评分、借款人居住环境各项指标的标准化评分等。其中借款人还款风险包括还款风险高和还款风险低两类,这里将1视为未按时偿还贷款,0视为按时偿还贷款。样本中部分主要变量分布情况如表1所示。
表1 描述性统计
2.数据预处理
数据预处理主要是对缺失值和异常值的处理使其能够满足建模要求。首先是缺失值,变量的缺失值占比超过60%,则对预测结果的精确度产生较大影响,考虑将这些变量删除;占比低于60%的变量,如 EXT_SOURCE_2、EXT_SOURCE_3和 AMT_GOODS_PRICE等数值型变量,采用中位数对空缺值进行补充,如OCCUPATION_TYPE、NAME_TYPE_SUITE属于类别变量,则将缺失值定义为一个新的类别。由于现阶段特征尚未构建完毕,因此缺失值部分暂时只对变量维度的缺失情况进行考察。异常值问题是针对数值型数据的合理性,主要检测数据是否存在逻辑错误或特殊情况。观察发现数值型变量DAYS_EMPLOYED出现异常,最大值为1 000年。尝试对DAYS_EMPLOYED的异常值与非异常值总体违约情况进行分析,发现异常和非异常值的违约率之比为1∶1.6,异常值对违约率没有明显影响。所以将异常值作为缺失值处理,采用中位数进行填充,并定义新的一列告诉模型这些数据最初是异常的。
(二)数据探索分析
经过以上处理,初步构建了一个适合模型训练的数据集,但是由于各变量与目标变量之间的相关性不同,变量预测能力参差不齐,采用相关性分析法对变量之间的关系进行分析。在所选取的变量中,DAYS_BIRTH与目标变量之间表现出最强的正相关性为0.078 2。为了方便观察,DAYS_BIRTH除以365天换成Age表示(如图1),发现随着贷款申请人年龄的增长,其表现出的违约风险越低,年龄最小的三组的违约率高于1%,DAYS_BIRTH最大的组违约率低于0.5%,表明年轻借款人的违约倾向比年长借款人高。
图1 随年龄增加贷款违约情况
根据相关性分析,与目标的负相关性最强的三个 变 量 是 EXT_SOURCE_1、EXT_SOURCE_2和EXT_SOURCE_3。DAYS_BIRTH与EXT_SOURCE_1的相关系数为0.6,表现出较强的正相关性,说明借款人年龄可能是该评分中的一个主要因素。为了尝试提高模型的训练效果,采用特征组合方法,将EXT_SOURCE_1、EXT_SOURCE_2、EXT_SOURCE_3和DAYS_BIRTH四个变量进行组合形成交互项,采用3阶为最高阶数形成了35个新变量,发现与原始变量相比,形成的新组合变量表现出更强的相关性,相关系数为-0.193 9。在构建模型时,本文将尝试使用和不使用这些新变量,以确定它们是否有助于模型学习。
(三)评价指标
为了使得到的模型训练效果方便进行比较分析,本文选用AUC、准确率和召回率来量化模型性能。
AUC是二分类模型使用的主要评测指标之一,由接受者工作特征曲线(ROC)下的面积计算,可用于评估模型的整体能力。值通常在0.5到1之间,越大则分类器正确率越高。
准确率(accuracy)是二分类问题中的另一常用指标,是分类正确、错误的样本之和与总样本数之比(混淆矩阵见表2),准确率越高则模型预测越准确,准确率的公式见式(1):
表2 违约预测模型的混淆矩阵
召回率(recall)同样经常用于二分类问题。召回率表现为分类器能预测准确的正例数占实际正例数的多少,可理解为查全率。召回率越高则模型表现出更好的训练性能,其公式见式(2):
(四)模型构建
1.随机森林模型(Random Forest)
随机森林模型以决策树为基学习器构建Bag⁃ging集成,在训练过程中引入随机属性选择。随机森林模型中基学习器具有的多样性来自样本扰动和属性扰动,最终集成的泛化性能通过不同个体学习器之间差异的增加而提升,从而有效防止过拟合。其能够处理很高维数据且训练速度很快,即使遗失大部分特征,仍可以维持较高的准确率。
2.逻辑回归模型(Logistic Regression)
逻辑回归模型是最经典的二分类模型,在线性分类问题中应用广泛,对变量要求较低,具有广泛的适应性。逻辑回归是一个条件概率模型,见下式:
其中x∈Rn是输入,Y∈{0,1}是输出,w∈Rn,w称为权值向量。逻辑回归根据式(3)和式(4)求出的结果,将样本分到概率较大的类别。
3.XGBoost模型
XGBoost是Boosting算法的一个提升,以CART树中的回归树作为基分类器,给定训练数据后其单个树的结构基本可以确定。XGBoost也是CART树的一种加法模型,将t-1棵树组合模型产生的误差作为参考建立第t棵树,每加入一棵树其损失函数不断降低,可以通过特征的列采集防止过拟合。它的预测模型为:
损失函数为:
其中K为树的总个数,fk表示第k棵树,i表示样本xi的预测结果,为样本xi的训练误差,Ω(fk)表示第k棵树的正则项。Obj又称结构分数,是一个类似基尼系数的对树结构进行打分的函数,分数越小代表树的结构越好。
4.高斯朴素贝叶斯(GaussianNB)
朴素贝叶斯模型是基于贝叶斯定理与特征条件独立假设的分类方法,特点是结合先验概率和后验概率,避免只使用先验概率的主观偏见,也避免单独使用样本信息的过拟合现象,在样本量较大的情况下与其他分类方法相比具有最小的误差率。朴素贝叶斯的判定准则为:
其中d为属性数目,xi为x在第i个属性上的取值,y={c1,c2,…,cN}表示N种可能的类别标记。P(c)是先验概率,P(x|c)是类别c的条件概率。本文在这里选取高斯朴素贝叶斯分类器作为模型进行训练,即P(xi,c)服从这样的高斯分布,所以P(xi,c)的概率密度函数为:
其中μc,i和分别是第c类样本在第i个属性上取值的均值和方差。
在机器学习所有的分类算法中,朴素贝叶斯和其他绝大多数的分类算法不同。大多数的分类算法比如决策树、逻辑回归、支持向量机等都属于判别方法,即直接学习出特征,输出Y和特征X之间的关系,要么是决策函数Y=f(X),要么是条件分布P(Y|X)。但朴素贝叶斯是生成类方法,即直接找出特征输出Y和特征X的联合分布P(X,Y),然后用P(Y|X)=P(X,Y)/P(X)得出结果。故选用朴素贝叶斯建模,探索分析生成类算法是否比判别类算法表现更优。朴素贝叶斯模型所需估计的参数很少,对缺失数据不敏感,不仅算法简单,对小规模的数据表现较好,且能很好地处理分类任务。本文数据来源于Kaggle大赛,为不平衡数据,为了减少其带来的影响,选用贝叶斯中的高斯贝叶斯模型。高斯贝叶斯是用各个类别的样本去极大似然估计出高斯分布的均值和方差,使模型训练准确率受样本影响较小。
四、实证结果与分析
学者曾将违约预测进行研究探索时所用的方法分为两大类:一类是普通的统计分类模型,如线性判别分析、Probit回归、因子分析等;另一类是机器学习算法,如决策树、随机森林、神经网络等。为了探索生成类模型朴素贝叶斯是否更适用于贷款违约预测,选取随机森林模型、逻辑回归模型、XG⁃Boost模型与高斯朴素贝叶斯模型进行对比分析。
(一)基于随机森林分析
首先尝试在随机森林模型的训练集中加入35个交互项,根据模型的实证结果,发现随机森林模型训练的AUC评分为0.678,而未加入交互项的随机森林模型的训练结果的AUC评分为0.676,见表3。AUC的值越大,表明模型的拟合效果越好,根据实验结果发现,加入新变量未使模型的预测能力明显提高。基于上文分析可知,EXT_SOURCE_1和DAYS_BIRTH存在较强的正相关性,使得它们组成的交互项没能给模型提供有意义的参考。
表3 新变量加入前后模型AUC评分
(二)基于逻辑回归模型分析
本文构建了多个模型进行对比,用AUC、准确率和召回率作为评估标准对模型进行评估。根据上文所述,新变量对模型的拟合能力没有明显的改善,为了减少维数提高模型的拟合能力,以后的训练中不再加入新变量。根据实验结果,逻辑回归模型训练的AUC评分为0.597,准确率和召回率分别为0.623和0.109。与未加入新变量的随机森林模型对比,逻辑回归模型的AUC评分、准确率和召回率都比随机森林要低,其中准确率表现出的差距最大,两者相差0.276,说明随机森林模型比逻辑回归模型表现出更优的性能。
图2 随机森林模型的ROC曲线
图3 逻辑回归模型的ROC曲线
(三)基于XGBoost模型分析
作为一个基于决策树的梯度提升算法,XGBoost可以自动补全缺失值并获取特征重要性,从而有效地进行特征的筛选,提高模型的拟合能力。通过实证结果(如图4):EXT_SOURCE_2、EXT_SOURCE_3、EDUCATION_TYPE(受教育程度)、GENDER、IN⁃COME_TYPE(收入类型)、ORGANIZATION_TYPE(工作群体)、CONTRACT_TYPE(贷款类型)、EXT_SOURCE_1、FAMILY_STATUS(家庭情况)、FLAG_OWN(抵押品)等特征在预测借款人是否会产生违约行为中是最重要的,与日常生活经验相符。由上文EXT_SOURCE_1、EXT_SOURCE_2和EXT_SOURCE_3是根据借款人的资料打出的标准化评分,评分越高,借款人越倾向于还贷。INCOME_TYPE、ORGANI⁃ZATION_TYPE和OCCUPATION_TYPE在一定程度上能反映借款人的财富积累情况,代表着其对贷款偿还能力的大小。最终得到XGBoost模型的AUC评分为0.738,准确率和召回率分别为0.668和0.154。
图4 特征重要性排序
(四)基于高斯朴素贝叶斯分析
由前文的分析,已知借款人是否违约主要由INCOME、EXT_SOURCE_2、EXT_SOURCE_3、OC⁃CUPATION_TYPE等11个特征决定,其他特征也能产生一定影响,而组合成的35个交互项特征对模型预测优化影响甚微。所以本文用高斯朴素贝叶斯分类器进行模型训练时,从数据源中剔除35个组合变量。根据实证结果,高斯朴素贝叶斯分类器拟合训练的AUC评分为0.605,准确率和召回率分别为0.899和0.082。
图5 XGBoost模型的ROC曲线
图6 高斯朴素贝叶斯模型的ROC曲线
(五)模型结果评价
由表4可知,根据AUC评分来看,XGBoost模型表现最优,比评分最低的逻辑回归模型高0.141。准确率最高的模型是高斯朴素贝叶斯为0.899,最低的是逻辑回归模型为0.623,朴素贝叶斯模型的准确率提高了44.3%。XGBoost模型的召回率最高为0.154,高斯朴素贝叶斯模型的召回率最低为0.082。综合四个模型的三个评估指标结果,不难发现XGBoost模型在三个指标评分中综合表现最好,而高斯朴素贝叶斯模型虽然准确率较高,但AUC和召回率相对较低。综上,可以认为高斯贝叶斯模型在贷款违约预测问题上表现不是特别好。
表4 四种算法的训练结果对比
五、结论与启示
本文采用随机森林模型、逻辑回归模型、XG⁃Boost模型和高斯朴素贝叶斯模型,选用Home Credit提供的客户数据进行贷款违约预测,并根据XG⁃Boost特征重要性排序结果,尝试对违约原因进行分析,发现除了EXT_SOURCE_2和EXT_SOURCE_3,对贷款违约影响最大的因素是借款人的性别、年龄、工作、家庭、受教育程度、收入状况等。总结如下:
第一,研究结论对贷款违约预测的模型、特征的选择有重要启示。相比判别类模型,生成类模型高斯朴素贝叶斯没有表现出更优的预测能力。而作为树模型的随机森林和XGBoost相比表现更好。加入35个交互项未能使模型预测能力得到很大提升,在以后的实验中,可以不考虑这些变量,并采用树模型对贷款违约预测做进一步尝试。
第二,研究结论对贷款业务发展有重要启示。年长、女性群体通常比年轻、男性群体更偏向于按时还贷,现实中年长、女性群体更偏好风险规避,避免自身陷入财务危机。近年,女性群体的消费能力逐渐提升,贷款机构可根据女性消费、风险特征推出专项消费信贷。年轻群体虽更倾向于逾期还贷,但贷款机构应为其提供更多指导或财务计划提示来帮助年轻客户按时还贷,而不是拒绝放贷。
第三,研究结论对贷款审查项目有重要启示。受教程度高、高薪职业群体诚信意识更强,高就业率、较强的专业技能和工作能力、高水平收入使其未来的收入更乐观,为按时还贷提供了有力的资金支持。贷款机构在进行贷款资格审查时增强学历学位影响因子占比,核验借款人真实学历水平,能更有效地对借款人的违约概率进行评估。
第四,研究结论对提高贷款违约预测准确率有重要启示。已婚、有子女贷款群体倾向于按时还贷,他们通常比未婚借款人更具稳定性,有较为固定的居住、工作场所。且夫妻双方均有收入,另一方无形充当了担保人角色。贷款机构在对借款人进行资格审查时,可调研已婚借款人夫妻双方的收入水平,从而更精准地判断借款人违约可能性。