基于大数据及机器学习方法的贷款违约风险评估

2021-11-29程朋媛天津财经大学

营销界 2021年26期

程朋媛（天津财经大学）

■ 前言

Fintech 推动了数字时代金融经济的创新和可持续发展。它全面涵盖了营销、风险控制、贷款、投资顾问和客户服务、移动支付的诞生、数字贷款、在线保险等重要业务流程。对金融产业链、供应链和增值链产生了深远的影响。

一方面，互联网金融的发展，为更多有融资需求的客户提供了便利快捷的服务。无论是传统的金融机构，还是新兴的P2P 行业，都希望获得尽可能多的客户，同时控制风险，因此研究我国个人信用评估、有效识别消费贷款信用风险显得尤为重要。另一方面，越来越多的商业银行利用所收集的信息进行信用风险评估，构建评分模型，期望达到提高运营效率和降低贷款成本的效果。本文尝试运用不同的机器学习方法，探究机器学习方法在信用风险评估方面的应用，为商业银行在控制信用风险方面提供新的可能。

■ 模型理论与方法

（一）机器学习方法

本文主要选取了以下八种机器学习算法：

（1）逻辑回归算法（Logistic Regression，LR）

（2）随机森林Random Forest

（3）梯度提升树GBDT(Gradient Boosting Decision Tree)

（4）决策树ID3

（5）KNN 学习模型

（6）朴素贝叶斯（Naive Bayes）分类算法

（7）XGBoost

（8）LightGBM

（二）评估方法

本文用AUC 作为评价指标，AUC 大小是指ROC 曲线和坐标轴围成的面积，以此来度量分类模型的好坏程度。ROC（Receiver Operator Characteristic）是一个二维坐标轴中的曲线，横坐标是伪正例率（FPR=FP/(FP+TN)），纵坐标是真正例率（TPR=TP/(TP+FN)）。ROC 没有具体数值，所以出现了AUC 值。一般来说，AUC 越大表示预测性越好。

■ 数据处理与特征工程

（一）数据介绍

出于银行数据安全性及可得性考虑，未采用真实客户信息，而是以天池贷款数据集为基础，对算法进行实现。

天池违约数据集中总数据量100 万行，维度包含客户id及对应的各项特征，具体有：用户id、贷款金额、利率、分期付款金额、贷款等级和子级、就业职称、年限、房屋所有权状况、年收入、验证状态、贷款发放的月份、贷款人在贷款申请时的贷款用途类别、借款人邮政编码前3 位、地区编码、债务收入比、借款人过去2 年信用档案中逾期30 天以上的违约事件数量、借款人在贷款发放时的fico 所属的上、下限范围、借款人信用档案中未结信用额度的数量、贬损公共记录的数量、公开记录清除的数量、信贷周转余额合计、循环额度利用率、借款人信用档案中当前的信用额度总数、贷款的初始列表状态、表明贷款是个人申请还是与两个共同借款人的联合申请、借款人最早报告的信用额度开立的月份、借款人提供的贷款名称、公开可用的策略_代码=1 新产品不公开可用的策略_代码=2、匿名特征n0-n14。

（二）数据预处理

1.内存优化

原始数据有100 多万条，后续进行特征工程会导致更多的内存损耗，因此有必要进行内存优化，减少数据占用存储空间大小。

2.缺失值处理

数值型特征用中位数填充，对象型特征用众数填充。

3.时间格式处理

issueDate 日期变量，贷款发放时间，转换为离数据集最早的发放时间的天数差，贷款人最早报告的信用额度的时间转化为距离2021 的年数。

4.对象类型特征数值化

对象类型特征有“grade”，“subGrade”和“employmentLength”“grade”和“subGrade”都是表示贷款等级的特征，因此应该是有一定的顺序的，比如A ＞B，A1 ＞A2 之类，因此可以直接映射成数值。

（三）特征工程

主要流程为：

1.根据相关性特征剔除部分变量，再根据理论剔除对贷款违约概率影响微小的用户特征。

2.为衡量用户价值与创利能力，自定义以下可解释特征。

就业后的总收入=年收入×就业年限；每年贷款金额=贷款额/贷款年限

本息和=分期付款金额×贷款年限；负债收入比=每年贷款额/每年收入

每年剩余收入=年收入-贷款额；剩余信用额度=总额度-周转额度

3.对匿名的十五个特征计算常用统计量，根据不同统计量与违约概率的相关性选取平均值和方差这两个特征变量替代原有的匿名特征。

■ 贷款违约风险评估模型建立及分析

（一）模型设计

本文基于天池贷款数据集，将数据分为训练集与测试集，先对客户各个指标进行特征分析，选出最终使用的用户特征，再以不同算法对模型进行训练，通过对精度进行比较，选出预测最准的算法作为我们的后台。同时连接数据库，搭建面向客户的前台，对新旧客户进行区分，老客户只需输入id 号（代表身份证号，虚拟数据集因此用id 显示）即可得到对该客户的信用评分及其违约的概率。新客户需要输入一些基本信息（id、年收入、贷款金额、贷款期限、贷款利率、工龄时间、是否有房），以此为基础对其信用评分及违约概率进行预测。

（二）主要建模流程

1.特征工程：对数据进行预处理，删除冗余特征，通过特征工程对特征进行筛选，选出较为关键的特征。

2.机器学习算法：采用八种不同的机器学习算法对模型进行训练（LR、Random Forest、GDBT、ID3、KNN、NB、Xgboost、lightgbm）。

3.模型评估：以AUC 值为评估标准，选取AUC 值较大的算法，采用网格搜索调参进一步优化，得到训练好的模型作为最终预测模型。

（三）训练模型结果

通过AUC 值对比，Lightgbm 模型最优，通过网格调参进行进一步优化，得到最终要选用的模型。

■ 总结

本文着眼于金融科技对银行的运用，在金融行业构建风险模式、模拟贷款违约的背景下，尝试将机器学习应用于金融风险控制领域。使用天池贷款的默认数据进行模拟，分别试验了8 种不同的机器学习算法，预测了贷款的违约概率和个人顾客的信用评价。结果，Lightgbm 优于其他模型，达到较高的AUC，在测试组中表现出更强的稳定性。展望未来，金融科技发展有以下趋势：隐私计算关注度快速提升；妥善解决数据安全和数据质量通点成为金融科技高质量发展的重要前提；深耕技术是企业发展策略的中心，加大研发和人员投入是关键着力点等。

对银行应用金融科技有以下几点建议：

（1）坚持强化金融科技创新应用的惠民利企导向。

（2）健全开放、共赢、平衡的金融科技生态体系。积极支持通过联合实验室等形式，加强关键共性技术研发和金融应用项目攻关；支持政产学研多方合作参与甚至主导有关国际标准规则研制；推动大型机构向中小机构输出风控、合规、运营等数字化工具；支持中小机构依托行业协会、产业联盟等平台，适度降低数字化转型成本。

（3）继续发挥引导行业规范发展的作用。建议进一步发挥行业自律在支撑配合行政监管、规范从业机构行为等方面的积极作用，持续加强行业统计和风险监测体系建设，精准开展金融消费者保护和政策宣贯，积极推进金融科技国际双向交流合作。