机器学习视角下商业银行客户信用风险评估研究

2022-02-28顾洲一胡丽娟

金融发展研究 2022年1期

顾洲一胡丽娟

摘要：有效把控信贷风险是商业银行稳健运行的关键环节。本文从商业银行客户信贷数据出发，运用非平衡样本处理算法使少数类样本信息得到平衡，并通过机器学习分类器挖掘影响客户违约的重要风险因子，最后构建Logistic模型计算违约概率。研究发现：第一，客户忠诚度是重要因子，忠诚度越高，客户违约概率越低;第二，客户历史信贷数据价值高，是事前风险控制中的重要参考依据;第三，信贷合同特征是影响客户违约的另一重要维度，包括合同期限和合同利率。研究结论可以为银行授信、风险预警和防范违约风险提供理论参考和实践指导。

关键词：信贷风险;非平衡处理;机器学习;Logistic模型

中图分类号：F830.5 文献标识码：B 文章编号：1674-2265（2022）01-0079-06

DOI：10.19647/j.cnki.37-1462/f.2022.01.010

一、引言

随着全球经济一体化步伐加快以及区块链、人工智能等信息技术的快速发展，经济金融环境日益复杂多变，金融衍生品种类日益增多，金融机构面临着更多的风险挑战。银行业作为金融业的重要组成部分，在我国经济和社会发展过程中不仅承担着吸收存款、发放贷款等基本职责，还要发挥正确引导货币流向、提高资金使用效率以及调节社会资金需求量等作用，成为国民经济发展中的关键因素。因此，银行体系的平稳运行是一国经济稳定发展的有力保障。

《巴塞尔新资本协议》将商业银行面临的风险分为8大类，例如市场风险、流动性风险、信用风险和操作风险等，其中信用风险是最为主要的风险之一。传统观点认为商业银行信用风险来自信贷业务所引起的违约风险，但是伴随着金融产品迭代创新以及风险环境日益变化，现代意义上的商业银行信用风险范畴已有所改变，还包括由于债务人信用状况和履约能力变化导致商业银行资产价值变动进而遭受损失的风险。

近年来，我国经济下行压力加大，作为金融体系核心的商业银行面临的信用风险也在逐渐扩大。截至2020年末，国内银行业不良贷款余额已达3.5万亿元，不良贷款率为1.92%，不良贷款余额较上年末增加2816亿元，不良贷款率较上年末下降0.06个百分点。科学客观地评估银行业信用风险对商业银行管理以及实体经济发展有着举足轻重的作用。

传统商业银行信用风险评估主要依靠商业银行从业人员的主观经验判断，即通过线下收集客户年龄、职业、历史违约记录等个人信息進行人为风险把控，但是这类方式往往存在效率低、准确率难以保障等缺点。近年来，随着数据量的爆发式增长，传统人为风控制度已无法满足当下银行业信贷业务发展需要，利用大数据技术实现风控成为新的趋势。其核心思想是基于海量银行客户行为数据，利用大数据技术挖掘数据背后的价值，实现信用风险评估。因此，在大数据风控体系下如何借鉴已有成熟的信息技术，并依托商业银行现有的海量客户数据，实现精准风险预测，是值得进一步深入研究的问题。

二、文献综述

（一）关于商业银行信用风险影响因子研究

商业银行信用风险影响因子的研究分为宏观因素和微观因素。宏观上，Salas和Saurina（2002）[1]研究发现，宏观经济政策变动会对商业银行客户的不良贷款率产生影响。谢太峰等（2020）[2]从总资产规模、通货膨胀率、GDP增长率等方面来分析它们对商业银行信用风险所产生的影响。微观上，Copestake（2007）[3]指出客户的年龄、性别等基本特征最终会影响到用户的信用记录。吴金旺和顾洲一（2018）[4]利用随机森林方法筛选出5个重要的因子，均与用户历史信贷信息有关。

（二）关于商业银行客户信用风险预警模型研究

商业银行客户信用风险预警模型的研究大致可分为三个阶段。第一阶段是经验判断时期，以指标体系为构建基础，通过行业专家对客户进行信用风险评分实现预警效果。Sowers和David（1942）[5]最早构建个人信用风险评价指标，利用经验判断和专家打分，对个人风险级别作出判断。之后，“5C”“5W”以及“5P”等要素分析法被广泛应用于个人信用风险评价研究，但是这些方法主要以定性为主，主观因素较强。第二阶段为计量分析时期，开始应用计量分析模型解决个人信用风险问题。线性回归模型是最早被应用于个人信用风险评估的模型之一，Orgler（1970）[6]从借款人个人信息维度选取解释变量，通过构建线性回归模型来对借款人的信用风险进行评估。Wiginton（1980）[7]最早在线性回归的基础上引入Logistic模型进行实证分析。李萌（2005）[8]以不良贷款率作为信用风险衡量标准，构建Logistic模型，进而证明Logistic模型具有可信的识别、预测及推广能力。方匡南等（2014）[9]将Lasso和Logistic模型相结合，构建个人信用风险评估模型，显著提升了基础模型的估计精度。另外，还有学者将判别分析、主成分分析等统计方法应用于客户信用风险研究。第三阶段为人工智能时期，以人工神经网络、支持向量机、随机森林等应用最为广泛。Bekht和Eletter（2014）[10]采用人工神经网络方法为约旦商业银行贷款决策提供技术支持，并证实该方法能够有效改善信贷决策效率，帮助金融机构降低评估成本。姚潇和余乐安（2012）[11]将模糊隶属度引入支持向量机，显著提高了信用风险分类精度。Cano（2017）[12]利用随机森林算法对不同数据集作特征选择，并用其选出的重要因子进行风险预测，结果显示随机森林方法较人工神经网络和支持向量机更有优势。吴金旺和顾洲一（2018）[4]利用随机森林算法对平衡后的数据集做重要变量筛选，并利用Logistic模型作预测，预测效果显著。方匡南等（2010）[13]将改进后的非参数随机森林算法用于信用卡违约风险识别，并发现该算法比支持向量机、单一决策树以及Logistic回归有更高的准确率。周永圣等（2020）[14]利用改进的随机森林算法应用于德国信用数据集，验证了随机森林类模型的可行性和优越性。

综上，随着移动互联网的快速发展，数据呈现爆发式增长，微观视角的用户数据呈现标签多、类型复杂且价值高等特征。而受人工智能、机器学习等信息技术影响，信用风险预警方法存在较大的拓展空间。本文从商业银行客户数据出发，运用非平衡样本处理算法使少数类样本信息得到平衡，并通过多种机器学习分类器挖掘影响客户违约的重要风险因子来提升模型预测效果，最后构建Logistic模型计算违约概率。根据模型研究结论，完善信用风险评估机制，为银行授信、风险预警和防范违约风险提供理论参考和实践指导。

三、数据来源及分析

（一）数据来源及变量介绍

客户样本数据集来源于国内某商业银行A，共计15000份，剔除无效客户数据，最终得到有效数据集14073份。数据集包括客户年龄、服务年数、贵宾卡客户、网银客户等20个变量。其中，[X1，X2，…，X19]为解释变量，即客户特征信息;[Y]为被解释变量，即客户最终是否违约的情况。具体见表1。

（二）相关分析

计算发现，各变量之间相关关系并不显著。同时，由于篇幅限制，本文选择个别变量作相关关系矩阵热力图（见图1）。图1中解释变量与被解释变量的相关性很低，相关系数绝对值最大不超过7%，间接说明传统模型的建模效果可能欠佳。解释变量之间的弱相关也表明不存在显著的共线性问题。

四、商业银行客户信用风险评估研究

（一）非平衡样本处理

本文共收集有效样本数据14073份。其中，违约客户数目为200个，仅占客户数据的1.42%;而未违约客户数目有13873个，占总样本数据98.58%。显然，两者之间的比例存在较大差异，属于非平衡数据集。在传统处理数据的方法中，大多数方法都会更倾向于数据量较大的那一部分，从而忽略了数据量较少的部分，最终导致整体方法性能下降。因此，在对训练集生成分类器之前，需要做非平衡数据处理。

过采样（Over-sampling）是在不损失原有信息情况下，对少数类样本集中进行随机抽样复制，让整体样本比例保持平衡的方法。欠采样（Under-sampling）是通过随机概率删除多数类样本，以达到两类数据集比例平衡的目的。人工合成（SMOTE）方法的基本思想是通过在少数类样本与其邻近样本间插入新样本以平衡原数据集。表2分别展示了过采样、欠采样、过采样与欠采样混合以及人工合成这4种方法对训练集进行了非平衡数据处理生成的结果，其中训练集数据是在原有数据集中进行简单随机抽样产生的，抽样比例为原数据集的75%。

（二）性能分析

在数据挖掘技术中，分类模型（Classifier）的种类众多，可以将其分为单一方法和组合方法。单一分类方法主要包括：K-近邻、决策树、神经网络以及支持向量机等;而组合分类方法有Bagging和Boosting。本文将从这两大类方法中选取6种分类算法，以客户是否违约作为二分类响应变量，根据表2中四种不同非平衡数据处理方法生成的4个数据集，分别使用CART、C4.5、随机森林、SVM、Adaboost和Bagging模型，并以敏感度、特异度、正负例命中率、准确率、AUC曲线等6种指标作为调节参数，以此来评价不同算法下的分类器性能。

基于同种非平衡数据处理方法，不同分类器得出的指标并不相同，具体见表3。随机森林的各项指标是分类器中整体表现最好的，Adaboost次之，而CART分類效果相对较差。计算发现，几乎每个分类器的负例命中率均等于或接近于1，说明不同分类器对于未违约的识别准确率较高，而与其对应的正例命中率差异较大，其他指标也出现了不同程度的差异。基于同一个分类器模型，不同的非平衡样本处理方式也会造成分类表现的不同。欠采样这一方法对于该数据集呈现的效果十分弱，正例命中率较低，过采样与欠采样混合的方法也随之受影响，部分分类器效果不算明显。而过采样和人工合成两种方法的敏感度、特异度、准确率等指标都较高，正例命中率在大部分分类器中也有较高的分数，说明这两种方法在处理非平衡数据时起到了较好的作用，适合本数据集。

综上所述，随机森林分类算法在过采样、过采样与欠采样混合、人工合成处理后评价指标差异不大，相对于其他分类器具有较大优势，敏感度、特异度、负例命中率、准确率达到了100%，正例命中率均达到了90%以上，由此证明了该模型具有优秀的性能。而CART、SVM这两类模型与随机森林相比性能相对较弱且不稳定。C4.5、Adaboost和Bagging的整体评价相较于CART和SVM相对较好，在几类评价指标中展现了模型性能的优势。因此，基于此，本文对随机森林、C4.5、Adaboost和Bagging四类分类器进行详细比较。

在过采样中，随机森林、Adaboost和Bagging除正例命中率不同之外，其余指标均相同，且随机森林的正例命中率是三者中最高的;在过采样与欠采样混合方法中，随机森林的正例命中率远远大于另外两种模型，其他指标也有较小优势;在人工合成算法中，评价指标效果与混合采样类似，随机森林的正例命中率大于另外两种模型，负例命中率相同，其他指标也是随机森林较为领先。

由前文分析可知，随机森林算法在处理样本数据集时性能相较于其他分类算法是最佳的。因此，本文在随机森林算法的前提下对欠采样、过采样与欠采样混合、人工合成三种方法的ROC曲线和AUC值做进一步比较。ROC曲线越靠近左上角、AUC值越高说明该模型的分类性能越好。结合图2可知，在训练集三种数据处理方式得到的AUC值分别为0.999、0.999、0.983，差距甚微，其ROC曲线也都十分靠近左上角并无太大差别。本文用同样的方法测试集进行了运算，得到的AUC值分别为0.518、0.518、0.648。相对于前两种方法，人工合成算法的ROCA曲线较靠近左上角，AUC值也大于前两种。因此，本文对于非平衡数据处理采用人工合成算法，分类算法采用随机森林算法。

（三）重要节点分析

经过非平衡样本处理后，随机森林在所有分类器中表现出较优的性能，能显著降低客户违约的误判率。因此，为了进一步探究影响客户违约的重要因子，对表现性能较优的分类器节点进行重要度排序。表4为经过过采样，过采样与欠采样混合、人工合成处理后，排名前10的重要性节点。通过比较发现，贷记卡额度占用率、贷款日前6个月存款日均金额、贷记卡最近6个月平均使用额度、贷款最近6个月平均应还款、我行服务年数、合同期限以及合同利率为三种平衡处理后的共性重要因子。

（四）个人信贷风险评估的Logistic模型

基于上一节重要因子结果，将7个重要因子作为解释变量，客户违约情况作为被解释变量，构建二分类Logistic模型，并采用逐步回归法对模型进行优化。显然，自变量系数均在5%显著性水平上通过检验，一定程度上说明逐步回归后的6个重要变量对模型有一定解释能力。

由表5可得Logistic模型为：

[LnP1-P=-2.88-0.16X2-0.57X9+0.05X11-0.07X12+0.92X14+0.06X18]

其中P表示为客户违约的概率。

研究发现：第一，客户在A行服务年数越高，则其发生违约的概率就越低。第二，客户贷款日前6个月存款日均金额越高，则该客户发生违约概率越低。显然，客户在贷款日前6个月存款日均金额越高，说明客户具有一定的经济基础和抗风险能力，能够有效降低信用风险发生率。第三，客户与银行签订的贷款合同利率越高，则其发生违约概率就越高，这可能由于现实生活中大量贷款客户所选择的贷款利率超出其自身承载能力，一旦资金方面出现问题，那么偿还的压力就会变大，最终导致违约事件发生。第四，通常情况下，一个较长的还款时间可能会降低用户在短期内的贷款压力。客户合同期限越长，则其发生违约概率就越低。第五，客户贷记卡最近6个月平均使用额度越高，则其发生违约的概率就越高。客户名下贷记卡近6个月平均使用额度如果过高，或者与普通群体的均值有着显著差别，那么说明这个客户的开支具有不合理性，此时该客户的资金风险也在加剧，一旦某一个资金环节出现问题，则会导致违约现象的出现。第六，客户贷款最近6个月平均应还款越高，则其发生违约概率越高。客户贷款最近6个月平均应还款增加，客户还款压力就会变大，发生违约情况的概率随之也会增加。

五、结论与建议

本研究主要工作是基于国内A商业银行客户信贷数据，利用非平衡样本处理算法，并借助机器学习技术分析影响客户违约的重要因子，最后构建Logistic模型计算客户违约概率。本文的主要贡献在于填补了当前机器学习视角下信用风险评估研究的不足，拓展了关于银行授信、风控等领域的理论研究。

研究发现：（1）借款人年龄、借款人业务类型（贵宾客户、网银客户以及理财客户）等客户基本信息并不是客户违约过程中的关键因素。但是，客户基本信息中的忠诚度（A行服务年数）占据主导地位。模型结果表明，客户在A行的服务年数越高，即客户忠诚度越高，则客户违约的概率越低。因此，加强客户忠诚度管理，提高客户留存率及留存时间，有益于优化风控机制。（2）客户历史信贷数据是相关银行从业人员做好事前风险把控的重要参考依据。贷款日前6个月存款日均金额、贷记卡最近6个月平均使用额度以及贷款最近6个月平均应还款是该维度下利用机器学习方法筛选出的重要因子，能在某种程度下反映出客户过往的经济能力和偿贷能力。（3）信貸合同特征是影响客户违约的另一大类因素，主要包含合同期限和合同利率。研究表明，合同期限与违约率呈负相关，合同利率与违约率呈正相关。因此，基于客户基础信息和历史信贷数据，实行合同期限和合同利率最优动态管理机制，能够有效降低客户违约风险。

针对以上研究结论，本文给出以下几点建议：

第一，在商业银行与客户之间建立起一种相互信任、相互依赖的“质量价值链”。通过提升商业银行产品、服务等质量价值，构建商业银行客户文化运营与管理机制，从而有效提高客户忠诚度，实现信用风险事前防范。

第二，通过数仓搭建与数据治理，有效发挥客户大数据的价值。通过银行、政府、企业等多方数据融合，打造互联互通的数据生态，从而有效丰富客户特征指标，并利用机器学习、区块链等新兴信息技术，挖掘数据价值，实现精准风险评级。

第三，双视域下科学客观地设置信贷合同，构建商业银行客户分层管理机制。宏观视角下，以国内及全球宏观经济发展大环境为基础，综合考虑宏观经济因素，基于理论模型，科学计算客户合同期限、合同利率等理论值;微观视角下，优化客户风险因子，实现客户动态分层管理，从而降低客户信用风险的发生率以及风险值。

第四，加强自我信用意识，筑牢道德基础。通过加强信用教育，积极倡导诚信行为，为进一步完善社会信用体系建设奠定基础，为实现客户自我约束提供价值观保障。

参考文献：

[1]Salas V，Saurina J. 2002. Credit Risk in Two Institutional Regimes：Spanish Commercial and Savings Banks [J]. Journal of Financial Services Research，22（3）.

[2]谢太峰，王蕴鑫，徐子麒.我国城市商业银行信用风险影响因素的实证研究 [J].征信，2020，38（6）.

[3]Copestake J. 2007. Mainstreaming Microfinance：Social Performance Management or Mission Drift？ [J].World Development，35（10）.

[4]吴金旺，顾洲一. 基于非平衡样本的商业银行客户信用风险评估——以A银行为例 [J].金融理论与实践，2018，（7）.

[5]Sowers D C，David D. 1942. Risk Elements in Consumer Instalment Financing [J].Journal of Marketing，6（4）.

[6]YE Orgler. 1970. A Credit Scoring Model for Commercial Loans [J].Journal of Money Credit & Banking，2（04）.

[7]John C Wiginton. 1980. A Note on the Comparison of Logit and Discriminant Models of Consumer Credit Behavior [J].Journal of Financial and Quantitative Analysis，15（3）.

[8]李萌. Logit模型在商业银行信用风险评估中的应用研究 [J].管理科学，2005，（2）.

[9]方匡南，章贵军，张惠颖.基于Lasso-logistic模型的个人信用风险预警方法 [J].数量经济技术经济研究， 2014，（2）.

[10]Hussain Ali Bekhet，Shorouq Fathi Kamel Eletter. 2014. Credit Risk Assessment Model for Jordanian Commercial Banks：Neural Scoring Approach [J].Review of Development Finance，4（1）.

[11]姚瀟，余乐安.模糊近似支持向量机模型及其在信用风险评估中的应用 [J].系统工程理论与实践，2012，32（3）.

[12]Gaspar Cano，Jose Garcia-Rodriguez，Alberto Garcia-Garcia，Horacio Perez-Sanchez，Jón Atli，Benediktssonc，Anil Thapad，Alastair Barre. 2017. Automatic Selection of Molecular Descriptors Using Random Forest：Application to Drug Discovery [J].Expert Systems With Applications，72 .

[13]方匡南，吴见彬，朱建平，谢邦昌.信贷信息不对称下的信用卡信用风险研究 [J].经济研究，2010，45（S1）.

[14]周永圣，崔佳丽，周琳云，孙红霞，刘淑芹.基于改进的随机森林模型的个人信用风险评估研究 [J].征信，2020，38（1）.

Research on Customer Credit Risk Assessment of Commercial Banks from the Perspective of Machine Learning

Gu Zhouyi/Hu Lijuan

（Zhejiang Financial College，Hangzhou 310018，Zhejiang，China）

Abstract：Effectively controlling credit risk is the key link for the steady operation of commercial banks. Based on the customers' credit data of commercial banks，this paper uses an unbalanced sample processing algorithm to balance the information of minority samples，and mines the key risk factors affecting customer default by a machine-learning classifier. Finally，a Logistic Model is constructed to calculate the default probability. It is found that： firstly，customer loyalty is an important fundamental factor; the higher the loyalty，the lower the chance of customer default;secondly，high value of historical customer credit data，which is an important reference basis in ex ante risk control;thirdly，credit contract characteristics are another important dimension affecting customer default，including contract duration and contract interest rate. The findings of the study can provide theoretical references and practical guidance for bank credit granting，risk warning and default risk prevention.

Key Words：credit risk，unbalanced processing，machine learning，Logistic Model