APP下载

基于机器学习方法的信用风险评估综述

2021-09-07毛子林刘姜

经济研究导刊 2021年23期
关键词:信用风险评估

毛子林 刘姜

摘   要:基于信用风险评估的文献随着时间的推移以及技术创新的不断更新,相关机器学习方法运用近年来也与时俱进。基于此,主要从传统的机器学习方法、近现代机器学习方法以及近三年来最新研究三个方面进行信用风险评估领域文献梳理与评述,归纳现有机器学习方法存在的问题和不足,并对未来机器学习方法在金融风控领域研究方向做出展望,提出发展趋势。

关键词:机器学习方法;信用风险;评估

中图分类号:F830;TP181       文献标志码:A  文章编号:1673-291X(2021)23-0117-03

随着人工智能的发展和大数据时代的到来,众多学者利用机器学习方法对信用风险评估展开广泛研究。信用风险管理在国内外金融机构的稳健运行中扮演重要角色,传统的判断用户是否违约的方法已经不能满足当今数据类型多、用户量大、风险预测准确率高的要求,大量学者运用机器学习方法深入展开相关讨论并做出一系列研究成果,证明该方法具有较好的预测和泛化能力。整体来看,我国的个人信用风险评估较国外起步较晚,起初的文献大部分都是进行传统单一模型的风险评估,近年来才开始利用集成机器学习方法进行风险预测。信用风险对于我国金融风控领域尤为重要,因此,对此进行相关文献梳理以及发展趋势研究具有重要意义。

一、基于统计学习方法的信用风险评估综述

回归分析等方法最早用于开展信用风险评估领域。在国外,Durand(1941)利用线性判别分析法应用信贷评估系统,提出使用基于数理统计的模型对信用风险评估问题进行了研究,是已知文献中最早被用来进行信用风险评估的方法,自此信用评估由单纯的定性分析转向了定量分析。同时,这一方法存在一定的局限性,它对于数据分布要求的假设性太强,并且样本分类依据不是均值而是方差,因此导致最终的分类效果不是特别强。Orgler(1970)在1970年最早使用线性回归方法针对贷款者的信用状况结合实际情况进行分数评级,预测银行客户信用风险。在国内,姚路(2017)结合个人信用数据对用户进行信用评价,运用多元线性回归方法进行模型构建。线性回归方法从本质上来说是用现有用户信用数据对未知信用状况的用户进行回归预测,最终得出用户是否违约的概率。

但是线性回归也有一定的弊端,它所得出的值域介于正负无穷大之间,而逻辑回归方法的出现正好解决了这一问题。Wiginton等(1980)最先提出Logistic 回归模型用于进行信用评估。逻辑回归将线性回归后得出的值進行Sigmoid 函数转换成概率值,在0—1之间设定经验阈值从而实现二分类问题。Grablowsky(1981)在Logistic基础上进一步提出Probit 回归模型进行风险评估。该模型主要是将Logistic回归模型中的似然比对数函数调整为正态分布函数的反函数。Steenackers等(1989)对Logistic 回归模型进行优化,将用户信息的各种变量关系通过该模型进行反映,增强了该模型的可解释性。Ziari (1997)进行信用风险评估时将线性分析模型与统计分析模型相结合,对比单一的线性分析和统计分析模型发现效果更好。在国内,胡滨(2011)利用logistic回归模型对银行信贷状况进行分析,以减少信用经济带来的损失和风险。李淑锦(2018)运用logistic回归实证得出传统金融借贷机构风险低于网贷平台,同时考虑阈值的设定对规避模型判断失误而导致的资金损失有重要意义。

二、基于现代机器学习方法的信用风险评估综述

基于机器学习的个人信用风险评估模型在近年来逐渐兴起,展现了相比传统风险评估方法较强的优越性。常见的现代机器学习方法有BP神经网络、K近邻、SVM支持向量机等。此外,基于树模型的机器学习方法也广泛应用于个人信用风险评估,如基础的决策树模型、相关集成模型如随机森林、GBDT、XGBoost、lightGBM等。

在国外,Makowski(1985)是最先开启现代机器学习方法在个人信用风险评估领域应用的学者,他利用用户信用数据在分类树上构建模型,对好坏客户进行分类并取得了一定效果。Cover 和Hart(1986)提出K近邻方法,对于二分类的问题处理比较高效且被广泛应用于信用风险评估中。Odam(1990)最先将人工神经网络模型应用于个人信用评分模型,根据用户信用数据构建评分体系,指出人工神经网络在信用评分过程中有较好的解释性与应用性。Li(2000)对XGBoost 进行信用风险建模研究。Baesensl 等(2003)针对2003年之前的个人信用风险评估模型进行对比研究验证发现,线性判别分析法和Logistic 回归模型在进行信用风险评估表现出较好的效果。Stefan Lessmann 等(2015)在41种分类器对不同数据集进行分析,实验结果表明,集成模型如随机森林在信用风险评估效果上表现最佳。Brown(2012)指出,机器学习方法主要是通过监督学习对用户的信用数据进行模型构建,经过数据处理、特征提取等一系列操作对构建的模型进行用户行为和特征的预测,以此来判断用户下一次交易违约的可能性。

在国内,姜明辉等(2004)利用K近邻方法研究了信用风险评估,对小数据集的分类风险问题进行实验分析。刘昕(2007)将人工神经网络运用于银行信用风险管理,得出神经网络比传统的打分法和统计模型判别正确率更高,并且在第二类错误率这一关键指标上优势较好。王润华(2010)改进支持向量机进行风险评估,得出多项式核进行分类在高斯核和线性核三种方法中表现效果最好。方匡南等(2014)引入Lasso-Logistic 模型,运用Lasso方法对重要的变量特征进行选择,这一组合进行个人信用评估可以明显加快计算速度。付永贵(2016)改进线性回归模型,并在大数据的基础上对网络供应商信用数据进行了研究。罗雅晨(2018)研究了数据不平衡问题,基于改进的随机森林方法提出比例平衡的随机森林模型用来建立个人信用评分模型。

猜你喜欢

信用风险评估
我国国有商业银行信用风险管理研究
基于模糊层次分析法的农户信用风险评级研究
基于模糊层次分析法的农户信用风险评级研究
地方立法后评估刍议
评估社会组织评估:元评估理论的探索性应用
360度绩效评估在事业单位绩效考核中的应用探析
资产评估法的五大制度创新
Make Efforts,and You’ll Get in