个人信用评分关键技术研究的新进展
2011-04-02杨胜刚
向 晖,杨胜刚
(湖南大学金融与统计学院,湖南长沙 410079)*
美国次贷危机的教训让国内外商业银行对个人信贷业务的拓展尤为审慎。为了在控制风险与追求利润之间找到平衡,建立有效的个人信用评分(credit scoring)体系是其中关键。早期的个人信用评分研究多局限于模型的设计,而近期学者们则将个人信用评分视为一个集数据预处理、指标体系筛选、模型设计为一体的系统评估方法。一些具有金融学理论基础的统计学和计算机学者们将统计学、数据挖掘以及机器学习等领域的最新成果应用于个人信用评分研究的各个环节,使信用评分研究取得了快速而全面的发展。
一、信用评分中的数据预处理
数据缺失、数据不平衡以及拒绝偏差是个人信用数据中普遍存在的三类样本问题,对它们的预处理在很大程度上影响着信用评分模型的有效性。
(一)数据缺失(missing data)
数据缺失是一种在调查研究中普遍存在的现象。对数据缺失最简单的处理方法就是删除(deletion),当缺失数据较少时,删除法是简单有效的。而当缺失数据较多时,删除法会造成资源的浪费和分析结果的偏倚。更为合理的数据缺失处理方法是填补(Imputation)。为每个缺失值构造一个替代值的方法被称为单一填补(Simple imputation),常见的单一填补法包括均值填补、回归填补、冷台(Cold deck)和热台(Hot deck)填补等。为每个缺失值构造多个替代值的方法被称为多重填补(Multiple imputation)。目前个人信用评分领域缺乏对数据缺失问题的深入研究,绝大多数文献忽略了信用样本集中的数据缺失问题或仅采用删除法来处理缺失数据。Batista和M ,onard(2003)对各种单一填补法的处理效果进行了比较[1]。Chen(2004)提出了一种基于贝叶斯的多重填补方法,用于处理个人信用数据中的分类数据缺失问题[2]。实验结果显示这种方法效果明显且易于实施。沈翠华(2004)对国内某商业银行的信用数据缺失情况进行了分析,并提出一种基于最近邻法的多重填补法[3]。实验结果表明,基于最近邻法的多重填补法的效果优于冷台填补法和均值填补法。
(二)数据不平衡(Imbalanced Dataset)
数据不平衡是指同一个数据集中某些类的实例数远远超过其他类的实例数。正常情况下,信贷机构拥有的坏客户比例一般不超过10%,因此,个人信用数据集中普遍存在较严重的数据平衡问题。忽视对数据不平衡问题将导致个人信用评分模型很难准确抓住坏客户的行为特征,给信贷机构带来巨大的经济损失。从已有的文献来看,数据不平衡问题的处理方法可分为数据层面和算法层面两种。数据层面的解决方法是对数据进行过抽样和欠抽样。过抽样和欠抽样都能使两类数据的比例更加合理,从而有效地突出坏客户的特征,提高评分模型的分类精度。Zavgren(1985)最早关注了信用风险评估中的数据不平衡问题,他指出当好坏样本比例为2∶1时能够取得更好的分类效果[4],但该文献未对数据不平衡问题进行系统研究。石晓军等(2005)对两类样本配比问题进行了系统研究,他们认为好坏样本配比比率对Logistic违约模型的估计和效率有明显影响,3∶1的好坏样本比例更为适合我国情况[5]。Paleologo等(2010)则提出一种subagging算法来解决数据不平衡问题,该算法通过参数动态地调整训练集中的好坏样本比例,实验结果表明该算法能有效解决个人信用数据中的不平衡问题[6]。算法层面的解决方法是指针对数据不平衡问题对信用评分模型进行改进和重新设计。沈翠华(2004)考虑了好坏客户的误分成本,并设计了基于代价敏感(cost sensitive)的支持向量机信用评分模型。Quinlan于2007年提出了C5.0决策树算法,该算法允许用户设定好坏客户误分成本矩阵,并根据该矩阵以最小化期望误分成本总和为目标生成决策树。庞素琳和巩吉章(2009)将C5.0算法应用于信用评分并取得了良好的分类效果[7]。
(三)拒绝偏差(reject bias)
信贷机构收集到的样本数据通常仅限于那些通过了贷款申请的客户数据,而据此开发出来的信用评分模型却被应用于预测所有信贷申请者的违约概率。这一样本数据缺陷被称为拒绝偏差。解决这类问题的技术称为拒绝推断(reject inference)。Crook和Banasik(2004)的研究表明,在构建信用评分模型时加入拒绝样本会使判断标准发生改变,并提高模型的预测能力[8]。Andrew Marshall(2010)的研究结果显示,拒绝偏差对信用评分模型的错分率有显著影响[9]。拒绝推断技术分三类:第一类设法取得完全样本,即不加区别地接受所有贷款申请,但这是一个成本高昂的做法。第二类情况是,虽然样本仅来自于被接受的信贷申请者,但假定被拒绝与被接受的贷款申请者的分布存在某种联系,可通过外推(ex trapolation)和增补(augmentation)技术对被拒绝贷款申请者的分布进行推断。由于作出的假定往往很不合理,因此,这类方法具有较大局限性。第三类对被拒绝与被接受的贷款申请者的分布不做任何假定,是目前最广为接受的拒绝偏差处理技术,Heckman二阶段法是其中最具影响力的方法。该方法将拒绝推断视为一个样本选择偏差问题来研究,为拒绝推断问题开辟了新的研究途径。Crook和Banasik(2004)利用一个完全数据集(即所有贷款申请均被接受)对Heckman二阶段法的使用效果进行了测试并与其它方法进行了比较。杨绍基和范闽(2007)利用中国的住房按揭贷款数据对Heckman二阶段法进行了实证研究[10],他们的研究结果表明,经过Heckman二阶段法纠正的信用评分模型具有更高的预测能力。
二、信用评分的指标体系选择
常见的信用评分指标体系选择定量方法有两种:第一种方法是特征提取(feature extraction)方法,即通过对原特征向量空间进行某种形式的变换,寻找新的空间。常用的特征提取方法是主成分分析法和因子分析法,近年来未见新的发展。第二种是特征选择(feature selection)方法,即在原有特征向量空间中,基于某种优化准则选择特征子集。特征选择方法众多且发展迅速,较早的研究多采用统计方法,近年来机器学习领域的相关研究成果也被应用于信用评分指标体系选择。
特征选择的统计方法通过对每个特征的判别能力大小进行排序,然后再进行特征子集选择。主要方法包括Kolmogorov-Smirnov检验、卡方检验、单变量线性判别分析法、t检验、相关矩阵分析法、信息统计量、逐步回归法等。Tsai(2008)对主成分分析、因子分析、相关矩阵分析、逐步回归、t检验进行指标体系选择的有效性进行了比较,研究结果表明,经特征选择后信用评分模型的精简性和准确率得到了提高。其中利用t检验选择的特征子集能得到更高的预测精度[11]。
近年来机器学习领域相关研究成果为信用评分指标体系的选取提供了多种新的定量方法。ReliefF法根据特征能否辨别相互邻近的样本来评价单个特征变量的判别能力。对两个相邻的来自不同类别的样本,如果某特征取值差别大,而对每个相邻的来自相同类别的样本,该特征取值相同或相近,那么这个特征被认为有较高的判别能力。基于相关性的方法、基于一致性的方法和包裹法则可评价特征子集的判别能力。基于相关性的方法的评价标准是:好的特征子集包含的每个特征与类别高度相关,同时这些特征相互之间不相关或弱相关。基于一致性的方法认为好的特征子集具有的特点是:如果某些样本对该特征子集的取值相同,则这些样本的类别也应该趋于一致。包裹法则直接利用后续分类算法的训练准确率评估特征子集的判别能力。刘扬和刘伟江(2006)对以上四种方法在神经网络模型中的表现进行了比较,认为它们可以在精简性、速度和准确率三个方面提高信用评分模型的表现,其中基于一致性的方法和包裹法表现优于ReliefF方法和基于相关性的方法[12]。Somol和Baesens(2005)研究了如何使用特征选择方法进行信用指标体系筛选,他们认为,特征选择应该成为信用评分的一部分,而包裹法在通常情况下要优于其他方法[13]。
特征选择还可被视为一种组合优化问题,而遗传算法正是机器学习领域一种通过模拟自然进化过程来搜索最优解的方法。Cheng-Lung Huang(2006)等尝试利用遗传算法进行了信用指标筛选,然后建立了支持向量机模型[14];孙瑾和许青松(2008)引入遗传算法作为筛选属性变量和调节参数的优化算法,建立了基于遗传算法和支持向量机的个人信用评分模型[15]。他们的研究结果都表明遗传算法在指标筛选方面具有良好的效果。
三、个人信用评分模型设计新成果
模型设计一直是信用评分领域的研究热点。建立信用评分模型所使用的方法非常多,20世纪90年代以前主要有判别分析、Logistic回归、决策树、最近邻法、线性规划等,九十年代以后,计算机和信息技术得到了极大的发展,神经网络、遗传算法等人工智能方法成为信用评分研究的前沿。近年来,学者们一方面继续对已有方法进行改进和优化,另一方面则继续探索建立信用评分模型的新方法。
(一)对已有方法的改进和优化
Logistic回归法是建立信用评分模型的主要方法,具有使用前提假设少、准确性和稳定性较高等优点。Cramer(2004)的研究表明贷款违约概率并不服从logistic分布,因此,logistic回归模型无法准确预测违约概率,而边界logistic(bounded-logistic)回归模型能获得更好的预测效果[16]。石晓军等(2006)采用Bayes分析方法对边界Logistic模型的后验分布性质进行了分析,从理论上证明了边界Logistic模型的优越性[17]。实证研究结果表明,边界Logistic模型对临界值不敏感,同时预测精度较高。
决策树方法曾被美联储在《平等贷款机会法》中称为是在信用系统中经过实证检验并且在统计意义上完美的办法。目前,决策树已从最初的ID3算法发展出了E4.5、C5.0、CART、Public等多种算法,后续算法不仅克服了ID3方法偏向选择取值多的属性的缺点,还提高了运算效率,并更适合处理大规模数据。Lee(2006)、Chrzanow ska等(2009)对多种决策树方法应用于信用评分的效果进行了比较,他们认为决策树模型能获得较高的预测精度,但与logistic回归模型相比缺乏稳健性[18,19]。
多数学者认为神经网络模型的预测精度高于其它统计方法,但存在稳健性差、参数结构难以确定以及缺乏解释性等缺点。Baesens等(2003)从可解释性的角度研究了神经网络模型,他尝试从多层感知器(M LP)信用评分模型中提取信贷决策规则[20]。在多个数据集上的实验结果表明,在提取决策规则准确度上神经网络模型要明显优于logistic回归模型。吴德胜等(2004)提出遗传算法辅助网络训练策略,修正BP网络权值与偏差,以克服网络训练过程中的局部极小化缺陷,经遗传算法辅助的神经网络信用评分模型获得了更高的预测精度[21]。Brad和Amelia(2007)进一步对神经网络信用评分模型的解释性进行了研究[22],他们使用的神经网络连接权值技术能解释特征变量对信用分值的贡献,但研究结果仅限于单隐层的神经网络。
(二)建立信用评分模型的新方法
支持向量机(support vector machine,简称SVM)是用于建立个人信用评分模型的最新方法。SVM是统计学习理论中的最新的内容,近年来其理论研究和算法实现发展极为迅速,在解决小样本问题上表现出诸多特有的优势。
Baesens和Gestel(2003)最早将支持向量机方法运用于信用评分,他们认为支持向量机方法明显优于线性回归和神经网络方法。Schebesch和Stecking(2005)将基于线性核和非线性核支持向量机信用评分模型进行了比较[23],研究结果表明非线性核支持向量机理论上能得到更优的分类结果,但由于现实数据的相对稀疏,优势并不明显。Bellotti和Crook(2008)测试了支持向量机在大样本情况下的表现,并提出可以利用支持向量机进行特征变量选择[24]。国内学者钟波和肖智(2005)使用最小二乘支持向量机(LS-SVM)进行了信用评分建模[25],他们认为LS-SVM方法泛化能力强、预测精度高、运行速度快且特别适合小样本情况下的信用评分建模。肖文兵和费奇(2006)对线性核、多项式核、径向基核、signoid核支持向量机及多种传统方法在信用评分建模上的表现进行了对比,结果表明支持向量机有很好的预测能力[26]。尽管众多研究表明支持向量机在个人信用评分领域具有良好的应用前景,但支持向量机在信用评分领域的应用也存在不少问题。如:支持向量机的核函数选择及最优参数设置依赖于专家知识和经验,无确定的公式可供计算;支持向量机具有“黑箱”特点,从个人信用评分模型中无法得到个人信用评分系统的结构特征,这些问题都值得进一步研究。
(三)组合信用评分模型
个人信用评分研究经过20世纪八九十年代的蓬勃发展后经历了一段低潮期,原因是传统方法已很难有所突破。近年来对个人信用评分的研究除了继续探索新方法外,热点向组合模型进行转移。组合模型是目前模式识别领域的一个重要研究方向,已在语音识别、手写识别、医疗诊断等方面得到了广泛应用,但在个人信用评分领域的相关研究还不多见。
目前的个人信用评分组合模型有三种构建思路,其一是将多种单一模型进行串行组合,模型A的预测结果和其他特征变量一起作为模型B的输入,最后由模型B输出最终的预测结果。Tian-Shyug Lee等(2002)提出了一种“两阶段混合神经网络判别方法”[27],做法是将判别分析模型的预测结果和其他特征变量一起作为输入单元建立神经网络模型。他们认为,这样的模型可以缩短神经网络训练时间并可以提高预测的精度。石庆焱(2005)提出了一种“神经网络-Logistic回归的混合两阶段个人信用评分模型”[28],他将神经网络模型的输出结果和其他特征变量一起作为logistic回归模型的自变量来建立信用评分模型,并利用因子分析法来解决logistic回归模型中的多重共线性问题。研究结果表明组合模型的预测精度比logistic回归模型要高,稳健性比神经网络模型要好,且组合模型具有较好的解释性。第二种构建思路是将多种个人信用评分模型的预测结果进行并行组合,每种个人信用评分模型都采用不同的分类算法。姜明辉等(2007)将logistic模型和RBF神经网络模型的预测结果通过线性方法进行组合[29],结果表明组合模型在总体预测精度和第二类误判率上具有优势。Sun和Li(2009)使用加权投票法对多重判别、logistic回归、神经网络、决策树、支持向量机以及最近邻模型的预测结果进行了组合,他们认为组合模型的预测总精度和稳健性都得到了提高[30]。第三种构建思路是通过bagging或boosting等算法产生多个训练集,并选取某种不稳定的分类算法(即训练集的微小变动能够使得分类结果显著变动,如决策树、神经网络等)在这些训练集上建立模型,最后对这些模型预测结果进行适当地组合。这种组合建模方法也称为集成或融合(ensem ble)。DavidWest(2005)采用bagging和boosting方法构建了神经网络模型集成模型[31],Chrzanouska等(2009)使用bagging和boosting构建了集成决策树模型,他们认为集成方法可以显著提高信用评分模型的预测精度及泛化能力。Finlay和Steven(2011)建立了多种bagging和boosting集成个人信用评分模型,并将它们的应用效果与传统单一模型进行了比较,结果表明集成模型要明显优于单一模型[32]。
另外,姜明辉(2006)对组合模型中的线性组合权重无非负约束及非负约束问题,非变权组合与变权组合问题和组合模型中冗余方法识别问题进行了系统研究[33]。Wang(2011)对多种组合模型在信用评分领域的应用效果进行了比较[34]。Paleologo等(2010)研究了在不平衡数据中构建组合模型的问题。
四、简要评述
21世纪以来,个人信用评分研究取得不少重大进展。多重填补法取代删除法和简单填补法成为信用数据缺失填补的首选;过抽样、欠抽样以及基于代价敏感的信用评分建模方法在处理不平衡数据问题时都能取得良好的效果;在拒绝推断方面,Heckman两阶段法为拒绝偏差纠正开辟了新的研究途径;机器学习领域的特征选择方法为信用评分指标体系的筛选提供了新的定量方法;支持向量机被认为在信用评分建模领域具有良好的应用前景;组合模型能够有效地提高信用评分模型的精确性和稳定性。可以说,个人信用评分已经发展成为一个成熟而完整的理论体系并得到了广泛应用。尽管如此,个人信用评分领域仍存在许多问题有待深入研究。例如信用评分模型的预测精度仍需进一步提高,神经网络和支持向量机模型缺乏稳定性和可解释性的问题尚未得到解决,组合模型中基分类器的选取标准以及组合模型结构的确定尚未达成一致结论等。另外将个人信用评分的目标由客户违约率最小化转为公司利润最大化则是个人信用评分的未来发展方向。
[1]Batista.G and M onard.M.An analysis of fou r missing data treatmen tmethods for supervised learning[J].Applied A rtificial In telligence,2003,17(5-6):519-533.
[2]Chen.G.Sam pling issues in credit scoring:M issing data,reject inference and treatment effects[D].2004,University ofWaterloo(Canada):Canada.
[3]沈翠华.基于支持向量机的消费信贷中个人信用评估方法研究[D].博士学位论文,中国农业大学,2004,11.
[4]Christine.V. Zavg ren.Assessing the vulnerability to failure of Am \\erican industrial firm s:a logistic analysis[J].Journal of Business Finance&Accoun ting,1985,12(1):19-45.
[5]石晓军,肖远文,任若恩.Logistic违约率模型的最优样本配比与分界点研究[J].财经研究,2005,(9):38-48.
[6]Paleologo.G,A.Elisseeff,G.Antonini.Subagging for credit scoring models[J].European Journal of Operational Research,2010,201(2):490-499.
[7]庞素琳,巩吉章.C5.0分类算法及在银行个人信用评级中的应用[J].系统工程理论与实践,2009,29(12):94-104.
[8]Crook.Jand J.Banasik.Does reject inference really im prove the performance of application scoring models?[J].Journal of Banking&Finance,2004,28(4):857-874.
[9]And rew Marshall,et al.,Variab le reduction,sample selection bias and bank retail credit scoring[J].Journal of Empirical Finance,2010,(17):501-512.
[10]杨绍基,范闽.信用评分模型的拒绝偏差与H eckit纠正[J].南方金融,2007,(5):12-15.
[11]Tsai,C.-F.Feature selection in bankruptcy prediction[J].Know ledge-Based Sy stems,2008,22(2):.120-127.
[12]刘扬,刘伟江.特征选择方法在信用评估指标选取中的应用[J].数理统计与管理,2006,(6):667-674.
[13]Petr Somol,Filter-versus w rap per-based feature selection for credit scoring[J].International Journal of Intelligent System s in Accounting,2005,20(10):985-999.
[14]Huang,C.-L,M.-C.Chen,C.-J.Wang.Credit scoring with a data mining approach based on support vector machines[J].Expert Systems with Applications,2007,33(4):847-856.
[15]孙瑾,许青松.基于遗传算法和支持向量机的银行个人信用评估[J].统计与决策,2008,(12):126-128.
[16]J.S.Cramer.Scoring bank loans that may go wrong:a case study[J].Statistica Neerlandica,2004,(58):365-380.
[17]石晓军,任若恩,肖远文.边界Logistic违约率模型Bayes分析及实证研究[J].中国管理科学,2006,14(4):25-29.
[18]Lee,T.-S.,C.-C.Chiu,Y.-C.Chou,C.-J.Lu.Mining the customer credit using classification and reg ression tree and multivariate adaptive regression splines[J].Computational Statistics&Data Analy sis,2006,50(4):1113-1130.
[19]Chrzanow ska.M,E.A lfaro,D.Witkow ska.The individual borrow ers recognition:single and ensemble trees[J].Ex pert System sw ith Applications,2009,3(2):6409-6414.
[20]Baesens,B and Van Gestel.T.Benchmarking state-of-the-art classification algorithm s for credit scoring[J].Jou rnal of the Operational Research Society,2003,(54):627-635.
[21]吴德胜,梁樑.遗传算法优化神经网络及信用评价研究[J].中国管理科学,2004.12(1):68-74.
[22]Brad S.T rinkle,Am elia A.Baldw in.Interp retab le credit modeldevelopment via artificial neuralnet works[J].Intelligent Systems in Accounting,Finance and Managemen t.2007,15(3-4):123-147.
[23]Schebesch.K.B,R.Stecking.Support vector machines for classifying and describing credit applican ts:detecting typical and critical regions[J].Jou rnalof the Operational Research Society,2005,56:1082-1088.
[24]Bellotti.T.and J.Crook.Support vector machines for credit scoring and discovery of significant features[J].Expert Systems w ith Applications,2008,36(2):3302-3308.
[25]钟波,肖智.基于LS-SVM的信用评价方法[J].统计研究,2005,(11):29-31.
[26]肖文兵,费奇.基于支持向量机的个人信用评估模型及最优参数选择研究[J].系统工程理论与实践,2006,(10):73-79.
[27]Lee,T.-S,C.-C.Chiu,C.-J.Lu,I.F.Chen.C redit scoring using the hybrid neural discriminant technique[J].Expert Systems with Applications,2002,23(3):245-254.
[28]石庆焱.一个基于神经网络——Logistic回归的混合两阶段个人信用评分模型研究[J],统计研究,2005,(5):45-49.
[29]姜明辉,谢行恒,王树林,温潇.个人信用评估的Logistic-RBF组合模型[J].哈尔滨工业大学学报,2007,(39):1128-1130.
[30]Sun.J,H.Li.Financial distress prediction based on serial combination of multiple classifiers[J].Expert Systems with Applications,2009,36(4):8659-8666.
[31]W est.D,S.Dellana,J.Qian.Neu ral netw ork ensemble strategies for financial decision applications[J].Computers&Operations Research,2005,32(10):2543-2559.
[32]Finlay.S.Multiple classifier architectures and their application to credit risk assessment[J].European Journal of Operational Research,2011,210(2):368-378.
[33]姜明辉,银行个人信用评估组合预测方法研究[D].博士学位论文,哈尔滨工业大学,2006.
[34]Wang.G,J.Hao,J.Ma,H.Jiang.A com parative assessmen t of ensemble learning for credit scoring[J].Expert Systems w ith Applications,2011,38(1):223-230.