APP下载

信用评级中多类别分类自变量的类合并方法研究

2020-07-23刘赛可何晓群夏利宇

统计与信息论坛 2020年7期
关键词:因变量类别准则

刘赛可,何晓群,夏利宇

(1.中国人民大学 应用统计科学研究中心,北京 100872;2.国网能源研究院有限公司 管理咨询研究所,北京 102209)

一、引言

随着计算机数据存储和计算能力的显著提升,信用评级应用研究在得到更多关注的同时亦遇到诸多难题,尤其是可收集的相关数据更加多面化和精细化,给信用评级建模带来一定的挑战。逻辑回归(Logistic Regression)模型因其建模过程易理解、结果可解释和易转化等特性,成为信用评级建模中常用的模型。在逻辑回归中,对分类自变量的处理方法通常是重新编码成虚拟变量,但是当数据中包含较多的分类变量且分类变量的类别较多时(如存在k个类别个数均为g的分类变量则需要添加k(g-1)个虚拟变量),给模型估计和结果解释及其在实际工作中的应用均造成一定影响。

实际上,多类别数据带来的问题不仅仅存在于逻辑回归中,对于其他回归模型也是类似的。尤其当数据样本量不够充足而分类变量的类别总数较多时,回归模型的估计问题甚至会成为高维问题。一方面,对于高维问题虽然可以考虑变量选择方法如LASSO (Least Absolute Shrinkage and Selection Operator)、Group-LASSO等进行降维[1],但是如果使用LASSO进行变量选择则很可能仅保留多类别分类变量中的某几个类,从而损失部分信息[2];如果使用Group-LASSO在模型中保留或删掉分类变量的全部类别,这将会给模型的估计或预测带来影响[3]。另一方面,实际应用中工作人员通常可以根据其背景知识或经验对分类变量的类别进行合并以减少类别数,但是该方法主观性太强不具科学合理性,难以泛化推广应用。综上所述,具体有效地处理多类别的分类变量的方法非常必要且具有重要意义,但是目前针对该问题的研究极少,没有合理的理论方法来解决多类别分类自变量给模型回归带来的上述问题,因此亟待研究者提出有效的处理方法。尤其在使用逻辑回归建立信用评级模型时,如果能够将较多的类合并为少数几个类,在简化模型的同时提升模型的预测效果,不仅可以增加模型的稳定性而且得到的模型更便于理解和促进结果的产品化呈现[4]。

本文主要针对信用评级建模中多类别分类自变量的类合并处理方法进行研究,并给出合并方法的具体操作步骤。分别采用模拟数据和实证数据对多类别的分类变量进行相应处理,然后使用处理后的数据建立信用评级模型,并与未进行处理的数据所建模型的预测结果进行比较,分析本文给出的多类别分类变量类合并方法的有效性。

二、理论基础

对于多类别分类变量,最直接的处理方法是进行类别的合并。对分类变量进行类的合并与连续数据离散化在本质和目的上具有一定的相似性,因此本文试图结合信用评级建模中连续数据离散化的思想提出分类变量的类别合并方法,通过将具有相似性的类别进行合并以提升模型的分类效率,其中主要利用数据离散化方法合并相邻区间或对区间进行分割以获得更多的信息增益的思想,作为本文类合并方法的理论基础。

数据离散化方法可分为有监督的和无监督的方法,由于无监督方法在使用时具有较大的主观性和不确定性,故而有监督的离散化方法相对更受青睐,研究表明有监督的数据离散化方法要优于无监督的数据离散化方法[5-6]。因此,本文将主要参考有监督的数据离散化方法给出有监督的类合并方法,然后分别使用模拟和实证数据对所给出的几种方法进行比较。有监督的数据离散化方法又可分为自底向上合并相邻区间的方法和自顶向下的区间分割方法。其中,自底向上的数据离散化方法中较经典的是Kerber提出的基于卡方检验的ChiMerge离散化方法[7],后续基于ChiMerge方法的改进,如Chi2、Modified-Chi2、Imp-Chi2、Extended-Chi2等方法也被不断提出[8]。自顶向下的方法中较经典的是MDLP,另外还有基于信息熵增益最大、类别-属性相依最大化(CAIM)等准则的方法应用亦较广泛[9-11]。当多分类变量为有序时,可以直接使用相邻区间合并的自底向上离散化方法,基于已有的某种准则对相邻的类进行合并;当多分类变量为无序时,不能直接套用数据离散化的方法和步骤(尤其是自顶向下的分割方法),但可以将数据离散化方法中的准则应用于分类变量的类合并中。

数据离散化的方法现已得到比较充分的研究,下面简要介绍3种相对更适用于信用评级建模的方法。其中,史小康等提出采用Fisher精确检验方法进行数据离散化,该方法是自底向上的合并相邻区间的方法。他们在研究中指出,最终被合并为一类的变量可以剔除出模型,该变量被合并为一类表明它与因变量的相关性弱,由此在数据离散化的同时可以达到变量选择的效果[12]。另外,基于卡方检验的离散化算法中存在自由度与期望频数选取的问题,会影响卡方计算的准确性,而采用Fisher精确检验可以避免自由度和期望频数难以确定的问题[13]。在自顶向下的离散化方法中,Li等提出的类别-属性一致性最大化(CACM)准则是对类别-属性相依冗余性(CAIR)准则和类别-属性相依最大化(CAIM)准则的改进,具有一定的优越性[14-15]。夏利宇等在CACM准则的基础上考虑数据不平衡的特性对类别的比重进行调整,提出了基于ACACM准则的数据离散化方法,使其更适用于信用评级建模[16]。

三、类合并方法

本文将根据上述几种连续数据离散化方法的核心思想,提出分别采用Fisher精确检验准则、CACM和ACACM准则的多类别分类变量的类合并方法,并以信用评级建模为例列出具体的步骤。

在基于Fisher精确检验的准则进行类合并时,本文不对最终类别的个数进行设定,其具体操作步骤为:1.对分类变量中的任意两个类别属性关于因变量作出列联表,然后分别进行Fisher精确检验,得到两两类别组合下对应的双边检验的p值;2.将大于0.1(或用户定义的其他水平)的最大p值所对应的两个类别合并为一类;3.重复步骤1和步骤2,直至合并任意两类后得到的Fisher精确检验的p值都小于0.1,或者该分类变量最终被合并为一类。

采用CACM和ACACM的有监督类合并方法的步骤为:1.设定最终类别的个数为k;2.对该分类变量关于因变量作出列联表,并计算此状态下的CACM或ACACM准则值;3.计算合并任意两个类别后对应列联表的准则值,将使得该准则取得最大值的两个类别合并为一类;4.重复步骤2和步骤3,直至所有类别被合并为k类,其中k的取值不宜过大,建议选取3或4。

信用评级建模中因变量通常是0-1型的分类变量,那么包含m个类别的分类自变量X关于该因变量的频数分布见表1。

表1 信用评级分类自变量的频数分布表

Fisher精确检验可基于超几何分布对2×2的列联表进行独立性检验,其原假设为行变量和列变量不相关。若对类别Ci和Cj关于因变量的列联表Fisher检验的结果不拒绝原假设,则表明类别Ci和Cj与因变量的两个类别不相关,此时可以将2×2的列联表中的两个类别Ci和Cj(i,j∈{1,2,…,m}且i≠j)合并。如此,每轮计算中可以合并的类别或许有多组,而秉持每轮仅合并一组的原则,会优先合并使得Fisher检验的p值(大于0.1)最大的两个类别,如操作步骤2所述。

根据表1计算CACM准则值的公式为:

(1)

然而,ACACM准则的计算是基于调整的频率分布表。首先由表1转换得到相应的频率分布表,然后将0类和1类的边际概率进行调整使其相等,详见表2所示。

表2 调整后的分类变量频率分布表

根据表2计算ACACM准则的公式为:

(2)

夏利宇等已证明ACACM准则中违约(或违约风险高的)样本所提供的信息比CACM准则中的多,且其主要是针对信用评级数据的天然不平衡性而进行的调整,故ACACM准则相对更适用于信用评级问题[16]。

四、数值模拟

通过数值模拟的方式,分析不同情形下3种类合并方法的效果,并使用3种类合并方法处理后的数据和未进行处理的数据建立逻辑回归模型,比较不同方法处理的数据在预测效果上的差异。

令模拟数据的自变量分别为x1,x2,x3,x4,x5,其中前4个自变量的联合分布为多元正态分布即(x1,x2,x3,x4)~N4((0,1,1.5,2.5),I),N4(·)表示多元正态分布,I为单位阵。x5为包含12个类别ci(i=1,2,…,12)的分类变量,由包含3个不同分布的混合分布ρ1d1+ρ2d2+ρ3d3生成,其中d1为服从参数为1.25的泊松分布的密度函数,d2为服从参数为(0.3,0.15,0.2,0.35)的多项分布的密度函数,d3为服从参数为0.65的几何分布的密度函数,ρ1,ρ2,ρ3为3个分布所占的比重。本文的主要目的并非比较不同的数据产生机制,故模拟时仅考虑ρ1,ρ2,ρ3只有一个系数为1的情形,即按上述设定生成样本量为1 000的数据,其中350个观测的(ρ1,ρ2,ρ3)=(1,0,0),350个观测的(ρ1,ρ2,ρ3)=(0,1,0),剩余300个观测的(ρ1,ρ2,ρ3)=(0,0,1)。由d2可生成包含4个不同类别的数据,而d1和d3的分布均可能生成大于4个类别的数据,此时只需将其中频数较大的前3个类别各自作为一类,剩余频数较小的类别作为一类。最后,根据式(3)生成因变量Y。

(3)

其中,T=β0+β1x1+β2x2+β3x3+β4x4+β5,2x5,2+β5,3x5,3+…+β5,12x5,12+ε,ε~N(0,1)。x5是分类变量,以第一个类别为基准添加的11个虚拟变量分别表示为(x5,2,x5,3,…,x5,12),对应的系数为β5=(β5,2,β5,3,…,β5,12)。由于对β5取值的不同设定可生成分类自变量的各类别与因变量相关程度不同的数据,因此下面设定β5不同类型的取值,分别代表不同的情形,而(β0,β1,β2,β3,β4)的取值均设定为(0.15,0.35,1,-2,-1)。

模型(1):β5=(0,0,0,2.5,2.5,2.5,2.5,-3,-3,-3,-3),来自相同分布类别的系数取值相同,其中系数相同的类别与因变量的相关强度相同;

模型(2):β5=(-0.5,0,-0.5,2.5,0,0,2.5,0,-3,0,-3),来自相同分布的类别中有一个或两个类别的系数为0,即其与因变量无关;

模型(3):β5=(5,0,-0.5,-2,0,0,2.5,0,3,0,-3),来自相同分布的类别系数取值不同,且有部分类别与因变量无关。

利用所提出的基于Fisher精确检验、CACM准则和ACACM准则的3种类合并方法对分类变量x5进行处理,3种情形下得到的类合并结果如表3所示。

3种不同情形下,基于CACM和ACACM准则得到的类合并结果是相同的,而基于Fisher精确检验得到的结果略有不同,但总体差异不大。在第一种情形下,3种方法均能将服从相同分布且系数相同的类别合并为一类。第二种情形中,类别c5和c8来自相同分布且对应的系数相同,被合并为一类是显然的;对于c10、c11和c12三个类别,虽然c11的系数为0,但它们来自相同的分布,此时也被合并为一类;剩余被合并为一类的其他类别对应的系数均较小,主要由于其与因变量的相关程度均不强。第三种情形中,类别c2的系数为5,相较于其他类别与因变量的相关程度最强,因此被单独划分为一类;类别c8和c10虽然来自于不同的分布,但二者与因变量的相关程度最为接近,且各自系数分别与其服从同分布类别的系数差别较大,此时类别c8和c10被划为一类亦是合理的。综上可知,不同情形下3种类合并方法能够较好地综合数据所服从的分布特点及其与因变量相关程度的不同对类别进行合并。

表3 不同情形下3种方法的类合并结果表

根据表3中的结果分别对分类变量x5的类别进行合并,然后随机抽取样本中的60%作为训练集,40%作为测试集,重复100次,使用类合并处理后的训练数据和不做任何处理的训练数据建立Logistic回归模型,并对处理后数据所建模型在测试集上的平均预测结果与未经处理的数据所建模型的结果进行比较,模型的预测效果主要通过指标AUC、正确率、召回率、精确率和F2得分进行衡量,其中阈值设定为0.5,结果如表4所示。

在3种不同的情形下,使用未对分类变量进行处理的数据直接建立回归模型得到的AUC、正确率、召回率、精确率和F2得分指标的平均值均相对最小,表明其预测效果最差。由此可知,使用3种方法对分类变量进行类合并不仅能够减少回归模型中的待估参数的个数,而且能够提升模型的预测效果。另外,对于前两种情形基于CACM和ACACM准则的类合并方法整体优于Fisher方法,而第3种情形下Fisher方法的模型预测效果整体优于CACM和ACACM方法,因此,在实际中可以根据不同的数据情况和应用目的,选择使用合适的类合并方法。

表4 模型预测结果表

五、实证分析

利用所提出的基于Fisher精确检验、CACM准则和ACACM准则的3种类合并方法处理某融资担保公司的小微企业信贷业务数据,比较用不同方法对多类别分类变量进行合并后得到数据的预测能力。根据3种方法得到的结果对分类变量的相应类别进行合并,然后分别对合并类别后的数据和未加处理的数据建立Logistic模型,并对预测结果进行对比分析。

该小微企业信贷业务数据的样本分为存在较低违约风险和存在高违约风险两类,总样本量为 2 049,其中违约风险低的样本量为1 868,风险高的样本量为181,显然存在数据不平衡。另外,数据包含15个连续变量和3个分类变量,其中分类变量“企业的行业类型”有14个类别,分别为A、C、E、F、G、H、I、K、L、M、O、P、Q和R。接下来对“企业的行业类型”这一分类变量进行类别合并,在使用CACM和ACACM方法时,将最终类别的个数设定为4,由3种类合并方法得到的合并结果如表5所示。

表5 类合并结果表

由表5中结果可知,基于Fisher精确检验得到的合并结果与CACM方法的比较接近,而ACACM方法得到的结果与其他两种的差异较大。另外,若将最终类别的个数设为3,由CACM方法得到的类合并结果与Fisher方法得到的结果一致,而ACACM方法得到的合并结果是(H,F,G)、(C,E,O,P,Q)和(A,K,M,I,L,R)。造成合并结果差异的主要原因在于当数据严重不平衡时,ACACM方法会较另两种方法更关注样本量少的风险客户。综上所述,在3种方法中(C,E,O)均被合并为一类,且总不与(H,F,G)是同一类,而(A,K,M,I,L,R)更容易被合并为一类。

针对上述信贷业务数据,使用表5中的结果对“企业的行业类型”这一分类变量分别进行相应类别合并,从而得到3组处理后的数据。然后,对3组数据和未进行处理的数据分别建立Logistic模型,从违约风险低和风险高的样本中随机抽取60%作为训练集,而剩余的40%作为测试集,重复100次。最后,因为数据的严重不平衡性,特将阈值设定为0.1(预测值大于等于0.1的被认为是存在高风险的客户),并将由各组数据的训练集所建立模型在相应测试集上100次的预测结果进行平均,得到各指标的均值和方差如表6所示。

使用3种类合并方法处理的数据建立模型的预测结果均优于未进行任何处理的结果,说明对于多类别的分类变量进行有效的类合并处理有利于提高模型的预测效果和增加模型的稳定性。另外,比较3种类合并方法相应的AUC和F2得分发现,使用ACACM方法的预测效果较优,而且其召回率和精确率最高,说明该方法对存在高风险的客户识别能力相对最强,而CACM方法的表现次优,Fisher方法的表现较差。但是,基于Fisher检验方法的正确率相对最高,说明该方法能够正确识别较多的低风险客户。

表6 模型预测结果表

六、结论

针对Logistic等回归模型中多类别分类数据可能出现的问题,本文结合数据离散化的核心思想提出了3种类合并方法并给出了相应的操作步骤,这3种方法分别基于Fisher精确检验、CACM准则和ACACM准则。分别采用模拟数据和实际数据对3种类合并的方法进行分析,研究表明3种方法能够较好地根据数据的分布特点和不同类别与因变量的相关程度对类别进行合并,而且使用类别合并处理后的数据建模既减少了模型中待估参数的个数,又能提高信用评级模型的分类效果,尤其是基于ACACM准则的类合并方法可以较好地识别具有高风险的贷款企业。

本文主要在信用评级的背景下提出有监督的类合并方法,其中因变量为0-1型的二分类变量,但是这3种方法极易推广至因变量为多分类的情形。此外,对类别进行合并的准则不限于本文所涉及的3种,亦可尝试使用其他准则。本文的类合并方法仅针对单一的分类自变量,未考虑自变量间的相关性,因此,同时处理多个分类变量的有监督类合并方法有待进一步深入研究。

猜你喜欢

因变量类别准则
调整有限因变量混合模型在药物经济学健康效用量表映射中的运用
IAASB针对较不复杂实体审计新准则文本公开征求意见
论陶瓷刻划花艺术类别与特征
一起去图书馆吧
内部审计增加组织价值——基于《中国内部审计准则》的修订分析
偏最小二乘回归方法
谈谈如何讲解多元复合函数的求导法则
精心设计课堂 走进学生胸膛
学学准则
新审计准则背景下审计教学面临的困境及出路