APP下载

信用风险定量指标选取的实证研究

2019-05-09岳爱东

关键词:样本客户指标

岳爱东

一、引言

我国信用体系的建设开始较晚,国内学者对微观客户信用风险的研究也相对较少。关于违约概率

模型的构建方法及具体技术方面的研究包括:梁世栋等对信用风险模型的相关数学描述做了总结,并对比分析了各种模型的优缺点[注]梁世栋:《信用风险模型比较分析》,《中国管理科学》2002年第10期。。姜天和韩立岩[注]姜天、韩立岩:《基于Logit模型的中国预亏上市公司财务困境预测》,《北京航空航天大学学报(社会科学版)》2004年第1期。、管七海和冯宗宪[注]管七海、冯宗宪:《我国制造业企业短期贷款信用违约判别研究》,《经济科学》2004年第5期。使用Logistic回归模型,使用是否违约客户数的多种配比,实际测算了具体财务指标系数。武剑就银行内部评级模型的构建方法、关键步骤及相关应用进行了介绍[注]武剑:《内部评级法中的违约损失率 (LGD) 模型——新资本协议核心技术研究》,《国际金融研究》2005年第2期。。郑大川等对银行内部评级体系中的指标选取的合理性做了相关的实证研究,提出了相应的改善建议,但无具体理论及操作方法[注]郑大川、王恒、黄震:《商业银行内部评级法的违约概率预测新方法——基于二值响应面板数据模型的研究》,《南方金融》2011年第2期。。随着《巴塞尔新资本协议》出台和大量不良客户的涌出,银行对客户的违约概率关注度不断加强,国内的一些研究开始转向使用银行贷款客户的微观数据建立模型。但是大部分研究使用的数据量较小,未对所用数据合理处理。如贾海涛通过对商业银行贷款企业构建Logit模型,结合贷款五级分类法实证分析后,计算出企业的违约概率[注]贾海涛:《我国商业银行信用违约概率的测度》,《统计与决策》2008第10期。,不足的是未对企业违约概率的准确性提出可行的测量方法。王颖等实证分析后得出我国商业银行应该结合自身特点,采用专家判断和信用评级模型相结合的方法计量企业信用风险的结论[注]王颖:《基于信用评分模型的我国商业银行客户违约概率研究》,《管理评论》2012年第2期。。综合现有信用风险评级的文献,众多学者对商业银行所建内部风险评级模型的研究,本文认为银行建立的企业风险控制模型,在数据理论基础、开发技术流程、测试管理方法上还有一定的改进空间。特别是关于信用风险模型中有关定量指标的选取问题,大部分研究并未交代如何缩小大量财务指标的选择范围,也未给出企业财务报表中的大量数据如何做出定量分析。

本文从非零售客户评级角度,基于商业银行行业实际数据,系统地研究了客户评级定量指标的筛选问题。对基于财务因素的定量指标,从偿债能力、现金流能力、营运能力、盈利能力、发展能力、资产及规模六个大类,构建出结构分析、增长变动分析、增长变动速度分析的200多个财务指标。通过对这些指标数据的统计分析,计算指标数据WOE值,使用基于证据权重的方法,筛选具有高风险识别能力、高稳定性的模型指标。全文如下阐述:定量指标数据处理理论、定量指标的Logistic回归模型,在第二部分中进行详细阐述。第三部分从分析企业违约因素到对定量指标的选取、样本的构成、WOE及IV值的计算过程做出详细说明。第四部分利用Logistic模型做出实证分析,并对模型效果进行检验,最终确定所选指标范围。最后是本文的结论及启示。

二、理论模型

(一)信息熵与WOE、IV值

随着信息熵的概念不断深化,其应用也越来越广泛。信息熵是源于香农建立的,对不确定性信息的定量度量理论。对于离散信息源而言,其可以表示为随机变量X的取值xi(i= 1,2,…,n)的概率。其中:

而在现实中,由于概率值pi事前不可预知,即具有不确定性。香农提出了使用定量度量函数对这种不确定性进行假设的方法。这种方法的前提是:首先,度量函数具有单调性,概率值pi相同时,该函数应当为最终结果n的单调增函数。其次,函数具有连续性且该函数应为离散概率pi的连续函数。最后,函数具有可加性,对独立事件的不确定性,为其独立值pi之和。满足上述要求的函数为:

其中k值通常为1,只受度量单位的影响。则离散信息源的熵定义为:

相对而言,如果随机变量是连续的X,密度函数为p(x),则信息熵可定义为:

即分布函数p(x)对数的数学期望:

H(X)=-E[lnp(x)]

综上所述,对于发生概率为p的某事件而言,其信息熵H(p)可表示为:

H(p)=-[plnp+(1-p)ln(1-p)]

由上式可以看出p=1/2时,该式取得最大值,表明信息量最大。反之,若p=1或p=0,则表明所讨论事件必然发生,或者是对立事件必然发生。这种情况下信息量为零。

上式求取期望后,借贷客户评分S下发生违约事件的熵值,可用下式表示:

从上式可以看出信息IV值恒为正,且没有上限。IV值衡量的是两类客户间分布的差异。

应用以上理论选择指标,通过提取客户资料信息先计算出IV值,再根据IV值选取指标。将以上理论应用到客户评级的建模过程中,首先需要找出每个财务指标的划分区间。每个区间对应于评级体系中的某个级别。假设一个财务指标为:Z=(z1,…,zn)T代表n个客户的指标值。而Yi=0∪1,i=1,…,n代表第i个客户的违约情况。将Z按照升序排列,记为Z′=(z1,…,zn)T。假设要将Z划分为N个区间,那么就需要N-1个分界点z(j),j=1,…,N-1并且按照以下公式:

(1)

计算WOE值的单调序列。设G(i),B(i)分别表示第i个区间非违约和违约客户个数,G,B表示总体的非违约和违约客户个数。统计上看WOE的本质为正常客户分布与不良客户分布的对数似然比。WOE值增加则意味着客户违约风险降低,当WOE(i)>0(WOE(i)<0)表示在这个区间内的非违约客户比例大于(小于)违约客户比例,则根据WOE的值可以得到IV值。如果计算出的WOE值无法形成单调序列,则弃用此指标。

(2)

每个WOE值的分隔区间都对应着一个客户风险等级,WOE序列如果具有严格单调性,也就是随着等级的增加,对应的风险相应地减少。或者相反则风险增加。则可以将WOE值的线性间隔区间拟合为线性回归方程。

WOEi=α0+α×i+ε,i=1,2,…,N

上式的回归方程可以通过拟合优度R2衡量其拟合度,如下式

(二)Logistic回归模型

Logistic回归模型常用于被解释变量是“0,1”二分变量的情况。实际中我们可以观测到的是客户的违约情况yi,它表示客户违约或未违约两种情况。但客户的违约概率PD是不可观测的。OLS模型无法解决yi这类数据的回归问题。Logistic回归更适用于这类问题,并可估算出违约概率PD值。统计研究表明,对于非正态分布的数据,Logistic回归具有更高的模型精度。对于银行来说,因为企业报送的财务数据无法服从正态分布。所以选择Logistic模型测算客户违约概率更为合适。假设被解释变量Y=1表示客户违约,Y=0表示客户未违约。解释变量为X=(x1,x2,…,xm)′。对于p=P(Y=1|X),Logistic回归模型:

(3)

三、信用风险定量指标分析

(一)指标分类

财务因素是商业银行对企业信用评级重点考量依据,是确定定量分析模型的基础。因企业财务报表中所含财务指标较多。一般来说,银行根据借款企业提供的财务报表将财务因素分为:偿债能力、现金流能力、发展能力、营运能力、盈利能力、资产及规模六个大类。基于银行风险控制的视角,对这六类指标注释如下。

1.企业偿债能力是银行最为关注的指标,企业财务健康状况和生产经营能力是企业偿债能力的重要保障。一般认为,指标主要包括资产负债率、产权比率、已获利息倍数、有形资产净值债务率、长期债务等。

2.现金流能力是指企业偿还短期借债的能力,反映企业现金流状况的主要指标是流动比率和速动比率等。

3.营运能力是指企业调配自身生产要素获取利润的能力,反映企业营运能力的指标有营业周期、总资产周转率、流动资产周转率和应收账款周转率等。

4.盈利能力是指企业赚取利润的能力,对此指标的衡量会限定于一个周期内。代表性的指标有销售利率、资产利率和资产收益率等。

5.企业发展能力是指其发展潜力。这种能力不仅与企业自身建设有关,还与经济周期和宏观经济环境密切相关。主要指标包括营业收入增长率、资本增值率、资本累积率等。

6.资产规模是指企业拥有或控制的现有总资产额或固定资产额。企业规模与企业发展能力密切相关,企业发展过程中适当控制企业规模有利于企业更好控制风险。代表性指标有职工资产比等。

梳理现有数据后共建立了144个财务指标[注]因文章篇幅所限,未列出全部指标,如有需要可向作者索取。。这些筛选出来的指标信息全面涵盖了企业的财务因素,依据这些指标建立了样本模型。其中,正常样本是指从客户与银行发生业务往来开始,从未发生违约[注]违约界定:1998年5月,中国人民银行参照国际惯例,结合中国国情,制定了《贷款分类指导原则》,要求商业银行依据借款人的实际还款能力进行贷款质量的五级分类,即按风险程度将贷款划分为五类:正常、关注、次级、可疑、损失,后三种为不良贷款。符合后三种情况即视为违约客户。的客户所形成的样本,将其定义为正常样本。相对而言,违约样本[注]根据新资本管理办法的要求,用于估计非零售风险暴露债务人违约概率的数据观察周期不得低于5年;用于估计非零售风险暴露违约损失率的数据观察期不得低于7年。,是指客户自与银行发生业务往来开始,发生过违约的情况就视为违约客户。违约客户形成的样本定义为违约样本。

(二)样本处理

表1正常客户样本各期次分布

表2违约客户样本各期次分布

违约样本根据前面正常样本数据的处理流程,有20个指标被删除,剩余124个指标。当前违约样本存在少部分指标数据缺失的问题。从样本和指标两个维度统计,针对缺失数据,采用指标年平均值填补,计算平均值时剔除空值;对于仍存在缺失值的,采用所有样本的均值补充。

样本抽样问题,按好坏客户数比率20∶1进行分层抽样。违约样本则从51个样本中随机抽取40个。剩余的11个加2014年的违约客户作为验证样本。正常客户是从5613个样本中随机抽取800个作为建模样本,剩余的样本中抽取280个作为验证样本。

(三)初步筛选指标并计算WOE值

对指标WOE值的计算,首先根据指标值分段,找到最优的分段方式。为保证指标计算的准确性,将每个指标按值域区间划分。其中,指标划分小区间分段数一般在[60,110]之间,大区间分段数则一般在[5,10]之间。并且每个区间内样本量最大占比不能超过35%,以防止产生过度拟合问题。选择区间划分点时,若WOE区间值为单调增,则所选指标越大越好。若WOE区间值单调减,则所选指标越小越好。最后根据公式(1)及公式(2)计算每个指标在不同分段方式下的WOE值和IV值,并选出每个指标在不同分段方式下IV值中最大的一个以及对应的分段方式。对于分段区间的个数,惯用原则是根据信用评级的实际情况,控制分段区间个数在[5,14]之间。在以上条件下,经过IV值计算后最终在124个指标中筛选出了72个指标。根据指标分段方式将这72个指标数据替换为相应的WOE值,将在接下来的Logistic回归中使用。

四、基于Logistic模型的信用风险定量指标选取

(一)Logistic回归模型指标筛选

表3覆盖大类指标模型对比

续表3

解释变量被解释变量:是否违约(1)(2)(3)(4)(5)净资产对固定资产比率增长率1.250(1.73)资产累计收益比率1.678(3.22)应收账款周转月数1.082(3.63)营业利润增长率2.795(1.67)利息保障倍数0.910(2.65)固定支出偿付倍数0.853(2.17)常数项3.058(13.52)3.023(13.92)3.058(13.66)3.050(13.26)3.015(13.78)控制变量是是是是是观测值840840840 840840

注:(1)系数为均值处的边际效应;(2)所有数值均为原始数据经过IV处理后的WOE值;(3)括号内为异方差稳健标准误;(4)显著性: *表示10%,**表示5%,***表示1%。

由表3可以看出5个模型所选出的指标总体来说均比较显著,基本符合《巴塞尔新资本协议》关于内部评级法所规定的显著水平。这5个模型均覆盖了六个大类指标,其中,流动比率、净资产对固定资产比率增长率以及营业利润增长率在部分模型中并不显著。流动比率高,一般表明企业偿债能力较强。然而有的企业虽然流动比率较高,但账面上却没有多少真正能够迅速用来偿债的现金和存款,其流动资产中大部分是变现速度较慢的存货、应收账款、待摊费用等,这可能是造成此指标并不显著的主要原因之一。净资产对固定资产比率增长率较高,代表了企业具有较强的生存能力。在净资产收益率和增长率均有较高预期时,表示企业未来发展后劲较大。所以仅靠分析净资产对固定资产比率增长率,可能并不能完全反映出企业未来的发展能力。营业利润的变动可反映出影响企业营业利润增长率的因素,一般情况下包含两个层面:一是产品销量、产品售价、产品成本等;二是费用控制、营销费用的管理能力。直观来看,营业利润增长率反映的是企业的盈利能力,但这种能力除去上面的两大因素外,也有可能由于企业扩张或连锁发展,导致营业利润的降低,造成营业增长率的浮动对企业是否可能违约的贡献并不显著。

表3中5个模型所选指标原则上都覆盖了六个大类指标,所以存在某一个指标不显著的问题。此外,也可以忽略指标所属大类,只选择显著的财务指标构成解释变量。由此也可以构建另外5个模型,模型同样使用Logistic回归、WOE和IV方法筛选,最终确定指标模型。结果如表4所示。

表4覆盖大类指标模型对比

续表4

注:(1)系数为均值处的边际效应;(2)所有数值均为原始数据经过IV处理后的WOE值;(3)括号内为异方差稳健标准误;(4)显著性: *表示10%,**表示5%,***表示1%。

表4中看出,5个模型的解释变量几乎上全部显著。此外,可以看到在表3中不显著的指标,由于在这些模型中改变了指标的组合方式,从而变得显著。流动资产比率、营运资本周转率、资产回报率、营运资本、流动负债比率是相比表3中5个模型新出现的指标。其中,流动资产比率、营运资本周转率、流动负债比率3个指标,取自企业偿债能力大类指标,主要体现企业偿还短期债务的能力。那些资产流动性强、债务周期短、流动比越大的企业,短期债偿还能力越强。营运资本是由企业一定时期内持有的现金、应收和应付账款及各类存货资产构成。资本回报率是企业资产营运所获收益,指标越高越好。增加这三类指标后,可以看到表4中5个模型的解释变量均比较显著。但是两种方式所选出的指标组合在测试样本中的表现却有差异,需要对模型验证后才能做出选择。

(二)模型验证

通过对表3和表4的十个备选模型通过模型内样本数据和模型外样本数据,分别测试分析模型功效,最终确定相对最优的模型。模型筛选通过ROC曲线[注]ROC曲线是对分类器表现的一个二维描述,通常的计算方法是计算ROC曲线下方的区域面积,这个下方区域表示为AUC值,通过对AUC的计算可以区分分类器的效果。通常情况下AUC的值应该大于0.5。、CAP曲线[注]CAP是通过计算CAP曲线描述在不同的风险评分范围百分比下的累计违约事件概率分布,是衡量模型优劣的直观量化评级方法。通常情况下POWER值越大,模型效果越好。以及KS曲线[注]KS检验是检验总体分布是否属于某一分布族的问题,可称为分布族检验,属于非参数检验的一种。分析AUC值、POWER值和KS值来检验所有模型,并且每一个模型都统计出了其相关的三种曲线[注]由于文章篇幅所限,读者如有兴趣可向作者索取。。

表5模型内数据模型功效验证

表5所示为建模内数据模型验证值,可以看出所有模型在使用建模内数据验证时,三种判断值都比较高。其中,AUC值最低为0.879,大于0.5的阈值。而且模型功效都达到75%以上。由于这些数据是建模时使用的数据,所以用这些数据只能作为模型结果的反向验证。可以检验模型的对错,但是不能作为检验模型精度的依据。使用建模外样本以及预留的2014年的数据作为验证样本时,求取模型的AUC值、POWER值和KS值后,所得分析结果如表6所示。

表6模型外数据模型功效验证

由表6中可以看出所有模型的AUC值都在0.5之上,所以可以判断所有模型的设定基本正确。但是模型三和模型八的AUC值均约等于0.5,所以可以首先排除这两个模型。第二列中代表模型功效的POWER值可以看出模型一、模型二、模型七的值较高,且这三个模型的ROC曲线的覆盖区间值也都达到70%以上。最后一列中可以看到模型二的KS曲线代表的模型判别密度值大于50%。所以,综合分析以上三个指标值后,将模型二中的财务指标作为筛选出的最终指标。

五、结论及启示

结合本文的实证分析及验证,我们得到的主要结论如下:首先,使用Logistic回归法构建模型,并确定了模型中六个财务指标:(1)资产类指标包括流动比率和营运资金与资产比率。(2)现金类指标选取了平均经营活动净流量与负债比率。(3)营运类指标是营业周期。(4)盈利类指标是净利润与FFO比率。(5)发展类指标是总资产报酬增长率。(6)资产及规模类选取了借款总额为最终指标。其次,以上财务指标在实际运用中取得了比较好的效果,模型稳定性得到验证。这说明我们的信息熵理论、WOE及IV值的数据处理方法是合理的。它们可以筛选出那些有财务问题的企业,从而为银行降低不良贷款率,提供了判断依据。再次,随着宏观经济周期的不确定性越来越大,基于以上历史数据建立的定量模型也需不断调整。另外,不同地区的经济环境差异性较大,对行业造成的影响也有不同;所以关注定量指标的同时,也应该对宏观形势加以分析,这样才能更好地发挥定量模型的效果。

基于内部评级法的研究并结合我国的实际,我们提出以下几方面的政策建议:(1)我国商业银行应从自身特点出发,根据定量模型筛选出符合自身实际情况的定量指标,以提高信贷风险控制能力和规范化水平。(2)实施内部评级的商业银行更应该注意积累数据,为建立高级信用风险模型做好过渡准备。(3)应该鼓励和发展外部评级机构,为我国的信用风险体系建设贡献力量。(4)发展及完善我国资本市场,提高银行资本调节能力。(5)加强监管,督促商业银行制定合理的信用风险评级体系。

猜你喜欢

样本客户指标
用样本估计总体复习点拨
最新引用指标
莫让指标改变初衷
推动医改的“直销样本”
为什么你总是被客户拒绝?
如何有效跟进客户?
随机微分方程的样本Lyapunov二次型估计
做个不打扰客户的保镖
村企共赢的样本
Double图的Kirchhoff指标