上市商业银行信用评级的比较研究
——基于LassoCV方法与机器学习模型
2018-12-15黄家祥
黄家祥
一、问题的提出
作为现代经济的核心,金融是一把双刃剑,既可以有力地支撑着我国经济的转型发展,也可能因使用不当而引发金融风险。
习近平多次强调,防范化解金融风险,事关国家和人民财产安全,是实现高质量发展必须跨越的重大关口。商业银行信用风险是金融风险的重要部分,对商业银行信用风险进行科学合理的评级与预测具有重要的理论与现实意义。
商业银行信用评级是对其当前偿付其金融债务能力的综合评价,对金融监管、风险维护、机构合作、公众选择等都具有重要意义。商业银行信用评级比较权威的机构主要有穆迪、标准普尔、惠誉、中诚信国际、大公国际等,但这些机构的评级指标体系一般不对外披露。
围绕商业银行信用评级,学者们主要从构建商业银行信用评级指标体系和评级模型及方法两大方面展开。周春喜等(2004)[1]从经营环境、银行素质、盈利能力、风险状况四大方面构建商业银行信用评级指标体系,并运用模糊理论进行了综合评价。迟国泰等(2006)[2]则根据典型文献高频原则,从市场占有率、盈利性、流动性等角度构建指标体系。王犁(2009)[3]从经营水平、管理水平等方面构建指标体系并运用因子分析进行实证研究。朱琳(2012)[4]利用主成分分析优化选择指标体系,并提出改进的Logit模型与SVM组合模型,对180家上市公司进行了分类研究。齐菲(2012)[5]引入非线性映射原理,构建了商业银行信用评级指标体系,并利用改进的Spearman检验,建立了最优赋权方法的商业银行信用评价模型。贾曼莉(2015)[6]依据骆驼评级模型,尝试建立具有中国特色的、包括资产控制能力、风险确保度、全程陪同、SWOT分析以及附加项在内的5A商业银行评级理论。翟璐(2016)[7]提出了基于混合重抽样和Boosting算法的HSBoost新模型,对银行信用评级展开了研究。许友传(2017)[8]则研究了银行信用评级的信息内容和信息质量及其在次级债风险定价或事前约束中的反映情况,结果表明,信用评级在次级债风险定价中得到显著反映。
已有关于商业银行信用评级的研究所取得的成果,对本研究具有重要参考价值和启发。从指标体系看,虽然不同文献构建的指标体系迥异,但归根结底都是围绕宏微观环境、管理水平、资产质量、流动性、盈利能力等因素展开。从评级模型方法看,学者们主要采用了主成分、模糊理论、Spearman检验以及较复杂的算法,如Boosting算法和SVM算法等。
上述指标体系的研究开阔了研究思路,而研究方法在识别关键变量、确定指标权重上既存在优点,也伴随有不足。这些研究方法本质上大多是通过建立变量间多元线性回归模型,运用最小二乘法估计参系数,对数据依赖度很大,且所求解往往是局部最优解而非全局最优解。
基于此,本文采用LassoCV方法进行变量选择,确定关键评级指标,使用 -近邻、决策树、随机森林、支持向量机四种机器学习模型,对上市商业银行的信用进行评级和比较研究。
二、理论准备
(一)LassoCV方法
Lasso是一种利用压缩估计的思想,将参数估计与变量选择同时进行的一种正则化的方法[9]。Lasso参数估计被定义如下:
LassoCV的损失函数及损失函数的优化方法与Lasso相同,区别在于验证方法。LassoCV对超参数α使用交叉验证,寻找最合适的α。LassoCV是进行Lasso回归的首选,尤其是从高维特征中寻找主要特征时,LassoCV优势明显。
(二)机器学习模型
机器学习是指通过对训练数据的学习,提升机器的性能,从而能够从无序的数据中提取有用的信息,利用习得的规则对新数据进行预测和分析的过程[10-11]。分类算法是机器学习算法中最常用的算法,主要包括: -近邻、决策树、随机森林、支持向量机等。
如果某个样本的 个最近邻或最相似样本都属于某一类别,则该样本也属于这个类别。决策树的本质是生成一个可以从根(顶端)开始不断判断选择到叶子(判断结果)节点的树,决策树仅有单一输出。
随机森林是通过随机的方式建立一个森林,森林有很多的决策树组成,每棵决策树之间没有关联,当有一个新样本进入时,采用“投票”机制确定其所属类别,哪一类被选择最多,就预测这个样本为该类别。
支持向量机是通过寻求结构化风险最小来提高分类器的泛化能力,即预测未分类数据的能力,实现经验风险和置信范围的最小化,从而达到在样本量较少的情况下也可以获得良好分类效果的目的。对上市商业银行进行信用评级可以看成是一个机器学习的分类过程。
三、指标体系的构建与数据来源
对商业银行信用等级评定的代表性指标体系应属美联邦金融机构监管委员会(FFIEC)提出的“骆驼”评级体系。参照骆驼评级思路,结合中国实际情况,通过文献查阅以及对国内外权威评级机构公布报告中指标的甄选,本研究从资本充足性、资产质量、盈利能力、流动性、风险管理能力五大方面构建指标体系,具体包括资本充足率(x1)、每股收益(x2)、每股净资产(x3)、不良贷款率(x4)、拨备覆盖率(x5)、贷款拨备率(x6)、平均总资产回报率(x7)、净资产回报率(x8)、净息差(x9)、非利息收入占比(x10)、成本收入比(x11)、资产总额(x12)、存贷款比率(x13)、资产负债率(x14)、营业利润(x15)、净利润(x16)共16个子指标。
选取中国银行、中国工商银行、中国农业银行、中国建设银行、邮政储蓄银行、交通银行、光大银行、北京银行等共40家上市商业银行作为研究对象,数据均来源于各银行年报及其官网。研究分析工具为Python。
四、实证分析
首先运用LARS算法,对子变量进行LassoCV选择(表1),其次分别使用 -近邻、决策树、随机森林、支持向量机四种机器学习算法对样本进行训练学习和识别分类,其中训练样本占80%,测试样本占20%,结果见表2。
表1 LassoCV变量选择系数表
由表1可见,x1、x2、x3、x4、x5、x6、x7、x8、x9、x10的系数为0,说明这些因素因存在共线性被剔除了;而x11、x12、x13、x14、x15、x16这6个变量被LassoCV方法识别为特征变量,说明平均总资产回报率、非利息收入占比、资产总额、资产负债率、营业利润等因素在商业银行信用评级上起着关键性作用。
表2 机器学习分类结果及准确率
由表2可知,通过四种机器学习算法,实现了对上市商业银行的信用评级,其准确率均在92%以上,说明四种机器学习算法在对上市商业银行信用评级分类上是有效的,这不仅节省了人力资源提高了效率,而且可以根据所训练模型,实现对上市商业银行在未来一段时间内信用评级的预测。
五、结论建议
基于实证结果,可得到如下结论和建议:
第一、平均总资产回报率、非利息收入占比、资产总额、资产负债率、营业利润等因素在上市商业银行信用评级上起着关键性作用。建议上市商业银行重点关注并提高资产回报率,实现利润增长,增加非利息收入业务的投入以及平衡好资产负债率等。
第二、科技创新对银行业务的升级改造对信用评级的间接性影响显著。从特征变量看出,非利息收入占比对上市商业银行信用评级影响显著,说明银行凭借利息收入生存发展的时代已经悄然改变,而以投资收益为代表的非利息收入逐渐发挥愈发重要的作用。
因此,上市商业银行应坚持科技创新对银行传统业务的升级改造,促进科技创新与金融创新的耦合发展。