农村商业银行贷款违约影响因素研究
2015-02-10李易衡
摘要:在对农村商业银行贷款信用风险影响因素进行理论分析的基础上,通过收集某农村商业银行的实际贷款数据,运用随机森林算法和Logistic模型对贷款数据进行实证分析,得出影响农村商业银行贷款违约风险的若干因素,为该农村商业银行降低贷款违约风险,提供了借鉴依据。
关键词:农村商业银行 信用风险 Logistic模型
1 概述
在我国,信贷业务收入作为银行的主要收入,其贷款质量的高低,直接影响着银行业的盈利水平,而对贷款违约影响因素的分析能够有效辅助贷款质量的评估,帮助银行避免不必要的损失。由于我国银行体系的特殊性,农村商业银行与国有商业银行及其他股份制银行相比,自身基础比较薄弱,为了帮助农村商业银行更加有效管理贷款风险,从源头把该风险降到最低,本文在实地调研的基础上,利用所得数据,对农村商业银行贷款违约影响因素进行研究。
范英[1]和蔡冬林[2]研究表明,贷款风险的影响因素包括借款人因素、信用环境因素、历史因素和内部管理因素4大类。李正波[3]等以调研数据为依托,采用Logistic模型对我国农村信用社农户贷款信用风险进行了实证研究,结果显示:非种养业收入、自营支出、贷款期限、利率、信用社服务对农户的违约行为影响显著,农户年龄和教育程度对农户的违约行为影响也较大。余江[4]和陈东海等[5]的研究表明,借款人特征、担保方式、贷款利率和期限等贷款特征,社会信用环境和银行对信贷风险的控制能力等因素可以作为判断贷款人是否存在道德风险的指标。
农村商业银行的信贷风险管理问题研究相比于四大商业银行信贷风险管理问题研究还是非常薄弱的。本文以某农村商业银行为例,研究影响该农村商业银行贷款违约的因素,以期为农村商業银行的贷款质量管理提供有效帮助。
2 商业银行贷款违约影响因素分析
欧美等国家对于商业银行贷款违约风险的研究比较多,影响因素主要包括借款人性别、年龄、种族、贷款金额、贷款年限、贷款价值比、贷款期限等。在参考国内外学者对于该问题研究的基础上,本文又根据所选研究农商行的特殊性,选择了贷款利率,担保方式,还款方式等11个因素作为贷款违约的影响因素。
3 非参数随机森林法和Logistic回归模型
由于贷款违约分析的数据分布复杂,特征较多,并且噪声很大,同时自变量又分为连续属性和离散属性,用传统方法难以达到满意的评估效果。本文引入非参数随机森林法对原始自变量属性进行筛选,再用Logistic回归模型对该农村商业银行贷款违约因素进行系统建模与定性分析。
3.1 非参数随机森林算法 随机森林(Random Forest,RF)算法是由Leo Breriman于2001年提出的一种分类和预测算法。在本研究中采用的是投票的方式,具体公式如下。
H(x)=argmax h(x,θi)
随机森林的生成流程图如下图所示:
随机森林算法是一种可以运用在分类问题和回归问题中的学习方法,具有以下几个优点:①适用于数据量大噪声大的数据;②有效防止数据过度拟合的发生;③能够区分出分类中重要的特征。
3.2 Logistic回归模型 Logistic模型是一种概率统计模型,广泛应用于因变量为二分类变量的分析中。在其对贷款违约概率测算的运用中,贷款分为违约和不违约两种情况,服从logistic分布,因此,本文将影响贷款人违约概率的主要指标属性作为模型的自变量,通过建立logistic模型对贷款人发生财务困境的可能性即贷款违约的概率进行预测分析。对应的多元logistic回归模型形式为:
In( )=β0+β1X1+β2X2+…+βnXn+μn
其中,P 为贷款违约事件发生的概率,1-P 为不发生的概率,βn为待估计系数,Xn为属性变量,μn是随机误差项。
4 变量设计与模型实证
基于国外学者的研究和现有数据的收集,本文对贷款人特征维度和贷款特征为度下的属性变量进行分析。首先运用非参数随机森林法对数据进行筛选和分类,然后运用logistic回归模型对经过随机森林筛选出来的属性变量进行建模,分析各因素对该农村商业银行贷款违约风险的影响方向和程度。
4.1 样本数据与变量设计 本文使用的数据是某农村商业银行14年内的贷款数据,获得有效样本35866条,其中违约样本4265条,非违约样本31601条。本文研究所选的变量及量化方法用表1说明。其中,因变量为贷款是否违约,贷款违约赋值为1,贷款不违约赋值为0。
4.2 建模与实证分析 对于该农村商业银行贷款违约风险的实证分析,主要是通过对贷款人的自身特征和贷款特征等属性变量进行统计分析,寻找、衡量和评价影响违约风险的因素,分析各变量对违约风险的影响方向和影响程度。
首先,运用R语言对初始数据进行数据清理和整合,并建立随机森林模型参数设置以及构建完整随机森林模型,运行结果如表2所示。
由结果可以看出,非违约判定为违约的错误率为13.49%,违约判定为非违约的错误率为14.54%,总体错误率为13.92%,即正确率为86.08%,说明判定效果比较好。
模型的函数表达式可以表示为:
Z=-2.456+0.0015creditlength+0.309rate-1.049yn_
crating-1.861I3-1.324I5-0.728I6-2.159I9-1.393I10-0.797I12-
0.623I13-1.508I14-0.7I16-0.84I18-1.173I20
当Pi= >0.5时,这笔贷款很可能发生违约;反之,即为正常贷款。
实证分析结果表明,在结合前人研究和该农村商业银行实际情况所选择的13个分析变量中,对贷款违约影响显著的有4个变量,其具体的分析结果为:
①贷款期限的系数估计值为0.0015,说明贷款期限越长,该笔贷款违约发生的概率越大。②贷款利率的系数估计值为0.309,说明贷款利率越高,该笔贷款违约发生的概率越大。③有无信用评级的系数估计值为-1.049,说明有信用评级的客户比没有信用评级的客户违约率要低。④反映贷款分支机构影响因素的22个虚拟变量中有11个非常显著且系数估计值均为负值,说明这些分支机构的贷款相比于其它分支机构的贷款违约率要低。
5 结论
本文通过分析logistic模型可处理因变量为二分变量以及对自变量没要求等特点,针对找出影响某农村商业银行贷款违约率影响因素的问题,提出采用随机森林算法筛选特征变量然后用logistic模型分析特征变量对贷款违约率的影响方向。最后通过实例验证证明该算法和模型具有良好的分析效果,同时本文的研究对增强农村商业银行的风险管理能力和盈利能力有积极的帮助和意义。
参考文献:
[1]范英.商业银行信贷风险管理与识别[J].科技与管理,2000(4):66-70.
[2]蔡东林.农村信用社资产风险的管理措施[J].金融与经济,2001(12):47-48.
[3]李正波,高杰,崔卫杰.农村信用社农户贷款的信用风险评价研究[J].北京电子科技学院学报,2006(1):69-74.
[4]余江.借款人道德风险甄别与信贷合同安排[J].武汉金融,2007(9):45-47.
[5]陈东海,谢赤.关于信用风险管理模型的比较分析[J].社会学家,2005(2):75-76.
基金项目:天津市哲学社会科学规划资助项目(TJGL13-019)。
作者简介:
李易衡(1988-),女,河南商丘人,硕士,研究方向:贷款风险、资产转移定价。