基于Logistic回归模型的个人小额贷款信用风险评估及应用

2017-02-16罗方科陈晓红

财经理论与实践 2017年1期

罗方科+++陈晓红

摘要：根据光大银行某分行的实际样本数据，构建二分类Logistics信用风险评估模型，对互联网金融个人小额贷款信用风险评估问题进行实证研究。实证表明：年龄、性别、收入、职业、学历、是否持有信用卡、存贷比以及客户所属地对个人小额贷款信用风险影响非常显著；其中年龄越大、收入越稳定、学历越高、持有信用卡、存贷比越低的客户其信用等级越高；女性信用风险显著低于男性；一、二线城市客户的履约率普遍高于县地级市客户的履约率，商业银行应有针对性地对其进行有效规避和分散。

关键词：Logistic模型；互联网金融；小额贷款；信用风险；

一、引言

20世纪末以来，随着以互联网、大数据为代表的信息技术快速发展，金融与互联网从逐渐融合到全面渗透，“互联网金融”概念应运而生。互联网金融凭借成本低廉、高效便捷、受众广泛的特征使其在满足客户个性化需求、服务长尾客群方面具有先天性优势，因此传统商业银行可以通过發展互联网金融模式，加快个人信贷领域产品和服务创新，达到业务处理的便捷性，提升客户体验，增加客户黏性，拓展普惠金融服务范围。传统的小额贷款主要面向中低收入个人客户、中小企业主等群体，涉及面广、个性化需求强烈，由于缺乏统一的规范化管理，风险管理难度较大，这也是商业银行小额贷款业务发展缓慢的一个主要原因，但随着“互联网+金融”模式的兴起，大数据、云计算、社交网络、搜索引擎等互联网技术不断突破与运用，商业银行大力发展个人小额贷款业务已成为可能，但同时也应看到随之而来的欺诈风险、准入风险等，商业银行信用风险管理所考量的因素不断细化。所以，传统商业银行如何运用互联网金融的优势来创新发展个人小额信贷业务、抢占个人信贷业务市场、高效的解决信息不对称的问题，有效的管理风险将会成为传统商业银行未来不得不考虑的问题。

信贷的核心是风险管理，而对于个人小额贷款业务而言，风险管理的核心是客户信用管理，包括客户准入管理、存量客户管理及逾期客户管理。所以如何识别不同时期的客户的信用风险并进行有效控制将成为商业银行发展小额贷款业务的重中之重。本文将利用光大银行长沙分行收集的实际样本数据进行分析，以二分类Logistic回归为计量工具，通过对商业银行的个人信用贷款数据进行分析，来识别影响个人小额贷款信用风险的主要因素，旨在对商业银行在开展个人小额信贷业务中的风险管理提供一种思路或方法。

二、文献综述

在对贷款风险管理的研究中，定量分析方法越来越受到学者和实践操作者们的青睐。定量分析法不仅可以优化贷款决策，将被动的风险管理模式转为积极主动的防范和控制风险，还能尽可能的减少拖欠的账款，降低收回账款的成本；同时还可以提高贷款决策效率，节约人力成本，实现贷款决策过程的客观性、信息化和科学化。从目前的研究来看，贷款风险研究的定量模型主要有判别分析法（Altman E，1968[1]）、主成分分析法（Weat Robert Craig， 1985[2]）、Z-score和ZETA模型（Altman，1968，2000），Logistic回归，贝叶斯决策模型（Daniel E，1992[3]），上世纪末以来，人工智能技术的快速发展使得银行运用该技术进行信用风险评估和贷款决策已成为可能。上述定量分析方法虽然均能在不同程度上对贷款风险进行研究，但各有侧重和短板，比如Z-score和ZETA模型只适用于对上市公司进行研究，贝叶斯网络模型则主要是偏重于操作风险。

大量研究证明Logistic是被广泛运用于个人信用风险评估的较为成熟的模型。Altman 、 Sabato（2007）[4]等人通过长期研究发现，使用logistic 模型衡量中小企业信用风险可以取得最佳效果，且该模型限制件较少，操作便利，且具有较高的预测性。该模型的主要优势是：一是因变量取值可以是违约概率与履约概率发生比的任何自然对数，对自变量没有任何限制；二是对数据是否满足协方差相同和正态分布的假设没有作限制性要求，适用范围广；三是因变量是一个二分类变量，只能取0或1的数值，可以直观的说明某个事件是否发生以及发生的概率是多少。我国学者在研究贷款信用风险的时候也多采用Logistic回归模型。姜秀华等（2002）[5]在采用13个变量进行logistic回归分析的基础上构建了财务危机预警模型。于立勇（2004）[6][7]首先运用正向逐步选择法选择信用风险评估指标变量，然后在Logistic回归模型的基础上构建违约概率测算模型。梁琪（2005）[8]将主成分分析法结合到Logistic模型中进行分析研究，构建了上市公司经营失败预警模型，并提出引入主成分分析法的logistic模型在预测准确度对和风险度量稳定性方面都优于简单的logistic模型。油永华（2006）[9]运用Logistic回归模型对100家上市企业的信用风险进行了定性的评价。石晓军（2006）[10]运用贝叶斯法对边界Logistic违约率模型的预测效果进行了分析。葛君（2010）[11]运用Logistic回归模型对信用卡信用风险进行了研究。罗晓光（2011）[12]将 Logistic 回归法引入商业银行财务风险预警模型，从资本充足性风险、信用风险、盈利能力风险、流动性风险和发展能力风险五个方面建立了适合商业银行的财务风险预警模型。史小康（2015）[13]将非对称连接函数的思想引入到信用评级中，将有偏Logistic分布的分布函数作为连接函数的反函数，利用实际数据来估计偏度参数和回归系数对个人信用进行了研究。

然而随着互联网金融的兴起，大数据时代的到来，商业银行所能获取的数据也越来越方便、快捷，数据也会越来越复杂多样，变量之间的关系也会变得纷繁复杂。以往研究专门针对个人小额贷款的研究较少，在建模方面，对离散数据进行建模尤为更少。本文在现有Logistic回归模型侧重财务指标的基础上，以非财务指标为重点来识别和评估商业银行个人小额贷款的信用风险，旨在为传统商业银行进军互联网金融领域提供一种新思路或者新方法，对风险因素进行量化。

三、Logistic模型简介及变量选取

3.1 模型简介

所以由（4）式可知，的经济意义表示在控制其他变量水平的情形下，变化，则对数优势比率变化或优势比率变化，特别的，当为等级变量或哑变量时，每增加一个等级或变化一种类型，对应的两个样本之间的对数优势比率变化或优势比（OR）率增加，由此也可知当大于0时（此时OR>1），每增加一个等级导致个人的违约概率就降低，反正增加。

3.2变量选取

Schreiner（1999）对发展中国家的小额贷款进行研究表明，可以根据潜在借款人与历史不良借款人的特性对违约风险进行评估，其中性别、职业、违约记录、借款人与信贷员从业经验以及借贷机构性质等对贷款违约风险产生显著影响。此外诸如季节因素、政策变化和市场变化等外部环境变量也会对违约风险产生一定的影响。Olomola（2000）通过研究指出，借款人与贷款人特征以及贷款特征对判断贷款是否违约有着决定性的影响。借款人特征有：教育背景、借贷情况、存款情况、贷款类型及其贷款经历，而贷款特征包含贷款规模、期限、用途，贷款人特征有信贷员拜访次数，申请与批准之间的时间长度。Schreiner（2004）的研究对发展中国家的小额贷款信用风险构建非常详细的评估指标体系，具体如下图所示。

在国内，有部分学者从对小额贷款的信用评估指标体系进行了研究和构建，但这些研究基本都是从理论展开论述的。孟建华（2002）对国内和国外的小额贷款差异进行了比较细致的研究，研究指出，贷款担保和法律约束是影响我国小额贷款风险评估的最大影响因素。任娜（2011）在对小额贷款公司的贷款客户类别进行区分的条件下，在Z 值模型中引入非财务因素的，设置二级指标进行信用风险评估。但是该研究最终未能结合实际样本数据作进一步分析，对多涉及指标的合理性与科学性没能进行实证检验。此外，国内学者关于小额贷款信用风险评估的相关研究大部分都是以农村信用社的小额贷款数据为样本进行的。

所以结合已有的研究成果和样本数据的可获得性，本文选取性别、年龄、职业、学历、城市发展程度、信用卡持有情况、电子渠道开通情况、存贷比和年收入等9个指标作为解释变量，对个人小额贷款信用风险进行评估。

四、数据来源及实证

（一）数据样本选取

逾期未还本付息，即客户违约的预判，是商业银行小额信用贷款风险把控的关键。直接导致银行呆账、坏账的产生，甚至带来流动性风险。本文样本数据来源于中国光大银行长沙分行的个人信用贷款数据，从该行2014-2016年办理信用贷款的客户中随机抽选530个样本数据，并从中筛选出100万以下的小额信用贷款客户，获取性别、年龄、职业、学历、城市发展程度、信用卡持有情况、电子渠道开通情况、存贷比和年收入等基本信息。本文将这9方面的数据转换为14个虚拟变量。

客户准入的标准是其正常履约能力水平，客户是否能正常履约是模型的判断依据。通过对客户履约能力的预判，授信银行对预计能正常还款的客户提供金融产品和服务，拒绝还款存在不确定性的客户的授信申请。在本文中，我们将违约客户定义为一年内发生三次（含）以上欠息或垫款的客户，履约客户为一年内未发生或发生三次以下欠息或垫款的客户。通过数据整理，530个样本数据中履约客户和违约客户客户数分别是410和120，并选取指標体系如表 1所示。

（二）样本虚拟变量处理

由于我们选取的解释变量和被解释变量都属于离散变量，所以在进行建模回归之前，我们需要将其变成虚拟变量，如表2所示，其中1表示“是”，0表示“否”。例如：性别（sex），sex=1，表示为男性，sex=0表示不是男性（即为女性）。由于为了避免多重共线性，在建立虚拟变量之前，虚拟变量的个数要比分类变量的个数小1。例如：学历有三个分类，但只能建立2个虚拟变量，当edu1=0和edu2=0都等于0时表示高中、中专以下学历，这样就可以避免多重共线性问题。在建立模型前，我们将数据进行虚拟变换，以符合模型的回归分析要求，将指标逐一转换为虚拟变量如表2所示。

（三）样本数据的格兰杰因果检验

对上述所构建的虚拟变量和履约率做格兰杰因果分析，根据相关统计指标反复检验比较之后，我们选取的滞后阶数为2，其检验结果最好，检验结果如表3所示。

根据上表检验结果我们发现，如果在5%的显著性水平下，只有Cit2、Loa2两个指标大于 0.05，否定原假设；但是在10%的显著性水平下，除了Int，其他全部变量的检验p值都显著小于0.10，在剔除掉电子渠道开通情况后，其余变量在一定程度上都对履约率产生影响，因此，我们剔除电子渠道开通情况，将其余变量都选入到模型中。

（四）模型的计算

从表4我们可以看出，模型似然比为84.89，两个伪决系数分别为83.1%和76.4%，即解释变量可以解释被解释变量的程度，都在75%以上，说明模型解释效果较好。另一方面，解释变量的系数在10%显著水平下，都是显著的。此外从模型的预测精度来看，如表5所示，模型对410个履约样本的预测准确率为84.88%，对120个违约样本的预测准确率为88.33%，整体准确率为85.66%。特别的性别、信用卡持有情况、学历、存贷比、收入、年龄等变量系数为正值代表着客户履约率会提高，为负值则代表客户违约率会升高。其影响程度可以通过OR来进行分析。从表4的回归系数，我们可以得出以下结论：

1、从各因素影响大小方面来看，年龄、收入、职业水平以及学历对违约率的影响较大，应纳入贷款考察的重点。通过模型可以看出，年龄越大的客户，其违约率就越低，从年龄的OR值来看，年龄在31岁-45岁阶段的履约概率与年龄在30岁以下的履约概率的优势比为71.47，而年龄在45以上岁阶段的履约概率与年龄在30岁以下的履约概率的优势比为1360.354。其原因可能是由于其信用观念的不断加强以及自身能力的提高，收入也会随之增加，道德约束感增强，所以更不容易违约，这样已有的研究文献结论相一致。在职业方面，国有企业、股份制企业的员工与私营个体户的OR值为26倍多，他们不仅受公司内部的规章制度约束，同时也受社会责任的道德约束，其违约率较低。同样在学历方面，高学历的客户违约率较低，主要是因为教育水平高、信用观念、法律意识较强，以及工作家庭较稳定、收入可观、自有资金充足，特别的，当学历是在硕士以上时，其违约的风向大大降低。

2、从银行存量客户方面来看，LOA1估计系数明显高于LOA2，说明存贷比越低，其履约的概率越大。原因可能是客户的资金大多用于储蓄存款、银行理财等稳定性收益产品，属于相对保守型投资，他们认为按期还款是理所当然的事情；而持有信用卡的客户相对于未持有信用卡的客户履约率较高，原因可能是客户在长期的信用卡使用过程中已经形成了到期还本付息的消费习惯，所以对于自己的资金使用有着合理而清晰的计划，每月会有足额的资金用作还款，很少发生逾期。

3、从性别方面来看，女性的履约率高于男性，原因可能是男性客户的资金更多用于创业、大额投资等用途，受经济环境、行业、经营等因素影响，发生资金链断裂，无法按期还款甚至导致不良贷款的几率较大。

4、从地域方面来看，县级市、地级市的客户违约概率较大。原因主要有两点，一是一、二线城市市民受教育程度更高、信用观念更强、工作与收入也更加稳定；二是县级、地级城市客户资金用途一般用于农业、工业投资，受地域、市场、自然等因素影响较大，投资风险较大。

五、结论

本文在现有的研究基础上，利用光大银行长沙分行采集的实际样本数据，通过格兰杰因果检验和构建Logistic回归模型，对个人小额贷款的信用风险进行了实证分析，本文所构建评估模型对离散数据和分类数据有着特有的优势。文章主要结论如下：

第一，从格兰杰因果关系检验来看，在置信水平10%条件下，本文根据以往研究的文献和相关理论选取的9个指标变量中，只有电子渠道开通情况与是否违约不存在格兰杰因果关系外，其他的8个变量都显著相关，模型结果较好，解释程度达75%以上。

第二，从风险因素的影响显著程度来看，年龄、收入、职业水平以及学历对违约率的影响较大，应纳入贷款考察的重点。年龄是特别显著影响个人小额贷款的信用指标，年龄越大的客户，其违约率就越低，特别的，年龄在45以上岁阶段的履约概率与年龄在30岁以下的履约概率的优势比为1360.354倍。国有企业、股份制企业的员工与私营个体户的OR值为26倍多，其违约率较低。学历方面，高学历的客户违约率较低，特别的，当学历是在硕士以上时，其违约的风向大大降低。存贷比越低，持有信用卡的客户，其履约的概率越大。个人的信用风险在对不同的性别也有着显著差异，女性的优势比男性的1.76倍。此外县级市、地级市的客户违约概率较大。

因此，基于本文的研究，在互联网金融时代，为了提高个人小额贷款信用风险管理水平，我们建议：在金融系统越发复杂，需要综合考虑更多更细的风险因素，要结合定性和定量的方法对信用风险进行评估，构建适合我国商业银行实际情况且易于操作的风险评估指标体系，定量化分析与评估信用风险。在具体操作方面，我们建议：在筛选个人小额贷款客户时，应充分考虑其特有的基本背景信息指标，在其他条件相同的情况下，选取年龄越大、女性、收入越稳定、学历越高、持有信用卡、存贷比越低、来自于一、二线城市的客户；商业银行应有针对性地对其进行有效规避和分散。

六、参考文献

[1] Altman E.Financial ratios， discriminant analysis and the prediction of corporate bankruptcy.J.Finanec. 1968，589-609.

[2] West R C. A factor-analytic approach to bank condition[J]. Journal of Banking & Finance， 1985， 9（2）： 253-266.

[3] Pugh W N， Page D E， Jahera J S. Antitakeover charter amendments： Effects on corporate decisions[J]. Journal of Financial Research， 1992， 15（1）： 57-67.

[4] Altman E I， Sabato G. Modelling credit risk for SMEs： Evidence from the US market[J]. Abacus， 2007， 43（3）： 332-357.

[5] 姜秀華，任强，孙铮. 上市公司财务危机预警模型研究[J]. 预测，2002，03：56-61.

[6] 于立勇，詹捷辉. 基于Logistic回归分析的违约概率预测研究[J]. 财经研究，2004，09：15-23.

[7] 于立勇，詹捷辉，金建国. 内部评级法中违约概率与违约损失率的测算研究[J]. 统计研究，2004，12：22-26.

[8] 梁琪. 企业经营管理预警：主成分分析在logistic回归方法中的应用[J]. 管理工程学报，2005，01：100-103.

[9] 油永华. 企业信用状况的定性评价——基于logistic回归模型的分析[J]. 统计与信息论坛，2006，06：85-88.

[10] 石晓军，任若恩，肖远文. 边界Logistic违约率模型Bayes分析及实证研究[J]. 中国管理科学，2006，04：25-29.

[11] 葛君. 基于Logistic模型的信用卡信用风险研究[J]. 中国信用卡，2010，24：26-32.

[12] 罗晓光，刘飞虎. 基于Logistic回归法的商业银行财务风险预警模型研究[J]. 金融发展研究，2011，11：55-59.

[13] 史小康，何晓群. 有偏logistic回归模型及其在个人信用评级中的应用研究[J]. 数理统计与管理，2015，06：1048-1056.

[14] Viganò L. A CREDIT SCORING MODEL FOR DEVELOPMENT BANKS： AN AFRICAN CASE STUDY/UN MODELE DE" CREDIT SCORING" POUR LES BANQUES DE DEVELOPPEMENT： UNE ETUDE DE CAS AFRICAIN[J]. Savings and development， 1993： 441-482.

[15] Van Gool J， Verbeke W， Sercu P， et al. Credit scoring for microfinance： is it worth it？[J]. International Journal of Finance & Economics， 2012， 17（2）： 103-123.

[16] Kinda O， Achonu A. Building a Credit Scoring Model for the Savings and Credit Mutual of the Potou Zone[J]. Consilience： The Journal of Sustainable Development， 2012 （7）： 17-32.

[17] Schreiner M. A Scoring Model of the Risk of Costly Arrears at a Microfinance Lender in Bolivia[J]. Cancer Medicine， 2001， 4（1）：36–42.

[18] Schreiner M. Scoring arrears at a microlender in Bolivia[J]. ESR Review， 2004， 6（2）： 65.

[19] Schreiner M. Credit scoring for microfinance： Can it work？[J]. Journal of Microfinance/ESR Review， 2000， 2（2）： 105-118.

[20] Kinda O， Achonu A. Building a Credit Scoring Model for the Savings and Credit Mutual of the Potou Zone[J]. Consilience： The Journal of Sustainable Development， 2012 （7）： 17-32.

[21] Blanco A， Pino-MejíAs R， Lara J， et al. Credit scoring models for the microfinance industry using neural networks： Evidence from Peru[J]. Expert Systems with applications， 2013， 40（1）： 356-364.

[22] Maddala G S. Limited-dependent and qualitative variables in econometrics[M]. Cambridge university press， 1986.

[23] West R C. A factor-analytic approach to bank condition ☆[J]. Journal of Banking & Finance， 1985， 9（2）：253-266.

[24] Daniel E O`leary，On bankruptcy information systems，European Journal of Operational Research. 1992，56，67-79

Abstract： According to the actual sample data collected from one branch of Everbright Bank of China， this paper build a two-classification Logistics credit risk assessment model on personal small loans credit risk assessment. Empirical evidence showed that： Age， gender， income， occupation， educational background， whether to hold credit CARDS， the lower the LDR and customer belongs to very significant factors on personal small loans credit risk； age older， income stability， the greater the degree is higher， hold a credit card， the lower the LDR customer the higher credit rating； Women's credit risk significantly less than men； The execution rate of first-tier and second-tier cities is generally higher than that of county level city clients.The bank should take specific measures to effectively avoid and diversify risks.

Key words： Logistic model； Internet finance； Small loan； Credit risk；