基于Probit与Logistics模型对比的信用卡逾期风险评估实证研究
2020-11-10廖欣婷
廖欣婷 谢 磊
(1.桂林理工大学 广西 桂林 541004 2.桂林航天工业学院 广西 桂林 541004)
从20世纪50年代第一张信用卡诞生至今,信用卡已经成为最重要的金融工具之一。自2002年信用卡进入中国以来,我国商业银行信用卡业务保持着快速的增长趋势,截止2015年,信用卡发行量已达4.32亿张。随着我国信用卡市场的成熟,信息卡遵照市场化和专业化的要求逐步完善发行、维护、增值服务和交易信息汇总处理等各个环节的管理,形成了一条国际化行业链接。与此同时,信用卡业务风险也在逐步上升。
截止2016年一季度末,信用卡总额度达到历史最高7.45万亿元,同比增长了19.55%,保持着快速增长的态势;信用卡逾期半年未偿还信贷总额度达458.09亿元,环比增长了20.46%。对于一个银行来说,信用卡业务是商业银行利润的重要组成部分,但这也意味着给银行带来高风险。银行信用卡的收入来源于三部分,分别是年费、利息收入以及商户回佣。其中利息约占收入的30%。信用卡利息是指当持卡人未能在免息规定的期限内偿还透支金额,发卡人向持卡人收取的利息。信用卡利息从交易入账记起,一直到偿还贷款日结束,日利息为万分之五,转换成年利率,则会高达18%,并还会按月收取复利。近些年来,银行向客户提供的服务种类不断增多,费用收入逐步上升,因此不良欠款开始上升,不少人沦为信用卡奴隶,银行信用卡逾期的人数在不断上升,逾期金额也在不断上升。
信用卡业务风险不断上升也引起了众多银行的关注,各行纷纷出台了针对信用卡业务风险管理方法。《巴塞尔协议》是国际公认作为准则用以控制金融风险的管理方法。新协议将商业银行的风险划分为四个种类,分别是市场风险、流动性风险、信用风险和操作风险。
近些年来,信用卡交易额呈现较快的增长趋势,遇到经济下行的时候,也会给信用卡贷款余额资产质量带来很大的影响。企业在此情况下会面临很大的经营压力,会对社会成员就业以及收入带来直接影响,这就会蔓延到信用卡领域,导致信用卡客户无法按期偿还信用卡透支额度。因为信用卡是一种小额消费贷款,存在的客户群体数量极大,客户全体包含在各行各业。如果客户出现恶意透支信用卡情况,银行会承担很大的信用风险,即使付出很高的风险监管成本,可是还是会面临很大的损失。
本文随机抽取某银行某年度8371个信用卡客户样本,选取用户性别、信用卡使用率、信用卡额度、住房贷款月供、历史逾期次数、信用卡开户数的情况等用户特征,主要通过描述性分析方法、Probit模型、定序回归-累计logistics模型对数据进行拟合,建立客户信用卡逾期评估模型,找出客户逾期的主要影响因素,并据此提出一些有针对性的对策建议。
一、模型参数设计及数据来源说明
信用风险的定义有广义和狭义之分,广义的定义是信用关系的一方因为另一方没有履行而导致的可能损失;从狭义的角度理解信用风险指的是债务人在债务期限结束时不能按时履行债务合作,最后导致债权人损失的可能性。本文研究对象银行信用卡客户信用风险是一个潜在的变量,主要度量通过逾期状态来衡量。
本文数据是选取某年度某商业银行随机抽取的8371个信用卡用户信息。由于是客户填写的真实数据信息,拟不对其进行信度与效度分析。
二、实证分析
(一)数据描述性分析
本文所抽取8371位银行信用卡客户信息均为有效值,不存在缺失值。其中男性样本有5710人,占整体样本的68%,女性样本有2661人,占整体样本的32%。如图1所示:
对数据的样本变量以及集中趋势进行统计分析,假设数据服从正态分布。从spss得到表2的样本描述性结果来看:使用率的最大值为12.84,平均值为0.6073,最小值为0,说明数据是一个右偏态的数据,大部分的样本集中在[0.1.6]区间范围内;信用卡额度最小值为1000(元),最大值为50000(元),所以抽取的客户的持卡类型为普卡或者金卡,没有抽到白金卡信用卡用户的信息。从方差来看,住房贷款月供的方差是28775158,历史逾期次数方差为6.176,信用卡开户数方差为21.224,逾期状态方差为6.176。说明住房贷款月供的变量比较离散,其他的变量差别不是很大。
(二)相关分析
本研究中定距-定距时,使用pearson相关系数;定距-定类使用肯德尔相关系数,经spss计算,得到变量之间的相关系数,经处理得到如下表1。
表1 变量之间的相关系数
据表1可得,除了使用率与住房额度不存在较强的相关性,其他变量均存在一定的相关程度。
(三)定序-基线Probit模型、logistics模型分析
Logistic回归是一种广义线性回归(generalized linear model),与多重线性回归分析模型形式基本上相同,都具有w'x+b,其中w和b是待求参数,其区别在于多重线性回归直接将w'x+b作为因变量,即y=w'x+b,而logistic回归则通过函数L将w'x+b对应一个隐状态p,p=L(w'x+b),然后根据p与1-p的大小决定因变量的值。如果L是logistic函数,就是logistic回归,如果L是多项式函数就是多项式回归,实际中最为常用的就是二分类的logistic回归。
基于前文的描述性分析,我们可以简单了解数据的特征,在不考虑变量之间存在的相关性以及数据的极端值的情况,对数据进行建模拟合,以及对模型进行修正。
定序-基线Probit模型:
上述模型是定序-基线Probit模型,如果存在Q个类,那么便会有Q-1这样具有相同效应但有不同截距项的模型。与logistics回归的差异在于它们的Link函数不一致。
Model1:
φ-1[P(Y ≤ Yq)]=αq1-0.144X1+0.252X2-0.00003X3-0.00001X4+0.132X5+0.012X6
Model2:
Logit[P(Y ≤ Yq)]=αq2-0.24X1+0.423X2-0.00006X3-0.00004X4+0.24X5+0.02X6
对于Model2,使用的是Logistic回归建模,Logit连接函数。当q=0时,各个参数的解释:X1是性别二分变量,在这个模型中,男性客户比女性客户更容易出现信用卡逾期的情况,即在其他变量固定的情况下,当客户是男性的时候,相比于女性客户,更容易出现信用卡信用风险;X2是使用率,该指标是一个正相关指标,即在其他条件不变的情况下,使用率每上升一个单位,客户出现逾期与信用卡客户没有出现逾期的对数发生比将平均变动0.423,也就是信用卡客户出现逾期的概率将平均上升e0.423=1.53倍。
主成分降维Model3
Logit[P(Y ≤ Yq)]=-0.2443+0.559Comp.1-0.2343Comp.2+0.3307Comp.3-0.04107Comp.4
主成分降维Model4:
Logit[P(Y ≤ Yq)]=-0.2425+0.56Comp.1-0.2554Comp.2+0.3297Comp.3-0.01835Comp.4-0.1563Comp.5
Model5:
Logit[P(Y ≤ Yq)]=0.4309X2-0.00006X3-0.00003X4+0.2449X5+0.01689X6
运用所建立的模型对数据进行,所估计的结果如下所示:
表2 模型的准确度
表6模型准确度不高,上述所建立的模型准确度在44%左右,估计差异不大。共同的缺陷:信用等级为1,4,5,6,7的没有判断出来。所建立的模型,对于数据都比较偏向于将数据判断为0。表6,样本信用等级为5,6,7的比例较小。变量中存在复共线性,其中Model3,Model4是对变量进行了主成分降维,对于本例数据而言,使用主成分降维后建模,判断的结果也没有得到显著的改善,与Model1,Model2的结果相差不大。
三、结论与对策建议
(一)结论
第一,从随机抽取的样本男女比例来看,男性客户多于女性客户,说明了男性客户使用信用卡的比例比女性的多;在其他条件一致的情况下,男性出现逾期的风险比女性的大,这与男性的消费习惯有关,在我国,男性一般要面对房贷车贷,以及家庭费用的支出,而且在人际交往过程中,男性主动买单的频率比女性的要高,所以男性对于金钱的花费要比女性的突出,在资金不充足的情况下容易发生信用卡逾期行为。而女性相对来说经济压力较小,信用卡逾期的风险会比男性的低。综上,男性信用卡逾期情况更加常见。
第二,在本文案例中,通过计算变量之间的相关系数;自变量与因变量均存在了显著性的相关关系。使用率X2、历史逾期次数X5、信用卡开户数X6均和逾期状态Y之间存在正向的相关度,当这些指标越高时,逾期等级会越高;信用卡额度X3,住房贷款月供X4与信用卡等级之间存在着反向的相关度,信用卡用户的这两项指标越高,就可以得出:符合该特征的客户信用等级越高,信用风险系数越低,对于一般的银行来说,客户的信用等级越高,信用卡额度也会越高;同理X4,当住房贷款月供金额越高时,更容易出现信用卡逾期的风险,双方是存在反方向性的相关度。
第三,对数据建立了多元的多定序变量结果的Probit、logistics模型的分析方法:首先对原有数据进行建模,其次对建立的模型进行改进、修正,如使用主成分对原始数据进行降维,然后再进行拟合,Probit模型与Logistic模型的差异不大;使用主成分对变量进行降维,建立的模型与未使用主成分对数据进行降维的数据,所建立的模型差异不大。选用Model2解释,通过模型我们可以知道,模型的系数没有与实际逻辑相违背的情况;在Y=0,选用某一变量进行波动,其他变量均视为没有波动,那么就有当信用卡客户是女性时,客户出现逾期概率和没有出现逾期的概率的对数发生比将平均上升-0.24,即女性信用风险低于男性,男性出现逾期的概率是女性的1/e^(-0.24)=1.27倍;历史逾期X5是与逾期状态Y等级相关系数最大的一个变量,即它们之间存在显著的相关关系。对于某一客户而言,当其他指标固定不变,该指标若上升一个单位,该客户的信用卡逾期的概率将会上升e^0.2423=1.274倍。对此,银行信用卡客户信息管理的工作人员对某客户该指标出现变动的时候,需要对该客户抱以警惕的心理,密切关注。
表3 模型判别结果与准确率
(二)对策建议
1.要加快建立和健全我国的诚信社会体系,加快建立全社会范围的个人征信体系
鉴于历史逾期X5是与逾期状态Y等级相关系数最大的一个变量,即它们之间存在显著的相关关系,建议加快建立和健全我国的诚信社会体系,加快建立全社会范围的个人征信体系。个人的征信体系能让客户规范自己的行为,及时调整个人的信用额度,理性消费。改变对个人的消费信贷政策等方式,减缓和转移潜在的个人消费信贷风险。如果信息不对称会导致道德风险和逆向选择,会使银行无法分清楚目标客户并提供不同价格的商品和服务,就不能对客户的风险进行识别和衡量并及时采取有效的控制和管理手段。
2.不断完善对信用评分模型的应用
目前的信用评分模型已被广泛应用,但很多信用评分模型均存在一定的局限性。应根据客户的个人行为特征建立不同的信用评分模型,模型应包含主要逾期分析影响因素并利用历史数量进行回测检验其模型的有效性。通过对信用评分模型在信用卡业务全流程的有效应用,可以在一定程度上预测银行的信用风险,还可以提高银行的盈利能力。
3.加强交易监测,强化动态管理,重点关注恶意透支行为
当客户出现异常消费行为时,银行应该要及时警惕并做好防范措施。同时在监控过程中,完善服务手段,也可以降低信用卡违约率,及时与客户沟通,并提前告诉他们还款日期及违约金额,让双方都有心理准备。一般情况下,银行也不能为了自己的利益而一味的降低客户的信用额度,因为这样的行为会导致银行失去一部分“应得”收益。
4.完善与信用卡风险管理有关的法律法规
国家应该从大环境出发,出台一系列全国通用的法律法规,这对于加强我国信用卡法律法规建设,防范信用卡诈骗和恶意透支等信用卡风险具有跨时代的意义,同时也为我国信用产业的健康发展提供重要保障和推动力。