APP下载

深度循环生存分析在个人信用评估中的应用

2023-11-27李淑锦梅浩

中国集体经济 2023年33期
关键词:信用风险深度学习

李淑锦 梅浩

摘要:根据资金流入的特点,金融机构同时面临着违约和提前还款风险。文章创新性地构造了违约和提前还款实际生存时间,将深度循环生存分析模型(Deep Recurrent Survival Analysis,DRSA)用于预测个人信贷的风险事件概率,在12个月、12~24个月以及24~36个月的时间窗口上对风险进行评估,并与logistic、Cox-PH、混合治愈模型进行比较分析。实证结果显示,DRSA模型在信用风险评估上是有效的。相较于提前还款而言违约预测的准确度更高,在三个时间窗口上分别达到97.4%、98.8%和99.8%。

关键词:生存分析;信用风险;竞争风险;深度学习;类别不平衡;LSTM

一、引言

2021年12月31日,中国人民银行发布了关于印发《金融科技发展规划(2022-2025年)》的通知,指出应以深化金融数据要素应用为基础,秉持数字驱动原则,应用数字化手段不断增强风险识别监测、分析预警能力,提升数字化营销能力,洞察客户行为偏好和真实金融需求。據《中华人民共和国2021年国民经济和社会发展统计公报》显示,我国2021年全部金融机构人民币消费贷款余额548849亿元,增加53181亿元。其中,个人短期消费贷款余额93558亿元,增加6080亿元;个人中长期消费贷款余额455292亿元,增加47101亿元。随着贷款需求和规模的日益壮大,对于金融机构来说,如何应用金融科技来深度挖掘借款者的金融数据,预测风险行为及其时间分布,是在新的金融形势下把握风险与机遇的一项重大挑战。

二、国内外文献梳理

传统的信用风险模型旨在预测贷款到期时的违约概率,对贷款的风险进行评级与区分。统计和机器学习的二分类方法一直以来都被广泛应用于信贷违约预测,如Probit回归、logistic回归、非参数随机森林法、BP神经网络、支持向量机等。当前,银行、消费金融公司、网络小贷等金融机构在原来关注违约概率的基础上,提出了估计违约、提前还款风险的发生概率与时间分布等更高要求。

Narain(1992)最早将生存分析中的加速失效时间方法(accelerated failure time,AFT)引入违约概率建模。Banasilk et al.(1999)将指数、Weibull和Cox非参数模型的性能与logistic回归进行了比较,发现在信用评分中生存分析的预测效果优于logistic。Farewell(1982)、Larson & Dinse(1985)、Bentzen et al.(1989)、Kuk & Chen(1992)都通过logistic-Weibull混合治愈模型将生存函数分解为事件部分与延迟部分两类效应,事件部分刻画了事件发生的概率,延迟部分刻画了事件发生的时间。在信用风险领域,由于违约行为会导致出借方损失本金和利息,普遍地被作为感兴趣事件来引入研究。除此以外,提前还款也会导致出借方损失利息,近年来提前还款作为竞争风险被逐渐引入到信用风险研究中。Ren(2019)提出了深度循环生存分析模型(Deep Recurrent Survival Analysis,DRSA),研究结果显示,DRSA的预测能力显著优于其他模型。

通过梳理国内外的文献,发现在其他研究中都是将最近一次还款日期与贷款发起日相差的月数作为贷款的生存时间,并将其表示为正常还款行为发生的次数,这样的设计并不科学。在对模型的识别能力评价方面,很多研究并没有考虑到样本不均衡性对概率预测的影响。

本文试图从以下方面进行创新:一是重新定义贷款的生存时间,分别获得违约与提前还款的实际观测时间;二是根据竞争风险的发生时间,将竞争风险作为删失数据提前排除在后续的风险集中;三是研究引入代价敏感学习法,根据正负类样本的比例对损失函数进行修正。

三、概念界定与评估方法介绍

(一)违约与提前还款的界定

生存时间是指个体存活至某一时刻后发生风险的时间,将个体生存时间按先后进行排序得到观测序列0=t(0)<t(1)<t(2)<…t(L),观测时间t(k)(0≦k≦L)为观测序列中的时间点,t(L)表示最后观测到发生风险的时间点。将违约实际生存时间记为T1= ,提前还款实际生存时间记为T2= 。贷款的实际生存时间为T=min{T1,T2}。

研究选用期限为36个月的分期贷款数据,借款者按规定每月偿还相应利息与本金。定义风险集合Rt为在t(0≤t≤36)时刻存在风险的个体集合,n 为t时刻风险集合的观测数量,nt为t时刻因发生风险而退出观测的数量,可以得到n =n -nt-1。由于贷款中存在完全还款情况,因此当T=0时,n >0,n36=0。在生存分析中,用删失状态变量δ来表示感兴趣事件的风险是否发生在观测期内,若δ=0,则表示观测数据删失,未观测到感兴趣事件;表示观测数据未删失,观测到感兴趣事件。将违约作为感兴趣事件,导致个体提前退出观测的行为除了违约以外,还包括了提前还款,因此将提前还款作删失处理。

假设:提前还款会同时偿还剩余的全部本金与部分期数的利息,而违约只偿还了部分期数的本金与利息,并且偿还的本金与利息的期数相同。

将事件删失的时间记作C。贷款的违约状态变量用二元离散变量来表示:Y=1表示贷款违约,Y=0表示贷款未违约。在该假设下,可以得到贷款的三种最终信用状态:

1. 违约。T1=T2<36,Y=1,δ=1。在观测期内观测到贷款发生违约。

2. 提前还款。T2=C<T1=36,Y=0,δ=0。贷款因发生提前还款而未观测到违约。

3.正常还款。T1=T2=C=36,Y=0,δ=0。在观测期内没有观测到贷款发生违约或提前还款。

需要注意的是,由于假设的限定,T1≥T2恒成立,可以将生存时间重新记为T=T2,贷款退出观测的退出时间可以表示為 =min{C,T}。

本文分别将在第12、24、36个月观测贷款数据的违约情况。记Tα为实验选定的观测时间(12、24或36),生存模型在训练集和测试集上的观测时间定义不同:在训练集中,已知样本i删失时间为Ci,生存时间记为Ti,退出观测的退出时间可以表示为 i=min{Ci,Ti,Tα};在测试集中,由于事先不确定样本i的还款情况,所以 i=Tα。

(二)logistic模型

该模型属于二分类模型,是一种Sigmoid函数,能够将输出值转化为(0,1)之间的数。logistic函数的公式为:

π(Z)= (1)

式中,Z=[z1,z2,z3,…,zp]T表示p个与还款行为相关的特征变量组成的向量,b0为常数项,b为回归参数的向量。根据前文设定,贷款违约的状态变量为Y=1,不违约为Y=0,假设阈值为μ:

=0, <μ;1, ≥μ;(2)

若Y= ,则模型分类正确,否则分类错误。

(三)Cox-PH模型

在生存分析中,T表示个体生存时间的随机变量,X=[x1,x2,x3,…,xq]T表示q个与还款行为相关的特征变量组成的向量。Cox比例风险模型(Cox-PH)是广泛应用于生存分析的回归模型。Cox-PH属于半参数回归模型,具有半参数性质,模型公式为:

h(t,X)=h0(t)e (3)

式中,h0(t)被称为基准风险函数,β为回归参数的向量,指数项e 中只包含因变量X而不包含t,我们称X为非时间依赖变量。

(四)混合治愈模型

模型的生存函数表达形式为:

S(t|X,Z)=π(Z)S(t|Y=1,X)+1-π(Z)(4)

式(4)中,S(t|X,Z)是信用贷款的全概率生存公式。π(Z)表示在给定协变量向量Z的条件下,样本来源于非免疫子集的可能性;S(t|Y=1,X)表示在已知样本来源于非免疫子集,在协变量向量X条件下生存时间大于t的概率。

π(X)采用二分类模型来解释事件发生的可能性,本文采用logistic模型。延迟部分用于解释风险发生在观测时间之后的可能性,用Cox-PH来表示。模型的含义:评价对象在t时间之前未违约的概率,可以表示为它一直未发生违约的概率与在t时刻前未违约且最终会违约的概率之和。

(五)DRSA模型

深度循环生存分析(Deep Recurrent Survival Analysis,DRSA),采用长短期记忆网络(Long Short-term Memory,LSTM)来进行生存预测。Ren通过将生存时间离散化后进行排序来获得观测时间序列,时间序列与上文表示相同。

DRSA模型的损失函数来源:一是未删失数据集内的样本在生存时间发生风险的概率。二是未删失数据在生存时间Ti之内发生风险的累积概率。三是删失数据 i在处的生存概率。因为未删失数据满足 i=Ti,所以可以将来源二和来源三合并得到完整数据集的损失函数。为了获得最优参数,DRSA模型通过随机梯度下降法来最小化损失函数:

arg minθLT+L  (5)

四、模型建立与结果分析

(一)数据来源与特征选取

研究选用Lending Club借贷平台上借款发起日期2016年6月30日至2018年9月30日贷款期限为36个月的个人借款数据,借款者每月按规定偿还本息,所有项目均已结项。在对原始数据进行清洗后,共获得403963条观测数据。在选取特征时,首先对特征进行相关性检验删除冗余特征,之后对剩余的变量采用卡方分箱的方法进行分箱处理,并选入Ⅳ值大于0.02的变量,最终选取了4个分类变量和20个连续变量。

(二)建模过程

1. 划分数据集

将数据集按照7:3的比例划分为训练集(282774条数据)与测试集(12189条数据),按照每12个月的观测时间窗口对数据集进行划分,分别在第12个月、24个月和36个月观测前0~12个月、12~24个月和24~36个月的贷款情况。

2.L  平衡类别权重

Finlay(2011)的研究显示,对于logistic和神经网络而言,在计算损失函数时对样本的类别施加不同权重的代价惩罚往往能得到更好的效果。代价敏感学习(Cost-Sensitive Learning)就是这样的一类方法。本文采用了Fernández(2018)提出的直接学习方法,使用训练数据的类别比例来对不同类别的损失施加权重。

weight_for_1= (6)

weight_for_0= (7)

total表示样本总数,pos表示违约的样本数量,neg表示删失的样本数量,weight_for_1表示计算违约样本损失函数的权重,weight_for_0表示计算删失样本损失函数的权重。

根据表1可知,时间窗口为0~12个月的贷款在测试集上分类的准确度得到明显的提升。在经过权重修正后的模型中,前三个模型对贷款违约的识别能力明显提升,达到60%以上。DRSA模型的准确度在经过修正后达到97.23%,模型的分类能力得到明显的提升,识别违约样本的准确度也达到77.12%,高于其他三个模型。

(三)模型性能比较

从AUC来看,Cox-PH和混合治愈模型并没有改善logistic的预测能力,Cox-PH的AUC在三个时间窗口上都比logistic更低。DRSA的AUC和准确度在三个时间窗口上都远高于其他三个模型,模型在信用风险评估上是有效的。从时间上来看,前三个模型的AUC和准确度都随着观测时间推移而下降,而DRSA模型的预测性能随着时间推移而上升,这说明了LSTM能够把握时间序列之间的相关性,模型在长期预测上是有效的。

五、结语

本文采用DRSA模型,在为期12个月的时间窗口上对三年期贷款进行了違约预测,模型取得了较好的预测性能。本文加入了竞争风险研究,通过定义违约和提前还款实际生存时间的方法区分两类风险,将感兴趣事件的竞争风险事件做了删失处理,修正了风险集合与预测概率。类别不平衡的数据集会导致模型将少数类样本全部预测为多数类,研究采用代价敏感学习方法对损失函数中的不同类别施加了损失权重,改善了模型的分类能力。

研究结果显示,采用DRSA模型评估个人信用风险是可行的,DRSA模型采用LSTM方法很好地挖掘了时间序列之间的相关性。本文的结果为金融机构预测信用风险带来的启示:一是根据DRSA模型预测贷中阶段的违约水平,根据违约概率修正贷款利率,同时根据预期的贷中违约规模来预期坏账损失。二是预测贷中阶段的提前还款水平,根据提前还款的时间与规模预测借款的久期,帮助金融公司更好地匹配资产与负债水平。

参考文献:

[1]中国人民银行.中国人民银行关于印发《金融科技发展规划(2022-2025年)》的通知[EB/OL].(2021-12-31)[2022-06-19]. http://www.china-cer.com.cn/file/pdf/金融科技发展规划(2022-2025).pdf.

[2]国家统计局.中华人民共和国2021年国民经济和社会发展统计公报[R].2022.

[3]王会娟,廖理.中国P2P网络借贷平台信用认证机制研究——来自“人人贷”的经验证据[J].中国工业经济,2014(04):136-147.

[4]廖理,李梦然,王正位.聪明的投资者:非完全市场化利率与风险识别——来自P2P网络借贷的证据[J].经济研究,2014,49(07):125-137.

[5]方匡南,吴见彬,朱建平,等.信贷信息不对称下的信用卡信用风险研究[J].经济研究,2010,45(S1):97-107.

[6]方匡南,章贵军,张惠颖.基于Lasso-logistic模型的个人信用风险预警方法[J].数量经济技术经济研究,2014,31(02):125-136.

[7]郭英见,吴冲.基于信息融合的商业银行信用风险评估模型研究[J].金融研究,2009(01):95-106.

[8]刘云焘,吴冲,王敏,等.基于支持向量机的商业银行信用风险评估模型研究[J].预测,2005(01):52-55.

[9]Narain B. Survival Analysis and the Credit Granting Decision[M].Credit Scoring and Credit Control.Oxford,U.K.:OUP,1992:109-121.

[10]Banasik,J,et al.Not if but when will borrowers default[J].Journal of the Operational Research Society,1999.

[11]Farewell,V.T.The use of mixture models for the analysis of survival data with long-term survivors[J].Biometrics,1982,38(04):1041-1046.

[12]Larson,M.G.and Dinse,G.E.A Mixture Model for the Regression Analysis of Competing Risks Data[J].Applied Statistics,1985,34(03):201-211.

[13]Bentzen S M,Thames H D,Travis E L,et al. Direct Estimation of Latent Time for Radiation Injury in Late-responding Normal Tissues:Gu,Lung,and Spinal Cord[J].International Journal of Radiation Biology,1989,55(01):27-43.

[14]Chen K C H.A mixture model combining logistic regression with proportional hazards regression[J].Biometrika,1992, 79(03):531-541.

[15]Ren K,Qin J,Zheng L,et al.Deep Recurrent Survival Analysis[C]//2019:4798-4805.

[16]Finlay S.Multiple classifier architectures and their application to credit risk assessment[J].European Journal of Operational Research.2011.210(02):368-378.

*基金项目:国家社会科学基金项目(17BJY233)。

(作者单位:杭州电子科技大学经济学院。梅浩为通信作者)

猜你喜欢

信用风险深度学习
浅析我国商业银行信用风险管理
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究
基于深度卷积网络的人脸年龄分析算法与实现
京东商城电子商务信用风险防范策略
PPP项目发行中期票据的可能性与信用风险分析
个人信用风险评分的指标选择研究