基于机器学习算法的信用风险量化模型研究
2023-05-21李沐勋
李沐勋
摘要:传统的信用风险计量模型难以处理高维数据和非线性问题,多具备较严格的假设条件,计算结果常与实际情形存在较大的误差。本文综合考虑影响信用风险的内生变量和外生变量,使用更优的非线性变换方式拟合数据,并借助机器学习强大的算力和学习迭代优势量化信用风险。实证结果表明,该模型算法可提高预测结果的拟合度和准确性。
关键词:债券市场;机器学习;信用风险计量
中图分类号:F832.5 文献标识码:A 文章编号:1007-0753(2023)04-0075-09
一、引言
信用风险作为金融市场风险的重要组成之一,其被衡量的方式始终被市场参与方所重视。投资者、金融机构、监管部门出于风控需求,对信用风险衡量的要求也趋于更加精准和动态。信用风险计量模型则在其中扮演最为关键和重要的角色,其科学性和准确性成为风险计量结果好坏的基础性因素。
金融学中大部分研究对象的本质都是复杂、多维和非线性的。传统的信用风险计量模型难以处理高维数据和非线性问题,多具备较严格的假设条件,并且算力难以支持大量模拟和迭代优化,因此计算结果常与实际情形存在较大误差。
随着金融工程的发展和计算机算力的增长,机器学习作为人工智能的重要成果之一,在金融风控领域的应用日益广泛。该类算法将概率论、统计学、最优化理论等科学理论与计算机的强大算力相结合,既可快速、自动地处理高维数据,还能在不断学习和优化过程中提高模型的泛化能力,通过复杂多样的函数输出更准确的预测结果。可以预见,机器学习模型的应用和迭代将带动信用风控技术进入新纪元。
本文利用统计学原理以及机器学习算法,构建资产信用风险溢价和违约概率量化模型,以解決传统模型中的各类局限和不足,输出更准确的量化预测结果。
二、传统信用风险衡量模型
信用风险衡量模型的发展经历了三个阶段:第一阶段为20世纪60年代之前的专家分析法,通过专家经验和主观分析来评估信用风险;第二阶段为20世纪70年代至90年代的信用评分模型,包括线性概率模型、Logit/Probit模型和Z-score模型,20世纪60年代的信用卡业务催生了该类模型的发展,这也是数学模型首次应用于信用风险领域;第三阶段为20世纪90年代至今的违约概率模型,例如KMV模型、CreditMetrics模型和CreditRist+模型,该阶段的模型将金融理论与数学相结合,对信用风险的评估由分类上升至计量。目前,信用评分模型仍被国内外评级机构和多数金融机构应用于信用风险评估,违约概率模型则多被商业银行使用,用于信贷审批、信用卡额度审批和信用风险敞口的计算。
然而信用风险衡量模型的发展已停滞近三十年,其固有的缺陷也日益暴露,难以满足更高的风控需求。信用评分模型使用了较多的内生变量,例如财务数据、主体资质、资产特征等,但最终仅输出分类结果,并无进一步的量化信息;并且模型计算中仅使用初等函数,应用的数学理论较为简单。而违约概率模型虽然实现了进一步的风险计量,但考虑的内生变量较少,例如KMV模型中仅考虑资产与负债规模的内生变量,CreditMetrics模型和CreditRist+模型仅使用了违约频率的外生变量,并且应用的统计学模型局限于正态分布,弱化了拟合度和尾部风险。此外,传统模型中尚未探索出信用风险溢价与违约概率之间的映射关系,以及对违约的预警功能。
三、模型算法原理
外生变量是资产信用风险变化的直接体现,例如生存率、死亡率(违约率)、等级迁徙率等,可通过简单的计算统计得到。内生变量是影响资产信用风险的本源性因素,例如资产归属主体的资质、财务状况和经营状况,它们之间通过复杂的联系和变化影响着资产的违约概率,难以用简单的函数进行表达。此时可通过引入具有代表性的标签值作为中间变量,一方面构建更显著的映射特征,另一方面强化深度,寻找更优的非线性变换方式以拟合数据。
鉴于此,在变量选择上,本文使用财务、经营、行业和宏观数据等与资产相关的特征值作为内生变量,多维度囊括关于资产的有效信息;使用标签属性显著的信用利差作为中间变量,根据信用利差和违约频率的正相关性,建立单变量映射函数;使用违约频率作为外生变量,将模型训练结果拟合至直观的统计数据。通过上述变量的选择,模拟信用风险由内至外的演变过程。
本文量化模型先后运用分布拟合、BP神经网络和支持向量机等算法原理,输入变量包括资产到期收益率、无风险利率、定性指标和定量指标等特征值以及违约频率统计值;输出变量包括信用利差、等级序列、违约概率和违约分类结果。
四、模型算法的实证
(一)信用利差与偏正态分布
信用利差即信用风险溢价,金融市场体现风险与收益对等的原则,越低的信用利差说明资产的违约风险越小。对信用债而言,业界多采用票面利率与国债收益率之差作为信用利差,由于票面利率多为固定利率,信用利差的变化也单纯由国债收益率的变动引起。本文选择债券到期收益率代替票面利率,到期收益率的变动可体现资产回报率的变化,便于动态反映信用风险。当投资者认为债券发行人信用质量显著下降时,该只债券遭到抛售,买入价格的下降和剩余期限的减少导致到期收益率上升,信用利差随之上升,如表1所示。而到期收益率的上升变相地增加了发行人的还款压力,增大了债券的违约概率。
目前业界对信用利差数据的建模多采用正态分布,但正态分布具有左右完美对称的性质,而实际情形中利差分布较多呈现左偏或右偏、单侧瘦尾或肥尾的状态,此情形下,使用正态分布建模常导致某个区间的累积分布值被高估或低估,模型误差增大。例如默顿、KMV和CreditMetrics等模型中正态分布的应用均导致了模型结果与数据实际呈现的肥尾现象不符。因此,本文引入偏正态分布对利差数据进行建模,保证模型具备更高的拟合度和精准度。
Azzalini(1985)首次提出偏正態分布的概念,并给出了相关定义式、性质、最大似然估计以及多维形式的归纳 。引入偏度参数λ,若将标准正态分布的概率密度函数与累积分布函数分别记为φ(x)和(x),则偏正态分布概率密度函数为:
f ( x; μ, σ, λ ) = 2-σ φ ( )( λ ) (1)
提取截至2021年末我国房地产业和银行业的全部存续债券(剔除结构化产品)的相关数据(数据来源于WIND金融终端),计算信用利差并进行数据清洗,根据信用利差样本进行偏正态分布的参数估计和卡方拟合优度检验,结果如图2和图3所示。房地产业和银行业样本容量分别为3 282个和835个,P值分别为0.230 8和0.262 8,结果均无显著性差异,模型结果和实际数据具备一致性。可视化效果同样说明,概率分布与原始数据拟合度较高,偏正态分布可更准确地反映信用利差分布的实际情况。
对信用利差进行分箱处理,建立信用等级和信用风险的映射关系,利差数值越小代表信用风险越低,对应的信用等级越高。此处分箱处理的为理论利差分布,而非样本观测值。
常用的无监督学习数据分箱方法包括等距分箱、等频分箱和聚类分箱等。聚类分箱法由于对特征值定义缺乏明确的量化标准,类个数取决于建模人员的主观意见(例如将债券分为投资级和高收益级),因此不作为备选方法。等距分箱法是对随机变量进行等距分组,会产生样本数量较高(众数)或极少(尾部)的箱体,对样本数量较高的箱体的风控效果较差。从信用风险衡量的实际业务需求角度来讲,分箱后建立的等级序列需具备较好的区分效果,以便严格把控风险和降低投资亏损概率。提升序列区分度问题存在最优解,即等级序列与概率之间呈均匀分布,此时不存在任何一个箱体的区分度高于或低于其他箱体,因此选择等频分箱法更符合建模需求。
以箱体数量9个为例,分别代表1—9个信用利差区间即等级序列。每个箱体在偏正态分布上具有相等的积分值,因此通过逆累积分布函数即可求得每个箱体的利差区间阈值。为方便理解,同样给予级别符号对应表示。表2为房地产业样本的等频分箱结果。可以看见,测试样本的分箱结果与理论值较为接近,卡方拟合优度检验结果无显著性差异,整体区分度较显著。
(二)违约概率与幂律分布
对违约数据的统计表明,当资产的信用质量下降时,违约概率将以类指数形式增长。目前我国较多商业银行使用指数分布对违约概率进行预测(周四军和彭建刚,2008),即首先根据卡普兰生存分析法统计不同时间期限下样本的累积违约频率,再根据数据真值进行指数分布拟合得到对违约概率的预测。但指数分布的无记忆性特点与违约事件相矛盾,表现为系统内下一时刻的状态仅与当前状态有关,而与过去无关,该特点忽略了信用质量变化过程对违约概率所造成的影响,因此其尽管与违约率数据拟合度较高,但并不具备经济学解释性。
幂律分布同样体现出与违约率数据的高拟合度,并且其内在原理应用于违约事件具备良好的解释性。幂律现象可简单描述为事件发生的概率与事件规模的某个负指数成比例。导致幂律现象的原因包括自组织临界论、优先链接理论和大偏差理论,各理论均在极端事件的金融问题的应用中有着重要作用(胡海波和王林,2005)。
将等级序列定义为随机变量x,对应的y值为违约概率。在样本数据同时包括x值和y值时,使用曲线拟合可获得目标函数表达式和拟合优度,实现参数估计和假设检验的效果。本文以穆迪评级官方披露的1983—2020年全球平均累积违约率数据为样本进行检验,各期限下的违约数据拟合效果如表3所示,10年期样本的拟合结果如图4所示。
根据表2信用利差的等频分箱数据,统计序列1—9下房地产业样本1年期违约率,使用幂律分布进行曲线拟合,结果如表4所示。由于我国信用债市场目前所积累的违约样本依旧较少,样本数据存在删失和截尾现象,因此拟合效果有所减弱。
(三)信用利差与违约概率
根据前述原理,可建立信用利差与违约概率之间的函数关系,步骤如下:
(1)定义资产的信用利差为x,信用风险为u,违约概率为y,均为连续变量;
(2)信用利差x取值范围为[0,+ ∞);
(3)信用风险u取值范围为[0, k],k越大代表信用风险越大;
(4)违约概率y取值范围为[0, 1],理论上可取至1;
(5)信用利差x服从偏正态概率分布,定义偏正态概率分布的累积分布函数为skew (x);
(6)等频分箱原则表明信用风险u的大小通过信用利差x在偏正态分布中所处的位置体现,x的累积分布函数值越小则信用风险越低,skew(x) 与u之间为线性正相关,满足:
u = k ·skew(x) (3)
(7)给定期限下,信用风险u和违约概率y之间满足参数为C和α的幂律函数:
y = C · u-α (4)
(8)则信用利差x与违约概率y之间的函数关系为:
y = C · k-α[skew(x)]-α (5)
将前述偏正态分布和幂律函数的参数估计值代入公式(5),在利差样本最小值和最大值范围内创建等差序列,生成利差向量x,并绘制函数曲线。图5为理论模型下房地产业信用利差与1年期违约概率的映射关系。样本中信用利差最大值为686.29bp,此时资产的1年期违约概率约为11.96%。
(四)信用利差预测与BP神经网络
计算机算力的增长和人工智能的发展推动了机器学习在金融风控领域的应用。其中,神经网络算法(闻新等,2015)具有优良的多维非线性映射能力和柔性的网络结构,其理论上可拟合出变量任何形式的变化,因此在机器学习算法中具备极高的上限。其中,由Rumelhart和Mcclelland(1986)提出的BP神经网络是基于误差逆向传播(Back Propagation,BP)对多层前馈神经网络进行训练的算法。该算法并非在建模前将描述变量之间关系的函数表达式揭露并固定下来,而是使用最速下降法,通过反向传播方式反复训练和调整网络的权值和偏差,使输出结果与期望结果尽可能地接近,即网络输出层的误差平方和最小。
本文首先选择截至2021年末房地产业和银行业存续债券的发行主体,作为两组样本进行对比和模型稳健性检验;其次选择结构化财务数据作为特征值,先后使用信用利差和等级序列作为标签值,进行BP神经网络训练。数据清洗方面,对相同发行人的债券仅保留单一值,并剔除信用利差小于零的样本。特征值选择方面,选择WIND金融终端中包括盈利能力、收益质量、现金流量、资本结构、偿债能力和运营能力的全部财务指标,分类进行主成分分析。选择每类中主成分累积贡献度大于90%的指标纳入特征值,进行数据降维;同时对数据进行归一化处理,消除不同特征值之间的量纲差距。最终房地产业样本组的样本数量为695个,特征值数量为23个;银行业样本组的样本数量为820个,特征值数量为18个①。
需要指出的是,对信用利差的预测并不具备建立时间序列模型的条件。信用债发行主体的财务数据所披露的频率通常以年度为基准,季度和半年度报告的数据完整性较差且未经过审计,数据集质量并不理想。而债券发行期限通常以3至10年为主,这意味着数据集的最大时间窗口通常在10个步长以内,若再对数据集进行训练集与测试集的分割,则每个数据集的时间步长极短,模型难以在训练学习中发现规律。因此,在对信用风险的动态监测过程中,应定期抓取存续样本和采集特征值,重新训练模型并获得预测结果。
本文使用列文伯格·马夸尔特算法,将训练集、验证集与测试集数量设置为2∶1∶1;隐含层数量根据经验公式设置为 层,其中n和m分别为输入节点数量和输出节点数量;经历10轮完整学习,并记录测试集回归系数R的均值和最大值。
将仅使用财务指标的训练过程记为“训练1”,其测试集回归结果如表5所示,可见训练结果较为一般。银行业的回归系数高于房地产业,对信用利差预测的准确性高于对等级序列预测。在特征值中引入部分经营数据和文本数据以优化预测结果,对于房地产业样本,在特征值中引入所在省份的GDP总量、GDP增速、股东背景和债券担保方式;对于银行业样本,引入存贷款总额、不良贷款率、拨备率、净息差和股东背景,并再次训练记为“训练2”。
训练2测试集回归结果如表6所示。可以看出,引入除财务数据外的其他评价要素后,模型预测的准确性显著上升,其中房地产业的提升效果更为明显。银行业的回归结果依然优于房地产业,可能与商业银行所披露的数据质量更高、信用利差跨度较小有关。使用等级序列进行预测的准确性略低,可能与位于序列端点的样本被误分类有关。其中,银行业在训练2中回归系数最高的一次学习结果如图6所示。
信用风险的内源性体现出非结构化数据对风险衡量的重要性,即决定信用风险的因素不仅包括定量数据,还包括对定性指标的加工处理。由于定性指标判别所需的时长较长、工作量极大,本文仅进行了少量定性指标的判别,因此呈现的训练结果并非最优,但仍优于传统的信用风险衡量模型,特别是对评级结果95%以上集中于AA-以上的中国债券市场而言,可起到深度量化的效果。将新样本的特征值数据输入BP神经网络模型,即可输出该样本信用利差的预测结果;再将输出的信用利差代入公式(5),即可获得对应时间期限下的违约概率。实际操作过程中,提取聚类后样本在不同时间截点的信用利差、特征值数据和累积违约概率,即可通过BP神经网络算法实现对信用风险的动态量化。
(五)违约预测与支持向量机
目前宏观经济下行导致信用风险加剧,资产违约问题日渐凸显,金融风控对违约预警提出了更强的需求。支持向量机(SVM)为有监督学习中的广义线性分类器,十分适合解决二分类和回归问题(周志华,2016)。该算法根据VC维理论和结构风险最小原理,在样本中求解最大边距超平面,寻找分割样本的最优决策边界(Vapnik和Chervonenkis,1964) 。对于线性不可分问题,SVM通过径向基函数核,将非线性低维空间样本映射至高维空间,使其变为线性可分问题,在该空间中寻找最优分类超平面。因此,满足利用高维财务数据解决二分类问题的违约预警需求(张杰和赵峰,2013)。
由于季度财务数据可获取性较低,本文统一选取年度财务数据纳入多维数据集。行业聚类上选择房地产业样本,该行业违约样本较多,可降低样本不均衡的影响。对于违约样本,本文選取违约前的年度财务数据;对于未违约样本,本文选取2021年末财务数据,代表存续债券发行人的最新财务状况。在进行数据清洗、归一化处理和主成分分析后,最终总样本数量为585个,数据集特征值数量为30个;违约样本数量为25个,未违约样本数量为560个②。
违约事件的特点导致样本显著不均衡,因此使用误分类代价增强和Stratified K-fold交叉验证解决样本不均衡和过拟合问题,增强训练模型的稳定性。
误分类代价增强方面,由于金融风控领域更注重对正样本(即违约样本)的筛选能力,以尽可能减小遗漏正样本造成的损失,对误分类正样本的代价进行设置。权重设置为向上取整后样本集中负样本与正样本数量的比值。
Stratified K-fold交叉验证方面,将数据集分为5个容量相等的折叠,每个折叠具有相等数量的违约样本;每次选取1个折叠作为测试集,剩余4个作为训练集,并取训练集中1个折叠为验证集,重复5次直至每个折叠均用作验证集,最终取验证数据的平均精度作为结果。
本文使用一对一多类方式,分别使用以下核函数进行模型训练。除优化高斯核之外,均对样本数据进行标准化处理。最终测试集测试结果如表7所示,模型误差如图7所示。查全率反映实际违约样本中预测正确的比例,因此在信用风险衡量方面,该指标相对查准率更被看重。综合而言,高斯核和优化高斯核的SVM模型表现最优。优化高斯核模型为可优化模型中的最佳点超参数模型,对高斯核模型中的核尺度和框约束级别均做了调整,未对数据进行标准化处理。由于原始数据集指标中绝大多数为比率指标,其余规模指标在爬取时对计算单位进行了处理,因此模型表现未受到显著影响。
结果反映出SVM算法的测试效果较好,可对违约风险进行有效预警。在资产存续期内,利用资产最近一期的财务数据建立多维数据集,可实现对违约风险的定期动态跟踪,为投资决策的调整提供参考依据。
五、结论
(一)改进与创新
与传统模型相比,本文一方面综合考虑内生变量与外生变量,通过引入中间变量完整了信用风险传递的逻辑关系;另一方面,验证了机器学习模型在信用风险衡量领域应用的可行性,依靠算力模拟和迭代优化,机器学习提高了量化结果的准确度。
在函数使用方面,本文模型弱化了线性和基础函数在信用风险衡量领域的应用,使用非线性和积分变换等复杂函数映射变量关系,依靠BP神经网络的多层网络结构,实现更复杂更精细的算法。
在实际风控需求方面,等频分箱处理、信用利差与违约概率映射、神经网络隐含层数设置、特征值选择和优化方向等内容均能对风控工作起到借鉴作用。
(二)局限性
外生变量的推论统计需要具备大量样本,以避免欠拟合现象。因此,当资产为信贷资产时,商业银行可通过积累的大量样本进行数据拟合;而当资产为标准化债券时,由于我国债券市场积累的违约样本不足,删失和截尾现象较多,数据拟合度难以提升。
在BP神经网络训练方面,受限于人力成本和时间成本,本文未将获取较为困难的经营数据和非结构化数据纳入数据集,因此测试结果并非最优。未来,在特征值中加入处理后的文本和字段信息,可进一步提升模型泛化能力。
各类机器学习均具备一定局限性。例如BP神经网络易出现收敛速度慢和局部极小值的问题;支持向量机对缺失数据和异常数据较为敏感,对数据预处理要求较高。同时多数机器学习具有“黑箱特性”,即算法过程难以使用人类语言描述,困于被广泛理解和接受。
(三)政策建议
本文构建的模型可帮助投资者或风控人员量化信用风险和预警违约风险,使其根据自身需求进行资产配置或调整投资头寸,做到风险和收益的平衡。对监管机构而言,有助于其把控市场整体信用风险,为监管政策的制定提供借鉴,落实经济回稳向上的发展政策。因此,对金融市场的信用风险防控,本文提出以下建议:
一是加强信息披露维度和频率,推进数据基础设施建设。数据基础设施的完善可提升风险量化的精准性和风险监测的及时性,而目前交易市场中关于各类资产的违约率数据存在删失和截尾现象,披露频率较低,影响信用风险衡量的准确性和动态跟踪。对此,应加强公开市场数据披露的维度和频率,提升数据的有效性和时效性。
二是规范信息披露口径和标准。商业银行受到严格监管,所披露的规范化数据提升了数据集质量,有利于降低金融市场中的信噪比,提高模型的训练效果。相比而言,其他行业的数据口径不一、可使用指标数量较少,增加了噪声信息。对此,各类非金融企业行业协会应规范数据披露标准,包括统计准则、口径和管理方法等,提升数据质量和真实性。
三是加强高风险资产市场化经营能力,健全违约资产处置机制。借鉴成熟的金融市场的机制设置经验,例如完善高收益债券市场和违约资产的分类处置,真实反映信用风险,进而提升高风险资产的定价合理性、交易流动性和市场稳定性,实现整个金融市场的资源配置优化、风险分散和经济调节等功能。
注释:
① 数据集较为庞大,限于篇幅本文不再列出,仅作者留存备查。
② 限于篇幅本文不再将数据集列出,作者留存备案。
參考文献:
[1] AZZALINI A. A class of distributions which includes the normal ones[J]. Scandinavian Journal of Statistics, 1985,12:171-178.
[2] 周四军,彭建刚.商业银行信用风险量化新方法:死亡率模型[J].统计与决策, 2008(14):26-28.
[3] 胡海波,王林.幂律分布研究简史[J].物理, 2005, 34(12):889-896.
[4] 闻新,李新,张兴旺.应用MATLAB实现神经网络[M].北京:国防工业出版社, 2015:95-159.
[5] RUMELHART D E, MCCLELLAND J L.Parallel Distributed Processing[M]. Massachusetts: MIT Press, 1986:318-362.
[6] 周志华.机器学习[M].北京:清华大学出版社,2016: 125-135.
[7] VAPNIK V,CHERVONENKIS A. A note on class of perceptron[J]. Automation and Remote Control, 1964, 25(01).
[8] 张杰,赵峰.基于支持向量机的中小企业技术信贷违约预测[J].统计与决策, 2013(20):66-69.
(责任编辑:张艳妮/校对:唐诗柔)
Abstract: Traditional credit-risk measurement models have difficulty in dealing with high-dimensional data and nonlinear problems, and often have strict assumptions, leading to large errors between the calculated results and the actual situation. This paper considers both endogenous and exogenous variables that affect credit risk, uses a more optimal nonlinear transformation method to fit the data, and quantifies credit risk with the powerful computational and iterative learning advantages of machine learning. Empirical results show that the algorithm of this model can improve the fitting and accuracy of predictive results.
Keywords: Bond market; Machine learning; Credit-risk measurement