基于CART-Bagging算法的债券违约预警模型研究

2021-09-28林同源

全国流通经济 2021年19期

林同源

（贵州大学，贵州贵阳 550025）

一、引言

近年来，随着我国金融市场化改革的不断推进，债券发行的种类与数量增长迅速，同时违约问题也日益受到投资者的关注。2018年～2019年我国债券违约共计340只，违约金额高达2199.90亿元，大大超过2014年～2017年债券违约金额之和。因此，构建一个有效的企业债券违约预警模型有重要的理论与现实意义。

目前有关企业债券违约预警模型的构建主要有两大方向：

一种是基于传统计量模型如logistic回归、KMV模型等，国内外众多学者对此有较为深入的研究。金晓梦等[1]通过KMV模型解决了不同评级公司之间评级标准不统一的问题，有效地度量了样本企业的违约率；李梓娴[2]运用改进的KMV模型分析了河南省地方政府债券违约率与其债券发行量的关系；Mizen等[3]发现使用次序probit模型能更有效地评估债券信用风险；生柳荣等[4]采用Logistic回归的方式构建了非金融企业债券违约预警模型对企业的违约风险进行了有效评估；郭兆灵[5]通过改进的Lasso-logistic回归构建模型，从违约债券样本中选取了11项关键的预警指标。

另一种则是基于机器学习算法，如决策树、支持向量机、神经网络等。作为一种新兴的构建预警模型的方法，其迅速受到了学者们的关注。沈沛龙等[6]以200家中小企业为样本，使用支持向量机理论预测发债企业的信用风险并通过违约概率来评估企业的信用等级；匡海波等[7]以深交所940家中小板企业为对象，利用BP神经网络筛选出了鉴别企业违约能力最强的48个指标变量，构建了一套在供应链金融下中小企业违约风险评估的指标体系。

在机器学习算法中，因决策树算法有原理通俗易懂与数据预处理较为方便的优点，受到了较为广泛的关注。李星辰等[8]引用企业财务数据，并通过使用比较不同机器学习算法预测的准确率，得出C5.0决策树算法对公司财务预警具有较好的作用；宋宇等[9]以决策树C5.0算法为基础，采用决策树集成bagging的方法解决样本数据不平衡的问题，提高了模型的预测率；李嘉东[10]以工业上市企业数据为样本，证明了采用C5.0中随机森林的决策树集成的方式构建模型可以提升财务预警模型的预测准确率；Mathieu等[11]采用随机森林的集成算法证实了权益信贷比公式（E2C）在预测企业互换信用违约（CDS）时的优势，以及其公司债务评级和规模的影响。总而言之，在目前在有关决策树算法预测债券违约的相关研究中，较多的以企业财务数据为基础，利用决策树中的C5.0算法构建预警模型，且多数研究都证实了采用决策树集成的方式，如bagging、随机森林等能够提升原预警模型的预测准确率。

CART是决策树中的另一种算法，该算法既可以研究分类问题，可也以研究回归问题。Yang等[12]以企业财务数据为基础，使用CART算法对60家ST企业和30家非ST企业进行了信用评估与风险预测，并指出在此算法基础上使用bagging的集成方法可以大大提升模型的预测稳定性；Kelley等[13]通过对美国得克萨斯州达拉斯的房地产样本数据的研究，发现在大样本条件下CART-bagging算法的预测能力要优于传统的OLS估计。

本文采用基于CART决策树的集成bagging算法，探究非财务数据与宏观数据对预测企业债券违约的作用，同时通过构建债券违约预警模型，选取对预测企业债券违约较为关键的相关指标，以便对今后的相关研究提供便利。

二、实证分析

1.样本的选取

本文选取我国2015年～2019年期间发生债券违约企业157家，因部分非上市违约企业并未进行及时的数据披露，实际具有数据分析价值的违约企业为109家，同时选取对应行业的有存续债的未发生违约企业231家作为健康企业实证样本。数据来源为wind债券数据库。

在对违约企业数据选取的过程中，为确保整体数据的严谨性，保留了存在部分变量数据缺失的企业样本。同时，为控制变量，避免违约企业未发生债券违约年份的数据可能和发生债券违约年份的数据产生相关性从而影响模型判断，将同一个未发生违约企业的不同年份数据作为不同的样本，而违约企业仅选取违约年份的数据作为样本。

以上共得到实证样本数据1310个。其中，未发生违约企业样本数1155个，发生违约企业样本数155个，违约与非违约样本比例约为1∶7。在建模时，将未发生违约的企业样本记为“0”，将发生违约的企业样本记为“1”，同时采用分层抽样，从未发生与发生违约企业的样本中各抽取60%样本作为训练集（693个未发生违约样本，93个发生违约样本），30%样本作为测试集（346个未发生违约样本，46个发生违约样本），剩下的10%数据作为验证数据（115个未发生违约样本，15个发生违约样本），来验证模型的预测准确率。

2.预测指标变量的选取

在预测指标变量选取方面，本文参考了部分国内外权威信用评级机构如中诚信、穆迪的评级指标，并综合相关文献所选取的指标，将预测指标分为三个部分，即财务数据、非财务数据、宏观经济数据。

财务数据中包括四个评价维度：资产规模、经营能力、偿债能力、盈利能力。具体指标如表1所示。

表1 财务数据指标体系

非财务数据则包括企业管理成本、审计意见、政策支持力度、股权结构。其中，管理成本与政策支持力度因无法直接计量，从而采用管理费用/营业总收入、税收减免、政府补助这三个指标来间接体现。审计意见代表了审计机构对企业财务信息披露的认可程度，一般分为无保留意见、有保留意见，否定意见和拒绝表示意见四种情况。在本文中，将所有无保留意见记为“0”，表示该本年度该企业财务信息披露较为全面；其余计记“1”，表示该企业在财务信息披露方面存在一定问题。股权结构则以第一大股东持股比例为代表，表现企业在经营方面话语权的强弱。

在宏观数据的选取上，本文选取2015年～2019年全国居民基尼系数、PPI（生产价格指数）、M2（广义货币供应量）、社会融资规模、全国与企业所在省份的GDP。其中，为剔除物价变动的影响，对全国与企业所在省份GDP的数据采用了不变价，以2015年的物价指数作为基期计算得出。

3.决策树的构建

本文使用SPSS-Modeler软件构建决策树模型。其中，为了探究非财务数据与宏观数据对企业债券违约预测的作用，构建了三类预测模型。一类为以纯财务数据为基础所构建的预测模型，用以对照；一类为以非财务数据与宏观数据为基础所构建的单独预测模型，用以展示这两类数据本身对预测债券违约的作用大小；最后一类为在传统财务数据构建模型的基础上依次加入非财务数据与宏观数据，以表现非财务数据与宏观数据对以财务数据为基础的预测模型的提升作用。通过对这两类模型的对比分析，可以较为清楚地得知非财务数据与宏观数据在预测企业债券违约过程中的具体作用。

以下为构建决策树模型的具体步骤：

第一步：聚类。对纯财务数据的数据集D1、非财务数据与宏观数据数据集D2进行K-Means聚类分析，得出最佳分类都为三类，此时凝聚和分离的轮廓测量为0.3与0.5，都属于良好范畴，同时也是单数，利于基学习器的投票输出。

第二步：设置基学习器。根据以上聚类结果设置三个基学习器进行bagging，基学习器则采用CART决策树算法。通过对企业财务数据的分析学习预测其是否将会发生违约。

第三步：加入非财务数据。加入新指标后聚类结果将可能发生改变因此需重新对新的训练集数据进行K-Means聚类分析，得出新数据集D3的最佳分类为三类，凝聚和分离的轮廓测量为0.3，属良好范畴。重复上述步骤根据聚类结果设置三个基学习器，判断通过加入非财务数据是否能提高模型的预测精准程度。

第四步：加入宏观数据。紧接上述步骤，在加入宏观变量后对数据集D4进行K均值聚类，发现当分为两类时凝聚和分离的轮廓测量为0.4，聚类质量较高，但是由此设置两个基学习器则有可能会出现“平票”问题，同时相比于分三类，样本在分五类时的凝聚和分离的轮廓测量较优为0.2，因此选择分五类的情况，设置五个基学习器进行预测。

4.模型结果分析

（1）预测结果对比

如表2所示，以非财务数据与宏观数据所构建的预测模型准确率较高，训练集的准确率达到92.64%，在测试集为93.1%，验证集则为90%，虽然在训练集中的准确率不如以纯财务数据构建的模型，但是测试集与验证集中非财务数据与宏观数据模型的准确率均占优势。可见，这非财务数据与宏观数据本身对预测企业债券是否违约的效果也相对较好。

表2 模型预测准确率对比

同时，在加入非财务数据与宏观数据后，以原始财务数据为基础的预测模型的准确率提升效果有限。其中：加入非财务数据对模型训练集准确率的影响很低，但是在加入了宏观数据之后，训练集的准确率有了一定提升，但是仍然有限；非财务数据与宏观数据对测试集与验证集准确率的提升较训练集而言相对明显，测试集的预测准确率从原先的92.61%上升到了最终的94.09%，验证集的预测准确率从原先的89.23%上升到了90.77%。

将两类模型最终的结果进行对比后可以发现，从总体上看，以原始财务数据为基础并加入非财务数据与宏观数据的预测模型在训练集、测试集与验证集的预测准确率方面均略高于单以非财务数据与宏观数据所构建的模型，但是二者相差不明显，准确率差距仅为1%上下，说明非财务数据和宏观数据本身对预测债券是否违约具有一定作用，但加入这两项数据对以原始财务数据为基础的预测模型预测率提升作用则相对有限。

（2）预测变量重要性分析

在预测企业债券是否会发生违约过程中，某些预测指标变量起着比较关键的作用。根据前文所述，在CART算法中，变量重要性体现在其Gini差值的大小中，差值越大，变量纯度越高，重要性则越强。在本研究中，以原始财务数据预测模型（G1）、非财务数据与宏观数据预测模型（G2）以及包括财务数据、非财务数据以及宏观数据的总模型（G3）为例，选取上述三种模型结果中预测重要性排名前五的变量。

①原始财务模型

在原始财务数据模型（G1）中，重要程度前五的变量为总资产报酬率ROA、成本费用率、净资产收益率ROE、净利润/营业总收入、资产负债率，具体重要性大小如图1所示。

图1 模型G1指标变量重要性排序

总资产报酬率ROA在模型（G1）中对预测企业债券是否违约中的作用较为突出。总资产报酬率ROA=企业息税前利润/平均总资产，此指标用来判断企业运用全部资产的总体获利能力强弱，是评价企业资产营运效益大小的关键性指标。ROA较高，则说明企业对其资产的使用效率高，也意味着企业的资产盈利能力强。因此该指标才能成为预测企业是否违约变量中地位较为突出的财务指标之一。成本费用利润率是指企业利润总额与成本费用总额的比率，体现企业单位成本所创造的利润大小，该指标越大则说明企业单位成本投入所创造的利润较多，盈利能力较强，是较为典型的判断企业盈利能力的指标之一，但对企业的综合反映能力不如总资产报酬率ROA。

净利润/营业收入与净资产收益率ROE的在预测企业违约中的重要程度相差不明显。净利润/营业收入即营业收入净利率，体现企业净利润占营业收入的比率，反映企业盈利能力的大小，提高净利润在营业收入中的比重就只能减小成本，提高经营效率，但这个指标会受到非经常性损益如政府补贴等影响，抗干扰能力较弱；净资产收益率ROE，即股东权益报酬率，是企业净利润与平均股东权益的比率，也是企业税后利润与净资产的比率，该指标可以对股东权益收益水平进行较好的判断，用以衡量公司运用自有资本的运作效率。如果企业的ROE较高，则说明该企业股东投资所得收益较高，但该指标与营业收入净利率一样，存在抗干扰较弱的问题：一般而言企业负债的增加会导致ROE的上升，因为根据改进后的杜邦分析公式，ROE=净经营资产净利率+（净经营资产净利率-税后利息费用率）×净财务杠杆，而净财务杠杆=净负债/股东权益，所以如果净负债增加会在理论上使ROE增加。高杠杆无非是为了寻求高收益，但这也会增大企业的违约风险。

排名第五的变量指标为资产负债率，其作为传统财务分析指标之一，对判断企业经营状况具有较为基础的作用。资产负债率=总负债/总资产，它反映了企业总负债与总资产的比率，该指标越高表示企业的负债经营越严重，借贷风险也就越大，当资产负债率达到100%甚至超过100%时，则代表该企业已“资不抵债”处在经营崩溃的边缘。资产负债率作为一个较为宽泛的静态指标，在计算时既没有考虑企业负债的偿还期限也没有考虑企业资产的结构，因此存在较大的局限性。

②非财务数据与宏观数据模型

审计意见类别、管理费用/营业总收入、大股东持股比例、PPI、M2是非财务数据与宏观数据模型（G2）中重要性较高的五个指标，其具体重要性排序如图2所示。

图2 模型G2指标变量重要性排序

在这五条预测变量指标中，作为非财务数据的审计意见纯度最高，重要性最强，可见审计意见对于判断企业债券是否违约有着较为关键的作用。审计意见代表了审计部门对企业本年度财务报表信息披露的认可程度，财务发生危机的企业不会在财务报表中披露企业的所有信息，往往会隐瞒相关经营不善的数据，从而在审计意见类别中体现为带强调事项段的无保留意见、保留意见等；而财务状况良好的企业在财务数据披露方面则较为全面，从而在审计意见中体现为标准的无保留意见。

“管理费用/营业总收入”的纯度（G2）中排名第二，其主要间接反映企业的委托代理成本，该比率可以间接体现出企业在维持日常经营过程中所付出的成本以及效益大小。企业在委托代理的过程中较为容易出现道德风险，即管理层谋求个人私益而牺牲企业长远的发展利益，从而容易出现管理费用较高而企业营业总收入较低的情形，长此以往，企业抵御风险的能力则会大大下降，增大违约的可能性。

第一大股东持股比例、PPI、M2这三个指标的纯度相差不大，对企业的影响也较为间接，大股东持有企业多数股票，控制了企业的经营决策权，大股东的意志会在一定程度上左右企业的发展。PPI指生产价格指数，该指数的高低反映我国在一定时期内的企业生产原料价格水平的高低，PPI的变化会影响企业的生产成本、管理成本等。M2指广义货币供应量，指在银行体系之外流通中的现金加上居民与各企业的存款等，其通常反映社会总需求变化和未来通胀的压力状态，对企业的经营决策方向及业务开展情况会产生一定影响。

③财务数据、非财务数与宏观数据

在包括财务数据、非财务数据与宏观数据的模型（G3）中，排名靠前的变量指标为审计意见类别、总资产报酬率ROA、成本费用率、净利润/营业总收入、净资产收益率ROE，具体重要性大小如图3所示。

图3 模型G3指标变量重要性排序

从图3中可见除审计意见类别为模型G2中的非财务指标外，其余变量均为模型G1中重要性排名靠前的财务指标，且模型G3中排名前五的指标中没有宏观数据变量。究其原因，虽然宏观环境的变化的确会对债券违约情况产生影响，但这种影响是间接的，宏观经济环境的好坏会反映在企业的财务状况上，如宏观经济环境恶化，那么发债企业的财务状况则可能会受到波及，这将会反映在某些具体财务指标的变化上。如在新冠疫情期间，社会生产停滞，居民消费受到抑制，某些企业的营业收入下降，净利润降低甚至为负，导致无法按时偿还所发出的债券利息。因此，重要性较高的变量大多为财务指标或非财务指标。

三、结语

本文考虑了非财务指标与宏观数据在预测企业债券违约中的作用，并使用CART-bagging算法构建了三类预警模型，一是以纯财务数据构建的预警模型，二是以非财务数据与宏观数据单独构建的预警模型，三是在以财务数据为基础并依次加入非财务数据与宏观数据所构建的模型。研究发现：非财务数据与宏观数据本身对预测企业债券违约就有一定的作用，且其预测准确率不亚于单纯以原始财务数据所构建的模型；在原始财务数据为基础的模型中依次加入非财务数据与宏观数据后，模型测试集与验证集预测准确率都获得了不同程度的提升，但提升仅为1%左右。此结果证明了非财务指标与宏观指标对优化以财务数据为基础的预警模型的作用有限。

同时，本文也对这三类模型中排名前五的变量指标进行了单独分析，阐述了其对预测企业债券违约的重要意义。其中非财务数据里的审计意见类别对预测结果的影响较为显著，而宏观数据的影响则比较有限，主要是因为宏观环境对企业的影响是间接的。同时，财务数据中的总资产报酬率ROA、成本费用率、净利润/营业总收入、净资产收益率ROE也在预测债券违约中有着重要的作用，在今后的相关研究中可对这些指标加以重点关注。