基于稀疏主成分的我国上市公司信用风险评价与预测*

2020-11-02喻胜华

经济数学 2020年3期

喻胜华,陈珊

(湖南大学经济与贸易学院，湖南长沙 410079)

1 引言及文献综述

对于上市公司来说，信用风险是指上市公司在与个人或者其他法人企业交易时，为维持或扩大经营而向金融机构贷款、在资本市场进行股权或债券融资或向其他企业借款的过程中存在的拖欠本金或利息甚至不能偿还债务等行为的可能性.随着我国上市公司队伍不断发展壮大，上市公司作为资金融入的主要对象，其交易的规模也逐渐増加，相伴而来的信用风险毫无疑问也在加剧，信用风险事件时有发生.仅2018年一年，我国受到特殊处理的上市公司就有54家，原因涉及重大亏损、经营受损、财务破产、审计否定和重大诉讼等.共有31家企业因连续两年亏损受到特殊处理，占全部受到特殊处理上市公司的57.41%，说明经营不善和亏损是我国上市公司产生信用问题的最重要原因.

要评价上市公司的信用风险，首先要构建指标体系.对于指标的选取一般集中于代表公司营运、偿债、发展、现金流能力的各种财务指标.比如：陈静选取了净资产收益率、资产负债率、流动比率和总资产报酬率这4个指标[1].陈晓等人选用营运资本/总资产、权益乘数、主营利润/总资产、应收账款周转率、留存收益/总资产等6个指标[2].吴世农和卢贤义选取主要反映公司营运能力、盈利能力、偿债能力和发展能力等方面的22个财务指标进行预测分析[3].章之旺等认为前一期的经营现金流量水平对于信用风险有非常好的预测效果[4].已有研究对于公司的治理因素、公司规模等非财务指标考虑较少，而非财务因素通常是信用风险的深层次原因，对于信用风险的评价与预警也非常重要，需要在模型中加入这些指标.其次是模型研究样本配对比例与实际情况不符.目前较多研究还是采用违约公司与非违约公司1∶1配对的方法选择样本.实际上，我国每年信用正常的企业数量远远高于信用违约企业的数量.绝大多数上市公司的信用还是良好，因此采用1∶1的比例进行违约公司与非违约公司的配对高估了违约出现的可能性.

关于信用风险的评价主要有定性分析方法、传统定量分析方法、现代信用风险评价方法和人工智能方法.定性分析方法容易出现因人而异的信用风险评价结论，在稳定性、一致性和客观性上较弱.为此，学者们尝试将数学和统计等方法引入信用风险的评价之中，信用风险评价开始转入更为客观和科学的数理研究和应用阶段，其中基于Logistic回归模型的评价方法是最主要的评价方法之一.Logistic模型具有限制条件少、对数据和变量的适应性强等优势.

Martin以1970-1977年间58家面临财务风险的银行为样本，选取净资产收益率等8个指标构建Logistic回归模型对银行的信用风险情况进行预测，认为Logistic模型在准确性和稳定性方面都表现得很出色[5].Laitinen选取2799家芬兰公司的年报数据，建立包含15个指标的Logistic信用风险评价模型，研究认为公司高管数量、是否存在坏账、延期支付等指标都能影响公司的信用水平[6].Westgaard利用挪威数据建立包括公司地区、公司存续时间及多个财务指标的Logistic模型，研究发现预测准确率达到92%以上[7].Albuquerque等在研究中考虑了地区因素对信用风险水平的潜在影响，认为Logistic模型在准确率方面高于其他模型[8].郑享清等人将主成分分析与Logistic模型相结合，从17个原始变量中提取出7个主成分作为Logistic模型的输入变量，取得了良好的信用风险评价效果[9].方匡南等人把Lasso与Logistic模型相结合，用Lasso-Logistic模型进行信用风险评价，从而对关键因素的把握更准确[10].

Zou等把主成分的求解转化为Lasso惩罚回归问题，在此基础上再引入弹性网或其他惩罚结构，于是得到了稀疏主成分[11].稀疏主成分方法是对传统主成分方法的一个很好改进，达到了有效降维的目的并具有更好的可解释性.该方法已被广泛应用于特征提取、综合评价和压缩感知等领域.本文拟把稀疏主成分方法与Logistic模型相结合，先提取财务指标中的稀疏主成分，再带入Logistic模型进行信用风险评价.考虑到输入变量之间往往会存在比较严重的多重共线性和数据冗余，尝试使用稀疏主成分对输入变量进行降维，得到若干代表不同方向信息的稀疏主成分因子，作为Logistic回归模型的输入变量.采用Logistic模型进行实证研究.加入公司规模和公司治理方面的指标：基于公司规模以及公司治理对上市公司信用风险可能存在的影响，本文在指标的选择时，加入了代表公司规模方面的指标以及代表公司治理方面的指标，以期更加全面地对上市公司信用风险做出评价.扩大配对样本比例：考虑到现实中非ST公司与ST公司在所有上市公司所占的比例，本文在进行样本选取时，决定扩大配对样本比例进行度量研究，即以1∶3的比例进行配比.

2 我国上市公司信用风险评价

2.1 样本公司与指标选取

本文主要关注我国沪深两市A股中特殊处理的上市公司.根据国泰安数据库，2018年沪深两市被ST的A股上市公司共51家，其中被ST的有11家，被*ST的有40家.在选取配对的公司时遵循以下3个原则：①优先考虑在证监会行业分类中与ST公司所处二级行业一致的公司；②优先考虑资产规模相近(资产规模差异在10%以内)的公司；③优先考虑业务相近的公司.根据上述方法，本文共得到51家ST公司及与之对应的153家信用正常公司，共204个研究样本.

确定了上市公司样本后，还需选择具体的变量指标.为了尽可能全面地反映被研究公司的信用状况，本文从每股指标、盈利能力、偿债能力、成长能力、营运能力、现金流量及资本结构这7个方面进行初步的指标选取.接着对各指标进行显著性检验，即对各指标在ST公司与信用正常公司之间是否存在显著性差异进行检验.由于总体分布不确定，首先选择非参数的Kolmogorov-Smirnov检验判断各指标是否服从正态分布，对服从正态分布的指标进行独立样本t检验，对不服从正态分布的指标进行Mann-Whitney检验.本文根据以上方法判断两类公司指标之间的差异性，剔除t检验和Mann-Whitney检验中不存在显著差异的指标，最终保留25个指标.它们分别是：每股收益(X1)、每股净资产(X2)、每股净现金流(X3)、净资产收益率(X4)、资产净利率(X5)、成本费用利润率(X6)、净利润/营业总收入(X7)、流动比率(X8)、速动比率(X9)、产权比率(X10)、利息保障倍数(X11)、每股收益增长率(X12)、净利润增长率(X13)、总资产增长率(X14)、存货周转率(X15)、应收账款周转率(X16)、固定资产周转率(X17)、总资产周转率(X18)、净利润现金含量(X19)、营业收入现金含量(X20)、总资产现金回收率(X21)、资产负债率(X22)、长期借款/总资产(X23)、流动负债/负债合计(X24)、权益乘数(X25).

2.2 稀疏主成分分析

用25个财务指标刻画上市公司的信用风险状况，指标数量较多，并且这些指标之间存在一定的相关性，信息冗余不利于后续的建模.因此，首先考虑使用稀疏主成分方法对财务指标进行降维、减少数据冗余，用较少的主成分代表前述25个财务指标中的大部分信息，有助于简化模型与计算.

根据稀疏主成分结果，前6个稀疏主成分累计方差贡献率达到75%.总体而言，前6个稀疏主成分依然保留了原有25个财务指标的大部分信息，变量个数从25个减少至6个，有效减少变量个数、简化模型，降维效果明显(见表1).

表1 稀疏主成分特征值与贡献率

根据载荷信息，可写出各稀疏主成分的表达式.

SPCA1=0.023X3+0.189X5+0.324X6+0.642X7+0.014X10+0.654X12+0.126X15-

0.008X17+0.029X19+0.043X21，

SPCA2=0.059X2-0.074X3-0.030X6-0.211X10+0.107X14+0.159X18-0.058X19-

0.083X22-0.688X23+0.652X24，

SPCA3=0.355X1+0.382X2+0.723X3+0.043X8+0.153X13+0.289X14+0.171X18+

0.131X21-0.025X22-0.014X24，

SPCA4=-0.025X1+0.071X2+0.074X3+0.029X10-0.017X13-0.106X14-0.025X15-

0.045X16+0.899X20+0.285X21+0.024X24，

SPCA5=-0.111X1+0.162X3+0.027X6+0.105X14-0.792X16+0.128X17+0.405X18+

0.391X20-0.007X21+0.026X23+0.053X24+0.017X25，

SPCA6=0.038X1+0.025X2+0.043X3+0.130X6+0.218X8+0.197X9-0.020X12-

0.084X14-0.004X15+0.186X21-0.088X22-0.102X23-0.128X25.

可以看出，对SPCA1贡献较大的是X6(成本费用利润率)、X7(净利润/营业总收入)、X12(每股收益增长率)，说明SPCA1主要反映的是公司的获利能力.对SPCA2贡献较大的是X10(产权比率)、X23(长期借款/总资产)、X24(流动负债/负债合计)，说明SPCA2主要反映的是公司的资本结构和偿债能力.对SPCA3贡献较大的是X1(每股收益)、X2(每股净资产)、X3(每股现金流)，说明SPCA3主要反映的是公司的每股综合实力.对SPCA4贡献较大的是X20(营业收入现金含量)和X21(总资产现金回收率)，说明SPCA4主要反映的是公司的现金流水平.对SPCA5贡献较大的是X16(应收账款周转率)、X18(总资产周转率)、X20(营业收入现金含量)，说明SPCA5主要反映的是公司的营运水平.对SPCA6贡献较大的是X8(流动比率)、X9(速动比率)、X21(总资产现金回收率)，说明SPCA6主要反映的是公司的短期偿债能力.

2.3 Logistic模型风险评价与预测

首先对6个稀疏主成分进行描述性统计(见表2).各公司获利能力因子差异最大，SPCA1最大值为2.74，最小值-19.2，二者相差21.94，标准差1.42，大于其他稀疏主成分，这是由稀疏主成分的算法决定的.第一主成分方差最大，第二主成分方差次之，各稀疏主成分因子的方差及标准差呈现依次递减的规律.各公司资本结构因子的差异和每股综合实力因子的差异仅次于获利能力因子，前两者标准差为1.16.短期偿债能力因子的差异最小，标准差为0.96.

表2 变量描述性统计

表3第2列为6个稀疏主成分因子对因变量风险大小的回归结果.SPCA1和SPCA2在1%的显著性水平下是显著的，说明公司获利能力因子和资本结构因子对公司信用风险大小有明显的影响.公司获利能力因子的系数为-2.55，说明公司获利能力因子越大则公司信用风险越低.公司资本结构因子的系数为-0.34，说明公司资本结构因子越大，公司信用风险越低，即负债占所有者权益比重越低、长期借款占总资产比重越低、流动资产占负债比重越高，SPCA2越大，公司信用风险随之降低.公司的综合实力因子和现金流水平因子在5%的显著性水平下是显著为负的，说明公司综合实力因子越大、现金流水平因子越大，公司越不容易出现信用风险.公司营运水平因子在10%的显著性水平下是显著为负的，说明公司营运水平越高，越不容易出现信用风险.短期偿债因子不显著，说明短期偿债因子对公司信用风险水平的影响不显著.

表3 基本回归模型的参数估计

第3列，第4列和第5列分别在前一列的基础上加入了第一大股东持股比例、市值及质押比例这3个非财务指标，考察非财务指标对公司信用风险水平的影响.其中第一大股东持股比例的系数为-0.02，系数不显著.公司市值的系数为-0.141，显著为负，说明公司市值对于信用风险水平有显著的负向影响，公司市值越大，信用风险水平越小.一是因为公司市值大说明发展较为成熟，业务较为稳定，收入来源渠道相对丰富，业绩较稳定；二是因为规模较大的公司有一定行业地位，资金实力强，融资渠道较丰富，发生信用风险的概率低于市值较小的公司.公司质押比例的系数为0.26，显著为正，说明公司质押比例对信用风险水平有显著的正向影响，公司的质押比例越高，信用风险水平越高.有研究表明当企业面临融资约束或财务困境的时候，大股东更倾向于股权质押.信息不对称理论有助于解释这一现象，当大股东愿意进行股权质押时，被质押公司通常可能隐含财务问题，股权质押成为大股东缓解资金缺口同时不暴露财务问题的一种短期融资策略.

用表3所示的第4个模型进行预测.首先从204个样本中随机选择150个样本作为训练组，其余54个样本作为测试组，其中17家为ST或*ST，37家非ST公司.预测结果见表4.

表4 稀疏主成分-Logistic模型预测结果

由表4可知，54个样本总体预测准确率92.59%.具体来看，Logistic模型将17家ST公司中的16家正确分类到信用风险高的类别，仅1家分类错误，准确率达到94.12%.同时，Logistic模型将37家非ST公司中的34家正确分类到信用风险低的类别，3家分类错误，准确率达到91.89%.

同时，用相同的训练组和测试组，使用主成分-Logistic模型进行预测，对比两个模型的预测效果，主成分-Logistic模型预测结果见表5.

表5 主成分-Logistic模型预测结果

由表5可知主成分-Logistic模型总体预测准确率为87.04%.具体来看，主成分-Logistic模型将17家ST公司中的15家正确分类到信用风险高的类别，有2家分类错误，准确率达到88.24%.同时，Logistic模型将37家非ST公司中的32家正确分类到信用风险低的类别，5家分类错误，准确率达到86.49%.

对比两个模型的预测结果，稀疏主成分模型的预测准确率高于主成分模型，犯一类错误和二类错误的比率均低于主成分模型.这可能是因为使用主成分因子训练模型时更容易受到噪声信息的干扰，出现过度拟合，导致对测试组进行预测时效果不如稀疏主成分模型.

另外，本文对比加入非财务指标的模型与未加入非财务指标模型的预测效果.表6为模型中剔除第一大股东持股、市值及质押比例这3个非财务指标的预测结果.

由表6可知剔除非财务指标模型总体预测准确率为78.95%.具体来看，17家ST公司中有4家分类错误，13家分类正确，准确率为76.47%.同时，模型将37家非ST公司中的32家正确分类到信用风险低的类别，5家分类错误，准确率为86.49.模型在对ST公司的预测准确率上较有非财务指标模型下降了17.65个百分点，准确率降低了18.75%，下降明显.模型在对非ST公司的预测准确率上下降了5.4个百分点，降幅为6%.由此可以看出加入非财务指标对于提高预测准确率有较大帮助.

表6 剔除非财务指标模型预测结果

3 结论与政策建议

本文在分析信用风险评价模型特点与实适用性的基础上选用Logistic模型对我国上市公司进行信用风险评价.在实证研究中通过扩大样本配对比例，增加上市公司的公司治理方面和公司规模方面的指标变量，以及结合稀疏主成分分析法对财务指标进行处理等方式对模型进行改进.结果表明改进的Logistic模型对我国上市公司的信用风险预测具有良好的稳定性和很高的准确性，其预测精度可达90%以上.在与其他模型的对比研究中可以发现Logistic模型具有独特的优势.首先是模型能够放宽一般线性模型中变量的假设条件，对变量分布不进行限制，这使得模型适应性更强.其次，Logistic模型能够计算出违约的概率，这使得结果更为直观.此外，模型可以涵盖多种指标，可以根据实际情况灵活构建合适的模型.为此，提出如下政策建议：

首先，引导上市公司加强公司治理、树立诚信意识.在对上市公司进行信用风险评价时，采用的大部分数据仍然是来自于公司报表的财务指标与财务比率.可以说，财务报表的客观性、真实性、准确性对于模型评价结果的准确性和稳定性都有重要的影响.一旦出现财务造假现象，则很难对信用风险给出准确评价.因此，上市公司应自觉树立诚信意识和正确的经营观念，提高财务报表质量，确保数据真实、客观、准确，拒绝财务造假行为，提高信用风险评价模型的精度和稳定性.

其次，完善相关法律、法规，对于不遵守规定、弄虚作假等行为采取严厉的惩戒措施.完善会计准则和规范，对财务信息披露做出统一规定，提高违规成本和代价，减少信息披露方面的违规行为.加大金融监管机构对上市公司信息披露的监督与管理.充分发挥律师事务所、会计师事务所等信息提供者和信息传播者的监督作用，形成全方位立体式的监督体系，最大限度地保证上市公司的有效信息披露行为，切实保障上市公司财务报表数据的真实性和可靠性，使信用风险评价模型结果更真实可靠.

最后，加快建立和完善信用信息数据库.根据一些学者的研究，KMV模型等现代信用风险评价模型理论基础坚实且在实际应用中也能取得良好的效果.然而由于我国微观数据缺失、没有建立起相关的违约数据库，这些模型在我国的使用因为缺乏数据基础而难以实施.因此，应该加快上市公司违约数据等微观数据的收集整理工作，建立和完善企业相关的数据库，加强银行等金融机构之间的信息资源共享机制.