基于W-SVM的民营环保企业信用风险预警模型*

2020-11-02潘宇桐孙英隽

经济数学 2020年3期

潘宇桐，孙英隽

(上海理工大学管理学院，上海 200093)

1 引言

绿色公司债属于绿色债券的细分种类之一，2015年是我国绿色公司债市场的元年，相对发达国家来说，起步较晚.但随着2016年《绿色债券发行指引》和《关于开展绿色公司债券试点的通知》的发布，绿色公司债拉开了其高速发展的序幕.时至今日，绿色公司债市场仍保持强劲的上升趋势，其发行主体和发行区域都呈现出多元化的趋势，债券期限主要以中期债券(3-5年为主)，呈现出短期化的趋势，相较于普通公司债，绿色公司债具有一定的发行成本优势，并且普遍拥有较高的债券评级和较低的违约率.

2016-2018年中大型国有企业发行了较多的绿色公司债券，但是随着2019年各个地方政府绿色债券扶持政策的持续推出，可以预见将会有越来越多的民营企业加入发行绿色公司债券的行列中(翁智雄等(2018)[1]).在这样的背景下由于民营企业在资金实力，企业规模，融资渠道，企业管理等方面都具有先天的劣势，总体经济实力不强(郭莽(2019)[2]).同时环保企业普遍具有项目前期技术设备投入资金量大，项目回收期较长，项目带有部分公益性质，对于民营企业的资金实力和现金流量管理又提出了更高的要求.绿色公司债至今还未发生实质性违约的情况，这主要是由以下几个原因所导致的.首先国内市场起步较晚，2016年第一支绿色公司债——G16嘉化1才得以发行，其次绿色公司债市场仍处于发展中，发行主体主要还是集中在国有企业中，最后绿色公司债券数量较少也可能是原因之一.

2018年，随着环保产业在初期急速扩张所带来的资金压力不断积累以及“金融去杠杆”政策深化改革，环保企业频繁发生信用风险事件，涉事企业又以民营企业为主，有7家民营企业出现了信用风险事件.同时作为行业龙头企业，国营环保企业中节能也发生了连续两年归母净利润为负，4只债券暂停上市的事件.2019年下半年又有35亿元的绿色公司债到期，大量绿色公司债的到期日集中在2020-2023年，这些事件的发生给我们敲响警钟.建立合理准确的风险预警机制，可以帮助环保企业降低融资成本，拓宽融资渠道，同时也是拓宽绿色公司债市场，帮助其健康稳健发展的积极手段.

对于企业风险预警模型的建立，国内外学者已经做出了很多的研究.国外学者的研究起步较早，Beaver(1966)[3]首次使用了单个指标变量对企业财务风险进行定量分析，他发现部分单个财务指标在规模相当的倒闭企业和经营较好的企业之间有较大的区别.而Altman(1968)[4]对比同样数量的发生和未发生财务危机的企业，挑选出22个财务指标构建了Z-score模型，这是最早运用多元线性判别分析构建的企业风险预警模型.此后Martin(1997)[5]使用逻辑回归分析构建了财务风险模型，对银行样本进行判别，得到了89%的正确率.与此同时，国内的风险预警模型研究也在高速发展，周首华和杨济华(1996)[6]在Z-score模型的基础上提出了F分数模型，并在模型中引入现金流指标，弥补了Z-score模型的不足，赵栓文和耿歆雨(2016)[7]将Z-score模型和F分数模型同时运用于企业财务风险测量，发现二者结论不尽相同，他们认为Z-score模型对国内企业适用性不强.我国逻辑回归分析模型在风险预警中的应用也日趋成熟，田宝新和王建琼(2017)[8]采用是否因财务状况异常被ST作为企业发生风险的判断依据，使用逻辑回归模型构建风险预警模型，并创新性加入了非财务指标，最终发现财务困境的发生是可以被预测的.李长山(2018)[9]也采用逻辑回归模型构建了企业财务风险预警模型，结果表明逻辑回归模型准确率非常高，达到98.6%.近年来伴随着机器学习技术快速发展，建立风险预警模型有了更多方法.面对企业的财务指标种类繁多，如何合理地挑选及使用成为构建预警机制的重要一环(宋彪等(2015)[10]).相较于传统的计量模型，支持向量机具有其本身独特的算法优势，尤其是Z-score和逻辑回归模型都属于线性分类模型，而支持向量机在高维度、非线性的分类的领域具有得天独厚的优势，可以通过运用核函数，较好地解决非线性分类问题.其分类准确率高，鲁棒性强并且支持向量机模型面对小样本数据时也具有更好的表现.谷慎和汪淑娟(2019)[11]以我国6个碳金融试点市场的月度数据为样本，采用支持向量机对碳金融风险构建预警模型，发现正确率达到91.86%.沈彦菁等(2019)[12]也采用支持向量机模型对嘉兴市33305家小微企业进行风险预测，最终也获得了较高的预测结果准确率.Nada等(2017)[13]通过对法国中小企业的财务困境进行预测发现，支持向量机模型相较逻辑回归模型表现更加优秀.在此基础上，普通支持向量机在处理数据样本量小、正负样本数量不平衡的数据时，不平衡的样本数量会带来信息量差异问题.加权支持向量机(W-SVM)通过对不同样本类别引入不同权重，可以使得多数类信息不再占主导地位，少数类信息可以得到相对充分的表达.贾银山和贾传荧(2005)[14]通过研究证明了在面对样本数量不平衡的数据时，加权支持向量机相较于普通支持向量机具有更好的性能，尤其对于数量较少的负类样本，三次实验的错误率相较普通支持向量机平均减少15.24%.因此，研究认为加权支持向量机是构建民营环保企业风险预警模型的合理选择.

预警模型的设计以民营环保企业为研究对象，针对该类企业现阶段在绿色公司债市场中可获得的样本量较少，正负样本数量不平衡，常见模型精度较差等问题，通过使用加权支持向量机(W-SVM)构建信用风险预警模型，模拟绿债市场中样本实际情况，最终发现相较于其他传统预警模型，加权支持向量机(W-SVM)具有更高精度.

2 算法介绍

2.1 加权支持向量机

支持向量机(Support Vector Machine,SVMs)是一种基于Vapnik所提出的统计学习理论(Statistical Learning Theory)的机器学习方法，其最基本的中心思想是在所选取的样本数据集Z={(Xi,Yi)|Xi∈Rn,Yi∈{+1,-1},i=1,2，…,m}中，寻找能使得样本正确分类的超平面，并且选取最优超平面使得两个间隔面之间距离最大即间隔(Margin Width)最大化，见图1.

图1 支持向量机分类原理

假设存在超平面〈w,x〉+b=0，式中w为超平面的法向量，b为其偏移量.运用拉格朗日乘子法则将上述优化问题用方程描述为

(1)

s.t.yi(〈w,xi〉+b)-1+εi≥0,i=1,2,…,m,

(2)

andεi≥0.

(3)

式中，εi为松弛变量；C为惩罚量.

在处理实际问题的过程中，很多时候会有特异点的存在导致无法将两种不同类别的数据点完全分割开，因此引入软间隔(Soft Margin)的方法，在方程中添加松弛变量εi和惩罚量C.同时，为了使得支持向量机在面对非线性分类的问题时具有优秀的性能，运用核函数(Kernel Trick)的方法将原有的输入变量X从输入空间投影到更加高维度的空间之中.其中，核函数k(xi,x)应该是特征空间中的一个内积，即k(xi,x)=〈φ(xi),φ(x)〉.常见的核函数有

线性核函数k(xi,x)=φ(xi·x),

(4)

高斯核函数k(xi,x)=e-γi‖x-xi‖2,

(5)

Sigmoid核函数k(xi,x)=1/[1+e(β(xi·x)+b)].

(6)

此时将拉格朗日方程转化为对偶问题得到表达式

(7)

s.t. 0≤ai≤C,i=1,2,…,m

(8)

(9)

式中，αi为拉格朗日乘子.标准的支持向量机假设类别分布平衡，各类样本数大致相同，此时具有较高精度，但是对于各类别中样本数不平衡的数据，会造成样本数较少的类别中被错分的比例变大，导致标准支持向量机的性能大大下降.然而，加权支持向量机面对样本的数目差别，通过对不同类别样本赋予不同的权值以平衡信息量，可以在很大程度上减小样本数目严重不平衡对模型性能带来的影响.加权支持向量机原始问题为

(10)

s.t.yi(〈w,xi〉+b)-1+εi≥0,i=1,2,…,m

(11)

andεi≥0.

(12)

其中，syi>0是对类yi的权重,syi值越大，代表该类样本越重要，对于分类错误实际损失函数∑εi按照不同类别进行加权，体现出样本量较小的类别更加重要，此时对偶拉格朗日表达式为

(13)

s.t. 0≤ai≤Csyi,i=1,2,…,m

(14)

(15)

此时判别函数为

(16)

2.2 样本数目平衡加权

在非线性支持向量机模型中，依据KKT条件可得下列公式：

ai(yi(〈w,φ(xi)〉+b)-1+εi)=0，

(17)

βiεi=(C-ai)εi=0.

(18)

式中，εi为松弛变量，且εi≥0；C为惩罚参数；ai和βi均为拉格朗日乘数且ai,βi≥0.分析式(17)和式(18)可知，当ai=0，εi=0时，Xi被正确分类；当0

假设正类样本中正类边界支持向量数为NBSV+，负类样本中边界支持向量数为NBSV-；正类样本中支持向量数为N+，负类中为N-；正类样本数为m+，负类样本数为m-.由式(15)可知：

(19)

(20)

由边界支持向量的个数小于正类支持向量个数，且边界支持向量中ai=Csyi可知：

(21)

此外，支持向量中ai≤Csyi，因此可知：

(22)

综上：

(23)

同理：

(24)

将式(23)和(24)进行变换，得到

(25)

(26)

由式(25)和(26)可知，当正负样本数量不相等时(m+≠m-)，则正负类别中支持向量比例的下界和边界支持向量比例的上界不相等，这可能会导致样本数量较少的类别中，样本被错分的比例更大，因此为消除样本数量不平衡对模型识别精度产生的影响，使得两类样本中误差率得到平衡，则令

(27)

由式(20)和(27)可知，最终比例关系为

s+/s-=m-/m+.

(28)

因此，在对同类别的样本赋予相同的权值，不同类别的样本赋予不同的权值，最终使得权值比例为样本量比例的反比.在进行模型训练时计算损失函数乘上对应的权值，使得不同类别的样本对于损失的贡献更加平衡以获得更高模型精度.假设对于样本数量较大的类别α，采用权值sα.对于样本数量较小的类别β，采用权值sβ，则sβ与sα的比例关系应为sβ/sα=α/β.

3 研究设计

3.1 样本选取及指标选择

3.1.1 样本的选取

对于投资者而言，绿色公司债市场的风险主要集中在发行公司的信用风险，而企业本身的管理能力和财务状况是建立其信用风险预警机制的重要因素，为保证企业具有足够的能力偿还债务及利息，需要建立测量以及评价环保财务状况的模型，而环保行业属于新兴行业，企业样本数量较少，并且国有企业一直在其中处于主导地位，可获取的民营企业样本数更加稀少.不止如此，发生信用风险的样本与未发生信用风险的样本相比数量差距很大，如何同时兼顾两者的平衡和样本总量的充足也成了难题之一.

为模拟实际市场环境中样本，基于数据的可得性，采用部分上市企业样本.调研了中信证券环保行业类市场中所有民营企业，剔除数据不完整的样本，最终获得58家上市民营环保企业样本，之后添加入2018年至2019年上半年发生过信用风险事件的7家非上市民营环保企业(见表1)，最终获得65家企业样本数据，所有数据均来自Wind数据.

表1 2018年至2019上半年发生信用风险事件的民营环保企业

在58家上市企业中，有6家企业因为连续两年归母净利润为负导致其被证监会特殊处理，参照相关研究，认为被特殊处理代表这些公司发生了财务危机，若其发行绿色公司债，则有很大可能性会难以按期偿还利息，发生信用风险事件，于是将这6家公司样本与上文提及已经发生信用风险的7家民营环保企业样本共计13组样本归为负样本数据，将其余52组样本归为正样本数据.样本配对比例为1∶4,非一比一配对的样本更加符合实际情况，对于常见模型来说不平衡的样本的配对数量不利于模型精度，但是加权支持向量机(W-SVM)可以对样本权重的进行再设定，从而解决这一问题.

参照相关研究，为预测企业未来财务状况，选取预测期为两年，对预警模型而言，第(t-1)年的财务状况是企业第t年是否会发生违约风险的直接原因，研究意义不大；而如果选取比第(t-2)年更加提早的数据可能会过于提前，从而对研究结果产生影响，这样的研究结果无论是否良好都会使人产生怀疑.综上所述，我们决定使用第(t-2)年的数据来构建预警模型.

3.1.2 指标选择

不同的公司发生信用风险的特征各不相同，构建预警模型时，需要从多种角度进行考量.而相较于普通企业，民营环保企业具有如下几个特征：

第一，环保企业的项目一般前期投资较大，回收周期较长，未来资金收益具有浮动性，因此企业筹资十分困难.而民营企业自身财务水平有限，对于资本市场的理解不够深入，筹资过分依赖银行贷款，资本结构单一，难以做到多元化融资渠道，更加重了企业的筹资风险.

第二，环保行业作为新兴行业，虽然拥有较强的技术壁垒，但民营企业普遍存在起步时间短、管理经验欠缺、自身资金有限等问题，其次环保企业项目单一，对于政府的资金、财税、产业政策依赖性较强，相较于国有企业更加没有优势.因此，自身的投资活动受到的局限性更强，对于项目投资风险管理的要求更高.

第三，相较于普通行业，环保企业在运营过程中难以避免存在更严重的赊销、应收账款过高、存货过多等资金占用情况，这对于企业的营运能力是一项巨大的挑战.如何构建合理的财务战略，实现稳定长期的盈利模式，最终保障企业的可持续发展成为民营环保企业需要面对的另一大难题.

第四，由于环保企业项目前期投资成本过高，面对的下游客户大多为政府和国有企业，缺乏足够议价能力的同时，现金流的回收通常也需要较长的时间，为增长营收，企业在承接项目的同时也牺牲了自己短期的现金流，也使得资产结构更加恶化.一旦出现现金流断裂，民营企业在筹资能力单一的情况下难以在短期内获得可替代的融资渠道，这也使得民营环保企业的现金流管理更加重要.

因此，在财务指标的选择方面，力求做到所选择指标具有代表性，能体现企业财务状况，同时指标数据具有可得性，更加结合民营环保企业本身的财务特征.最终从企业盈利能力，资产结构，偿债能力，营运能力，现金流量，成长能力共6个方面，挑选了22个变量(见表2)，共1430个数据，作为判断企业是否会发生信用风险事件的依据，用以构建模型.

表2 财务指标

3.2 数据处理

由于样本选取的22个财务指标之间可能存在数量级差异，为保证可比性和预测的准确，在进行W-SVM模型分析前，采用Z-score方法对数据进行标准化处理，处理后的数据将迎合标准正态分布.

研究中所选取的正负样本之间相互独立，对每个变量在正负样本中是否存在显著差异性进行检验.检验由两部分组成，首先采用K-S检验对标准化后的变量是否符合正态分布进行检验，随后对于符合正态分布的变量采取独立样本T检验，对于不符合正态分布的变量采取Mann-Whiney U检验，检验结果见表3.

表3 变量差异显著性检验结果

从表中可以看出在∂=5%的显著性下变量X12，X16和X17在正负样本中具有显著性差异，而在∂=10%的显著性下X8，X11，X12，X13，X15，X16和X17共计6个变量在正负样本中具有显著差异，其中现金流量指标变量3个，营运能力指标变量2个，偿债能力指标变量一个，检验结果基本与指标设计时预期基本一致.

为与研究所设计预警模型进行比较，将采用常见的Logistic模型进行比较，由于Logistic模型对于指标变量间的共线性较敏感，将采用主成分分析法对指标变量进行降维.通过SPSS软件对指标变量进行KMO检验和Bartlett球度检验，检验的结果KMO取样适切性量数为0.666，Bartlett球度检验显著性为0，因此主成分分析法具有较好适用性.最终选择了特征根大于1的 6个主成分(见表4).

表4 总方差解释

3.3 预警模型构建

3.3.1 数据集分割

加权支持向量机(W-SVM)对于小样本，高维度分类具有很好的准确性，这是由于在分类的过程中，支持向量机只依赖支持向量(SV)来构建分割的平面，从而对于特征指标的高维度较不敏感，而线性不可分的情况.支持向量机采用核函数(Kernel Trick)的方法将输入的变量投映入更加高维的空间中，再采用线性分割的方法对模型进行训练，因此，参考相关研究，将上文选定的22项指标变量直接作为输入变量构建加权支持向量机(W-SVM)预警模型.为保证模型的有效性，按照1∶4的比例初步分割测试机与训练集，同时为了在训练后的模型中选定最优模型参数，即选定效果最佳的模型.在初步选定的训练集中再次按照1∶4的比例分割出验证集和最终训练集，以避免通过预测集筛选模型参数所导致的信息泄露.为保证模型参数选择最优，采用五折交叉验证法(5-fold Cross Validation)将初步选取的训练集分割为5份，选取其中一份作为验证集，其余4份为训练集，进行训练和验证共计5次，使得每份数据都成为一次验证集，最终依据平均验证集准确率表现选择模型.

3.3.2 参数选择及预测结果

研究采用网格筛选法，控制惩罚参数C最小值为0.01，最大值为10,共计使用50个惩罚参数，核函数采用线性核函数、高斯核函数、多项式核函数和Sigmoid核函数4种常见核函数，进行筛选.不同类别样本权值采用样本数目加权，对样本量较小的类别采取更高权值，样本量较大的类别采取更小权值，最终正负权值比为1∶4.

综上模型最终所选择的惩罚因子为C=1.5264，核函数为线性核，最终加权支持向量机(W-SVM)信用风险预警模型测试集准确率为100%.

3.3.3 模型稳定性检验及模型比较

由于可获得的样本量较小，模型预测的准确率存在偶然性.为了验证模型是否稳定，再次使用五折交叉验证法(5-fold Cross Validation)，将65组样本分割为5份，4份作为训练集对上文中设计的财务预警模型进行训练，并将另一份样本作为预测集，通过5次预测最终对模型稳定性进行检验(见表5)，并选取平均预测集准确率与其他模型进行比较.

表5 交叉验证下加权支持向量机模型准确率

在用来比较的模型方面，采用Logistic回归，普通支持向量机以及传统Z值打分法构建信用风险预警模型，与加权支持向量机预警模型进行比较.

构建Logistic回归信用风险预警模型时，为避免共线性对模型精度的影响，采用主成分分析法降维后的6组因子作为输入变量，最终结果显示因子5和因子6在回归模型中具有显著性，因子5中X17(全部资产现金回收率)、X15(经营性现金净流量/营业总收入)系数较大，因子6中X12(应收账款周转率)系数较大.普通支持向量机模型也采用网格搜索法、分割验证集、交叉验证法确定参数，输入变量采用未经降维的22组特征变量.Z值打分模型公式如下所示：

Z=1.21X1+1.4X2+3.3X3+0.6X4+0.999X5.

其中：X1代表营运资本/总资产；X2代表留存收益/总资产；X3代表息税前利润/总资产；X4代表总市值2/负债总计；X5代表营业收入/总资产.且当Z值低于1.81时认为企业中存在着财务危机.最终结果见表6.

表6 不同模型准确率及查准率比较

4 结论与建议

4.1 主要结论

使用线性核函数建立的加权支持向量机(W-SVM)模型适用于对绿债市场中民营环保企业进行信用风险预测.该方法所构建的模型具有较好的稳定性以及较高的准确率，以两年为预警期的基础上，对于整体样本准确率达到86.08%，其中对于负样本的准确率达到76.92%.由于民营环保企业中具有财务危机的样本较少，且与正常样本的数量比例较为悬殊，可获得的信息量更少，采用类别加权的方法使得加权支持向量机(W-SVM)在面对负样本时，准确率相比传统方法更高.鉴于将存在信用风险危机的企业判断为正常企业的危险性，相较于将正常企业判断为存在信用风险危机企业的危险性更高，因此认为在负样本识别准确率上远高于其他模型的加权支持向量机(W-SVM)在构建绿债市场中民营环保企业信用风险预警模型时，具有更好的性能.

通过对指标变量的分析以及Logistic回归模型的结果分析，影响民营环保企业信用风险的指标主要为应收账款周转率、存货周转率、经营性现金净流量/营业总收入、现金满足投资比率、全部资产现金回收率.这些指标变量代表了企业的现金流量和营运能力、实时监测这些先行指标变动有助于及早识别民营环保企业存在的信用风险，有助于提前采取风险防范措施.

4.2 政策建议

第一，环保企业在企业营运过程中时常存在着赊销，存货等资金占用的情况，企业项目普遍具有前期投资较多的特点，同时下游客户多为政府和国有企业，导致项目资金的回收期也较长.在加大项目投资的同时，如何降低投资成本，保证企业自身的长期营运能力，排除未来运作的隐患，是民营环保企业不得不面对的一大难题.当前，环保产业属于新兴产业，且在十九大对于生态文明建设和推动绿色发展的号召下，环保企业得到国家政策的大力扶持，随着2019年各地方政府优惠鼓励政策的出台，民营环保企业应该把握时机，抓牢产业东风，通过绿色债券等多元化的融资渠道，为保障企业的运营补充资金.

第二，由于环保项目投资的特点，存在信用风险的环保企业现金流各项指标比较差.民营环保企业由于先天资金实力的劣势，更加需要保障好企业的现金流.充足的现金流不仅是企业财务状况健康的保障，也可以为企业在融资市场建立良好的资信形象从而降低融资的成本和难度，同时面对大量的项目机会，能有足够的资金投资.而如今的环保产业市场上民营企业想抗衡资金雄厚的国有企业，难度很大.民营环保企业可以选择联合国企合作中标环保项目，通过提供和协助完善技术方案，以期创造价值，获得收益，保障企业运营.

第三，环保产业作为新兴技术产业，很容易受国家政策，市场环境等外部环境因素的影响，建立良好的财务管理模式和信用风险预警机制可以帮助企业建设长期财务战略规划，以保证民营环保企业在长期经营中防控风险.同时科学的预知企业自身管理可能存在的问题，也可以帮助其合理调控自生资产结构、运营策略、实现收益最大化.