APP下载

基于改进的MRMR算法和代价敏感分类的财务预警研究

2020-04-27罗康洋王国强

统计与信息论坛 2020年3期
关键词:特征选择财务指标现金流量

罗康洋,王国强

(上海工程技术大学 a.管理学院; b.数理与统计学院,上海 201620)

一、引 言

上市公司财务困境的发生不仅使企业承受巨大的经济损失,还会严重影响其发展甚至导致破产。与此同时,企业的经营者、供应商、顾客、信用机构、债权人、投资者等利益相关者的经济利益也会受到严重威胁。因此,他们总是希望能够提前预知企业潜在的财务风险,并及时采取相应的防范措施,以避免财务危机的发生,减少损失。财务预警研究是企业防范财务危机和化解经营风险的重要举措,受到众多国内外学者和实业者的高度重视[1-2]。

从统计分类学习的观点来说,公司财务预警属于二分类问题,一类是股票交易受到特殊处理(Special Treatment,ST)的上市公司,另一类是股票正常交易的上市公司,即非ST公司。财务预警数据呈现出的高维和不平衡的双重特性为研究带来了诸多的困难,主要表现在两个方面:第一,研究所涉及到的财务指标众多、指标之间相关性较大且含有较多冗余指标,这些都会对预测模型的精度造成严重的负面影响。第二,在股票市场中,被ST的上市公司在数量上远远小于非ST的公司,这使得财务预警数据分布严重不平衡,以至于导致逻辑回归、支持向量机和决策树等传统的分类模型失效。

近年来,国内外学者对公司财务预警模型和存在近似问题的众筹与违约预警模型等进行了系统的研究,并取得了诸多突破。具体研究方法大体可分为三类:一是根据经验、直观判断或者以定性的方式在备选财务指标中选取重要指标,然后在不平衡数据集上利用随机抽样技术或人工合成少数类样本过采样技术(Synthetic Minority Over-sampling Technique,SMOTE)等采样方法处理后再构建预测模型[3-4]。二是采用检验、逐步判别法和逐步逻辑回归等传统特征选择方法对财务指标进行筛选,并在平衡数据集上构建预测模型[5]。三是直接使用分类模型处理不平衡数据集、将在平衡数据样本条件下对指标进行筛选[6]或者对不平衡数据样本进行指标筛选[7]后的数据集直接作为分类模型的输入。第一种研究方法选择的指标集通常不能满足实际应用的需求,这主要是受主观因素的影响使得构建的财务预警模型泛化能力较弱。第二种研究方法采用的单变量特征选择法,尽管能有效保留相关特征,但不能去除冗余特征。不难看出,前两类研究方法并没有对数据的高维和不平衡性同时进行研究,而是各有侧重。第三种研究方法直接使用分类算法应对数据集存在的高维和不平衡的双重特性。由于该类方法没有改善数据的不平衡性,使得预警模型的鲁棒性较弱。因而,针对财务预警数据的双重特性,构建有效的财务预警模型并进行实证分析无疑具有重要的理论和实践价值。

受以上工作的启发,本文旨在基于高维不平衡数据对上市公司财务预警进行系统性研究,主要包括采样、特征选择和分类三个过程。在采样过程中,如果直接对数据特征进行选择,数据的不平衡特性会使得特征选择算法偏向选择多数类样本对应的特征(即高估其特征重要性),而忽略少数类样本对应特征的重要性,进而影响少数类样本的预测精度。因此,利用组合采样技术SMOTE+ENN (SMOTE+Edited Nearest Neighbor)进行数据平衡化处理,以提高少数类样本对应特征的重要性。在特征选择过程中,引入最大相关最小冗余(Minimal Redundancy Maximal Relevance,MRMR)算法[8]对特征进行选择,并给出两种新的基于绝对值余弦的冗余性度量。该算法同时考虑了特征之间的相关性与冗余性,在多个特征选择领域表现优异。在分类过程中,使用支持向量机(Support Vector Machine,SVM)、L2-逻辑回归(L2-Logistic Regression,L2-LR)和CART决策树在特征选择后的嵌套特征集中搜索分类性能最优的特征子集。同时,为克服数据不平衡对分类模型的影响,从采样技术与代价敏感分类学习两方面进行研究。本文的研究是对财务预警问题的一种新探索,相关结论可为上市公司经营者和利益相关者提供决策参考和咨询。

二、算法描述

(一)组合采样技术SMOTE+ENN

采样技术是针对不平衡数据集的预处理方法,该技术一般分为两种:欠采样技术(按某种方式删除多数类样本)和过采样技术(按某种方式增加少数类样本),其中随机欠采样和随机过采样是较为经典的采样技术。但随机欠采样会造成有效信息的丢失,而随机过采样由于没有新样本的产生,则容易导致过拟合。

为克服随机欠采样的不足,文献[9]提出了一种剪辑最近邻(ENN)采样技术。ENN的基本思想是搜寻多数类样本的3-最近邻样本,将这3个最近邻样本中有2个及以上少数类样本的多数类样本予以删除。由于多数类样本周围更多的还是同类样本,导致该方法的数据平衡化能力较弱。

SMOTE是经典的启发式过采样技术[10],与随机过采样技术不同,它利用线性组合在少数类样本与其临近的同类样本间插入新样本,以缓解数据集的不平衡性。该方法的主要步骤:首先,计算少数类样本x∈X与X中每个样本的欧氏距离,并找出x的k个同类最近邻。其次,在这k个同类样本中随机选取一个样本x′并按下式:

xnew=x+rand×(x′-x)

(1)

对x与x′进行线性插值构造新样本xnew,其中rand为0到1的随机数。但SMOTE没有差别的对少类样本进行采样,容易造成类间重叠[11]。

基于此,本文采用由Batista等人提出的将SMOTE与ENN进行结合的采样技术 (SMOTE+ENN),对数据进行平衡化处理[12]。已有研究结果显示该技术在多个数据集上取得了优良效果。

(二)MRMR算法及其改进

1.MRMR算法

MRMR算法是一种启发式的特征选择方法,它的基本思想是根据评价函数对原始特征进行排序,得到一组嵌套特征集S1⊂…⊂Sk⊂…⊂Sm,其中Sk表示含有k个特征、与目标分类相关性最大且自身冗余信息最少的特征子集。分类模型只需在上述m个特征集中寻找预测精度最大的特征集,以达到降维目的。

对于连续型自变量,假设已选择了k-1个特征并得到特征子集Sk-1。在剩余特征集F-Sk-1中选入第k个特征的最大相关最小冗余的评价函数有以下两种:

(2)

(3)

其中V(fk,y)为相关性度量,W(fk,Sk-1)为冗余性度量。有研究表明式(3)的特征排序效果优于式(2)[8],因此本文采用式(3)进行特征选择。根据式(3),选入第k个特征的评价函数有以下两种:

FCQ (F-testCOR quotient):

(4)

FD1Q (F-test L1-distance quotient):

(5)

其中

(6)

(7)

(8)

分别为F-score、Pearson相关系数和L1-范数距离。

2.改进的MRMR算法

本文针对MRMR算法中的冗余性度量函数W(fk,Sk-1),构造两个新的选入第k个特征的评价函数,具体如下:

FACQ (F-test AC quotient):

(9)

FDAQ (F-test DAC quotient):

(10)

其中

(11)

图1 非线性映射过程

(三)分类模型

在平衡数据集的分类问题中,传统分类模型能较好地对数据进行分类,但在不平衡数据集上的分类效果却不尽人意。这主要是因为在不平衡分类问题中,多数类样本在数量上远大于少数类样本,但在实际应用中人们更关注少数类样本,使得少数类样本错分代价远大于多数类样本错分代价。当传统分类模型以相同错分代价对不平衡数据进行分类时,往往以牺牲少数类样本的正确分类为代价换取整体正确率。为此,本文将支持向量机、L2-逻辑回归模型和CART决策树模型及其相应的代价敏感模型作为财务预警的比较分类模型。

1.支持向量机。SVM以统计学习理论的结构风险最小化原理和VC维理论为基础,在有限样本空间中采用满足Mercer定理的核函数将训练样本映射到更高维数的样本空间寻找最优分类超平面[13]。为了克服传统SVM处理不平衡数据的不足,现对少数类样本和多数类样本赋予不同的错分代价,得到代价敏感SVM (Cost Sensitive SVM,CSSVM)模型。

2.L2-逻辑回归。标准逻辑回归是传统的二分类模型,该模型采用对数几率函数将线性回归结果映射到[0,1],并以近似概率来预测样本类别。为了减少标准逻辑回归模型的过拟合风险,文献[14]在基于极大似然估计的优化模型中加入L2正则项,得到L2-LR模型。为了适应不平衡数据分类问题,对少数类样本和多数类样本赋予不同的错分代价,得到代价敏感L2-LR (Cost Sensitive L2-LR,CSL2-LR) 模型。

3.CART决策树。决策树是一种自顶向下的非参数化分类算法,它从根节点开始,采用类间差异度量对特征值进行划分,不断得到不同分支节点,直至产生确定分类结果的叶节点,停止划分[15]。由于类间差异度量的不同,形成的决策树也不同。经典的算法包括ID3、C4.5和CART等,其中CART采用基尼系数衡量类间差异并构建二叉决策树,具有较高的运算效率。因此,本文选择CART决策树作为分类模型之一。在不平衡数据分类过程中,为防止CART偏向多数类样本,对少数类样本和多数类样本赋予不同的错分代价,得到代价敏感CART (Cost Sensitive CART,CSCART) 模型。

三、实证研究与结果分析

(一)数据来源与预处理

本文通过tushare金融接口获取了纺织、化工机械和化学制药等行业2014—2017年所有A股上市公司的财务数据,得到8 023个备选样本,每个样本有143个财务指标。对缺失值超过三分之一的财务指标予以剔除,最终从盈利能力、发展能力、偿债能力、现金流量和资本结构五个方面选取130个财务指标来构建预警模型。财务指标的具体说明如下:

盈利能力包含的指标有净资产收益率(x101)、净利润(x102)、加权平均净资产收益率(x103)、净资产收益率(扣除非经常损益)(x104)、年化净资产收益率(x105)、平均净资产收益率(增发条件)(x106)、总资产报酬率(x107)、总资产净利润(x108)、年化总资产报酬率(x109)、净利率(x110)、年化总资产净利率(x111)、总资产净利率(杜邦分析)(x112)、毛利率(x113)、毛利润(x114)、营业收入(x115)、息税前利润(x116)、息税折旧摊销前利润(x117)、每股营业总收入(x118)、每股息税前利润(x119)、投入资本回报率(x120)、年化投入资本回报率(x121)、销售毛利率(x122)、销售净利率(x123)、销售成本率(x124)、销售期间费用率(x125)、经营活动净收益(x126)、营业利润/营业总收入(x127)、营业总成本/营业总收入(x128)、财务费用/营业总收入(x129)、管理费用/营业总收入(x130)、资产减值损失/营业总收入(x131)、净利润/营业总收入(x132)、销售费用/营业总收入(x133)、扣除财务费用前营业利润(x134)、非营业利润(x135)、利润总额/营业收入(x136)、息税前利润/营业总收入(x137)、折旧与摊销(x138)、期末摊薄每股收益(x139)、每股盈余公积(x140)、每股营业收入(x141)、每股主营业务收入(x142)、每股未分配利润(x143)、每股资本公积(x144)、稀释每股收益(x145)、基本每股收益(x146)和每股净资产(x147)。

发展能力包含的指标有总资产增长率(x201)、主营业务收入增长率(x202)、净资产增长率(x203)、每股收益增长率(x204)、资产总计相对年初增长率(x205)、股东权益增长率(x206)、每股净资产相对年初增长率(x207)、归属母公司股东权益相对年初增长率(x208)、净利润同比(x209)、营业收入同比(x210)、利润总额同比(x211)、营业总收入同比(x212)、基本每股收益同比(x213)、营业周期(x214)、稀释每股收益同比(x215)、净资产收益率(摊薄)同比(x216)、营业利润同比(x217)、净资产同比(x218)、归属母公司股东净利润同比(x219)、经营现金流量净额同比(x220)、每股经营现金流量净额同比(x221)、营运资金(x222)、营运流动资本(x223)、每股留存收益(x224)、留存收益(x225)、存货周转率(x226)、存货周转天数(x227)、应收账款周转率(x228)、应收账款周转天数(x229)、流动资产周转率(x230)、流动资产周转天数(x231)、总资产周转率(x232)和固定资产周转率(x233)。

偿债能力包含的指标有流动比率(x301)、速动比率(x302)、保守速动比率(x303)、现金比率(x304)、无息流动负债(x305)、无息非流动负债(x306)、营业利润/流动负债(x307)、货币资金/流动负债(x308)、货币资金/带息流动负债(x309)、股东权益比率(x310)、利息费用(x311)、产权比率(x312)、带息债务(x313)、有形资产/负债合计(x314)、有形资产/带息债务(x315)、息税折旧摊销前利润/负债合计(x316)、营业利润/负债合计(x317)、归属于母公司股东权益/负债合计(x318)、归属于母公司股东权益/带息债务(x319)、利息支付倍数(x320)和净债务(x321)。

现金流量包含的指标有现金流量比率(x401)、每股经营现金流量净额(x402)、每股现金流量净额(x403)、每股企业自由现金流量(x404)、每股股东自由现金流量(x405)、企业自由现金流量(x406)、股权自由现金流量(x407)、经营现金净流量对负债比率(x408)、资产经营现金流量回报率(x409)、经营现金流量净额/流动负债(x410)、经营现金流量净额/负债合计(x411)、经营现金流量净额/带息债务(x412)、经营现金流量净额/营业收入(x413)、销售商品提供劳务现金收入/营业收入(x414)、经营现金净流量/销售收入(x415)和资本支出/折旧和摊销(x416)。

资本结构包含的指标有权益乘数(x501)、权益乘数(杜邦分析)(x502)、有形资产(x503)、全部投入资本(x504)、固定资产合计(x505)、资产负债率(x506)、归属于母公司股东权益/全部投入资本(x507)、流动负债/负债合计(x508)、非流动负债/负债合计(x509)、有形资产/总资产(x510)、流动资产/总资产(x511)、非流动资产/总资产(x512)和带息债务/全部投入资本(x513)。

在数据样本的处理中,针对ST上市公司备选样本,剔除缺失值超过5个的样本,剩余样本中对缺失的年度财务指标值利用第三季度的财务指标值近似替代。针对非ST上市公司备选样本,将含有缺失值的样本全部剔除。经过上述处理共获得2 567个样本,其中ST上市公司样本129个,非ST上市公司样本2 438个。显然,数据的样本类别分布极度不平衡。为了消除指标量纲的影响,文本采用极大极小归一化方法对数据进行标准化。完成标准化后,将2014—2016年的样本作为训练样本,其中少数类样本94个,多数类样本1 815个。将2017年的样本作为预测样本,其中少数类样本35个,多数类样本623个。为克服财务预警数据的类不平衡性对特征选择算法和传统分类模型产生的不利影响,利用组合采样技术SMOTE+ENN对数据进行平衡化处理。在采样过程中,将SMOTE中的k值设为5[11]。本文使用Python-imblearn包完成SMOTE+ENN采样,实现数据的平衡化。

(二) 研究模型和参数设置

1.研究模型与对照模型

针对财务预警数据的高维不平衡特性,构建两组研究模型。第一组:MRMR+SVM模型、MRMR+L2-LR模型和MRMR+CART模型。第二组:MRMR+CSSVM模型、MRMR+CSL2-LR模型和MRMR+CSCART模型。本文提出了两种不同的MRMR算法评价函数,分别记为MRMR_FACQ和MRMR_FDAQ,并将采样技术SMOTE+ENN引入上述两组模型中的MRMR算法和第一组模型的分类过程。另外,本文分别设计不采样和MRMR_FCQ(MRMR_FD1Q、F-score)传统特征选择算法对照模型,与两组研究模型形成对比。

2.参数设置

代价敏感分类算法中少数类样本和多数类样本的错分代价分别定义如下:

其中,n+和n-分别表示少数类样本和多数类样本的数量。对于支持向量机分类模型,采用径向基核函数K(x,y)=exp(-2‖x-y‖2/δ2)。除了错分代价以外,传统分类模型与代价敏感分类模型所需设置的参数相同。具体为SVM:惩罚参数C={0.1,0.5,1,2,5,10,20,30,40,50}和径向基核参数δ={0.01,0.05,0.1,0.5,1,2,5,10};L2-LR:惩罚参数C={0.1,0.5,1,2,5,10,20,30,40,50};CART:最大树深度={1,2,3,4,5,6,7,8,9,10,15,20,25,30,35,40,45,50,55,60,65,70,75,80,85,90,95,100}。

为充分挖掘特征选择后各嵌套特征子集的分类性能,根据设置的候选参数对每个特征子集Sk对应训练数据进行3折交叉验证的网格搜索,并利用最优参数训练的分类模型完成样本预测。由于采样过程存在一定随机性,为充分验证研究模型的降维和预测效果,以下所有数值结果均为循环10次求得的平均值。

(三) 模型降维与预测结果的分析

两组研究模型及其对照组模型的降维和预测结果分别见表1和表2。模型降维效果是使用降维后的特征数进行衡量。在上市公司财务预警研究中,一般来说,上市公司利益相关者更加关注少数类样本 (ST公司样本)的预测准确率,以便采取应对措施,减少损失。但从模型分类性能的角度来说,模型整体分类精度是衡量模型优劣的重要标准。因此,模型预测结果的衡量指标有:多数类样本预测准确率(rrTN)、少数类样本预测准确率(rrTP)、F1值和AUC值。

由表1、表2,从是否采样的角度看,与在特征选择过程中未引入SMOTE+ENN的对照组模型相比,两组研究模型降维后的平均特征数下降了38.26%,rrTP和AUC分别总体提高了5.47%和0.87%。这表明将SMOTE+ENN引入特征选择过程有效提升了研究模型的降维效果,并加强了少数类样本对应特征的重要性,即rrTP明显得到了提高。但两组研究模型rrTP的提高是以牺牲多数类样本的正确预测为代价的,导致AUC提升较小。

由表1、表2,从特征选择算法的角度看(考虑在特征选择过程中引入SMOTE+ENN的系列结果),MRMR_FACQ、MRMR_FDAQ、MRMR_FCQ、MRMR_FD1Q和F-score对应模型降维后的平均特征数分别为19.1、17.7、24.6、22.8和37.5;平均rrTP分别为0.843、0.870、0.847、0.849和0.865;平均AUC分别为0.833、0.829、0.812、0.827 0和0.768。可得,MRMR_FACQ和MRMR_FDAQ算法对应研究模型的降维效果优于传统MRMR算法MRMR_FCQ、MRMR_FD1Q以及不考虑特征冗余度的F-score的对照组模型,其中MRMR_FDAQ对应模型降维效果最优,MRMR_FACQ对应模型次之。综合考虑平均rrTP和平均AUC,MRMR类算法对应模型的预测结果均优于F-score对照组模型,其中MRMR_FDAQ对应模型的预测效果最优,MRMR_FACQ和MRMR_FD1Q对应模型次之。

由表1、表2,从分类模型的角度看,SVM、L2-LR和CART对应的第一组研究模型降维后的平均特征数分别为21.5、12.95和13.35;平均rrTP分别为0.863、0.844和0.839;平均AUC分别为0.831,0.823和0.836。CSSVM、CSL2-LR和CSCART对应第二组研究模型降维后的平均特征数分别为23.2、8.7和30.8;平均rrTP分别为0.873 0、0.844和0.874;平均AUC分别为0.847、0.819和0.829。综合比较上述统计结果,L2-逻辑回归对应研究模型的总体降维效果最优,支持向量机对应研究模型次之。支持向量机对应研究模型取得了最优的预测效果,CART决策树对应研究模型次之。可以看出,L2-逻辑回归虽能起到很好的降维效果,但过少的预测指标限制了模型的预测精度。此外,在研究模型中,为克服数据不平衡性,组合采样技术与代价敏感分类学习相比,降维后平均特征数下降了35.27%,rrTP总体下降了4.57%,AUC总体上升了0.58%。

综合考虑降维和预测的效果,研究模型MRMR_FDAQ+CSSVM最优,而MRMR_FACQ+CSCART次之。特别的,第二组对照模型中F+CSSVM模型和F+CSCART模型得到了较高的rrTP,最高达到了0.929,但这是以牺牲大量多数类样本的预测准确率为代价,从而导致模型整体分类性能显著下降,AUC仅为0.669。

表1 第一组模型及其对照组模型降维和预测效果

表2 第二组模型及其对照组模型降维和预测效果

(四)特征选择算法分析与重要财务指标

上一小节直接从模型的降维和预测结果对不同MRMR算法进行了比较。结果表明将SMOTE+ENN引入特征选择过程提高了少数类样本对应特征的重要性,即rrTP得到了提高。为进一步比较不同MRMR算法的财务指标选择过程的差异以及SMOTE+ENN对特征选择的影响力,采用KTRC (Kendall's Tau Rank Correlation)准则从MRMR算法相似性的角度来进行分析[16]。该准则的基本思想如下:

假设r1和r2分别为两个特征选择算法对原始特征的排序结果。任取两个特征(fk,fi),它们在r1和r2中的排名可表示为(r1(fk),r1(fi))和(r2(fk),r2(fi)),有如下一致性判断准则:

从表3前四列来看,引入组合采样技术显著地降低了特征选择算法之间的相关性。例如FCQ与FD1Q的τ值为0.815,但采样技术引入后,τ值下降为0.711,即FCQ与FD1Q*的相关度为0.711。这说明组合采样技术显著改变了MRMR算法的特征选择过程,并根据上一节的预测结果,更加证实了组合采样技术的引入能有效提高少数类样本对应特征的重要性。此外,在同一数据集上,FCQ(FCQ*)与FACQ(FACQ*)的相关度最大为0.912(0.911),FCQ(FCQ*)与FDAQ(FDAQ*)的相关度最小为0.662(0.673)。

表3 KTRC相似矩阵

根据上述MRMR算法采样前后KTRC相似度的变化结果,选取每次循环各MRMR算法排序后的前30个财务指标(选取前30个财务指标的依据是本文给出的研究模型的特征选择数均在30左右浮动)。10次循环完成后,再根据特征出现次数进行排序。取前30个财务指标作为各MRMR算法对应财务预警模型的重要财务危机预测指标。现考虑采样后的MRMR算法特征选择结果,如下:

FCQ*选择的前30个财务指标:盈利能力指标包括x103、x106、x107、x108、x109、x111、x112、x118、x119、x128、x139、x140、x141、x142、x143、x145、x146和x147;发展能力指标包括x224、x230和x231;偿债能力指标包括x315;现金流量指标包括x401、x402、x408、x409、x410、x411和x413;资本结构指标包括x501。

FD1Q*选择的前30个财务指标:盈利能力指标包括x103、x106、x107、x108、x109、x111、x118、x119、x120、x121、x122、x124、x128、x139、x140、x142、x143、x146和x147;发展能力指标包括x216、x224和x231;现金流量指标包括x401、x402、x408、x409和x413;资本结构指标包括x501、x506和x510。

FACQ*选择的前30个财务指标:盈利能力指标包x103、x107、x108、x109、x111、x112、x118、x119、x120、x122、

x124、x128、x139、x141、x142、x143、x145、x146和x147;发展能力指标包括x224、x230和x231;现金流量指标包括x401、x402、x408、x409、x410和x411;资本结构指标包括x501和x502。

FDAQ*选择的前30个财务指标:盈利能力指标包x107、x109、x114、x115、x118、x122、x124、x125、x128、x129、x130、x140、x143、x146和x147;发展能力指标包括x214、x224、x227、x229、x230、x231和x232;现金流量指标包括x48和x416;资本结构指标包括x501、x502、x503、x506、x510和x513。

从上述采样后的四种MRMR算法的重要财务指标选取结果可知,不论是否引入采样技术,上市公司盈利能力、发展能力、偿债能力、现金流量和资本结构的财务指标在所有MRMR算法排名前30的财务指标中出现次数的排名为:盈利能力、发展能力、现金流量、资本结构和偿债能力,其中盈利能力下的指标对上市公司财务危机的有效预测尤为重要。比较发现,FCQ*、FAC*和FD1Q*的排名前30的财务指标的重复率很高,其中FCQ*和FAC*最为突出,这与理论部分的分析结论以及表3中的算法相似性结果相吻合。由偿债能力下的指标选择结果可知,除了FCQ*选择了有形资产/带息债务(x315),其他三种算法均没有选择该类中的财务指标,这表明偿债能力下的财务指标对上市公司的财务危机的预测能力较弱。此外,FDAQ*选择在盈利能力、发展能力、现金流量和资本结构下选择的财务指标与FCQ*、FAC*和FD1Q*差异较大。结合表1和表2的预测结果可知,FDAQ*选择出的不同于其他三种算法的财务指标在较小影响整体分类精度(AUC)的前提下,能有效提升对ST公司的预测结果。具体来说,忽略FDAQ*与其他三种算法选择出的相同财务指标,该算法在利益能力下选择出了毛利润(x114)、营业收入(x115)、销售期间费用率(x125)、财务费用/营业总收入(x129)和管理费用/营业总收入(x130),这5个指标均能直接有效地反映公司财务状况,符合指标选择的预期。在发展能力下选择出了营业周期(x214)、存货周转天数(x227)、应收账款周转天数(x229)和总资产周转率(x232),这4个指标均是公司运转能力的重要衡量标准,也是公司财务状况的外在表现。在现金流量和资本结构下选择出了资本支出/折旧和摊销(x416)、有形资产(x503)和带息债务/全部投入资本(x513),这3个指标衡量了公司内部各类资产的分布,对财务状况有很好的反映作用。

四、结论与展望

本文针对上市公司财务预警数据呈现出的高维和不平衡的双重特性进行了深入研究,并构建了一系列适合处理该类数据的组合预测模型。通过大量实证分析研究,主要有如下结论:

第一,与不考虑冗余性的特征选择算法相比,MRMR算法在不影响模型分类精度的前提下能得到更为简洁的预测指标集,且本文提出的MRMR_FDAQ算法对应财务预警模型取得了最优的降维和预测结果。第二,在特征选择过程中,SMOTE+ENN的引入有效提高了少数类样本及其对应特征的重要性,进而使得模型的rrTP得到显著提升。第三,在分类过程中,利用采样技术对应研究模型取得的降维效果优于代价敏感分类学习,但对ST公司样本的预测效果弱于代价敏感分类学习。此外,支持向量机对应研究模型取得了最优的预测效果和次优的降维效果。

综合考虑降维和预测效果,建议上市公司利益相关者选择研究模型MRMR_FDAQ+CSSVM对公司财务危机进行预测。下一步工作主要有两个方面:一是在财务指标的选择过程中,研究除了基于F-score的MRMR算法以外的其他更有效的特征选择算法。二是将集成分类模型及其对应的代价敏感模型引入上市公司财务预警研究的分类过程,并且如何有效缩短集成分类模型最优参数的搜索时间是未来工作的一个重要方向。

猜你喜欢

特征选择财务指标现金流量
正交基低冗余无监督特征选择法
关于财务指标实际应用的思考
制造型企业现金流量管控浅谈
基于词向量的文本特征选择方法研究
探讨医院财务分析中财务指标体系的应用
基于特征聚类集成技术的在线特征选择
Kmeans 应用与特征选择
EVA业绩评价体系应用分析
贝因美股份有限公司偿债能力分析
浅论现金流量管理及其在企业财务管理中的地位