批发零售业上市公司财务困境预警
2024-06-21李莉孙荣
李莉 孙荣
摘要:本文从国泰安数据库(CSMAR)选取2019—2022年度A股主板被ST或被*ST的33家批发零售业上市公司作为研究样本,选取20个财务指标和9个非财务指标,构建了预警指标体系。为消除非关键特征指标的影响,采用随机森林算法(RF)进行特征值筛选,将筛选的数据集应用于经过优化的LSSVM(最小二乘支持向量机)进行财务预测和预警。实验结果显示,相较于传统的PSO(粒子群优化算法)、GA(遗传算法)以及WOA(鲸鱼优化算法),采用VNWOA优化算法的分类精度分别提高了2.9个百分点、2.9个百分点以及4.35个百分点。综合应用了随机森林和VNWOA优化算法的RF-VNWOA-LSSVM模型在分类精度上相较于RF-费希尔判别法和BP神经网络分别提高了18.75个百分点、8.45个百分点。实验结果表明本文提出的RF-VNWOA-LSSVM预警模型可以对财务风险进行有效识别。
关键词:批发零售业上市公司;财务预警模型;随机森林特征值筛选;RF-VNWOA-LSSVM预警模型;数据挖掘;机器学习
中图分类号:F832.51;F275 文献标识码:A 文章编号:1007-0753(2024)03-0060-11
一、引言
批发零售业作为经济发展的重要组成部分,其财务风险管理对企业和整个行业的稳定发展至关重要。财务危机预警模型的研究经过了两个发展阶段:传统计量模型阶段和人工智能模型阶段。传统计量模型包括单变量判别模型(Fitzpatrick,1932;Beaver,1966)、多元回归模型(Altman,1968)、生存分析模型(Honjo,2000;李世垚,2016)等。尽管这些传统计量模型在一定程度上能够解释数据间的关系,但其建模能力受到限制,特别是在处理非线性关系、大规模数据和异常值缺失方面表现不佳。
随着机器学习和数据挖掘技术的迅速发展,研究人员开始探索如何利用这些先进技术构建更准确、及时的财务预警模型。由于人工智能在应对复杂的非线性系统问题上有着显著的优越性,因而得到了越来越多学者的青睐 ( Kar 和 Melody,1990;Koh和Tan,1999) 。相较于传统的统计学方法,人工智能模型能更好地处理复杂的非线性关系,从而为财务风险管理提供更有效的工具和方法。
最小二乘支持向量机算法(LSSVM)是一种常用的人工智能算法,在处理大规模数据和非线性问题时预测准确性优于神经网络预测,具有更好的计算和泛化性能(Xin和Gu,2008)。然而,传统的LSSVM存在参数选择困难、容易陷入局部最优等限制,并且在处理大规模数据和高维特征时面临挑战,不同参数训练下的模型差异显著。因此,选择最优参数至关重要。
鲸鱼优化算法(WOA)作为一种元启发式算法备受关注,其对于参数优化的高效性能已经得到广泛认可。WOA由Mirjalili和Lewis(2016)首次提出,灵感来源于鲸鱼觅食行为,其在机器学习、数据挖掘和图像处理等领域得到广泛应用。尽管WOA在参数优化方面表现出了高效性,但精度和收敛速度方面仍存在改进空间。为了进一步提升WOA的性能,一些研究人员开始对其进行改进。例如提出利用反馈精英WOA和LSSVM结合算法(左智科等,2019;郑威迪等,2019),以及基于冯·诺依曼结构优化的WOA(万晓静等,2020;康明月等,2023)。这些改进方法在解决分类问题和提高诊断准确度方面取得了一定的成效,有望克服各自算法的局限性,提高模型的准确性和稳定性。
为了进一步改善模型性能、降低模型训练成本以及过拟合风险,Hao和Xie(2022)、余欣然和郭婷(2022)采用随机森林算法(Random Forest,RF)来提取特征指标进行特征降维,并结合费希尔判别模型进行计算。相比于单独使用费希尔判别模型,模型函数的准确率有所提高。这表明随机森林算法在特征筛选和降维方面表现良好,能够有效识别和评估特征的重要性,从而提高模型的泛化能力。此外,贺立敏等(2017)、王少华等(2022)在解决分类问题时,通过结合随机森林算法的特征值筛选功能移除相关性低和冗余的指标特征,显著提高了支持向量机算法的预测精度。袁晓龙等(2014)认为随机森林算法的特征值筛选机制能够自动识别和评估特征的重要性,有针对性地选择对分类识别贡献较大的特征,从而有效降低噪声干扰,提升模型性能。
基于以上背景,本文通过引入机器学习和数据挖掘技术构建财务预警模型,采用基于冯·诺依曼结构优化的WOA与LSSVM相结合,用于处理大规模数据和非线性问题;同时,利用随机森林算法进行特征选择以实现降维和降低噪声干扰的目的,从而提高模型的准确性和稳定性。
二、相关算法理论与模型构建
(一)随机森林算法
随机森林算法(RF)利用集成学习的思想整合多个决策树模型的预测结果,以提高整体预测准确性。在RF中,特征选择是一个重要步骤,其目的是识别出对模型输出具有显著影响的输入特征。RF通常利用基于袋外(Out-of-Bag,OOB)误差的方法来执行这一过程,帮助优化模型并减少预测误差。RF的特征选择和模型建立过程可以概括为以下几个步骤:
1.建立基于随机森林的训练分类器。初始误判率设为1,通过迭代调整特征数量(mtry参数)。
2.计算特征的重要性度量值。
3.利用OOB误差评估模型性能。对于每棵决策树,计算其在未选择样本上的预测误差,并计算不同mtry参数值下的OOB误差均值,以确定最佳特征数量。
4.根据得到的最佳特征数量,选择重要度排名在该数量之前的特征组合形成最佳特征子集。
(二)最小二乘支持向量机
LSSVM是由Suykens和Vandewalle(1999)提出的一种基于统计学习理论的改进型支持向量机算法。相比传统支持向量机,LSSVM具有更完备的理论体系,可以将二次优化问题的求解转化为线性方程组的求解,降低了问题的复杂度。该算法在模式识别、图像处理、生物信息学和金融预测等领域应用广泛,在处理非线性数据分类和回归问题方面表现出色,能有效处理高维数据和复杂数据的关系。将LSSVM应用于财务预警模型,利用其处理财务数据,进行数据分类和回归分析,可实现更精确和稳定的财务预测和预警功能。通过LSSVM能有效处理财务数据的非线性关系,提升模型性能,更好地满足金融领域的需求。其工作原理可以分为以下步骤:
1.优化目标函数和约束条件。
当存在n个d维的样本{xk , yk}, yk∈{-1 , 1}, xk∈Rd , k =1,2,3,…,n,其中xk = (xk1, xk2,…,xkd)T是d维的输入向量,yk是相应的输出数据,n是训练数据的总数。LSSVM的优化目标函数和约束条件为:
式(1)中,γ为预测误差的惩罚因子,ek表示输出的实际值和预测值之间的回归误差,b1是偏置常数。
LSSVM的目标是最小化γ下的回归误差。为了找到函数的最小值,引入拉格朗日乘子αk ,构造拉格朗日函数L:
2.线性方程组求解。
对式(2)中的变量ω、b1、ek、αk分别求偏导并令导数等于零,进而得到一组线性方程,通过解这个线性方程组得到LSSVM分类表达式[见式(3)],从而确定超平面来划分不同类别的数据点。
3.径向基核函数的应用。
LSSVM通常采用径向基核函数(RBF),该核函数能实现非线性映射,通过调整参数σ,可以影响模型的性能和准确性。其表达式为:
其中 σ为RBF核函数参数。两个超参数γ以及σ,是对LSSVM模型的性能有很大影响的参数,需要仔细测算。
(三)鲸鱼优化算法
鲸鱼优化算法(WOA)模拟了座头鲸的搜索和围捕机制,通过迭代优化搜索空间来寻找最优解。算法包括包围捕食阶段、螺旋气泡捕食阶段和搜索猎物阶段。本文使用WOA优化LSSVM,将LSSVM的超参数γ以及σ作为WOA的寻优目标。
1.包围捕食阶段。
在包围捕食阶段,鲸鱼个体通过靠拢适应度最优的个体来更新位置,以实现对猎物的包围。在包围捕食阶段,鲸鱼个体的位置更新公式如下:
式(5)中,参数t表示当前迭代次数;A、C为系数;X*(t) 是当前最优的位置向量;X(t) 是鲸鱼当前位置向量;参数a为控制参数,随着迭代次数从2线性减少到0;r是[0,1]中的随机数。
2.螺旋气泡捕食阶段。
在螺旋气泡捕食阶段,鲸鱼个体通过螺旋游动的方式更新位置,以搜索并抓取局部范围内的猎物。以下是螺旋气泡捕食的更新公式:
式(6)中,D'(t)为当前搜索个体与最优解的距离,b2为螺旋形状参数,l是范围在[-1,1]的随机数。为了适应不同的捕食情景,WOA通过引入随机概率p来灵活选择螺旋气泡或收缩包围的捕食行为,并相应地更新个体的位置。位置更新公式如下:
3.搜索猎物阶段。
搜索猎物阶段则是通过鲸鱼之间距离的位置更新来实现随机搜索的目标。当搜索个体的绝对值大于1( >1)时,鲸鱼位置通过随机选择来更新。公式如下:
其中,Xrand(t)为当前随机鲸鱼的位置。
(四)冯·诺依曼结构改进WOA(VNWOA)
冯·诺依曼拓扑结构是冯·诺依曼和其他人提出的电子计算机通用架构。为了提高WOA的搜索效率和避免陷入局部最优解的困境,引入类似于冯·诺依曼拓扑结构的结构来模拟邻居关系。通过在每个鲸鱼个体周围构建一个二维网状结构,每个鲸鱼个体都有四个邻居。这种邻居关系模拟促进了信息交流和协作,使得鲸鱼能够更充分地利用周围环境信息,更好地跳出局部最优解并朝着全局最优解方向搜索,从而提高算法的搜索效率和收敛性。冯·诺依曼结构优化WOA的步骤如下:
1.构建二维网状结构:为每个鲸鱼个体构建一个独立的V-N拓扑结构,即在每个鲸鱼个体的前、后、左、右加入四个邻居,形成二维网格状结构。
2.影响范围限制:限制每个鲸鱼个体(当前最优解)的影响范围,仅允许其影响周围四个邻域的鲸鱼个体。
3.鲸鱼搜索代理更新:每个鲸鱼搜索代理通过寻找所有邻域中鲸鱼个体的最优解来更新整个鲸鱼群体的搜索位置。
VNWOA通过限制每个个体的影响范围和利用邻域最优解的信息来更新整个群体的搜索位置,可以提高算法的收敛速度,并降低陷入局部最优的风险。
(五)RF-VNWOA-LSSVM改进算法流程(见图1)
RF-VNWOA-LSSVM是一个组合了随机森林、VNWOA以及LSSVM的改进算法。其建模过程包括以下步骤:
1.数据预处理:对输入数据进行标准化处理,并按7∶3的比例划分为训练集和测试集。
2.随机森林特征选择:使用随机森林算法对数据集进行特征选择。通过绘制模型误判率均值的散点图和计算特征的重要性指标,选择重要度排名在该数量之前的特征组合形成最佳特征子集。
3. 初始种群生成和网络拓扑结构确定:利用WOA来初始化种群,并根据当前最优个体的位置信息构建冯·诺依曼拓扑结构,这一结构能够促进鲸鱼个体之间的信息交流,优化搜索过程,从而增强全局搜索能力。
4. 适应度更新和迭代:在每轮迭代中,根据鲸鱼个体位置重新计算适应度并继续优化位置。同时检测是否达到预定的停止条件,如果达到,则跳转到下一步,否则继续优化。通过持续的迭代优化,不断更新鲸鱼个体的位置和适应度,直到算法收敛为止。
5.预测模型构建:根据最优个体的位置信息,获得超参数γ、σ的最优值,用于构建预测模型。
6.预测结果:采用最优参数对模型进行训练并使用构建好的预测模型进行预测,并生成最终的预测结果。
RF-VNWOA-LSSVM可以找寻并删除数据集中的冗余特征,删除这些冗余特征后,模型能够更好地捕捉数据中的有用信息,从而提高分类效率。与基本模型相比,RF-VNWOA-LSSVM在数据预处理、特征选择、优化搜索和模型构建等方面进行了改进,提升了模型的性能和结果的准确性。
(六)其他算法理论与模型参数设置
实验采用MATLAB R2023a编程,为了验证RF与LSSVM结合的优化方法的有效性,本文引入几种算法作对比。在本文的实验中,相关算法和相关参数设置如下:
1.粒子群优化算法(Particle Swarm Optimization,PSO)。
PSO是一种基于群体智能的优化算法,模拟鸟群或鱼群的行为。在PSO中,每个个体(粒子)通过不断调整自身位置和速度,以寻找最优解。PSO的正规化参数γ和核参数σ的取值范围为[0,1 000]。
对于惯性权重系数,根据式(9),将惯性权重的最大值和最小值设为ωmax = 0.9和ωmin = 0.9。式(9)中,t、tmax分别为当前进化代数和最大进化代数。
学习因子的取值范围:Cmax = 0.9,Cmin = 0.5。
2.遗传算法(Genetic Algorithm,GA)。
GA是一种基于生物进化过程的优化算法,通过模拟自然界的选择、繁殖和变异机制来搜索问题的最优解。在GA中,个体通过遗传操作不断进化,以适应环境。GA的正规化参数γ和核参数σ的取值范围为[0,1 000]。
交叉概率pcross:0.8。
变异概率pmutation:0.05。
3.鲸鱼优化算法(Whale Optimization Algorithm,WOA)
鲸鱼优化算法是受鲸鱼群体迁徙行为启发的一种启发式优化算法,通过模拟鲸鱼的行为方式解决优化问题。VNWOA是WOA的一种改进。对于WOA-LSSVM和VNWOA-LSSVM,将正规化参数γ和核参数σ的取值范围设为[0,800]。算法中的种群数量N设为5,最大迭代次数G设为10。此外,WOA-LSSVM中的权重ω设为0.5,VNWOA-LSSVM中的权重ω通过式(10)计算得到。这是一种自适应权重,随着迭代的进行,可以加速利用冯·诺依曼结构中的局部最优与当前迭代次数对应的全局最优进行更新。随着迭代的进行,局部最优逐渐与全局最优重合。
ω = 1- e1-t , t∈[1,10] (10)
4.费希尔判别法。
费希尔判别法是一种经典的线性判别分析方法,用于在多维空间中找到最佳的线性判别函数,以最大程度地区分不同类别的样本。
5.BP神经网络。
BP神经网络是一种常见的人工神经网络,通过前向传播和反向传播算法来训练网络,以学习输入与输出之间的映射关系。在实验中对数据进行洗牌以增加模型泛化能力,使用了5折交叉验证评估模型性能,激活函数采用了identity(恒等函数),求解器选择lbfg。学习率为0.1,L2正则化参数为1,迭代次数为1 000,隐藏层神经元数量为100。
三、批发零售业公司研究样本的选择和指标体系的确定
(一)研究样本的选择与数据来源
公司出现重大损失是其财务困难的表现之一,将上市公司因财务状况异常而被特别处理(ST)作为公司陷入财务困境的标志是符合我国实际情况的(曾繁荣和徐旭,2007;魏守智和许保国,2008;范雍祯,2019)。因此,本文以公司是否为ST(*ST)公司作为界定公司是否处于财务危机的标准,选择了我国A股批发零售业上市公司作为研究样本,将样本分为财务正常组(非ST公司)和财务危机组(ST公司)。
根据中国证券监督管理委员会的规定,当一家公司在T年度被标记为“ST”时,将会披露一份新的财务报告。若该公司在过去两年内存在财务风险,则新报告将基于T-3年至T-2年的财务数据。此外,若该公司在T-3年度出现亏损,通常会进行经营战略调整。因此,选择T-3年的样本数据更具科学性。本文选择2019—2022 年间被证监会冠以“ST”特别处理的批发零售业上市公司作为研究对象,相应地选取了2016—2019 年的财务报表数据作为样本。经过数据清洗并剔除数据不全及新上市的公司后,有财务风险的样本共有33个,其中2019年5家、2020年12家、2021年9家、2022年7家。为了配对比较,选择了资产规模与行业相近的非ST公司,按照1∶2的比例选取了相应的财务健康上市公司,最终获得的样本总数为99家。本文使用的财务数据均来自国泰安(CSMAR)数据库。
(二)财务预警指标初步选取
在财务风险预警研究中,张艳丽等(2016)、杨贵军等(2019)从现金流量、偿债能力、盈利能力、市场价值和营运能力等五个方面建立了财务风险预警指标体系,并发现该财务风险预警指标体系有较好的预测效果。姜秀华和孙铮(2001)、黄善东和杨淑娥(2007)等研究了股权结构、公司治理对财务危机的影响,并强调了非财务因素在预警模型中的作用。同时,戴红军和吴国强(2010)构建了包含公司治理和外部审计信息等非财务指标的预警模型,以提高预测准确率。因此,本文结合我国批发零售业的行业特点,综合已有研究,选取包括现金流量指标、偿债能力指标、营运能力指标、发展能力指标和盈利能力指标在内的20个财务指标,并引入了公司治理、股权集中度、股权制衡度、监事总规模和审计治理等9个非财务指标,初步构建了适用于我国批发零售业的财务预警指标体系。具体指标情况如表1所示。
(三)随机森林选择
本文采用了随机森林算法进行特征选择,并结合LSSVM以提高预测的准确性和稳定性。在随机森林算法中,采用了OOB误差作为评估变量重要性的指标,以便更准确地衡量每个变量对于预测结果的贡献程度。
利用基于随机森林算法的分类器进行特征选择。随机抽取70%的数据作为训练集,剩余30%作为测试集。首先,对特征重要性进行排序,通过循环迭代随机选取不同的特征数量(mtry参数),计算每个特征数量下基于OOB误差的模型误判率均值,根据不同特征选取值情况下的模型误判率均值绘制散点图,具体如图2所示。观察发现,当特征值选取为22个时,模型的OOB误差误判率均值最小。这意味着选取22个特征时,模型对于是否会被ST的预测表现最佳。故本文后续选取22个特征来构建最终的模型。接下来,通过设置相关参数并使用importance()函数计算平均最小基尼指数以衡量各个特征的重要性。通过计算得到每个指标的平均最小基尼系数,并使用图像的方式对指标的重要性进行可视化(见图3)。根据图3的结果,选择了变量重要程度前22的变量,剔除了X4、X9、X16、X17、X18、Y6、Y7这7个重要程度排名最低的变量。最终,选择X1、X2、X6、X7、X8、Y1、Y5、Y8等作为财务预警模型的输入变量。
从上述结果可以看出,上市公司陷入财务困境与公司偿债能力、营运能力、发展能力、盈利能力、股权集中度、股权制衡度、监管层前三名薪酬总额、审计治理等方面有关。
四、模型对比分析
(一)不同寻优算法对比分析
RF-VNWOA-LSSVM模型预测效果可以使用精确率(Precision)、召回率(Recall)和F1值来评估。在测试集中,预测结果将为ST公司或正常公司,可能的情况在表2中列出。
精确率表示在训练集中实际是 ST公司的样本所占的百分比:精确率= TP÷(TP+ FP)。召回率表示在实际的 ST公司中,准确地预测出在测试集中的 ST公司所占的比重:召回率= TP÷(TP+ FN)。F1值综合考虑了精确率和召回率这两项指标,计算公式为F1值=2(精确率×召回率)÷(精确率+召回率)。该方法有助于评价模型的预测精确率及相关性,进而更好地了解模型的表现。
表3显示了使用不同优化算法的LSSVM(包括PSO-LSSVM模型、GA-LSSVM模型、WOA-LSSVM模型、VNWOA-LSSVM模型、RF-WOA-LSSVM模型和RF-VNWOA-LSSVM模型)在中国批发零售业上市公司数据上的预测效果对比。表3第2列表示各种优化算法下超参数γ、σ的最优值。第3列中Z表示公司被分为哪一类,Z=1时,公司为正常公司即本文正例样本,Z=-1时,公司为ST公司即本文负例样本。第5列表示训练集测试集分类精度,表3第6—8列分别表示的是在Z=1或Z=-1的情况下的精确率、召回率和F1值。训练集共73个公司样本(70%左右),测试集共有26个公司样本。
将未经过特征选择的数据集代入预警模型,验证优化算法的有效性。首先对比VNWOA-LSSVM模型与其他三个模型(PSO-LSSVM模型、GA-LSSVM模型、WOA-LSSVM模型)在训练集的分类精度和在
不同Z值下精确率、召回率、F1值。VNWOA-LSSVM模型在训练集上的分类精度达到95.65%, PSO-LSSVM模型、GA-LSSVM模型、WOA-LSSVM模型的分类精度分别为92.75%、92.75%、91.30%。采用VNWOA优化算法后,分类精度分别提高了2.9个百分点、2.9个百分点和4.35个百分点。对于Z=1的情况来说,VNWOA-LSSVM模型的精确率为96.00%,召回率为92.31%,F1值为94.00%;Z=-1时,
VNWOA-LSSVM模型的精确率为95.45%,召回率为97.67%,F1值为97.00%。综合表现来看,在不同Z值下,VNWOA-LSSVM模型在精确率、召回率和F1值方面均优于其他三个模型,显示出更强地识别ST公司的能力。这表明在寻优算法中,VNWOA在参数优化方面具备卓越潜力,能够有效提升模型的分类精度。
进一步地,经过随机森林算法进行特征值筛选后,将筛选后的数据集代入预警模型以验证随机森林算法对模型性能的提升作用。通过对比分析RF-VNWOA-LSSVM模型与VNWOA-LSSVM模型、WOA-LSSVM模型、RF-WOA-LSSVM模型在训练集和测试集的分类精度。从表3可知,在训练集上RF-VNWOA-LSSVM模型的分类精度达到98.44%,明显高于WOA-LSSVM模型(91.30%)、VNWOA-LSSVM模型(95.65%)和RF-WOA-LSSVM模型(95.31%)。在测试集上,RF-VNWOA-LSSVM模型的分类精度为71%,略低于WOA-LSSVM模型(77%)和RF-WOA-LSSVM模型(77%),但明显优于VNWOA-LSSVM模型(67%)。针对不同Z值的情况,RF-VNWOA-LSSVM模型在精确率、召回率和F1值上均表现出色,特别是在Z=1和Z=-1的情况下,RF-VNWOA-LSSVM模型均优于其他模型。这表明经过随机森林算法进行特征值筛选后,RF-VNWOA-LSSVM模型在VNWOA-LSSVM模型的基础上进一步提升了分类精度,在不同Z值下展现出优越性能。
综上所述,VNWOA算法优于其他寻优算法,而RF-VNWOA-LSSVM模型在不同Z值下的精确率、召回率和F1值综合比较下也优于其他模型。这可能是由于RF-VNWOA-LSSVM模型结合了随机森林算法和VNWOA-LSSVM模型的优势。随机森林算法提供了集成学习和特征选择的能力,从而提升了模型的性能和鲁棒性。通过结合随机森林算法和VNWOA-LSSVM模型,RF-VNWOA-LSSVM模型能够更好地提取特征并实现更准确的预测。
(二)不同模型算法对比分析
表4显示了RF-VNWOA-LSSVM与RF-费希尔判别法、BP神经网络在Z=-1(*ST公司)情况下的分类精度、精确率、召回率和F1值。首先,在训练集上,RF-VNWOA-LSSVM的分类精度达到98.44%,远高于 RF-费希尔判别法(79.69%)和 BP神经网络(89.90%),分别提高了18.75个百分点和8.45个百分点。在测试集上,RF-VNWOA-LSSVM 的分类精度为 71%,略高于BP神经网络(70%),稍低于 RF-费希尔判别法(74%)。尽管在测试集上稍低于 RF-费希尔判别法,但综合考虑 RF-VNWOA-LSSVM 模型相对于其他模型在分类精度上表现更优秀。
其次,通过比较 RF-VNWOA-LSSVM 模型在不同 Z 值下的精确率、召回率和 F1 值。根据表4中的数据,在 Z=-1(*ST公司)的情况下,RF-VNWOA-LSSVM 在训练集的精确率、召回率和 F1 值分别为100.00%、97.67%、99.00%,说明RF-VNWOA-LSSVM 模型能够准确地预测负例样本并有效分类,相较于其他模型,性能更为出色。此外,RF-VNWOA-LSSVM在训练集和测试集上的F1值分别为99%和79%,明显高于RF-费希尔判别法(70%、47%)和BP神经网络(89.7%、70.40%)。表明RF-VNWOA-LSSVM在平衡精确率和召回率方面表现优异,既能有效识别负例样本(高召回率),又能保持较高的准确性(高精确率)。相比之下,其他模型可能在这两个指标之间存在某种折衷,导致F1值较低。
综上所述,可以得出:RF-VNWOA-LSSVM 模型在精确率、召回率和 F1 值上表现出色,优于RF-费希尔判别法和BP神经网络。
五、结论
本文选取2019—2022年度A股主板被ST或被*ST的33家批发零售业上市公司作为研究样本,以优化LSSVM为基础,结合随机森林算法筛选特征值对财务预警模型进行改进优化得到以下结论。
首先,在针对中国批发零售业上市公司数据的财务预测任务中,VNWOA-LSSVM模型相比其他优化算法模型(PSO-LSSVM模型、GA-LSSVM模型、WOA-LSSVM模型),其分类精度分别提高了
2.9个百分点、2.9个百分点以及4.35个百分点,且该模型在不同Z值下的精确率、召回率和F1值均表现更好,体现出较高的性能,说明VNWOA能够为模型提供更好的参数优化,从而提高分类精度和预测准确率。
其次,随机森林算法在特征选择方面的运用对模型表现具有积极的影响。筛选出的重要特征变量能够降低非关键特征值对模型预测的影响,从而提高模型的准确性和稳定性。在RF-VNWOA-LSSVM模型中,结合了随机森林和VNWOA-LSSVM模型的优势,使得该模型在训练集上的分类精度和预测准确率相较于RF-费希尔判别法和BP神经网络分别提高了18.75个百分点、8.54个百分点。同时,在不同Z值下,RF-VNWOA-LSSVM模型在精确率、召回率和F1值上均呈现更强的性能。
综上所述,本文通过在财务预警模型中运用特征选择和优化算法的组合,以及结合随机森林筛选重要特征变量,取得了较好的分类性能和预测准确率。这些研究结果对企业进行财务风险预警和决策具有重要的实际应用价值。然而,未来的研究仍需关注数据收集和模型优化方面,以满足实际应用需求和适应变化的市场环境。同时,可以进一步探索更多的特征选择方法和优化算法,从而进一步提升财务预警模型的性能和应用范围,为企业提供更可靠、更准确的财务预警服务,帮助它们更好地应对挑战和机遇,实现可持续发展。
参考文献:
[1] FITZPATRICK P J. A Comparison of the ratios of successful industrial enterprises with those of failed companies[J]. Certified Public Accountant,1932(10): 598-605.
[2] BEAVER W. Financial ratios as predictors of failures[J]. Journal of Accounting Research,1966(04):71-111.
[3] ALTMAN E I. Financial ratios, discriminant analysis and the prediction of corporate bankruptcy[J].The Journal of Finance,1968,23(04):589-609.
[4] HONJO Y. Business failure of new firms: An empirical analysis using a multiplicative hazards model[J].International Journal of Industrial Organization, 2000, 18(04):557-574.
[5]李世垚.基于生存分析的上市公司财务风险预警研究——以工业类上市公司为例[J].时代金融,2016(15): 146-147.
[6] KAR Y T, MELODY K. Predicting bank failures: A neural network approach[J]. Applied Artificial Intelligence, 1990, 4(04): 265-282.
[7] KOH H, TAN S. A neural network approach to the prediction of going concern status[J]. Accounting and Business Research, 1999, 29(03): 211-216.
[8] XIN Z Y , GU M .Complicated financial data time series forecasting analysis based on least square support vector machine[J]. Journal of Tsinghua University(Science and Technology), 2008, 48(07):1147-1149.
[9]MIRJALILI S,LEWIS A. The whale optimization algorithm[J]. Advances in Engineering Software,2016,95(05):51-67.
[10]左智科,陈国彬,刘超,等.反馈精英鲸鱼优化算法优化LSSVM的热耗率软测量建模[J].计量学报,2019,40(02):259-265.
[11]郑威迪,李志刚,贾涵中,等.基于改进型鲸鱼优化算法和最小二乘支持向量机的炼钢终点预测模型研究[J].电子学报,2019,47(03):700-706.
[12]万晓静,孙文磊,陈坤.基于CEEMD能量熵特征提取和VNWOA-LSSVM的风力机轴承故障诊断方法研究[J].机电工程,2020,37(10):1186-1191.
[13]康明月,王成,孙鸿雁,等.基于改进的WOA-LSSVM樱桃番茄内部品质检测方法研究[J].光谱学与光谱分析,2023,43(11):3541-3550.
[14] HAO D,XIE Y. Research on financial risk early warning in the online game industry based on random forest and fisher discriminant method[J]. Academic Journal of Business & Management,2022,4(07):93-98.
[15]余欣然,郭婷.基于随机森林与费希尔判别法的区块链企业财务预警模型研究[J].梧州学院学报, 2022, 32(03):40-46.
[16]贺立敏,王岘昕,韩冰.基于随机森林和支持向量机的船舶柴油机故障诊断[J].中国航海,2017,40(02):29-33.
[17]王少华,樊其锋,张健,等.基于随机森林和支持向量机混合模型的空调故障检测[J].家电科技, 2022(S1):774-777.
[18]袁晓龙,梅雪,黄嘉爽,等.基于随机森林算法的特征选择及在fMRI数据中的应用[J].微电子学与计算机,2014,31(08):132-135.
[19]STROBL C, BOULESTEIX A-L , ZEILEIS A, et al. Bias in random forest variable importance measures: Illustrations, sources and a solution [J]. BMC Bioinformatics, 2007, 8(01): 25-46.
[20] SUYKENS J A K, VANDEWALLE J .Least squares support vector machine classifiers[J].Neural Processing Letters, 1999, 9(03):293-300.
[21]曾繁荣, 徐旭. 上市公司典型财务危机预警模型比较研究[J]. 会计之友·下旬刊, 2007(02):89-90.
[22]魏守智,许保国.浅谈上市公司财务困境的概念及成因[J].中国农业会计,2008(10):85-87.
[23]范雍祯.中小企业财务危机预警模型比较研究——基于PCA-Cox模型与BP_Adaboost模型的对比[J].产业创新研究,2019(11):204-209.
[24]高燕,杜玥,曾森.基于BP神经网络的制造企业财务风险预警研究[J].会计之友,2023(01):62-70.
[25]张艳丽,尤晓琳,强薇,等.基于LASSO的企业财务危机预警与关键指标选择[J].河南师范大学学报(自然科学版),2016,44(03):160-165.
[26]杨贵军,周亚梦,孙玲莉,等.基于Benford律的Logistic模型及其在财务舞弊识别中的应用[J].统计与信息论坛,2019,34(08):50-56.
[27]姜秀华,孙铮.治理弱化与财务危机:一个预测模型[J].南开管理评论,2001(05):19-25.
[28]黄善东,杨淑娥. 公司治理与财务困境预测[J].预测,2007,26(02):63-67.
[29]戴红军,吴国强.公司治理、外部审计信息与财务危机预警[J].大连民族学院学报,2010,12(02):157-161+165.
Financial Distress Warning of Listed Wholesale and Retail Companies:
Based on RF-VNWOA-LSSVM Model
Abstract: This study selected 33 A-share main board companies listed from 2019 to 2022 in the Guotaian CSMAR database, which were either ST or *ST during this period, focusing on the wholesale and retail industry. Based on the characteristics of listed companies in the wholesale and retail industry and a review of previous literature, 20 financial indicators and 9 non-financial indicators were selected to construct an early warning index system. To eliminate the impact of non-key feature indicators, the random forest algorithm was employed for feature selection, and the selected dataset was applied to an optimized LSSVM model for financial prediction and early warning.The experimental results showed that compared to PSO (Particle Swarm Optimization), GA (Genetic Algorithm), and WOA (Whale Optimization Algorithm), the VNWOA optimization algorithm improved prediction accuracy by 2.9%, 2.9%, and 4.35%, respectively. The RF-VNWOA-LSSVM model, which combined random forest and VNWOA optimization algorithms, achieved an 18.75% and 8.45% increase in prediction accuracy compared to RF-Fisher discriminant analysis and BP neural network, respectively. The experimental results demonstrate that the proposed RF-VNWOA-LSSVM early warning model can effectively identify financial risks.
Keywords: Listed wholesale and retail companies; Financial warning model; Random forest feature selection; RF-VNWOA-LSSVM early warning model;Data mining; Machine learning