APP下载

基于SVM的我国上市公司违规预警研究

2018-01-30赵福民

环球市场 2017年34期
关键词:训练样本特征选择比率

1.李 莎 2.赵福民

1.长沙理工大学 数学与统计学院 2.国防科学技术大学电子科学与工程学院

1 引言

上市公司违规事件造成的社会影响极其恶劣,上市公司违规处罚公告披露后市场反应剧烈,对公司效益造成负面影响,且上市公司违规行为一旦被公开处罚,会产生显著的市场负面效应.国内外文献研究了诸如公司高管的性别、股权结构、董事会规模、监事会规模、管理层激励、内部控制、持股动机、治理结构、财务指标、制度和环境角度等与公司违规行为之间的关系.

综上所述,笔者认为,公司违规是由多种因素综合作用的结果,本文提出Fisher score和MRMR两种特征选择算法,结合了SVM机器学习方法,搜集影响上市公司违规的指标,并且经过指标排序筛选,来提高模型预警精度,以此用于上市公司违规预警的研究.

本文的贡献在于,1、综合筛选了影响公司违规的影响指标,并把行业指标也纳入其中.2、利用Fisher score和MRMR两种特征选择算法,弥补了只筛选特征指标而没给出指标排名的不足.

2 研究方法

Fisher score进行特征选择,是将相似得分值赋予来自相同类别的样本,不同的值赋予来自不同类别的样本来实现的.Fisher score的评价标准式为:

最小冗余最大相关(Minimum-Redundancy-Maximum-Relevance,MRMR)特征选择算法通过计算交互信息,不但考虑了特征与标签的关系,而且对特征之间的冗余度也有限制.算法在要求最大相关性的同时,要求特征子集的冗余度最小,以此寻求最优子集.

3 数据来源、变量选择

3.1 数据来源

本文选取2010年至2014年在深圳证券交易所与上海证券交易的上市公司,去除缺失样本后,共收集到1535家上市公司为研究样本.其中未发生违规的上市公司439家,发生违规的上市公司1096家.样本所有数据均来自国泰安数据库.本文的公司样本取自国泰安数据库中的“违规处理”数据表.其中,违规类型包括以下三类:公司财务违规、公司经营违规和公司领导人违规.

3.2 变量选择

本文引入0—1哑变量,0代表公司未发生违规,1代表公司发生违规.根据CLSA Asia-Pacific Markets提出的公司治理评价指标,综合得到了公司违规行为预警指标体系.本文首先考虑了公司的行业类型指标;公司规模指标3个:总资产、股东数、股本总数;公司治理评价指标7个:国有股比例、境内发起人股比例、高管持股比例、流通股比例、第一大股东持股比例、董事会会议次数、股东大会召开次数;财务状况指标43个:所有者权益、流动资产比率、所有者权益比率、流动负债比率、经营负债比率、金融负债比率、资产负债率、长期借款与总资产比、权益乘数、产权比率、权益对负债比率、长期资本负债率、资本积累率、总资产增长率等.

4 实验结果与分析

实验选取了表1所示的54个属性,分类器用线性lib-SVM,其中参数C采用交叉验证寻优方法来确定.实验从1535个样本中随机选取k个样本作为训练样本,剩下的1535减k个样本用于测试.为了最终所得的分类结果更准确,实验取20次分类精度的平均值作为最后的结果记录.当训练样本数k从300增加到1000的时候,测试样本的预测精度逐步提高,后趋于稳定.当训练样本达到700个时,在SVM下的分类精度达到了70.7202%.

为了综合地筛选出违规公司特征属性,提高模型的预测精度,实验对属性的得分做了归一化处理,并计算了各个属性在Fisher score和MRMR特征选择算法下取得的平均值,按从高到低排列54个属性.实验不断改变训练样本数来观察分类精度,取20次分类精度的均值作为结果记录,分类精度曲线如图1:

图1 基于两种特征选择方法下的分类精度

可以看出,红色曲线所代表的20个属性的分类精度明显高于其他4条曲线,当训练样本数目为800个时,模型的分类精度达到了82.7586%,相对于没有进行筛选的54个属性,平均精度提高了近7个百分点.

5 结论

本文研究表明,第一大股东持股比例、每股净资产、长期借款与总资产比、托宾Q值、流动负债比率、股东大会召开次数、行业类型等20个属性对公司违规的影响较大.为了实验的准确性,本文的训练样本和测试样本采取随机抽取的方法,结果取二十次实验结果的平均值,保证了结果的准确性.并且当训练样本数目为800个时,模型的分类精度达到了82.8%,相对于没有进行筛选的54个属性,平均精度提高了近7个百分点.这表明模型指标约减后,模型的精度提高了,且模型的泛化能力较好.这本文的研究成果为监管部门对上市公司进行风险管理提供了一定的依据,从而有利于监管部门更加科学合理的分配监管力量。

猜你喜欢

训练样本特征选择比率
一类具有时滞及反馈控制的非自治非线性比率依赖食物链模型
人工智能
比率分析公司财务状况——以步步高及永辉超市为例
Kmeans 应用与特征选择
宽带光谱成像系统最优训练样本选择方法研究
基于稀疏重构的机载雷达训练样本挑选方法
联合互信息水下目标特征选择算法
基于特征选择聚类方法的稀疏TSK模糊系统
一种适用于微弱信号的新颖双峰值比率捕获策略
基于特征选择和RRVPMCD的滚动轴承故障诊断方法