基于RU-SMOTE-SVM的高新技术企业利润操纵行为识别研究

2019-03-25徐凯万春肖华玮韦淼黄迅

会计之友 2019年6期

徐凯万春肖华玮韦淼黄迅

【摘要】文章以成都高新技术企业为研究对象，将RU与SMOTE两种不平衡处理方法相结合，构建新的不平衡样本处理技术RU-SMOTE，进而引入SVM人工智能技术对成都高新技术企业利润操纵行为进行研究。研究结果表明：基于RBF核函数的RU-SMOTE-SVM智能模型具有最优识别性能，能够准确有效地对成都高新技术企业的利润操纵行为进行识别。

【关键词】利润操纵; 高新技术企业; 识别研究

【中图分类号】 F224 【文献标识码】 A 【文章编号】 1004-5937（2019）06-0051-04

一、引言

成都市作为我国西部经济枢纽，在科技革命和产业变革持续发酵中肩负着引领西部产业转型与发展的重要使命。以科技进步和创新为支撑的高新技术企业的发展不仅是产业优化升级的关键，而且是推动成都市经济发展的巨大引擎[ 1 ]。当前，成都市不断加大对高新技术企业的投入力度，放宽信贷标准，然而，如果高新技术企业通过非法手段进行盈余管理，即采取利润操纵行为粉饰财务报表，势必会不利于信贷资源与政府补助在产业间的优化配置，甚至阻碍西部经济的产业结构调整进程，进而影响整个中国经济的协调发展[ 2 ]。因此，构建科学而准确的模型就成都高新技术企业的利润操纵行为进行识别，对引导利益主体依据准确的企业信息做出科学合理的投资决策，乃至促进成都金融经济环境的健康发展都具有非常重要的意义。

目前，已有很多识别企业利润操纵的方法，如单变量模型、Z Score多元判别分析（Multiple Discriminant Analysis，MDA）模型、逻辑（Logit）回归模型、概率比（Probit）回归模型、KLR信号模型、主成分分析（Principle Component Analysis，PCA）模型等。尽管这些方法具有可解释性的突出优点，也取得了较好的研究效果并被实务界广泛应用，但这些方法仍然存在前提条件过于苛刻、指标选择主观性强、缺乏动态预警能力等诸多问题[ 3 ]。由于以支持向量机（Support Vector Machine，SVM）为代表的人工智能方法具有良好的容错性和自适应性等优越的学习能力与泛化推广能力，因而被相关学者广泛运用于财务危机预警、违约风险判断、信用风险识别等众多研究领域，并取得了良好的研究效果。基于此，本文将计算机科学智能技术领域的SVM人工智能方法引入成都高新技术企业的利润操纵识别研究中。

需要说明的是，在实际研究过程中，获取的未进行利润操纵的企业样本（多数类样本）数量往往多于进行了利润操纵的企业样本（少数类样本）数，于是这两类数量不同的样本就构成了一个不平衡样本集。运用传统的SVM人工智能方法对未进行利润操纵和进行了利润操纵样本所构成的不平衡样本集进行识别时会存在严重的倾向性，即识别效果总会倾向于以未进行利润操纵企业样本为代表的多数类样本，因而导致对以利润操纵企业样本为代表的少数类样本的识别效果较差[ 4 ]。这一缺陷在识别企业利润操纵行为上表现为无法准确地识别出企业利润操纵行为。由此可见，如何有效地克服不平衡样本问题，就成为SVM人工智能方法能否准确识别企业利润操纵行为的关键所在。合成少数类过采样技术（Synthetic Minority Over-sampling Technique，SMOTE）作为不平衡样本处理方法中最为经典的一类方法，其良好的处理性能已获得广大学者的认可[ 5 ]。但由于SMOTE技术只能针对少数类样本进行处理，忽略了多数类样本在不平衡样本问题中所产生的负面影响，因而SMOTE方法仍然存在不足[ 6 ]。随机欠采样（Random Under-sampling，RU）方法正好可以针对多数类样本处理不平衡样本问题，能够有效克服SMOTE方法的缺陷[ 7 ]。基于此，本文结合RU与SMOTE方法，提出RU-SMOTE不平衡样本处理技术，并与SVM相结合，对成都高新技术企业利润操纵行为展开识别研究，以有效提升模型的识别性能。

基于以上分析与认识，本文以成都高新技术企业为研究对象，将RU与SMOTE两种不平衡处理方法相结合，构建新的不平衡样本处理技术RU-SMOTE，进而引入SVM人工智能技术对成都高新技术企业利润操纵进行研究，这对于提升成都市政府的企业监管能力，营造健康的企业外部发展和投资环境，促进成都金融经济健康发展具有重要的现实意义。

迄今为止，部分学者已围绕利润操纵识别问题展开了一定的研究，如李双杰和陈星星[ 8 ]，笔者也曾利用Z模型和FSVM模型对财务危机进行预警研究[ 9-10 ]。然而，将SVM智能技术应用于识别企业利润操纵行为的文献比较鲜见，该方法尚未广泛应用于解决企业样本存在的不平衡问题，尤其尚未针对成都高新技术企业的利润识别展开研究。由此可見，本文具有良好的创新性。

三、实证研究

（一）样本选择

本文以中国A股市场中的成都高新技术上市公司为研究对象，利润操纵上市公司样本从万德上市公司违规数据库中选取。在时间选择上，对未进行利润操纵的上市公司，选取其2016年相关指标变量来进行识别，而对利润操纵上市公司，则选择了利润操纵年份前一年的相关指标变量进行识别。最终，利润操纵上市公司样本29个，未进行利润操纵上市公司的样本50个，不平衡样本比例为1：1.72。

（二）指标变量选择

为选择能够准确刻画企业利润操纵行为的指标变量，本文借鉴李双杰和陈星星[ 8 ]的研究成果，共选择了27项指标变量对利润操纵行为进行刻画，具体见表1。

（三）实证结果与分析

在获得成都高新技术企业样本数据集的基础上，本文运用RU-SMOTE-SVM模型进行实证研究。为展示本文提出的智能识别模型的优越性，一方面基于不同核函数选择出最优的RU-SMOTE-SVM模型，另一方面基于选择出的最优模型与单独的SVM模型以及RU-SVM和SMOTE-SVM模型进行性能对比研究。同时，为了使实验结果更为科学客观，本文的实验基于十折交叉验证法完成，皆通过Matlab2015b编程软件实现。

首先，本文对不同核函数下的RU- SMOTE-SVM模型识别性能进行了实证研究，结果如表2和图1所示。从表2和图1的结果可以看出，从准确率来看，RBF核函数下的RU-SMOTE-SVM具有最高值，而从一类错误和二类错误来看，RBF核函数下的RU-SMOTE-SVM又具有最低值，从而表明基于RBF核函数所构建的RU-SMOTE-SVM比其余核函数下的RU-SMOTE-SVM在利润操纵识别上具有更为优异的识别性能。

其次，为验证RBF核函数下的RU- SMOTE-SVM模型良好的识别结果，本文进一步与SVM、RU-SVM和SMOTE-SVM模型进行了性能对比实验，结果如表3和图2所示。从表3和图2可以发现，与SVM相比，加入了不平衡样本处理方法的模型，即RU-SMOTE- SVM、RU-SVM和SMOTE-SVM的预测准确率都更高，且一类错误与二类错误都更低，表明不平衡样本处理方法能够有效解决SVM的不平衡样本问题。进一步，对比不同的不平衡样本处理技术可以发现，RU与SMOTE相结合的RU-SMOTE技术比单独的RU和SMOTE具有更高的准确率和更低的一类错误和二类错误，表明RU-SMOTE能够最为有效提升SVM的识别性能。

四、结论

为了对成都高新技术企业的利润操纵行为开展识别研究，本文引入SVM智能技术构建智能识别模型，并通过RU-SMOTE方法对SVM进行改进，以有效克服SVM存在的不平衡样本问题，进而运用实证研究对RU-SMOTE-SVM智能识别模型的性能进行了探讨。结果表明，在众多核函数中，基于RBF核函数所获得的RU-SMOTE-SVM智能模型具有最优的识别性能，并且与SVM、RU-SVM以及SMOTE-SVM相比，该最优模型具有最高的准确率和最低的一类错误和二类错误，表明该模型能够最有效解决不平衡样本问题，具有最为优越的识别性能。

基于上述分析，本文认为运用RU-SMOTE-SVM智能模型，能够准确有效地对成都高新技术企业的利润操纵行为进行识别，从而基于识别结果引导利益主体依据准确的企业信息做出科学合理的投资决策，同时也有助于优化政府部门对成都高新技术企业的科学监管，从而提升政府的智能化监管水平，最终推动成都金融经济环境持续、健康、高效发展。

【参考文献】

[1] 刘瑞明，赵仁杰.国家高新区推动了地区经济发展吗？——基于双重差分方法的验证[J].管理世界，2015（8）：30-38.

[2] 宋鑫，阮永平，郑凯.大股东认购、产权异质与定向增发折价[J].预测，2017，36（4）：50-62.

[3] 蔡欢.基于遗传算法和LS-SVM的财务危机预测[J].统计与决策，2017（2）：33-36.

[4] AKBANI R，KWEK S， JAPKOWICZ N. Applying support vector machines to imbalanced datasets[C].The 15th European Conference of Machine Learning，2004：39-50.

[5] CHAWLA N， BOWYER K，HALL L，et al. SMOTE： Synthetic minority over-sampling technique[J]. Journal of Artificial Intelligence Research，2002（16）：321-357.

[6] 薛薇.非平衡數据集的改进SMOTE再抽样算法[J].统计研究，2012，29（6）：95-98.

[7] DRUMMOND C， HOLTE R C. Severe class imbalance：why better algorithms aren't the answer[C].In Proceedings of the 16th European conference of Machine Learning LANI，2005：539-546.

[8] 李双杰，陈星星.基于BP神经网络模型与DEA模型的中国上市公司利润操纵研究[J].数理统计与管理，2013，32（3）：440-451.

[9] 徐凯，邱煜，黄月娥.基于改进Z模型的财务危机预警研究：来自医药行业上市公司的经验证据[J].会计之友，2014（33）：66-69.

[10] 徐凯，黄迅，刘金彬.基于最优模糊SVM的财务危机预警研究：来自成渝经济区上市公司的经验证据[J].会计之友，2015（12）：73-77.