APP下载

基于BP-LVQ的组合神经网络舞弊风险识别模型研究
——来自中国舞弊上市公司的经验证据

2018-01-17王泽霞李冬艳

生产力研究 2017年12期
关键词:舞弊识别率神经网络

王泽霞,郜 鼎,李冬艳

(杭州电子科技大学 会计学院,浙江 杭州 310018)

一、文献回顾及研究动机

上市公司舞弊一直是资本市场的监管难题,是审计理论界、实务界关注的重点,如何有效识别企业舞弊行为更是其中的关键点[1]。虽然,实证研究表明模型舞弊识别效果较优[2],但是,目前国内外在舞弊识别模型方面的研究却不尽完善,大量的研究集中在以下四种模型:单变量分析法、多元线性判别法、Probit模型、Logistic回归模型。这几种舞弊识别模型在对企业舞弊进行研究的各个方面都发挥了作用,但缺陷同样存在:单变量分析法指标单一且准确率低;多元线性判别法和Probit模型对变量有严格的正态分布要求,使用条件严苛;Logistic回归模型对变量的多重共线性问题非常敏感并且计算过程复杂。随着企业舞弊手段变得更加多样化,舞弊行为更加隐蔽化,舞弊数据更加复杂化,传统的舞弊识别模型已经满足不了现今的审计需求。随着人工智能技术的不断发展和广泛应用,人工神经网络技术开始应用于舞弊识别领域,极好的弥补了传统舞弊识别方法的缺陷,为企业舞弊行为识别增添新的高效判别方法。

20世纪90年代,国外率先将人工神经网络技术应用于舞弊预测领域,取得了较高的识别结果,具有代表性的研究成果有:Green and Choi(1997)[3]首次采用神经网络技术构建财务舞弊识别模型,研究发现神经网络模型对于随机样本的识别效果非常好。Feroz et al(2000)[4]以 SAS NO.53 公布的红旗标志作为研究变量,利用神经网络模型对样本数据进行识别,判别结果高达80%。Nasir,John et al(2001)[5]选用神经网络技术进行公司破产预测,预测效果显著。Michael Nwogugu(2007)[6]、Tzong Huei Lin(2009)[7]以 及 Peat and Jones(2012)[8]均 使用人工神经网络技术对公司舞弊、财务舞弊预测、公司破产预警等领域进行实证检验,结果显示该技术的识别效果较好,相较于其他的舞弊识别模型,神经网络的判别稳定性更高,波动区间相对较小。

在国内,虽然将人工神经网络技术应用于舞弊领域的相关研究起步较晚,但研究成果却相对集中。其中,以BP神经网络和LVQ神经网络在舞弊识别领域的应用最为广泛,舞弊识别率较高[9-11]。但是,大部分学者的研究样本规模较小(200家公司以下),且其中多数以ST公司作为样本的研究方法也值得商榷,毕竟公司“带帽”也并不能说明其一定存在舞弊行为。此外,单一使用BP神经网络模型或LVQ神经网络模型也存在着各自的缺陷:BP神经网络可能陷入局部最小问题[12],从而无法做到分类结果多样化、细致化;而LVQ神经网络中的输入向量与神经元权值设置差距过大,有可能会成为“死”神经元,导致识别效率低下。因此,本文以2010—2014年5年期间发生的506家舞弊公司及506家配对公司作为研究样本,并在深入分析BP神经网络和LVQ神经网络各自特点的基础上,提出基于BP-LVQ的二层组合神经网络舞弊风险识别模型,以期在克服单一神经网络模型缺陷的基础上,实现更优的舞弊识别效果。

二、样本选取和舞弊风险识别指标筛选

(一)样本选取

本文根据上市公司违规公告结合国泰安数据库中的上市公司违规处理数据库,以七种舞弊类型为筛选标准(虚构利润、虚列资产、虚假记载、推迟披露、重大遗漏、违规担保和其他)确定舞弊样本。由于公司舞弊的发现具有滞后性,因此本文选取2010—2014年共506家舞弊样本数据。根据Beasley原则一比一确定每年每家舞弊样本的配对样本,因此共有1 012家公司作为本文的研究样本。

(二)指标体系初步筛选

构建舞弊风险识别模型的最关键环节就是舞弊风险识别指标的选取,识别效果好的指标可以起到准确预测、提前控制企业舞弊的作用。本着指标的可获得性和先兆性,本文选取舞弊识别效果较好的11个变量共48个指标,分成财务指标和非财务指标两块。财务指标包括盈利能力、偿债能力、营运能力、发展能力、每股指标和资产质量这6个子分类;非财务指标囊括股权结构、公司治理、关联方交易、审计关系和行为特征这5个子分类,基本涵盖高频率用于舞弊识别的指标。本文初步构建的舞弊风险识别指标体系如表1所示。

表1 舞弊风险识别指标体系初选表

(三)描述性统计和最终指标的确定

为验证初选的指标体系的综合性和显著性,提高舞弊风险识别模型的识别精度和识别效率,本文将初步确定的所有指标进行配对样本T检验,并进行非参数Mann-Whitney检验。相关检验过程在SPSS17.0中进行。其中,定性指标用1和0表示,主要有:X34董事长变更,1为变更,0为没有变更;X36两职兼任,兼任为 1,否为 0;X43审计意见类型,1为出具标准审计意见,0为出具的是非标准审计意见;X44会计师事务所变更,1表示更换会计师事务所,0表示未更换会计师事务所;X48避免ST,即舞弊前两年是否连续亏损,1表示亏损,0表示未连续亏损。

1.指标显著性t检验。为了方便数据处理并提高神经网络模型舞弊识别效率,本文将舞弊公司类型设为1,配对样本公司类型设为0。基于506对样本数据(舞弊配对合计样本数共1 012家)对上述初步构建的指标体系进行显著性t检验,筛选出通过显著性检验的变量,由此建立最终舞弊风险识别指标体系。最后确定的舞弊风险识别指标体系及描述性统计结果如表2所示。

表2 最终的舞弊风险识别指标体系

原始数据经过Mann-Whitney秩检验和T检验,结果表明X7EVA指标、X20现金债务总额比率、X28息税前每股收益、X36两职兼任、X38管理层持股比例、X43审计意见类型、X48避免ST这7个指标在1%的水平上显著。X19现金流量比率、X21利润总额增长率、X44会计师事务所变更这3个指标在5%的水平上显著。X9存货周转率、X35监事会持股比例、X39国有股比例、X45其他应收款/总资产这4个指标在10%的水平上显著。

2.消除多重共线性。考虑到最终选择的14个指标(包含8个非财务指标和6个财务指标)之间可能存在多重共线性问题,为了提高神经网络模型的处理效率和识别效果,本文选用Spearman相关分析方法结合主成分分析消除指标之间多重共线的情况。

本文只对定性指标提取主成分,因此X36两职兼任、X43审计意见类型、X44会计师事务所变更、X48避免ST这四个指标不进行主成分分析。为使新的变量能包含更多原有指标的信息,本文提取了6个主成分,累计贡献率达到90%以上。经过Spearman相关分析方法和主成分分析法的处理,本文最终筛选出10个指标,即X36、X43、X44、X48、y1、y2、y3、y4、y5、y6。其中,y1、y2、y3、y4、y5、y6这六个指标由下列公式得出。

其中,stdxij=(xij-x)/s。

因此,最终进入模型的舞弊指标体系为X27、X41、X42、X51、y1、y2、y3、y4、y5、y6。

3.数据归一化处理。由于本文选取的指标数据有些是绝对值,有些是相对值,并且指标之间的数据单位并未统一,为了消除指标间量纲和数量级的影响,提高模型处理数据的效率和识别效果,本文对筛选出来的10个指标用最大最小法进行数据的归一化处理。具体公式如下:

三、BP、LVQ神经网络模型的舞弊识别效果检验

(一)BP、LVQ神经网络模型各自的优缺点分析

1.BP神经网络模型的优缺点分析。BP神经网络是一种按照误差逆向传播算法训练的多层前馈网络,具有输入层、隐含层和输出层三层,广泛应用于模式识别、数据压缩、函数逼近和信息分类领域。作为神经网络技术中最为精华的一个模型,BP神经网络具有非常明显的优势特点:(1)BP神经网络具有非线性映射能力,加之它独特的并行结构,使处理信息的能力和效率得到大幅度提高;(2)BP神经网络同一层的隐含层节点之间没有任何耦合,因此在BP神经网络中每一层节点的输出只影响下一层节点的输出;(3)BP神经网络的权值采用反向传播学习算法,它将信息分布式储存在连结权系数中,这一特性使BP神经网络具有较高的容错性和鲁棒性。但是,BP神经网络可能陷入局部最小问题(顾宁生,2009),无法把分类处理的更细致、更多样化,在一定程度上降低了它对信息分类的准确性。除此之外,当BP神经网络处理的输入向量较多,数据庞大时容易出现收敛速度慢、预测效果下降等问题。

2.LVQ神经网络模型的优缺点分析。LVQ神经网络同样属于前向型神经网络,与BP神经网络结构相似,具有输入层、线性层和竞争层,目前在优化领域和模式识别方面有着广泛应用,也是典型的分类模型之一。它将竞争学习的思想和监督学习算法相结合,在网络学习过程中,通过导师信号对输入样本的分配类别进行规定,从而克服了自组织网络采用无监督学习算法带来的缺乏分类信息的弱点。LVQ神经网络最大的优点在于:(1)可以有效处理线性输入数据的分类问题;(2)能有效处理含有噪音干扰的多维数据;(3)通过增加竞争层神经元数量可以有效提升目标输出的分类量,细化分类并提高分类的准确性(钟淑英、李陶深,2006)。但如果LVQ神经网络中的输入向量与神经元权值设置差距过大,有可能会成为“死”神经元,导致识别效率低下。

由此可见,如果只利用单个模型进行检验,可能会由于检验样本的不同而造成研究结论的差异,使得研究成果不具可比性。因此,本文拟利用同一舞弊样本,检验BP神经网络模型和LVQ神经网络模型的舞弊识别效果,由此得出的舞弊识别效果会具有更好的可比性和可信性。

(二)神经网络模型参数确定

1.输入层节点数:10个。一般来说,神经网络的输入层节点数由模型引入的变量数决定。本文最终进入舞弊风险识别模型的指标数为10个,因此输入层节点数为10。

2.隐含层层数:1层。本文的训练样本有652个数据,考虑到训练样本时间,最终确定为1个隐含层数。

3.隐含层节点数:13个。目前,神经网络隐含层节点数的确定没有一个统一标准,一般都是根据经验或者逐步尝试确定。本文根据一些确定隐含层节点数的公式得出一个取值范围[3,16],在这个范围内逐个试凑,最后确定当隐含层节点数为13个时效果最好。

4.输出层节点数:2个。一般来说,输出节点数由输出变量的个数决定,本文模型的输出结果为舞弊-1或非舞弊-0这两个结果,因此确定输出节点数为2个。

5.算法函数的确定:本文选用LM算法,因为LM算法是为了训练中等规模前向神经网络而提出的最快算法。

(三)BP、LVQ神经网络模型检验及结果分析

本文从506对研究样本中随机抽出326对作为训练样本(占总样本的64.43%),剩余180对样本数据作为测试样本(占总样本的35.57%)。相关的数据处理均在MATLAB2015b中进行,利用MATLAB软件自带的神经网络工具箱处理神经网络模型的舞弊风险识别效果。由于训练样本的识别率代表神经网络模型的学习效果,无法说明模型的舞弊识别效果,因此以测试样本的识别准确率进行比较分析。神经网络训练样本和测试样本判别结果如表3所示。

表3 BP、LVQ神经网络模型神经网络测试样本判别结果

结果分析:

(1)BP神经网络模型的识别效果:180家舞弊公司识别出155家,准确率为86.11%。180家配对公司中识别出159家,准确率为88.33%,高于舞弊公司的识别率。BP神经网络测试样本整体判别率为87.22%。

(2)LVQ神经网络模型的识别效果:180家舞弊公司识别出149家,准确率为82.78%。180家配对公司中识别出157家,准确率为87.22%,同样高于舞弊公司识别率。LVQ神经网络的整体舞弊识别率为85.00%。

(3)用同一舞弊样本检验这两个模型的舞弊识别效果后发现,BP神经网络模型的舞弊识别率略高于LVQ神经网络模型,该结果具有可信性。

四、基于BP-LVQ的组合神经网络舞弊风险识别模型构建

(一)组合神经网络模型构建原理及思路

1.组合神经网络模型构建原理。基于上文对BP神经网络和LVQ神经网络模型的判别结果和优缺点分析,本文提出一种改进的组合模型思路:基于BP-LVQ的组合神经网络舞弊风险识别模型。该模型的构建原理是:BP神经网络模型的舞弊识别效率高于LVQ神经网络,但是BP神经网络容易陷入分类不细致的问题,从而导致舞弊识别效果下降。如本文将0设定为未舞弊公司,1设定为舞弊公司,但BP神经网络模型的输出结果介于[0,1],通常统计该模型识别效果的做法是将判断值 0~0.5之间的判断为非舞弊公司,0.5~1(含0.5)的公司判断为舞弊公司,这种做法的缺陷是对于在0.5值附近的公司类型判断非常容易出现错误,前文BP模型识别结果表明,判断错误的几家公司值均处于0.5附近,因此分类不细致会导致舞弊识别率大幅降低。而LVQ神经网络模型则可以通过增加竞争层神经元的数量细化分类,从而弥补了BP神经网络分类不细致这一缺陷,实现模型的识别率的有效提高。

2.组合神经网络模型构建思路及结构。鉴于BP神经网络模型的舞弊识别效果更优,且LVQ神经网络可以弥补BP神经网络输出结果无法细分的缺点,本文将BP神经网络作为组合模型中的前置分类模型,LVQ神经网络作为后置分类模型。具体的组合神经网络模型处理过程为:

(1)组合模型训练:首先,将最终确定的舞弊风险识别指标分为两类,一类为定性指标X36两职兼任、X43审计意见类型、X44会计师事务所变更、X48避免ST;一类为定量指标且经过主成分分析过的 y1、y12、y3、y4、y5、y6。将第一类指标输入到一个BP神经网络模型中进行训练,将第二类6个定量指标分别输入到BP神经网络模型中进行训练。然后将前置分类模型训练输出的结果整合,作为LVQ神经网络模型(后置分类模型)的输入向量进行模型训练,输出训练样本识别结果。

(2)组合模型测试:测试过程与(1)一样,只是将训练样本换成测试样本,组合神经网络舞弊风险识别模型的判别过程如图1所示。

图1 基于BP-LVQ的组合神经网络舞弊风险识别模型结构

(二)组合神经网络模型舞弊识别效果检验

模型的舞弊识别效果检验利用MATLAB.2015b中自带的神经网络工具箱完成,将搜集的2010—2014年的506对研究样本分成两块,包括训练样本326对,测试样本180对。由于训练样本的识别率代表神经网络模型的学习效果,无法说明模型的舞弊识别效果,因此以测试样本的识别准确率进行比较分析,组合神经网络模型具体的训练和测试结果如表4所示。

表4 组合神经网络测试样本判别结果

结果分析:在180舞弊样本中,组合模型识别出舞弊公司161家,误判为非舞弊公司19家,舞弊公司的识别准确率为89.44%;在180家配对公司中,组合模型识别为非舞弊公司165家,误判为舞弊公司15家,配对公司的识别率为91.67%。从舞弊公司整体识别结果来看,基于BP-LVQ的组合神经网络模型的整体舞弊识别率为90.56%,识别效果显著优于其中任何一个单个神经网络模型(BP神经网络模型的整体识别率为87.22%,LVQ神经网络模型的整体识别率为85%)。因为用于三种神经网络模型的训练样本和测试样本都是一样的,因此三种模型的舞弊识别率具有可比性。

(三)组合神经网络模型稳健性检验

为了测试基于BP-LVQ的组合神经网络舞弊风险识别模型的识别效果是否稳定,本文选取2015年发生舞弊的79家公司及与其一对一配对寻找的79家配对公司为研究样本,测试组合模型舞弊识别稳定性,具体的稳健性检验结果如表5所示。

表5 稳健性检验

结果分析:组合模型的总体舞弊判别率为88.61%,略低于之前的整体舞弊识别率90.56%,但是波动范围不大,并且仍然高于单个神经网络模型的舞弊识别率,说明组合神经网络模型的舞弊识别效果的确高于单一模型,并且舞弊识别效果稳定,可以作为公司舞弊行为的判别模型。

五、研究结论及后续展望

(一)研究结论

第一,本文选取的48个指标中通过显著性检验的有14个舞弊识别指标,其中以X25管理层持股比例、X27两职兼任、X41审计意见类型、X51避免 ST、X67EVA指标、X77现金债务总额比率、X104息税前每股收益这7个指标的舞弊识别效果最好,在1%的水平上显著。

第二,用同一舞弊样本检验在舞弊识别领域应用最广泛、识别效果较好的BP神经网络模型和LVQ神经网络模型的舞弊识别效果,得出BP神经网络整体判别率为87.22%,LVQ神经网络的整体舞弊识别率为85%,说明BP神经网络模型的舞弊识别效果优于LVQ神经网络模型,这一结果比以往研究更有说服力。

第三,在分析比较两种神经网络模型结构及优缺点的基础上,进一步提出基于BP-LVQ的组合神经网络舞弊风险识别模型。以识别效果较好的BP神经网络模型作为主要的前置分类模型,LVQ神经网络作为后置分类模型,不仅有效处理了含噪音的数据,而且弥补了BP神经网络技术无法细分的缺陷,从总体上提升了组合模型的舞弊识别效果。用同一舞弊样本检验组合神经网络模型舞弊识别效果,得出其整体舞弊识别率为90.56%。研究结果表明,优劣互补的组合神经网络模型的舞弊识别效果优于单个神经网络模型。

第四,选取2015年舞弊样本数据对组合神经网络模型进行稳健性检验,结果显示整体的舞弊识别率为88.61%,与之前得出的整体舞弊识别率90.56%相差不大,组合模型的识别效果稳定性较好,可以作为今后公司舞弊风险识别的可选用模型之一。

(二)后续展望

本文的研究结果拓宽了今后舞弊风险识别模型的构建思路,不再局限于单个舞弊识别模型,可以将识别效果好或者优劣互补的模型结合在一起创建新的舞弊风险识别模型。随着人工智能技术的飞速发展和不断进步,今后有望构造出智能舞弊风险识别模型,根据每家公司的不同特质,自动选择合适的舞弊指标体系,构建最优的神经网络模型进行舞弊识别,而不再局限于哪种具体类型的神经网络技术。

[1]陈关亭,2007.我国上市公司财务舞弊因素的实证分析[J].审计研究(5):20-23.

[2]陈国欣,吕占甲,何峰,2007.财务报告舞弊识别的实证研究——基于中国上市公司经验数据[J].审计研究(3):88-92.

[3]Green B P,Choi J H.Assessing the Risk of Management Fraud Through Neural Network Technology[J].Auditing,1997,16(1):14-28.

[4]Feroz E H,Kwon T M,Pastena V S,et al.The efficacy of red flags in predicting the SEC's targets:an artificial neural networks approach[J].Intelligent Systems in Accounting Finance&Management,2000,9(3):145-157.

[5]Nasir M L,John R I,Bennett S C,et al.Selecting the neural network topology for student modelling of prediction of corporate bankruptcy[J].Campus-Wide Information Systems,2001,18(18):13-22.

[6]Nwogugu M.Decision-making,risk and corporate governance:A critique of methodological issues in bankruptcy/recovery prediction models[J].Applied Mathematics&Computation,2007,185(1):178-196.

[7]Lin T H.A cross model study of corporate financial distress prediction in Taiwan:Multiple discriminant analysis,logit,probit and neural networks models[J].Neurocomputing,2009,72(16):3507-3516.

[8]Peat M,Jones S.USINGNEURALNETSTOCOMBINE INFORMATION SETS IN CORPORATE BANKRUPTCY PREDICTION[J].Intelligent Systems in Accounting Finance&Management,2012,19(2):90-101.

[9]吴革,叶陈刚,2008.财务报告舞弊的特征指标研究——来自A股上市公司的经验数据[J].审计研究(6):34-41.

[10]吴世农,卢贤义,2001.我国上市公司财务困境的预测模型研究[J].经济研究(6):46-56.

[11]马超群,吴丽华.基于邻域粗糙集和神经网络的财务预警研究[J].软科学,2009,23(11):123-126.

[12]顾宁生,冯勤超,2009.基于LVQ神经网络的财务舞弊识别模型实证研究[J].价值工程(10):111-113.

猜你喜欢

舞弊识别率神经网络
浅谈财务舞弊与防范
基于类图像处理与向量化的大数据脚本攻击智能检测
神经网络抑制无线通信干扰探究
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
会计电算化环境下会计舞弊的应对策略
提升高速公路MTC二次抓拍车牌识别率方案研究
高速公路机电日常维护中车牌识别率分析系统的应用
基于神经网络的拉矫机控制模型建立
我国上市公司财务舞弊识别模型初探
复数神经网络在基于WiFi的室内LBS应用