APP下载

基于数据挖掘的财务舞弊识别研究

2014-12-30高媛媛

科技经济市场 2014年11期
关键词:财务舞弊决策树数据挖掘

高媛媛

摘  要:本文以财务舞弊识别为目标,应用C5.0算法的决策树模型对舞弊识别指标进行特征选择,并在此基础上构建神经网络模型,建立舞弊识别组合模型,并与BP神经网络的预测结果进行了对比分析。研究表明,基于决策树-神经网络组合模型的精确性和稳定性更高,能更有效的识别财务舞弊。

关键词:财务舞弊;数据挖掘;决策树;神经网络

0  引言

财务报表舞弊是我国资本市场当前和未来一段时期内面临的最大挑战之一。虽然对上市公司的信息监管力度不断加强,但为了追求相关群体的利益最大化,上市公司依然有着强烈的财务舞弊的动机,并且倾向于采用更为隐蔽的手段,上市公司的财务舞弊行为必然会损害广大投资者的利益,破坏资本市场的健康发展,这就要求监管部门以及会计师事务所必须不断加大对财务舞弊识别方法的探索,利用先进的计量分析技术建立有效精准的评估模型评估舞弊风险、识别舞弊行为。

关于财务舞弊识别国内外做了大量研究,提出了很多识别方法及模型。例如单因素方差分析模型、Logistic 回归分析、线性概率模型、多元判别分析方法、神经网络等等。其中神经网络是一种是"一种基于脑与神经系统研究,所启发的信息处理技术",具有自组织、自适应以及较强的学习能力,由于其能迅速寻找优化解,具有较强预测能力,因此得到较为广泛的应用。例如Fanning等人(1995)分别使用了 Logistic regression、通用的自适应神经网络结构和自适应逻辑网络两种方法设计神经网络模型对公司虚假财务报告进行识别,结果表明,神经网络的识别准确率高于Logistic regression的识别准确率;Green and Choi (1997)采用人工神经网络技术构造了建立在原始财务数据基础上的财务报告舞弊判别模型;Lin、Hwang &Becker(2003)进一步构建了基于模糊神经网络的会计舞弊判定模型,实证结果表明它可以有效地减少审计师的偏见或弥补审计师的不足;我国的刘君、王理平(2006)采用径向基概率神经网络为工具,经过对样本的训练和学习,取得了较高的识别率。

然而神经网络的主要缺点是结构不明,可能出现过度训练,从而导致预测稳定性不佳,而且神经网络的黑箱操作性使其无法揭示模型的结构,缺乏解释性。因此单一神经网络模型在实际操作时具有风险,为了避免这一缺陷,本文拟首先利用决策树进行特征指标选择,以减少非核心指标对舞弊识别预测结果的影响,然后建立决策树-神经网络组合模型,将两个单一模型相结合,以达到性能互补、增强模型的稳定性和精确度的目的。

2  组合模型算法

(一)决策树

决策树使用属性选择度量进行选择,属性选择度量是一种选择分裂准则,即按照不同的属性将总样本构造为不同的子集,每一子集内部因变量的取值高度一致,其目标是让各个分裂子集尽可能地"纯",相应的变异/杂质尽量落在不同子集区间。所有决策树模型的算法都遵循这一原则,差异只在于对变异/杂质的定义不同。某个节点处按照某一特征属性的不同划分构造不同的分支,决策树算法中最具代表性的是Quinlan于1986年提出的ID3,在该算法中,引入了信息论中熵的概念,利用分割前后的熵来计算信息增益,作为判别能力的度量。但是ID3算法的主要缺陷是只能处理离散型描述属性。此外,按照信息增益最大的原则,ID3算法首先判断的属性(靠近决策树的根节点)在某些情况下可能不会提供太多有价值的信息。随后,Quinlan改进了ID3,提出C4.5算法,该方法使用增益率(gain ratio)的信息增益扩充,以克服ID3偏向于多值属性的缺陷。C4.5不仅可以处理离散型描述属性,还能处理连续性描述属性。C5.0算法则是C4.5算法的修订版,适用于处理大数据集,采用Boosting方式提高模型准确率及计算效率。

(二)BP神经网络

BP神经网络的基本原理:BP神经网络一般是多层的,神经网络模型拓扑结构包括输入层、隐含层和输出层。隐含层可以为一层或多层,多层的网络设计,使BP网络能够从输入层中挖掘更多的信息,完成更复杂的任务。对于输入信号,要先向前传播到隐含层节点,经作用函数后,再把隐节点的输出信号传播到输出节点,最后给出输出结果。BP网络一般使用Sigmoid函数或线性函数作为传递函数。在BP神经网络中,数据从输入层经隐含层向后传播,训练网络权值时,则沿着减少误差的方向,从输出层经过中间各层逐层向前修正网络的链接权值。随着学习的不断进行,最终的误差越来越小。

3  数据来源及研究设计

(一)数据来源与研究平台

研究选取2003-2012年因提供虚假财务报告而被证监会、上交所、深交所公开处罚的制造业上市公司作为舞弊公司样本,以与舞弊样本相同行业、相同年度、相近规模为标准选取非舞弊公司作为配对样本,提出了仅发行B股的公司,共得到1031个舞弊样本以及960个非舞弊样本,所用数据主要来源于CCER数据库。本研究以SPSS Modeler 14.2为研究平台,建立组合模型。

(二)舞弊识别初选指标

舞弊识别指标通常作为舞弊识别的分类特征,因此甄选适当的识别指标是构建模型的前提。根据以往的研究经验,在识别财务舞弊方面财务指标被普遍应用。除此之外,公司外部监督和内部治理机制是会计信息的真实性的有力保障,因此本研究选取了涵盖企业偿债能力、营运能力、盈利能力、发展能力、风险水平、现金流量能力等方面的财务指标;同时也将选择公司治理、股权结构、审计意见等非财务信息指标作为舞弊识别的初选指标(见表1)

(三)模型设计

本文设计的研究模型为决策树--神经网络两阶段组合模型,首先利用 C5.0算法构建最优决策树,从舞弊识别备选指标中选择对舞弊识别分类预测结果影响较大的指标。随后将甄选后的指标作为神经网络输入层的指标构建BP神经网络模型,最后利用测试集对模型的优劣进行评估。

(四)选择特征属性

对舞弊识别的特征属性进行选择,首先要建立最优决策树。为了避免决策树过度拟合需要调整决策树的修剪程度;此外Boosting技术能够提高弱分类模型的准确性,因此需确定最佳 Boosting迭代次数,经过多次试验后,建立最优决策树的条件是:修建严重性为70;Boosting迭代次数为25次。将SPSS Modeler中的决策树C5.0模型按照上述参数设置,此时构建的决策树为最优决策树,基于C5.0算法信息熵增益率的分类原理可以得出,各属性指标对分类预测结果的影响大小排序如表2:

4  建模检验与评估

(一)组合模型

选取最优决策树甄选出的11个特征指标作为BP神经网络输入层的属性指标,按照7:3比例将样本拆分为训练集和测试集。同时设置防过度拟合率为80%,在出现错误时停止学习,其他采用系统默认。由于神经网络模型的稳定性不佳,因此采取重复10次运行模型得出分类预测的结果,组合模型分类结果如表3:

(二)组合模型与单一BP神经网络模型的对比分析

将未经筛选的指标作为单一BP神经网络输入层的指标属性,其他设置均与组合模型一致,与组合模型的运行结果对比分析,运行结果如表4:

由表3与表4对比可见,决策树--神经网络组合模型的总体正确率远远高于单一神经网络模型。组合模型的测试集10次运行的最高正确率为79.8%,高出单一神经网络模型测试集的最高精度13.1%,且组合模型整测试集体正确率方差为0.0012(表5),小于单一神经网络模型测试集正确率方差,说明组合模型的稳定性好于单一神经网络模型。可见,基于信息熵增益率分类原理的最优决策树挑选指标方法的有效性得到了很好的验证,该方法能合理的去处非重要属性指标的干扰,使真正有效的属性指标输入神经网络模型进行预测分类,提高模型分类的准确性和稳定性。此外,由决策树甄选出的指标可知非主板上市公司更容易发生舞弊行为;代表资产质量的自由现金流比、应计总额资产指数、流动比率;代表盈利质量的财务费用率、应计利润率、收益质量指标;以及代表内、外部监管力度的审计意见、董事会会议次数等指标对区分舞弊与非舞弊有重要影响,较原来单一BP神经网络模型的"黑箱性",决策树--神经网络组合更容易理解。

5  总结

为了有效的识别财务舞弊,本文应用C5.0算法的决策树模型,建立最优决策树,将其选取出来的识别财务舞弊的特征属性按重要性排序,将非主板上市、自由现金流比等指标输入神经网络,得出预测结果。从组合模型与单一神经网络模型的对比分析来看,利用基于信息熵增益率分类原理的最优决策树模型提高了神经网络的可解释性、稳定性及精确度。

参考文献:

[1]薛薇,陈欢歌.Clementine数据挖掘方法及应用[M].电子工业出版社,2010.

[2]汪士果,张俊民.基于数据挖掘的会计舞弊识别问题研究综述[M].中南财经政法大学学报,2011(1).

[3]刘建勇、汤浩.我国上市公司财务报告舞弊识别指标体系研究-基于问卷调查结果的实证分析[M].中国管理信息化,2008(1).

[4]刘君、王理平.基于概率神经网络的财务舞弊识别模型[M].哈尔滨商业大学学报,2006(3).

猜你喜欢

财务舞弊决策树数据挖掘
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于并行计算的大数据挖掘在电网中的应用
上市公司的财务舞弊分析及启示
基于决策树的出租车乘客出行目的识别
一种基于Hadoop的大数据挖掘云服务及应用
基于肺癌CT的决策树模型在肺癌诊断中的应用
基于GPGPU的离散数据挖掘研究