数据挖掘在审计抽样中的应用
2013-07-02陈星张宇飞马月张文宇
陈星 张宇飞 马月 张文宇
[摘要]在现代审计过程中,一方面是企业财务信息量的极速增长,一方面是对审计工作的要求越来越高。为了在有限的时间内高质量地完成审计任务,审计抽样就成为了主要方式。数据挖掘是针对当数据信息量过大时,从中有效地发现有用数据,进而进行分析的过程。本文针对审计抽样的特点,运用数据挖掘技术的思想及相关算法,为审计抽样提供了又一种解决方案,将审计抽样分析技术提升到一个新的高度。
[关键词]数据挖掘;审计抽样;运用流程
随着信息技术和数据库系统的普及,人们面对的各种数据量急剧增加,而数据的激增使从中发现重要信息的难度增大,人们希望能够运用有效的数据分析方法对这些繁乱无章的数据进行更深一层次的分析,以便更好地掌握和利用这些数据,挖掘出对人们有用的信息。在这一情况下,数据挖掘(Data Min-ing,DM)技术应运而生并逐渐发展成熟。
从审计角度来看,在企业规模不断扩大和经营复杂程度不断提升的今天,审计人员在进行审计时需要面对海量的财务数据。时间与成本的限制,使得审计人员对每一笔交易进行检查日益变得既不现实,也没有必要。为了在合理的时间内以合理的成本完成审计工作,审计抽样的运用就变得不可或缺。因此,在审计抽样领域应用数据挖掘是审计人员的现实需要。这将有利于解决审计抽样数据的噪音问题,有效地控制审计风险、降低审计成本。
审计工作如今越来越制度化、规范化,进行审计抽样方法的研究更加有现实意义。数据挖掘技术在一些行业已有成功的应用,但由于审计工作的专业性较强,涉及审计业务的技术研究相对缓慢,在审计抽样中的应用也不多见。
一、数据挖掘技术的概念和步骤
概括来说,数据挖掘是一种特定应用的数据分析过程,它可以从包含大量冗余信息的数据中提取尽可能多的隐藏知识,从而为做出正确的判断提供基础。
通过各国学者多年来的不断研究,现在已经有多种数据挖掘技术存在,用于集中对大量数据的抽取和分析。总的来说,数据挖掘的任务及模式有聚类、分类、关联规则、偏差检测等。聚类分析可以在事先不规定分组规则的情况下,将数据按照其自身特征划分成不同的群组,在不同群组的数据间有明显差别,而每个群组内部的数据比较相似;分类可以解决的问题是为一个事件或对象归类,在使用上既可以用此模型分析已有的数据,也可以用它来预测未来的数据;关联分析的目的是找出数据中隐藏的关联关系网,其生成的规则一般带有可信度;偏差检测对发现数据库中的异常记录很有意义。数据挖掘技术中常用的方法有分类、聚类、回归分析、关联规则、决策树、粗糙集等。
数据挖掘的基本过程可由以下四个步骤的组成:
(1)问题识别。清晰地识别出领域内的特定问题,确定数据挖掘的目的。
(2)数据准备。包括数据收集及数据预处理,实现对目标数据集的提取及对数据进行再加工。
(3)数据挖掘。这是数据挖掘过程中最重要的步骤,其工作是使用智能算法,在经过加工的数据集上进行数据挖掘,提取出数据模式或规律知识。
(4)结果分析。对数据挖掘的结果进行解释和评价,转换成为用户所需要的知识。
二、审计抽样和审计统计抽样
审计抽样是指注册会计师对具有审计相关性的总体中低于百分之百的项目实施审计程序,使所有抽样单元都有被选取的机会,为注册会计师针对整个总体得出结论提供合理基础。
审计抽样应当具备三个基本特征:(1)对某类交易或账户余额中低于百分之百的项目实施审计程序;(2)所有抽样单元都有相同概率被选取的机会;(3)审计测试的目的是为了评价该账户余额或交易类型的某一特征。
审计人员在使用审计抽样方法时,主要分为三个阶段进行。第一阶段是样本设计阶段,旨在根据测试的目标和抽样总体,制定选取样本的计划。第二阶段是选取样本阶段,旨在按照适当的方法从相应的抽样总体中选取所需的样本,并对其实施检查,以确定是否存在误差。第三阶段是评价样本结果阶段,旨在根据对误差的性质和原因的分析,将样本结果推断至总体,形成对总体的结论。
审计抽样包括统计抽样和非统计抽样两种方法。统计抽样是指同时具备下列特征的抽样方法:(1)随机选取样本项目;(2)运用概率论评价样本结果。不同时具备前款提及的两个特征的抽样方法为非统计抽样。
审计人员会根据具体情况,运用职业判断,来选取能够最有效率的获取审计证据的抽样方法。统计抽样的优点在于能够客观地计量抽样风险,并通过调整样本规模来精确地控制风险,这也是与非统计抽样的最主要的区别。另外,统计抽样还有助于审计人员高效地设计样本,计量所获取证据的充分性,以及定量评价样本结果,也正是如此,才使数据挖掘的运用得以进行。
审计抽样中数据挖掘的运用流程
任何一项审计工作,都不可能也不应该去审查总体中的所有样本,这种做法所花费的时间和费用成本不存在合理性。更重要的是审计人员在限定的时间内完成对每个程序收集所有证据,并进行检查的任务是不现实的。所以我们需要在大量的可能数据中选取其中的一部分作为审计样本。针对审计抽样的性质,综合考虑数据挖掘各种算法的特点,我们可以使用数据挖掘中的分类或聚类算法将难以计数的随机审计数据进行分层,将审计数据分成若干层,并且为每一层规定唯一的编号,再从中选择若干样本进行重点分析。这样,审计人员就有可能使用少量具有代表性的审计样本,来代替大量相似的审计数据,从而大大减轻了审计人员的负担。另外,在许多情况下,由于某些未被完全知道的原因,一些单个重大项目需要重点分析,这时使用偏差测试检验可以更加容易地发现关键因素。同时针对不同审计抽样的特殊性,综合运用其它方法进行补充。
根据审计抽样过程中各种数据挖掘算法的运用思想,将审计抽样的三个阶段与数据挖掘的四个步骤进行结合,可以总结出审计抽样的数据挖掘具体流程,如图2所示。
(1)问题识别。在这一阶段主要内容包括确定审计的问题和目标,掌握解决此类问题的主要方法,确定审计数据挖掘目标和结论的评估标准。
(2)数据准备。数据收集和预处理直接决定着审计数据挖掘结论是否正确。由于被审计单位数据量过大,审计人员需要在满足重要性和相关性的基础上采样进行数据消减;再针对各种不同类型的数据采取相适应的数据预处理方法。通过数据准备这一步骤,审计人员将原始数据转换为了数据挖掘方法所需要的特定的数据格式及类型。
(3)数据挖掘。这一过程是审计人员在审计问题的发现过程中的一个关键性步骤。这一步骤包括选择数据挖掘方法、确定训练与检验程序、建立模型、验证发现的知识等。
(4)结果分析。根据审计的问题和目标对提取的信息进行分析,把结果转换为易懂的知识从而提交给审计人员。如果对结果不满意,则重复进行上述过程。
结束语
在计算机技术快速发展的时代,企业财务数据信息量过于庞大,在进行审计抽样时,传统的人工抽样方式已不再适用,简单的电算化技术操作也不能很好地满足要求。本文从改进审计抽样的技术方法出发,运用数据挖掘技术可以快速有效地为审计人员搜集其所需的证据,来实现在审计抽样的过程中,尽可能地提高效率、降低成本的目标。有效地有利于将审计人员从繁杂的审计证据收集工作中解脱出来,将更多的精力致力投入到职业判断中,进行审计决策的制定,有效地保证了审计工作的完成质量。
参考文献
[1]赵磊.数据挖掘技术在财务分析中的应用[J].中国管理信息化,2009,12(2):34-38.
[2]邹友华.数据挖掘在财务决策中的应用[J].现代商贸工业,2008,4(4):157-158.
[3]孙山泽.抽样调查.北京:北京大学出版社,2004.
[4]中国注册会计师协会编.审计[M].北京:中国财政经济出版社,2012.
[5]毛国君、段立娟、王实、石云编著.数据挖掘原理与算法(第二版)[M].北京:清华大学出版社,2007.
[6]张莉.数据挖掘技术及应用现状[J].中国石油人学胜利学院学报,2008,6:34-35.
[7]Patricia L. Smith,Audit and Assessment of SamplingSystems[J].Chemometrics and Intelligent Laboratory Systems.2004,1(74):225-230.