基于Benford定律的大数据审计方法研究与实现
2017-09-22陈伟吴正刘海
陈伟 吴正 刘海
基于Benford定律的大数据审计方法研究与实现
陈伟 吴正 刘海
本文首先分析了常用的电子数据审计方法;然后结合开展大数据审计的需要以及Benford定律的特点,研究了基于Benford定律的大数据审计方法,分析了其原理;在此基础上,在自主研发的审计软件中实现了该方法,并结合案例分析了基于Benford定律的大数据审计方法的应用;最后,总结了该方法的优点。研究结果为今后开展大数据审计提供了技术方法与工具支持。
大数据审计 电子数据审计 Benford定律 计算机辅助审计技术
一、引 言
随着信息技术的发展,大数据时代的到来为审计工作带来了机遇和挑战。目前国内高度关注大数据技术及其在审计中的应用。2015年8月国务院印发《促进大数据发展行动纲要》。2015年12月中共中央办公厅、国务院办公厅印发的《关于实行审计全覆盖的实施意见》指出:创新审计技术方法是实现审计全覆盖的一个重要手段,要求构建大数据审计工作模式,提高审计能力、质量和效率,扩大审计监督的广度和深度。社会审计也高度重视大数据技术,中国注册会计师协会(2017)提出了研究大数据、人工智能等先进信息技术在注册会计师行业的落地应用,促进会计师事务所信息化。国内学者分析了大数据环境下电子数据审计的机遇、挑战与方法(陈伟,2016),研究了大数据环境下基于模糊匹配的审计方法(陈伟,2016)以及大数据环境下基于数据可视化技术的电子数据审计方法(陈伟,2017)。国外实务界与学术界也高度关注大数据技术在审计中的应用。国际内部审计师协会2011年发布了电子数据分析技术指南(Lambrechts等,2011);大数据审计得到了美国注册会计师协会(AICPA)的重视,AICPA(2014)分析了大数据环境对审计工作的影响;Braun(2003)的调查发现国外政府审计人员认识到数据审计的重要性,但在数据审计方面的水平尚需要提高;Brown(2015)认为要多关注审计人员处理大数据的能力,比如如何对审计人员进行大数据审计方面的培训,如何开发大数据审计工具或借助其他领域的软件工具来开展大数据审计;Earley(2015)分析了大数据技术给审计工作带来的机遇和挑战,研究了大数据技术在CPA审计中的应用;Wang(2015)调查发现:数据审计在审计工作中具有重要的作用,但社会审计和内部人员对数据审计重视和应用还不够。
综上所述,研究大数据环境下的审计理论与方法具有重要的理论意义和应用价值。本文结合目前大数据的研究与应用现状,研究基于Benford定律的大数据审计方法。
二、常用数据审计方法分析
信息化环境下,审计的对象是电子数据,因此,审计证据的获取多是通过采用信息技术对被审计数据的分析来完成的。常用的审计数据分析方法主要包括:数据查询、统计分析、数值分析等。通过这些方法对被审计数据进行分析,可以发现审计线索,获得审计证据。
1.数据查询
数据查询是目前电子数据审计中最常用的审计数据分析方法。数据查询是指审计人员针对实际的被审计对象,根据自己的经验,按照一定的审计分析模型,在通用软件(如Microsoft Access、SQL Server)和审计软件中采用SQL语句来分析采集来的电子数据。或采用一些审计软件,通过运行各种各样的查询命令以某些预定义的格式来检测被审计单位的电子数据。目前,除了借助通用软件应用数据查询这种方法之外,多数审计软件都提供了审计数据分析方法,如,国内的审计软件如现场审计实施系统和电子数据审计模拟实验室软件等;国外的审计软件如IDEA、ACL等。
2.统计分析
在电子数据审计中,统计分析的目的是探索被审计数据内在的数量规律性,以发现异常现象,快速寻找审计突破口。常用的统计分析方法包括一般统计、分层分析和分类分析等。
3.数值分析
数值分析是根据被审计数据记录中某一字段具体的数据值的分布情况、出现频率等指标,对该字段进行分析,从而发现审计线索的一种审计数据分析方法。这种方法是从“微观”的角度对电子数据进行分析,审计人员在使用时不用考虑具体的被审计对象和具体的业务。在完成数值分析之后,针对分析出的可疑数据,再结合具体的业务进行审计判断,从而发现审计线索,获得审计证据。相对于其他方法,这种审计数据分析方法易于发现被审计数据中的隐藏信息。常用的数值分析方法主要有重号分析、断号分析和Benford定律。目前重号分析、断号分析应用较多,但Benford定律应用较少。
三、基于Benford定律的大数据审计方法分析
(一)Benford定律原理
美国天文学家Simon Newcomb和美国通用电气公司的科学家Frank Benford研究发现:首位数字出现较小数字的可能性比出现较大数字的可能性要大。后人以Frank Benford的名字命名了这条定律,即Benford定律(Benford’s Law)。概括来说,Benford定律是指数字及数字序列在一个数据集中遵循一个可预测的规律。美国国家标准和技术学院(National Institute of Standards and Technology,NIST)给出了Benford定律的定义:在不同种类的统计数据中,首位数字是数字d的概率为log10(1+1/d)。其中,数据的首位数字是指左边的第一位非零数字。例如数据4321、4. 321、0. 4321的首位数字均为4。
根据Benford定律,首位数字出现的标准概率分布曲线如图1所示。同理,根据Benford定律,也可以计算出数据各位上数字出现的概率。
图1 首位数字出现的标准概率分布曲线图
图2 基于Benford定律的大数据审计方法原理
图3 Benford定律功能的主界面
根据以上分析可以得出:如果被分析的审计大数据不符合Benford定律的标准概率分布曲线,则表明在被分析的审计大数据中可能含有“异常”的数据。
Benford定律提供了一种大数据审计方法,通过采用Benford定律对被审计大数据进行分析,可以识别出其中可能的错误,潜在的欺诈或其他不规则事物,从而发现审计线索。然而,Benford定律并不是适用于所有被审计数据,因而没有被广泛应用。Benford定律适用的三个经验条件为:(1)被审计数据量具备一定规模,能够代表所有样本。一般而言,应用Benford定律进行分析的数据集规模越大,分析结果越精确。这特别适用于大数据审计。(2)被审计数据没有人工设定的最大值和最小值范围。(3)要求目标数据受人为的影响较小。大数据时代的到来使得审计人员再次认识到了计算机辅助审计技术(CAATs,Computer Assisted Audit Techniques)的重要性,其中,Benford定律的应用在大数据环境下可以重新发挥重要作用了(Earley,2015)。
(二)基于Benford定律的大数据审计方法原理
大数据环境下,Benford定律有助于审计人员探索、分析和解释复杂的海量数据,审计人员通过Benford定律,能够“洞察”被审计数据信息中的异常数据,快速从大数据中发现问题。一般来说,采用Benford定律进行大数据审计的流程如下:
图4 税收数据的第一位数字分析结果示例
图5 税收数据的前两位数字分析结果示例
在审计大数据集成和预处理的基础上,借助Benford定律软件对被审计数据进行建模和分析。然后,审计人员通过对可视化的分析结果进行观察,快速从被审计大数据信息中发现不符合Benford定律的异常数据,获得审计线索。另外,审计人员可以根据需要,对异常数据做细化分析,从不同的方面获得对被审计数据的理解,从而全面地分析被审计数据。在可视化分析结果的基础上,审计人员可以选取“异常”数据,进行提取察看,并保存这些分析结果,在此基础上,可以对这些保存出来的可视化分析结果数据做进一步的延伸审计和审计事实确认,最终获得审计证据。概括来说,基于Benford定律的大数据审计方法原理如图2所示。
四、基于Benford定律的大数据审计方法的实现
基于大数据审计的需要以及Benford定律的原理和特点,笔者在所研发的电子数据审计模拟实验室软件(审计实务版名称为:“易智通审计”软件)中设计了这一方法,在电子数据审计模拟实验室软件中,复杂的Benford定律就做成一个使用简便的数据分析应用程序(陈伟,2016)。Benford定律功能的主界面如图3所示。其主要功能介绍如下:
1.参数条件设置区
参数条件设置区包括选择分析字段、选择分析哪位数字(第一位数字、第二位数字、前两位数字)、以及选择查询数字。
在执行Benford定律功能时,用户通过在参数条件设置区中选择要进行Benford定律分析的数值型字段,以及对该字段的哪位数字进行分析,然后执行Benford定律,从而完成对该字段的Benford定律分析。
对于分析后的结果,用户通过在参数条件设置区中选择要查询的数字,然后单击“延伸查询”按钮,便可查看要查询数字的结果,该结果显示在数据预览及结果显示区中。
2.分析结果图形显示区
分析结果图形显示区用来以图形的形式显示所进行的Benford定律分析的分析结果。
3.数据预览及结果显示区
数据预览及结果显示区用来显示当前待分析数据表中的数据,用户可以通过该区预览当前待分析数据表中的数据。另外,Benford定律分析功能的数据分析结果也在该区中显示,用户可以通过单击菜单“文件”→“分析结果导出”完成分析结果的导出和保存。
图6 数据延伸分析参数设置示例
图7 选中数字的显示结果示例
五、基于Benford定律的大数据审计方法应用
现以某税收征收电子数据(文件名为“税收征收.mdb”,数据表名为“征收表”)为例,利用电子数据审计模拟实验室软件的“Benford定律”对“实纳税额”字段进行分析,其过程如下:
(1)借助数据采集功能把数据采集到软件中来,如图4所示,设置相应的参数,采用“Benford定律”对“实纳税额”字段第一位数字进行分析,分析结果如图4所示。不难发现:图中第一位数字分析结果基本符合Benford定律。
(2)为了进一步进行确认,设置相应的参数,即对“实纳税额”字段的前两二位数字进行分析,其结果如图5所示。
(3)不难发现:图5中前两位数字分析结果中,一些数字不符合Benford定律,且偏离较大,为了进一步进行确认,可以进行“延伸分析”,比如,单击“选取查询数字”下拉框,选取查询数字为“60”,如图6所示。然后单击“延伸分析”按钮,查看“实纳税额”字段中前两位数字为“60”的数据记录,其结果显示在数据预览及结果显示区中,如图7所示。
(4)通过单击菜单“文件”→“分析结果导出”→“Excel格式”,可以把图7中的分析结果导出成名为“前两位数字为60”的Excel文件,如图8所示,在此基础上,可以做进一步的延伸审计,最终获得审计证据。对于本例,经过对这些实纳税额数据的详细审查,落实虚假的实纳税额数据3例。
六、总结
图8 可视化分析结果数据提取示例
大数据时代的到来使得审计工作不得不面临被审计单位的大数据环境, 如何便于审计人员从整体上把握被审计大数据情况,快速发现可疑数据,提高审计效率,实现“集中分析,分散核查”的方式成为大数据环境下开展审计工作的一项重要任务。本文根据这一需要,结合Benford定律的特点,研究了基于Benford定律的大数据审计方法,并在自主研发的审计软件中实现了该方法。由本文的研究可知,相对于目前常用的电子数据审计方法,基于Benford定律的审计方法适合目前大数据分析的需要,能够使审计人员通过可视化的手段“洞察”被审计数据中的问题,快速从被审计大数据中发现异常数据,基于Benford定律的大数据审计方法将会成为今后大数据审计的一个重要手段。
1.陈伟.电子数据审计模拟实验室研究.中国注册会计师.2015(7)
2.陈伟.电子数据审计模拟实验.清华大学出版社.2016
3.陈伟. 大数据环境下基于模糊匹配的审计方法.中国注册会计师.2016 (11)
4.陈伟, Smieliauskas W.云计算环境下的联网审计实现方法探析.审计研究.2012 (3)
5.陈伟, Smieliauskas W.大数据环境下的电子数据审计:机遇、挑战与方法.计算机科学.2016 (1)
6.陈伟, Wally Smieliauskas. 大数据环境下基于数据可视化技术的电子审计方法.中国注册会计师.2017 (1)
7.AICPA. 2014. Reimagining Auditing in a Wired World[EB/OL]. http://www. aicpa.org.
8.Earley C E. 2015. Data analytics in auditing: Opportunities and challenges [J]. Business Horizons(5): 493-500.
9.Lambrechts A J, Lourens J E, Millar P B,etc. 2011. Global technology audit guide (GTAG):Data analysis technologies[M]. The Institute of Internal Auditors.
10.Wang T, Cuthbertson R. 2015. Eight issues on audit data analytics we would like to see researched [J]. Journal of Information Systems. 29(1):155-162.
11.Brown L H, Issa H, Lombardi D R. 2015. Behavioral Implications of Big Data’s Impact on Audit Judgment and Decision Making and Future Research Directions[J]. Accounting Horizons, 2015, 29(2):150119134654004.
国家自然科学基金(71572080);教育部人文社会科学研究规划基金(14YJAZH006);江苏省“六大人才高峰”高层次人才项目(2014-XXRJ-015
作者单位:南京审计大学审计科学研究院 国家审计署驻上海特派员办事处