浅析基于本福特定律的大数据审计路径
2021-03-24何超
何超
随着信息技术发展,大数据审计的方法逐渐得到广泛应用。论文以本福特定律为数据分析模型,尝试构建一个大数据审计的路径。通过分析费用发生额的首位数分布,与本福特定律的分布概率进行比对,并对不符合本福特定律的发生额进行重点审计,从而提高抽样审计的效率和准确度。
根据《审计署办公厅关于印发数据审计相关标准用语(试行)的通知》:大数据审计是指审计机关遵循大数据理念,运用大数据技术方法和工具,利用数量巨大、来源分散、格式多样的经济社会运行数据,开展跨层级、跨地域、跨系统、跨部门和跨业务的深入挖掘与分析,提升审计发现问题、评价判断、宏观分析的能力。[ 山西省审计厅,《山西省审计厅关于转发《审计署办公厅关于印发数据审计相关标准用语(试行)的通知》的通知》http://www.linfen.gov.cn/shenji/contents/1616/38074.html]在审计过程中,利用大数据审计方法能迅速帮助审计人员快速读懂纷繁复杂的数据,找到审计需要关注的重点区域,进一步拓展内部审计的广度和深度,提高审计效率和质量。
一、本福特定律概述
本福特定律,也稱为本福特法则。1938年,美国电气工程师本福特发现:在b进位制中,以数n起头的数出现的概率为。具体到我们常用的十进制而言,在一群不规则的数列中,首位数是1的概率为lg(2/1),即约为30.1%;首位数是2的概率为lg(3/2),即约为17.6%......以此类推,首位数为9的概率为lg(10/9),即约为4.6%。具体概率分布如图1。
本福特定律被认为是可以通过自然规律验证不规则数据真伪的工具,被广泛应用于数学、金融等领域。如有人为编造数据,就会出现不符合本福特定律分布规则的现象。2020年5月,央视新闻网报道:牛津大学商学院学者冈村健与美国达拉斯联邦储备银行研究部高级经济师克里斯托弗·科赫联合发表了一篇名为《本福特定律和新冠疫情数据报告》的论文。作者从中国政府官方渠道筛选出疫情数据,通过统计该疫情数据首位数符合本福特定律分布,并得出中国的疫情数据不存在操纵可能的结论。[ 央视网新闻,《英美学者:中国疫情数据“不存在被操纵可能” 重要结论有三点》,https://xw.qq.com/cmsid/20200504A070GQ00?f=newdc]由此可见,本福特定律的应用范围之广泛。
二、基于本福特定律的大数据审计路径
根据本福特定律,审计人员可以借助计算机辅助审计手段建立大数据审计分析模型,并将调取的电子数据与首位数分布概率比对,从而分析出需要重点关注的审计线索,从而提高了审计抽样的科学性和效率,节约了审计成本和审计时间。本文以审计2019年某市烟草公司管理费用办公费为例,详细解析如何利用本福特定律构建大数据审计路径。
(一)数据采集
一般而言,大数据审计采集的数据来源广泛。根据审计需要采集的数据可以是专业财务管理系统的数据,也可以是从政府公开发布的经济统计数据,亦可以是各种行业协会发布的行业内部数据。目前,H省烟草商业系统普遍使用用友NC财务系统。审计人员利用审计账号登录NC系统后,通过NC系统主界面,审计人员可以很快直达相关业务界面,有效采集与审计相关的财务、业务和管理数据。以审计抽样2019年管理费用办公费为例,审计人员通过查询辅助明细账,可以保存输出一张EXCEL表格(如图2),共计1109行电子数据。
(二)数据处理
采集所需要的审计数据后,需要对采集的数据进行预处理。对数据处理的手段或流程包括数据集成、数据清洗和冗余消除等方式。通过数据处理,将大量的、杂乱无章的、充满干扰的数据中,抽取出对于审计工作有价值、有意义的数据。接上例,通过查询电子数据,审计人员发现部分电子数据存在借方发生额为负数的情况。查询摘要和询问经办人得知,被审计单位2019年对以前年度的部分发生的办公费进行了调账冲回,审计人员判断这些业务与抽样2019年实际发生的办公费关联不大。此外,部分数据存在贷方发生额,查询摘要发现贷方发生额为月末对办公费结转本年利润科目导致。根据以上判断,审计人员需要对采集的数据进行清洗,具体清洗方式为在借方栏表格中设置大于0的筛选条件(如图3),可将借方负数发生额、贷方发生额从统计数据中剔除。最后删除本月合计、本年累计行,最终得到需要审计抽样的593个样本。
(三)数据分析
数据分析主要是对预处理和结构化的数据的宏观趋势、散度、分布等进行解析,从而快速恢复被审计项目的历史原貌。在时间及空间维度下的大数据分析可以更多采用统计分析、数据挖掘和数据可视化等方法,以扩大大数据审计分析能力。接上例,经过处理后的办公费数据已全部显示为符合抽样条件的数据。根据本福特定律,数据的首位数分布应当符合相应的概率比例。在表格中,设置函数LEFT(字符串,1)对符合筛选后的数据首位数进行统计,并设置函数COUNTIF(区域,“=N”)(N=1,2...9)对首位数相同的数据进行汇总统计,并进行可视化处理,得到一张首位数概率分布图(如图4)。期望值为本福特定律首位数分布概率,测试值为经筛选的593个样本的办公费首位数分布概率。
(四)分析结论及抽样应用
审计抽样是对具有审计相关性的总体中低于百分之百的项目实施审计程序,使所有抽样单元都有被选取的机会,为审计人员针对整个总体得出结论提供合理基础。接上例,通过分析性程序审计人员可以得出结论:除首位数为1的办公费发生额偏离度较大以外,X市烟草公司管理费用办公费总体偏离指数不大,发生差错或舞弊风险较低,整体风险在可控范围之内。在审计抽样过程中,审计人员可以重点抽取重要性水平较高的样本和办公费发生额首位数为1的样本。
三、结语
随着信息化建设的不断推进,大数据审计不再是“阳春白雪”高不可攀,利用本福特定律为我们的内部审计工作提供了新的方法和思路,但本福特定律的本身并不是万能,需要我们在今后的大数据审计工作中不断改进。
一是本福特定律存在使用限制条件。需要指出的是,本福特定律应用条件为一列不规则的数字,数字本身不能存在人为限制的因素。但在实际工作中,很多开支项目可能存在内设的最高值或最低值。如湖北省商业系统普遍对重点采购或工程项目的开支设置了项目预算、拦标价等。相比之下,费用发生额的范围更广、数据更多、更有分析性,一般也比较符合本福特定律的条件。此外,审计人员发现某一组数据分部概率不符合本福特定律,不能直接得出这组数据一定存在问题的结论,只能判断这组数据出现差错的概率相对较大,具体审计结论需要配合其他审计程序进一步验证。
二是内部审计有重要性原则。内部审计准则与规范是审计人员进行内部审计工作时必须遵循的行为规范和要求,是审计人员执行内部审计业务,获取审计证据,形成审计结论,出具审计报告的专业标准。作为一种分析性程序,本福特定律也必须遵循内部审计准则与规范,不能违背内部审计重要性原则。应用本福特定律也必须结合内部审计的重要性原则,在审计抽样过程中既要抽取重要性水平以上的样本,也要抽取不符合本福特定律分布概率的样本。
三是要善于从工作中总结经验。本福特定律虽然提供了数据分析的模型,但审计线索的判断和挖掘还在一定程度上需要依赖审计人员的职业判断和专业素养。古希腊哲学家苏格拉底曾说过:“承认自己的无知乃是开启智慧的大门。正因为我们的浅薄,所以我们一生都要有学习的动力。”在日常的工作中,审计人员不能仅仅满足于“工作惯性”,要善于总结审计中的技巧和经验,保持较高水平的职业技能水平。既要“博观”,又要“厚识”,只有这样才能破解大数据审计的“本领恐慌”。
(作者单位:咸宁市烟草专卖局,审计科)