网络爬虫技术获取审计证据的应用研究
2020-09-06王秋菲栾丹张洛迪
王秋菲 栾丹 张洛迪
【摘 要】 大数据背景下,低成本、高效率地获取审计证据是实现审计信息化建设的关键环节。网络爬虫作为一种自动采集网络信息的技术,能有效扩展数据分析的范围,提高数据挖掘的速度。文章在分析网络爬虫技术获取审计证据的原理、内容和流程的基础上,以亚太实业审计为案例,利用爬虫技术对其2009—2016年大数据进行挖掘分析,结果表明爬虫技术爬取到的信息可以成为揭示公司财务舞弊行为的重要审计证据。因此,网络爬虫技术应用于审计程序中,能提高数据挖掘效率,精准提取审计证据。
【关键词】 大数据审计; 网络爬虫技术; 数据挖掘; 审计方法
【中图分类号】 F239.4 【文献标识码】 A 【文章编号】 1004-5937(2020)17-0131-06
一、引言
大数据概念的提出引发了审计技术的巨大变化,利用大数据技术提升审计工作效率成为国内外审计领域高度关注的热点问题。2015—2017年中共中央办公厅、国务院办公厅出台相关文件,包括《促进大数据发展行动纲要》《关于实行审计全覆盖的实施意见》《关于深化国有企业和国有资本审计监督的若干意见》等,表明加快信息化建设是完善我国审计体系的必经之路。与此同时,国内外实践界也从不同角度解释了大数据对审计的影响。美国注册会计师协会在2015年2月的Accounting Horizons发表了多篇有关大数据技术影响审计效率的文章;国际内部审计师协会在2017年发布的《理解与审计大数据》指南中,分析了大数据对审计的挑战;中国注册会计师协会在2017年工作报告中要求会计师事务所使用大数据及人工智能等数据挖掘技术降低审计风险,提高审计效率和工作质量。2017年,世界审计组织大数据工作组会议在南京举行,工作组18个成员国针对大数据时代的审计工作进行交流分享。习近平总书记在2018年主持召开的中央审计委员会第一次会议中强调“要坚持科技强审,加强审计信息化建设”。因此,以大数据技术为核心的审计信息化建设已成为中国全面实现审计覆盖的必经之路。
在传统的审计模式下,搜索不到“重要审计证据”是导致审计失败的重要原因。在大数据背景下,海量信息有利于注册会计师更加全面地分析企业状况,探寻企业舞弊的线索,有效识别和降低审计风险。大数据在审计领域发挥作用的前提条件是被审计单位数据能和外部数据进行集成分析,但是由于我国尚未建立数据访问与数据共享的机制,有效的审计数据并不能低成本获得。2010—2019年中国证监会发布的关于审计失败行政处罚书数量总体呈攀升趋势,每年受到处罚的会计师事务所均不少于2家,2017年高达6家。审计失败不仅使会计师事务所受到冲击,签字注册会计师的名誉也会受到损害。如何在大数据环境下获取外部数据已成为大数据审计的重要问题。本文选取海南亚太实业发展股份有限公司(以下简称“亚太实业”公司代码000691)审计失败作为具体的案例,利用网络爬虫技术对其2009—2016年的大数据进行挖掘,提取新的审计证据进行分析,发现爬虫技术获得的证据可以有效地降低审计风险,避免审计失败。
二、大数据审计的相关研究综述
(一)大数据技术对审计的影响
大数据改变了传统的审计数据采集与处理方法,因此,许多学者将研究的视角聚焦于大数据技术对审计判断与决策、审计技术与方法以及审计功能的影响。Connolly[1]从数据功能的角度对审计大数据进行了界定,并提出交易数据、互动数据和观测数据的集合就是大数据。Davis et al.[2]將大数据引入计算机网络审计模型中,发现其可以更好地帮助审计人员评估被审计企业的风险。Moffitt et al.[3]认为,大数据改变了审计人员的判断和收集审计证据的方式。Lohr[4]、Yoon et al.[5]认为大数据技术是对传统审计取证方式的有力补充,利用大数据技术能够提高审计决策的质量和审计水平。Hoogduin et al.[6]认为,大数据技术的引入能够解决以传统规则为基础的审计系统缺陷,减少审计人员对客户数据的依赖,并提供独立的基准评估审计证据。Lombardi[7]指出,大数据时代审计人员可以通过使用数据技术挖掘外部数据降低客户风险、舞弊风险。Koskivaara[8]认为,通过数据挖掘技术能够发现企业的舞弊,并使审计师成为最大的受益者。秦荣生[9-10]认为,大数据技术推动了与风险审计模式相对的整体审计模式的形成和运用,为审计师获取相关关系证据提供技术基础,推动高效审计的成长。鲁清仿等[11]研究了大数据对审计证据的影响,研究结果表明,大数据技术突破了传统证据收集的技术局限性,降低获取审计证据的成本,注册会计师通过分析更多的审计证据,能有效降低审计风险。程平等[12-13]认为,大量结构化和非结构化数据存储在云平台中,使得审计人员能够更加便捷、快速地获取非标准化数据。王秋菲等[14]将大数据因素引入审计风险识别模型,从审计主体、审计客体和大数据因素三方面来研究影响审计风险识别的关键因素。
(二)网络爬虫技术在审计中的应用
在审计的研究中,现有大数据技术大多集中在数据分析和处理上,而对相关数据的获取关注较少。目前,有四种主要的审计数据收集方法:直接复制、通过中间文件收集、通过ODBC接口以及备份/恢复进行收集。由于尚未建立信息共享平台,审计需要的财务数据和非财务经营数据无法获得,因此审计人员可以通过某些软件工具获取在线数据,也可以在Internet上实现对被审计单位公开报告的风险信息自动提取,以降低审计风险并提高审计效率。
网络爬虫是一项技术,根据一定规则,用户可以从海量的大数据中自动获取想要的信息,并且该技术的使用可以扩充数据分析的范围,更全面地发掘相关的审计线索。张志恒等[15]认为,网络爬虫的实质是文本挖掘,并设计出文本挖掘的审计框架。陈伟等[16]将网络爬虫技术应用于审计中,利用主题爬虫方法将代码制作成脚本文件,为网络爬虫和审计的结合奠定了理论基础。肖敏[17]将关键词替换为审计程序可以理解的脚本,发现挖掘出的审计证据比传统的取证模式更加丰富。
国内外学者的相关研究表明,大数据技术可以有效降低审计风险。然而,如何利用大数据技术挖掘审计证据的研究却很少,尽管我国的学者提出可以使用网络爬虫收集和挖掘审计证据,但没有具体的案例分析整个应用过程。因此,利用具体的案例研究网络爬虫的应用具有重要的现实意义。
三、网络爬虫技术原理及应用
(一)网络爬虫技术挖掘数据原理
网络爬虫的主要作用是在海量的互联网信息中抓取有效信息并存储。根据实施的技术和系统,网络爬虫可以分为通用网络爬虫、主题网络爬虫、增量式网络爬虫、深层网络爬虫,审计证据获取主要应用的是主题网络爬虫。主题网络爬虫可以根据对应的主题有目的地进行爬取,聚焦网络爬虫将目标定位在互联网中与主题相关的页面,初始URL的获取是通过对抓取目标的定义以及相关的描述[18]。主题爬虫通常分为三步:
第一步,确定需要爬取的网页,用户确定需要爬取的网址。
第二步,爬虫软件爬取网页。通过软件输入代码或输入关键词,目前市场上有两种产品,一种是基于Python语言运行的Anaconda软件,下载后需要专业人士输入代码,运行后爬取目标网页上用户需要的数据;另一种是八爪鱼等爬虫软件,适合非专业人士应用,直接输入用户所需要查找的关键词便可以自动搜索相关网页。第一种产品的优点是用户可以设置筛选细节,包括去除广告等。缺点是较为复杂且需要专业的计算机知识基础。第二种产品的优点是对于非计算机专业人士方便简洁,缺点是搜索到的内容精准度有一定下降,但相对人工搜索效率与准确率仍大大提高。
第三步,爬虫软件输出结果。在分析被爬取网页的代码时,如果找到与用户输入代码或关键词相符的网址就会被保存起来,如果网页内有新的网址,爬虫软件或代码会继续爬取新网址的代码,获取所需的数据,最终输出一个Excel表格,以便用户查询。
(二)网络爬虫技术挖掘审计证据的内容和流程
利用网络爬虫技术挖掘审计证据就是在互联网上获得被审计单位的公共数据,并将这些数据和从被审计单位获得的数据以及直接从其他单位获得的数据进行对比,进而获得更多反映被审计单位经营成果和财务状况的信息。
1.审计证据的内容
在大数据背景下,爬虫技术可以获得海量的数据,为了便于数据的分析和对比,审计人员可以根据实际情况进行政策环境爬虫测试、行业环境爬虫测试、企业经营爬虫测试以及关联方爬虫测试。
大量审计失败的案例表明,影响审计风险的重要因素是政策环境和行业环境。注册会计师通过分析被审计单位提供的审计证据,可以了解企业的资产状况和经营成果,但无法和同类企业进行对比分析,也就无从验证企业经营成果的合理性。企业在行业中的地位,行业在国家经济体系中的位置都是决定企业盈亏与整体运营情况的重要因素,有效的政策和行业环境爬虫测试可以揭露该企业与行业整体经济行为的矛盾点,进而成为审计风险判断的重要线索。经营测试分为内部经营测试与外部经营测试,大数据审计下的经营测试为外部测试,目的就是利用网络爬虫技术在大数据第三方海量平台中搜索被审计单位经营数据,将外部测试结果与内部符合性测试的结果进行对比,检查是否能够相互照应吻合[19]。注册会计师可以通过企业外部的经营测试结果信息来判断该企业是否经营良好,盈利是否强劲,外部评价是否正面等。例如该企业面临各种诉讼,关联子公司被抵押或股权交易,管理层频繁更换,股评网站收到网友大面积负面评价,但该公司各类指标却显示非常“优越”,这种情况提醒注册会计师应尽快评估被审计单位的审计风险,加强审计控制程序,对相关的信息進行更细致的问询,并核查是否属实。企业旗下有许多关联子公司,控制或有重大影响的关联公司对审计师的被审计单位都有可能造成财务舞弊的潜在可能,因为大多数企业为了更加隐蔽地操作财务舞弊手段,往往不会在自身做手脚,而是从关联企业的账务上转嫁到自己的资产、利润中,注册会计师应对被审计单位的关联方企业进行大数据测试,同样从海量的大数据第三方获取关联方的数据资源,将与被审计单位相关的部分进行重合甄别,判断是否属实,评估关联方财务舞弊的概率与审计风险,从而决定是否加强后续的审计程序,有效控制关联方的财务舞弊行为。表1给出了不同测试关注的要点。
2.审计证据的流程
运用爬虫技术获取审计证据的步骤有四步:
第一步,确定网络信息获取的途径与范围。在符合性测试的基础上,确定抓取目标网站并分析对应的网页。第二步,捕获相关信息。采用相关网络爬虫软件,实现网络数据的抓取。第三步,测试判断分析所收集到的政策、环境、经营及关联交易信息对被审计单位的影响,判断相关信息能否成为验证被审计单位发生财务舞弊的线索。第四步,审计评估。爬取数据与符合性测试获得的数据进行匹配,估计审计风险。对超出安全范围的内容,重新设计实质性测试程序,提高审计效率和质量[20]。具体流程见图1。
四、网络爬虫技术在亚太实业审计中应用
(一)亚太实业审计失败案例背景
2016年2月19日,中国证监会发布信息公布了关于处理海南亚太实业发展股份有限公司(以下简称“亚太实业”)信息披露违规行为的结果。该公告的发布坐实亚太实业连续5年存在违反信息披露规定。亚太实业2010—2012年财务报告由国富浩华会计师事务所出具、2013—2014年由瑞华会计师事务所出具,两家事务所均出具无保留意见审计报告。2017年1月6日,证监会发布“中国证监会行政处罚决定书(瑞华会计师事务所、温亭水、秦宝)〔2017〕1号”,标志着瑞华会计师事务所对亚太实业审计失败,具体违法事实见图2。
上市公司故意舞弊行为在很大程度上为注册会计师执行审计程序增加了难度,审计师作为外部人员,仅仅依靠被审计单位提供的资料,常常会忽略重大事项的影响力,从而对审计内容误判。亚太实业审计失败的案例中,瑞华事务所根据亚太实业提供的相关资料认定重要性水平仅为120万元,没有正确评估审计风险,进而导致了审计失败。本文采用网络爬虫技术从政策环境、行业环境、经营环境、关联方交易等方面对亚太实业2009—2016年的互联网数据进行挖掘,并分析相关信息对判别企业财务状况的作用,为评估审计风险提供补充。
网络爬虫搜索到亚太实业高层更换频繁,对外诉讼较多,较多纠纷处理不清,存在大量金额担保行为,内部控制存在重大缺陷。此外,注册会计师依靠传统审计并未查明其有2个数额巨大的担保,仅根据公司提供的材料核实一项。网络爬虫技术清晰查询到亚太实业的诉讼材料中有两份担保诉讼,合计4 800万元以上。注册会计师应该进一步核实该事项,按照相关会计准则进行处理并披露。
从以上分析可以得出,亚太实业在运营及管理中存在很多风险点,在传统审计模式下,注册会计师无法准确了解和识别出这些风险。注册会计师除了提高自身警觉性,完善审计程序,更应该利用大数据环境以及网络爬虫技术挖掘被审计企业的信息,以便于获取更加可靠的审计证据,避免审计失败。
五、结论
本文采用爬虫技术对亚太实业2009—2016年互联网数据进行深度挖掘,发现部分爬取数据可以从政策环境、行业环境、经营环境以及关联方交易等方面对传统审计程序获得证据进行补充。如果注册会计师在审计过程中能借助爬虫技术获得这些信息并调整审计实质性测试程序,亚太实业审计失败或许可以避免。因此,网络爬虫技术在审计领域应用有助于注册会计师获取重要的外部信息,能有效地推动大数据审计发展,提升审计效率。
【参考文献】
[1] CONNOLLY S.Key drivers for the Big Data market,blog posting,May 14th[EB/OL].http://hortonworks.com/blog/7-key-drivers-for-the-big-data-market/.2012(7).
[2] DAVIS J T,MASSEY A P,Lovell II R E R.Supporting a complex audit judgment task:an expert network approach[J].European Journal of Operational Research,1997,103(2):350-372.
[3] MOFFITT K C,VASARHELYI M A.AIS in an age of Big Data[J].Journal of Information Systems,2013,27(2):1-19.
[4] LOHR S.A data explosion remakes retailing[N].New York Times,2010-01-02.
[5] YOON K,HOOGDUIN L,ZHANG L.Big Data as complementary audit evidence[J].Accounting Horizons,2015,29(2):431-438.
[6] HOOGDUIN L,YOON K,ZHANG L.Integrating different forms of data for audit evidence:markets research becoming relevant to assurance[D].Working Paper CARLab,Rutgers Business School,2014.
[7] LOMBARDI D R.Using an expert system to debias auditor judgment:an experimental study[D].Rutgers University-Graduate School-Newark,2012.
[8] KOSKIVAARA E.Artificial neural networks in analytical review procedures[J].Managerial Auditing Journal,2004,19(2):191-223.
[9] 秦榮生.大数据、云计算技术对审计的影响研究[J].审计研究,2014(6):23-28.
[10] 秦荣生.我国内部审计的新使命与发展新路径[J].会计之友,2019(8):2-5.
[11] 鲁清仿,梁子慧.大数据对风险导向审计影响的研究[J].河南师范大学学报(哲学社会科学版),2015,42(2):55-58.
[12] 程平,孙瑜.基于财务云平台的单位层面内部控制优化研究——以重庆海事局为例[J].会计之友,2018(9):123-125.
[13] 程平,白沂.大数据时代基于财务共享服务模式的IT审计[J].会计之友,2016(24):128-131.
[14] 王秋菲,秦爽,石丹.基于大数据的审计风险识别与控制问题研究[J].会计之友,2018(24):93-100.
[15] 张志恒,成雪娇.大数据环境下基于文本挖掘的审计数据分析框架[J].会计之友,2017(16):117-120.
[16] 陈伟,居江宁.基于大数据可视化技术的审计线索特征挖掘方法研究[J].审计研究,2018(1):16-21.
[17] 肖敏.大数据背景下做好政策落实跟踪审计的探讨[N].中国审计报,2018-08-22(006).
[18] 潘晓英,陈柳,余慧敏,等.主题爬虫技术研究综述[J].计算机应用研究:2020(4):961-965.
[19] 王秋菲,张洛迪,栾丹.大数据下的数据挖掘技术降低审计风险研究[J].辽宁经济,2019(12):42-43.
[20] 刘国城,陈正升.大数据审计的发展态势、总体策划与流程分析[J].会计之友,2019(8):30-35.