网络爬虫技术在审计风险控制中的运用研究
2022-03-09张洋
张洋
【摘要】传统审计模式风险控制程序,主要通过内部结构化数据、企业经营情况、管理层情况、内部控制等方面进行风险评估,较少获取外部行业及政策信息,对非结构化信息的处理更少。网络爬虫技术可以对被审计单位的非结构化外部信息收集与分析,帮助审计师全面评估审计风险。为此文章以江苏四环生物股份有限公司审计案例为例,验证大数据网络爬虫技术能有效控制审计风险,防范审计失败。事实证明,大数据爬虫技能从海量第三方互联网信息中获取关联信息,相互关联印证审计师判断,有效降低审计风险提高审计质量,保障股票市场财务信息的真实公允,促进股票市场健康发展,推动社会资源合理配置。
【关键词】网络爬虫技术;审计风险控制;大数据审计
【中图分类号】F239
一、引言
提高审计质量避免审计失败的关键,在于识别和控制审计风险。传统审计模式对被审计单位部分结构化数据进行收集、处理、分析,但无法对企业内外部、行业、关联方等非结构化数据进行处理和使用,造成资源浪费并增加审计风险。大数据审计技术通过可视化分析,将各类文本信息简明扼要地呈现给审计人员,有效提升审计准确性及效率。从2007年起学者们的大量研究证明了大数据审计在审计证据获取、处理、分析中发挥着重要的作用。为验证大数据审计的可行性,本文运用网络爬虫技术,结合江苏四环生物股份有限公司(以下简称四环生物)审计的具体案例,从互联网海量信息中获取关键信息,进行处理和分析,为后续大数据审计提供思路和经验。
二、国内外研究现状
(一)审计风险研究
国外学者就风险导向型审计研究的起步较早,具有代表性的包括:Norman J(1999)首次提出将风险概念与传统审计程序相结合。H Fenwick(1999)从被审计单位财务指标切入,分析了资产负债率、企业现金流量、企业盈利能力、偿债能力等指标,并与审计风险联系,指出以上四项指标体现企业经营情况,建议注册会计师着重观察,以防范可能出现的重大错报项。Jenkins等通过研究以往年度审计意见,发现审计意见具有持续性影响,建议审计师不应就此放松警惕。
我国对风险审计的研究最早开始于20世纪80年代,随着国内注册会计师制度的恢复,学术界开始越来越关注风险导向审计。胡春元、蔡洪涛(1990)研究发现审计风险与审计失败存在正相关关系,提出对高风险领域针对性实施审计。赵靖、甘丽梅(1992)提出对被审计单位进行风险评估,运用风险评估模型判断被审计单位存在的风险点,进而降低审计风险相对关键。姚桂兰(1999)研究发现,实际经营情况差的单位,往往财务数据缺乏真实性,会导致审计风险增加,需要更加关注单位内部控制情况,并获取充分的审计证据。
(二)大数据审计相关研究
国外大数据审计相关研究:Jefferson T(19 97)首先提出了利用人工智能建立大数据之上的神经网络审计模型,借此评估被审计单位的错报风险。Kyunghee Yoon研究发现,大数据信息补偿传统审计证据,能有效降低被审计单位的审计风险,因此建议审计师可以通过采纳更多外部审计证据进行评价。Brown Liburdetal(2003)研究审计人员的大数据技术与审计质量的相关关系,结果得出大数据技术对审计质量具有明显影响,提出需要对审计人员进行相关技术培训。
我国大数据审计相关研究开始于21世纪,国内学者从大数据审计应用、数据挖掘获取、审计证据可视化处理、依据数据分析、重复审计工作由计算机替代等方面对传统审计进行突破。刘碧湘、刘梦颖(2000)就大数据审计对降低审计风险角度出发,提出大数据互联网技术可以避免人为差错,从而提升数据精度,降低审计风险。鲁清仿、梁子慧(2000)通过研究大数据技术可以获取非结构化数据,扩大审计证据获取范围,进而更加全面合理地分析判别审计风险。
(三)网络爬虫相关审计研究
国外网络爬虫技术相关审计研究包括:Matthew Grays(1993)第一次使用网络爬虫技术,首次通过该项技术从海量大数据中获取了用户指定的信息。Dong H,Liu bai-song验证了网络爬虫技术在采集效率、采集准确性以及存在误差方面都表现优异。Yadav P改进原有爬虫技术,提出了具有“自学能力”的爬虫技术,它会主动关联用户提供的关键信息,整合成一个数据集输出给用户,进一步提高了爬虫技术的准确性和效率性。
我国网络爬虫技术相关审计研究主要集中在更迅速、全面获取审计证据方面。宋海洋、刘晓然(2000)通过分析网络爬虫技术核心算法,将其运用到获取被审计单位非结构化信息,加以整合可视化处理。陈伟、毛逸(2000)通过研究网络爬虫的数据分析技术,并进行可视化输出,使非专业用户也能更方便地利用网络数据进行分析,提高审计精度和准确度。
(四)文献评述
本文将现有大数据审计研究成果从审计风险、大数据审计、网络爬虫相关审计研究三个方面进行分类概括。国内外学者充分认识到了外部信息的重要性,也更加关注外部非财务非结构化数据。目前已经有学者关注到了大数据技术对审计工作的帮助,但利用网络爬虫获取非财务信息的研究相对较少。虽然外部非财务信息不能直接作为审计证据,但对识别、评估和控制审计风险具有重要意义,因此研究基于大数据的网络爬虫技术在审计实务中的运用非常具有意义。
三、事务所审计四环生物案例背景
(一)中审众环事务所简介
中审众环会计师事务所(特殊普通合伙)是中国上市公司雇主最佳审计机构前十强事务所。截至2017年10月,中审众环常年服务的A股上市公司、大型央企、新三板等核心企業500余家。中审众环在本案例中对四环生物2019年的财务报表进行审计,出具了带有强调事项的无保留审计意见。
(二)江苏四环生物股份有限公司简介
四环生物制药有限公司是我国最早从事基因工程药品和诊断试剂的研究、生产、销售,集科工贸为一体的高新技术企业。2001年,江苏四环生物股份有限公司收购北京四环生物制药有限公司,注册资本3.2亿元。
(三)审计情况
2020年中审众环会计师事务所(简称中审),对四环生物及其8个子公司2019年的会计年度财务报表实施审计程序。审计期间首先与四环生物领导层进行了充分的沟通,审计人员总体了解了该公司的财务状况及内控情况,在对内部控制有效性进行测试的基础之上进行了风险判断。随后成立审计小组,分析了该公司以往年度财报中存在的问题,修正了重大风险点。据此在审计过程中对收入、成本真实性、存货资本存在性、存货减值准备计提以及关联方交易等项目通过函证、检查、实地盘点项目、询问等方式,进行了进一步实质性程序获取了充分的审计证据。结果讨论分析得出初步审计结论后,进一步与四环生物高层进行了有效沟通,提出了相应整改意见。最终出具带有强调事项的无保留审计意见。
(四)证监会对四环生物处罚结果
四环生物财报情况被证监会调查,并于2020年5月宣布了其生产经营以及财务报告中存在的问题,证监会决定对四环生物相关业务实施调查,发现其多年来一直存在关联方交易问题。2020年5月18日收到证监会处罚通知,该公司在2014—2018年年度不实披露实际控制人;2014—2018年年度存在未按规定披露关联方交易问题,涉嫌金额19.5亿元;并按照规定对有关责任人进行了处罚。经审核证实如下(见表1):
第一,四环生物2014—2018年年度报告披露的实际控制人信息存在虚假记载;
第二,四环生物2014年年度报告未按规定披露关联交易。
(五)审计存在的问题
中审在了解四环生物公司及其经营环境的过程中,运用传统风险评估程序识别审计风险,总体评价四环生物审计风险较低。但事实证明其风险评估程序并不充分,缺乏对同行业、相关法律、政策等外部信息的了解,对公司实际控制人及其子公司经营情况也未做深入调查。
四、网络爬虫技术在四环生物审计风险控制中的设计与运用
网络爬虫技术可以帮助审计师获取第三方大数据平台中被审计单位的海量数据,分为两类:一类是外部信息即宏观政策、法律法规、监管环境;一类是企业内部相关信息,包括经营信息及关联方信息。因此在爬虫模块设计中,也分为外部模块和内部模块。
(一)设计爬虫审计模块
外部模块:行业模块设计定位四环生物所处行业为生物制药行业,对其行业特点和近年行业整体发展状况进行信息获取,进一步对行业背景、行业环境进行针对性大数据收集,并提取相关信息进行归纳分析。对涉及行业政策、法律、监督等信息进行收集,分析外部监管环境变化对行业产生的影响。
内部模块:内部模块主要考虑四环生物生产经营信息和关联方经营信息。信息来源于第三方,但属于反映企业生产经营的非结构化信息。包括企业面临的各种诉讼、子公司的抵押或者股权交易、管理层的频繁变更、大众对企业的评价、关联企业的相关信息等。
(二)网络爬虫程序运行
对设计好的网络爬虫模块,运用网络爬虫技术进行数据挖掘。本文网络爬虫技术基于Python平台,在查询企业代码,确定核心关联词“四环生物”,就可以在国内最大搜索引擎中快速获取全部相关信息。本文收集的网络数据包含四环生物2011—2021年间的全部数据。
1.实施同行业数据挖掘
对本文研究对象四环生物(000518)2015—2021年间的企业相关政策信息、法律法规信息、生物制品行业(四环生物所处行业)等外部信息进行网络数据爬取,总体挖掘的网络数据如图1所示。
2.四环生物经营数据挖掘
首先选择“四环生物”、关联公司名称等关键词进行网络数据爬取,然后对挖掘到的数据进行分类筛选(见图2),特别是对传统审计风险评估程序推测的四环生物存在年度报告披露的实际控制人信息存在虚假记载、关联方交易等问题进行重点筛查,对审计风险做进一步控制。
3.关联公司经营数据挖掘
通过对四环生物的年报分析,发现其下辖有新疆爱迪新能源科技有限公司、江苏阳光置业有限公司等,集团公司常常利用子公司进行利润转移,所以本文对四环生物最主要的两个关联方子公司进行网络爬虫数据挖掘,对其结果进行分析。2011—2021年江苏阳光置业有限公司数据挖掘结果如图3所示。
(三)网络爬虫数据挖掘结果分析
1.同行业数据挖掘结果分析
首先,对四环生物同行业信息进行数据挖掘,获得了四环生物近十年的收入情况,并与同行业平均水平进行了比较(见图4)。然后,筛选获得了2014年四环生物交易信息,了解到2014年6月四环生物股票存在异常大额交易,5日内资金净流入5 410.22万元,占总成交金额的28.21%,高于行业平均水平384.85万元。对比2013年和2015年四环生物主营业务的增长情况可以发现,四环生物有利用关联方交易虚增营业收入,以避免连续三年亏损强制退市的风险。大数據网络爬虫技术扩大了审计范围,对其全年交易信息、外部披露事项以及同行业资料数据对比,进行进一步分析评估。通过此类分析可以判断四环生物的风险系数偏高,应对其收入与利润项实施实质性程序。
2.四环生物经营数据挖掘结果分析
在大数据网络爬虫技术发掘的非结构化数据中,分析发现四环生物存在大股東操纵上市公司过度投资、侵占公司利益的情况。具体审计证据如下:四环生物及子公司于2011年6月合计耗资2.4亿元获得新疆爱迪新能源科技有限公司70.97%股份,试图转型新能源领域。然而2015年底,爱迪股权又以1100万元折价卖出,四环生物转型宣告失败。传统审计结合网络爬虫技术,获得了该主要的审计证据,对四环生物2012—2020年年度营业收入和净利润进行可视化分析(见图5),就可以识别相应审计风险。
3.关联公司经营数据挖掘结果分析
通过大数据网络爬虫的数据挖掘,本文通过构建四环生物2014—2016年年度营业收入与主营业务收入的横向对比,发现其一四环生物可能存在利用关联方交易虚增利润,以避免连续亏损强制退市的风险。其二在网络爬虫及获取的结果中,分析了其子公司新疆爱迪新能源科技有限公司存在关联方交易,存在大股东侵占上市公司资产的风险。网络爬虫审计证据包括:(1)房地产项目的网络大数据爬取信息中,与其为披露关联方公司江苏阳光置业有限公司签订了总价超过5000万元的购房合同,交易事项未在当年财务报告中恰当披露。(2)江苏阳光集团内部知情人士表示,陆宇确为公司控股股东江苏阳光集团董事长陆克平之子,王洪明为江苏阳光董事,孙一帆则是江苏阳光董事长陈丽芬的儿子。中审在对该项目的审计中认定为合理。但在网络爬虫技术审计下,其项目存在关联方交易的问题。
(四)结论
相较于传统审计模式,本文更关注外部因素对企业生产经营的影响,通过设计网络爬虫企业内部信息和外部信息模块,结合行业数据及关联方信息,推断被审计单位的实际经营情况,帮助审计师识别应对审计风险。结果证明对四环生物实施大数据网络爬虫技术审计,能更客观更准确地判别出其经营风险,有效帮助审计师降低审计风险。
五、启示
网络爬虫技术能快速获取并分析非结构化数据,是对传统审计程序的补充,审计师通过企业外部信息与内部控制测试结果进行对照检验,完善了传统审计风险评估程序,特别是与相关行业状况、监管环境的比对,能让审计师更清晰地做出职业判断。爬虫技术让风险导向型抽样审计回归全覆盖全样本审计,进一步提升审计质量。大数据技术、人工智能、计算机系统的使用能有效替代繁重重复的工作,为全面审计提供可能。
主要参考文献:
[1]李世辉,卿水娟,贺勇等.审计收费、CEO风险偏好与企业违规[J].审计研究,2021(3):84-95.
[2]洪金明,林润雨,崔志坤.企业风险承担水平、审计投入与审计意见[J].审计研究,2021(3):96-105.
[3]顾芳睿,于丰笛.浅谈大数据时代管理会计的机遇、挑战与对策[J].商讯,2020(13):26-27.
[4]奥赖利,蒙哥马利.审计学[M].北京:中信出版社,2007.
[5]Orie Barron, Jamie Pratt, James D.Stice. Misstatement Direction Litigation Risk and Planned Audit Investment[J].Journal of Accounting Research,2001(3):449.
3438500589290