大数据审计数据采集中应注意的几个问题
2021-09-10张婧婧
张婧婧
审计数据采集既是大数据审计的第一步,也是大数据审计成功开展的必要前提。审计数据采集不仅会影响对被审计单位的审计结论,还会影响整个审计项目资源的投入产出,做好审计数据采集具有至关重要的意义。在实际的数据采集中,应着重注意以下几个方面。
一、应充分了解被审计单位信息系统。
在审计项目开展前的审前调查阶段,应着重对被审计单位信息系统进行详细了解。一方面是财务系统,区分清楚是代理记账还是被审计单位自己记账,如果是代理记账,则可从财政系统统一采集;如果是自己记账,就要了解被审计单位财务软件,主要有财务软件名称、版本情况、后台数据库名称及版本、近几年是否升级、等级保护等一系列信息。另一方面是业务系统,要了解被审计单位主要业务开展情况,所采用的信息系统名称、版本类型、后台数据库名称及版本、处理的主要业务、业务流程及流程图、涉及的外部单位、等级保护等情况。审前调查时,可提前将要采集的上述两类信息系统的要素制成表格,由被审计单位填报即可。
二、应根据数据的实际情况选择不用的采集方式
实际采集中,主要有以下SQL Server、Oracle、ACCESS三种数据库,下面分别就以上三种数据库,介绍一下不同的数据采集方式。
1、SQL Server数据库。目前,大部分用友软件、一部分金蝶软件的后台是SQL Server数据库,SQL Server数据库也是目前市场上比较成熟和稳定的数据库。被审计单位提供的SQL Server数据文件主要有两种,一种是采用数据备份方式备份的数据,文件后缀一般是.bak,采集时先将该数据还原在SQL Server数据库中,之后再使用数据采集软件连接SQL Server数据库,进行数据采集即可;另一种是采用数据分离方式备份的数据,主数据文件后缀一般是.mdf,日志文件后缀一般是.ldf,采集时先将主数据文件附加在SQL Server数据库中,之后再使用数据采集软件采集即可。同时,采集时应注意数据库的版本问题,目前大部分单位使用的SQL Server 2008R2,如果還原时出现“架构不一致”等类似问题,一般是数据库版本与当前数据库版本不一致所致,此时就需要调整当前数据库。
2、Oracle数据库。Oracle数据库是目前世界上流行最广的一款关系数据库管理系统,具有系统可移植性好、使用方便、功能强大、高效可靠的优点,所以一些大型企事业单位一般采用Oracle数据库。Oracle数据库的备份方式分为普通备份和数据泵备份,备份数据的数据文件后缀一般为.dmp,日志文件后缀一般为.log,还原时,要根据被审计单位的备份方式选择还原方式,最好能够保证还原方式与备份方式一致,成功率较高。若被审计单位采用的数据泵备份方式,还必须要求被审计单位提供数据备份时建表空间的语句、建用户的语句以及数据字典,便于快速还原,减少调试过程。
3、ACCESS数据库。由于ACCESS数据库本身的局限性,近几年,使用ACCESS数据库的财务软件较少,主要是一部分金蝶财务软件和其他财务软件。ACCESS数据库的备份文件一般为.mdb或者.ais,此类文件一般直接通过数据采集软件直接采集即可。采集中经常出现数据加密、缺少模板等问题,需要根据实际情况进行数据解密或者增加模板。
三、应注意在数据采集过程预判预防风险
数据采集是大数据审计的第一步,从审计数据采集的维度来看,审计人员在开展大数据审计工作时需要采集的数据分为财务数据、外部数据和审计知识三部分。被审计单位的财务数据可以通过被审计单位人员自行上报、内网传输以及审计人员现场采集等方式进行采集,在内容上主要体现为被审计单位财务软件的数据库,具体包含了被审计单位的凭证库、各类台账、报表等。外部数据可以利用大数据爬虫技术实施采集,例如可以在本级财政局官网上爬取所有被审计单位公示的“三公经费”数据等。审计知识的调用则是通过内部传输实施采集,审计人员应当只有复制审计知识的权限。
对于审计证据而言,无论使用何种取证方式,数据的真实性是一切的基础。被审计单位的结构化数据往往形式上真实性相对较高,但是却存在着由于主、客观因素导致的数据缺失和错报;而从互联网、外部机构获取的非结构化数据,例如社交媒体、视频、行业总体调研报告,来源更为庞杂,则更需要进行有效的甄别和验证。因此,审计数据采集主要存在数据质量、数据获取、数据安全的风险,导致在审计的过程中因为数据链不完善、数据不真实而降低审计效率、影响审计结果。
具体来看,数据质量方面的风险包括审计人员未对数据的准确性、完整性、一致性、唯一性、适时性、有效性进行检查、验证,导致出现虚假数据和错误数据。数据获取方面的风险包括审计人员采集数据时,采集不属于审计范围内的数据,向他人泄露被审计单位的秘密,或者进行其他非法行为。数据安全方面的风险包括数据安全防护不到位,使用非专用设备对数据进行处理或传输过程,造成数据被网络攻击导致数据被泄露、破坏、丢失。实际操作过程中,要根据以上可能存在的风险进行提前预判和防范。
四、应与被审计单位相关人员充分沟通
审计数据采集时,一般情况下第一次采集的成功率在70%左右,有近三分之一的数据会出现不同的问题,有些是备份方式不对、有些是没有按照要求备份、有些备份不完整、有些数据格式不对等等。遇到问题时,要与被审计单位积极沟通,明确告知被审计单位数据采集要求,明确所要采集的数据基本格式、一般后缀和大小等信息。此外,要求被审计单位要既采集后台数据库数据、也采集财务软件前台数据,前台数据留作备用,减少再次进行采集的时间和成本,尽可能提高一次性采集成功率。
此外,特别要强调的是,数据采集时,数据采集人员可能能够接触到被审计单位方方面面的数据,既有财务数据也有业务数据,甚至是涉密数据,因此要牢固树立数据安全意识和数据保密意识。做到只采集需求数据、只通过规定计算机进行数据采集、只用光盘不用U盘等容易携带病毒的存储介质,对每天接收的数据进行采集整理后存入保险柜,非相关人员不得接近被审计单位数据,从而做到对自己负责、对单位负责、对被审计单位的数据负责。