大数据审计在融合环境下对审计全覆盖路径研究
2021-11-30尹勇殷潇南京审计大学
尹勇 殷潇(南京审计大学)
■ 前言
据统计,大数据平台建设过程中60%工作量集中于审计数据接入/抽取、清洗/转换、加载等审计数据治理集成工作;而在失败的大数据应用项目中约有70%以上源自无效的数据治理集成方式。
现有审计数据分析需要有良好的审计数据质量进行支撑,所以审计数据治理集成模块在大数据应用项目中具有极其重要的地位。在审计数据治理集成的过程中,我们经常面临三类主要的问题:
(1)审计数据源和审计数据格式众多,需要处理的审计数据日益复杂。目前各种业务系统每天都在产生大量的审计数据,审计数据源头众多,审计数据的格式差异很大,包括常规的文本格式、审计数据库格式,甚至某些应用的私有格式,多种异构审计数据源整合难度非常大。除了审计数据源和审计数据格式异常复杂,审计数据内容也呈现爆炸式扩增,例如业务内容审计数据、业务运行日志审计数据、位置审计数据、时间空间审计数据等,这些日益复杂的审计数据对于大数据业务系统来说是一个巨大的挑战。
(2)大数据审计业务需求变化快,传统审计数据处理方式跟不上。由于大数据应用的特殊性,不断接入新的审计数据和调整审计数据模型是一项基本工作,而这些每天都是发生的工作,是否都需要不断地修改和开发才能适应?如果是,那么这绝对是企业资源的巨大浪费。另外大数据应用需要不断的处理各种新增业务以适应审计数据分析市场的需求,可能是新增审计数据源,可能是新增审计数据模型,可能是新增结果展现。这些突发业务,不断挑战着大数据系统的灵活性。大数据应用系统中动辄需要接入数TB每秒、处理总容量数PB甚至几十PB的审计数据规模,而审计数据分析业务却需要在海量审计数据中快速获取业务需要的审计数据,并将审计数据以秒级的速度计算出结果和快速验证。
(3)审计数据处理过程越来越复杂,审计数据得不到有效治理。审计数据治理集成不是简单的审计数据堆叠,审计数据放在一起,需要进行科学的分区分层管理,以及统一规范的审计数据命名、审计数据标签管理。海量审计数据在治理和使用过程中,不断的进行拆分、合并、关联、计算、复制,需要更有效的方法保证审计数据的完整性和可回溯性。另外如何高效地识别和处理无效审计数据、垃圾审计数据和错误审计数据,也是大数据应用的重大难题。
■ 大数据审计平台建设路径
(一)大数据审计基础架构
大数据审计平台主要采用Hadoop/Spark的技术架构体系作为核心技术框架,可以整合多个异构业务数据源,实现数据导入、清洗、转化的一体化管理。本“大数据层”治理的数据结构包含:
(1)原始数据库:从各信息系统采集来的原始数据,完全保留原有的数据格式和存储方式,以防止数据丢失和便于长期历史数据存根,在经过处理以后以冷数据的方式存储。
(2)标准数据库:从数据源或者原始库获取的数据,经过基础的格式转换、取值转换、空值补充、关联、去重等数据清洗操作以后,形成的遵循相同数据规则的标准化数据集合。
(3)专题数据库:根据一定的审计业务需求、按照一定的数据模型,从基础数据库中关联抽取的数据集合。
数据接入。现有系统的数据库多为传统关系型数据库,并包含大数据存储和流式数据等新兴数据类型。为了保证审计数据源的全覆盖,数据治理将规划支持多种数据源类型的导入。可以支持的数据源种类包括:
(1)传统关系数据库。Oracle,Mysql和Domino。
(2)数据存储。HDFS,Hive,Hbase,GreenPlum,Impala,ElasticSearch,Neo4j,Titan。
(3)其他种类数据源。a.非标准格式:特定行业数据格式,非标准二进制数据,自定义格式可配置(模板、接口);b.标准格式:CSV,TSV,JSON,XML,HTML,Avro File,RCFile,ORC File,Parquet,ASN1,TLV,EML,MSG,PST,PDF,OFFICE格式,WPS格式,ZIP,RAR等。
数据处理。由于各业务系统库表结构的设计是为了事务性的处理,强调事务处理能力和并发性,要求数据不能冗余。而审计部门存储的数据是为了数据分析和查询,要求数据冗余存储,所以数据中心的表结构和业务系统的表格必然是不一致的,数据从各业务系统抽取到大数据层,需要对接入数据进行清洗、过滤、转换,获得审计标准数据。本步骤需要完成以下任务:
(1)把多个不同数据源的数据合并。
(2)不同数据集的转换和同步,去重。
从历次普法规划和决议文件名称可以看出普法理念的变化。从“一五”普法规划的“基本普及法律常识”到“二五”至“六五”普法规划的“法制宣传教育”再到“七五”普法规划的“法治宣传教育”。国家对全民包括农村普法教育的观念从简单的法律常识普及转变为法律宣传教育,又转变为法律治理的教育。
(3)数据类型和格式的转换。
(4)用于不同目标表的数据分离。
数据治理。提供数据质量管理功能,包括数据质量规则管理、数据质量稽核、数据质量报表生成,此功能协助审计人员改善数据质量、提升业务效率。审计人员首先在系统中制定质量规则,包括格式检查、范围检查、疏密检查等;利用制定好的质量规则对数据进行质量稽核;数据质量稽核结果通过生成质量分析报表进行展示。
(二)审计模型构建
审计模型构建是在信息化环境下实施数据式审计的核心建设内容,审计模型构建方法的标准规范是实现大数据审计的重要基础设施。
审计模型构建方法主要包括3个方面的内容:审计模型目录体系、审计模型构建、审计模型要素。审计模型目录体系确定审计模型资源分类、审计模型代码结构的规范,为审计模型信息资源的积累、使用和共享提供重要条件。审计模型构建方法提出构建审计数据模型的规范,为审计模型的构建提供了较为科学的方法。审计模型要素对模型构成要素进行规范,为审计模型的研制、管理和使用提供了规范。
审计业务及相应的审计方法种类繁多,以此为依据设计的审计模型在种类和数量上也相应繁杂。为了切实高效使用审计模型,首先需要解决审计模型“有什么”“在哪里”的问题,规范审计模型目录。审计模型目录体系确定审计模型资源分类、代码结构的规范,为审计模型信息资源的积累、使用和共享提供重要条件。
审计模型目录体系包括:审计模型资源分类、审计模型代码结构。
审计模型分类代码参考专业计算机审计的分类分级体系,确定统一的代码规则,便于各专业审计模型目录体系的代码编制。
审计模型是审计人员为履行审计职责、实现审计目标,利用信息技术对特定审计事项进行检查和评价的思路的实现。
审计模型的构建建立在对审计业务理解的基础上,对审计模型的审计目标与功能、所需数据和相关资料、审计分析步骤、分析步骤的流程图示、模型执行后的审计结果展示等,逐一研究建立,从而完成审计模型的构建。
(三)审计数据分析系统
审计数据分析系统通过聚焦审计业务应用需求,提供个性化审计业务数据分析模型功能,同时为了减少审计人员重复思考和创建审计业务模型的时间、提高审计效率,审计人员可以利用该功能有计划地整理收集各领域审计业务应用知识,并将其固化为审计模板,构建审计模板库,并在推广应用中不断优化、增加和更新。数据分析的功能至少包括模型定义、模型分析、模型结果,模型报告、指标定义、指标分析、指标结果和指标预警。
审计工作的核心是数据处理,审计工作面临着审计对象及规则多样化、审计过程中重复工作多且效率等问题。
审计数据分析系统屏蔽底层的大数据实现技术细节,根据不同场景的业务需求,将大数据分析、挖掘等能力封装成独立的功能模块,以功能组件的形式为用户提供便捷易操作的大数据功能。
审计数据分析系统提供丰富的数据处理功能组件,包括数据转化类、数据清洗转换类、数据分析类、机器学习类、实用工具类、二次开发类组件。审计人员可通过简单拖拽功能组件连接组成流程,快速生成个性化审计业务的方式灵活地开展大数据审计工作,随时随地进行大数据分析挖掘,完美适应大数据时代下对审计工作的需求。
■ 结语
目前,审计工作也存在很多困难,主要表现在人力资源的不足。如何解决这个问题,需要依靠新技术。大数据技术可以很好地解决这个问题。本文从大数据审计基础架构、审计模型构建以及审计数据分析系统三个方面阐述了通过大数据审计构建审计全覆盖的路径,具有现实意义。