APP下载

基于数据仓库与数据挖掘技术的计算机审计模型构建

2016-10-19谢景伟程华安

关键词:数据仓库数据挖掘湖南

谢景伟 程华安

(1.湖南大众传媒职业技术学院财务建设处,湖南长沙410100;2.湖南大众传媒职业技术学院管理学院,湖南长沙410100)

基于数据仓库与数据挖掘技术的计算机审计模型构建

谢景伟1程华安2

(1.湖南大众传媒职业技术学院财务建设处,湖南长沙410100;2.湖南大众传媒职业技术学院管理学院,湖南长沙410100)

利用数据仓库和数据挖掘技术建立计算机审计模型,解决了数据存储量的问题,数据仓库按照多维数据集的方式存储数据,并建立索引,审计人员可以高效、快速地访问被审计单位的数据;同时,采用数据挖掘技术,可以对审计数据进行全方位、多角度、深层次的分析,快速发现审计线索,提高审计人员工作效率,是对传统审计模型的一次突破。

数据仓库;数据挖掘技术;审计模型;构建

随着计算机技术的广泛应用,高职院校的内部审计工作也由传统的手工审计向计算机审计转变,审计人员能通过软件获取所需的审计数据,但凭个人的经验面对审计软件提取的大量数据有点无能为力,这对保证审计质量增加了一定的风险。如何通过计算机技术帮助审计人员从海量数据中提取审计所需要的信息,利用数据之间隐藏的关系发现问题进行重点审计,提高审计质量,达到审计目的,是亟待解决的问题。本文探讨如何利用数据仓库技术和数据挖掘技术为审计人员快速、准确地提供数据的综合信息,构建计算机审计模型,以加快审计速度,提高审计质量。

一、数据仓库技术和数据挖掘技术

(一)数据仓库技术

一般审计软件的数据库大多是以表格的形式存储日常处理过程中产生的数据,审计人员能按需求进行简单的存储、分析、查询等操作。但随着电子技术特别是计算机技术的飞速发展,单位业务基本都通过计算机来完成,加之业务量不断增大,需要处理的数据不断增加,信息更加复杂,传统的数据库已不能满足复杂的数据分析、处理的要求。对不同类型的数据进行分离、存储,特别是将分析型数据和操作型数据分离,对分析型数据按照审计的需要进行二次处理,建立相对独立的分析环境,对数据进行分析,就形成了数据仓库。它着重于数据的综合分析,是围绕着审计主题的数据存储介质。仓库中的数据是相对稳定、高度集中的,能按照审计主题进行组织,随时间的变化不断更新。数据仓库以存储的数据为基础,利用多种数据处理工具完成重要信息的提取,以满足不同审计主题对于分析型数据的要求,能扩大数据的存储,并加强数据管理,保证数据的完全一致性,支持多种方式的分析,由管理部分、存储部分和应用部分组成。

(二)数据挖掘技术

数据挖掘技术是从数据库、数据仓库等数据存储介质中挖掘隐含的、潜在的、有用的知识,以辅助决策或更新原有知识,它是一个完整、可重复的过程。它通过明确业务、数据的选取、预处理、转换、挖掘、分析等过程,发现数据的关联关系,对数据进行分类、预测、聚类,发现孤立点,发现数据的规律和趋势,从而在未被发现或者没有明确假设条件的情况下发现知识,挖掘有用信息。

由此看来,如果将两者结合起来,在数据仓库中运用数据挖掘技术可以产生更好的分析结果,发现更复杂、更有价值的信息。两者相辅相成又各有差异,数据仓库技术的发展促使数据挖掘技术的发展,但数据挖掘技术不一定必须依赖于数据仓库技术,它也可直接从审计软件的数据库或其他存储介质中挖掘数据。若将两者结合应用,将使数据挖掘更加精、准、快。

二、新型计算机审计模型的构建

如前所述,将数据仓库与数据挖掘技术结合起来,针对现有计算机审计模型的不足,能够构建出适合现有审计环境的新型计算机审计模型,提高审计质量和服务效率(见下图)。

图 基于数据仓库与数据挖掘技术的计算机审计模型

该模型主要由信息收集系统、数据仓库、分析系统和数据服务系统组成。

(一)信息收集系统

主要是在审计前期阶段通过不同途径广、快、精、准地获取各类审计信息,包括初始电子数据、初始纸质数据、初始外部数据,收集好后进行简单的处理,为数据仓库提供基础数据。

(二)审计数据仓库

主要是对信息系统中提取的信息进行清理、转换、载入等处理,并将这些信息按审计主题进行存储,同时将这些信息按审计主题的需要,多角度、多层次地以交叉表、直方图等多种形式展现出来,为审计分析做好准备。

(三)审计分析系统

主要由简单分析工具、多维分析工具、挖掘模块和知识库组成。其中简单分析工具主要借鉴查询和统计技术,为审计提供报表分析和数据查询;多维分析工具主要采用统计图形、多维方式的报表显示数据,便于审计中对数据进行逐层细化和深入分析;挖掘模块主要集中了该技术中的多种算法,将不同算法按类进行封装,方便按审计主题调用数据;知识库主要是利用库中已存储的审计规则、挖掘出的有效数据、审计人员的审计经验积累等为审计快速发现有价值数据提供帮助。

(四)审计数据服务

主要是对审计分析系统中所获取的数据进行评价,按照审计主题,确定审计重点,分析结果展示,形成审计报告。

三、主要模块的功能实现

(一)信息收集系统

信息收集系统是模型中计算机审计的输入系统,它由不同的数据服务器组成。被审计单位的所有信息,按照获取的方式、来源、类型不同,系统将这些信息进行分类后,装入不同的数据服务器,为审计过程中获取有用数据清除障碍。该系统的数据按来源不同采用不同的方式获取。

1.内部信息。如果审计单位和被审计单位使用的系统相同,则只需将两个系统对接,采用直接读取数据的方式即可。若虽系统不同,但审计单位的信息系统可以直接访问被审计单位信息系统的数据库,也可采用直接读取数据的方式。如果不能采用上述两种方式,则需要采用专用的导入导出工具将不同类型的数据先转换成标准格式的数据,然后再转换成审计信息系统所需格式的数据。

2.外部信息。将外部信息转换成标准格式,压缩、加密后通过网络传输,再将其解压,利用转换工具将其转换成系统所需的格式。

3.移动存储介质上的信息。一般是按标准格式存储的,只需利用转换工具将其转换成系统所需的格式即可。

(二)数据仓库

数据仓库是该模型中的重要组成部分,是对数据进行存储、分类、简单分析的场所。审计人员需根据不同的审计主题设计不同的数据仓库,按类进行存储,提供相对独立的环境,使数据能不断循还往复、不断反馈、不断完善地进行处理和分析。

1.数据仓库模型的设计。一是确定审计主题,审计人员需对审计业务进行归纳,确定数据仓库的主题,并对其进行审计事实的描述和对事实信息属性的描述。二是对逻辑模型进行设计,设计的数据仓库需保证存储量足够且不能降低查询效率。三是对物理模型进行设计,以确定数据的存储位置和索引策略,按照不同的审计主题确定存储位置并设计索引字段,为下一步的数据查找提供方便。

2.数据仓库数据处理的设计。一是数据清理,主要是指对不规范、不完整、不合理、冗余的数据按照规范的格式谨慎进行清理,一般对不同类型的数据采用不同的工具进行清理,常见的清理工具有Excel、审计软件、SQL Server、SQL查询语言等。对于不完整的数据通过手工输入进行纠正。对于错误值,利用统计分析中的偏差分析、回归分析、常识性规则库、简单规则库检查数值进行纠错。二是数据转换,指对清理出来的数据在数据仓库中找到合适的转换工具,将操作型数据转换成分析型数据,为审计分析做好准备。三是数据验证,指审计人员对数据的真实性、完整性进行验证,确保审计分析可靠。常用的数据验证主要有4种方式,利用不同的业务规则、数据关系完整性、统计抽样、数据记录的总量或主要变量的统计等指标进行验证。

3.多维数据库的设计。经过处理的数据一般以二维的结构存储在数据仓库中,这就需要审计人员利用联机分析工具将这些数据处理成多维数据集存入多维数据仓库,以便查询分析。

(三)数据挖掘

对于一般的数据,审计人员只需按照审计主题设置一定的筛选条件,采用联机分析处理技术对审计数据进行分析,并将分析结果以数据和图表的形式展示出来,快速地实现审计分析。对于复杂的数据,审计人员需要掌握更多的计算机挖掘算法,建立挖掘模块,按照主题的要求选择合理的挖掘算法,找出有价值的线索,常用的算法有决策树法、统计分析法、关联规则法、人工神经网络法等。审计数据经数据挖掘模块处理后,数据之间将会存在一定的关系,主要表现为呈现出一定的规律或异常,通常把它叫作“知识”,对审计知识进行存储的系统叫“知识库”。知识库中不但存储了大量审计事实,还包含审计规则和处理机制,审计人员可以直接采用里面的信息进行审计推理,从而得出审计结论。

综上所述,利用数据仓库和数据挖掘技术建立计算机审计模型,解决了数据存储量的问题,数据仓库按照多维数据集的方式存储数据,并建立索引,审计人员可以高效、快速地访问被审计单位的数据;同时,采用数据挖掘技术,可以对审计数据进行全方位、多角度、深层次的分析,快速发现审计线索,提高审计人员工作效率,是对传统审计模型的一次突破。

(责任编辑陶新艳)

F239

A

1671-5454(2016)02-0082-03

10.16261/j.cnki.cn43-1370/z.2016.02.023

2016-04-21

谢景伟(1978-),男,湖南望城人,湖南大众传媒职业技术学院副教授,研究方向:计算机及应用技术研究。程华安(1978-),女,湖南华容人,湖南大众传媒职业技术学院副教授,研究方向:财务管理应用研究。

本文为湖南教育科学规划“十二五”课题研究项目“基于数字湖南视觉下高职院校计算机审计应用研究”(编号:XJK011CZJ084)的研究成果。

猜你喜欢

数据仓库数据挖掘湖南
Indoor orchids take the spotlight
探讨人工智能与数据挖掘发展趋势
基于数据仓库的数据倾斜解决方案研究
三线建设在湖南
湖南是我家
基于数据仓库的住房城乡建设信息系统整合研究
基于并行计算的大数据挖掘在电网中的应用
探析电力系统调度中数据仓库技术的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于数据仓库的数据分析探索与实践