APP下载

大数据环境下审计数据分析技术方法初探

2015-12-28顾洪菲

中国管理信息化 2015年3期
关键词:数据类型人员环境

顾洪菲

(南京审计学院审计与会计学院,南京211815)

大数据环境下审计数据分析技术方法初探

顾洪菲

(南京审计学院审计与会计学院,南京211815)

大数据是目前信息技术领域研究和应用的热点问题。尽管国内外对大数据和审计数据分析已有了一定研究,但尚缺少关于大数据环境下审计数据分析方面的研究。本文针对大数据的特点以及审计数据分析实务的现状,首先阐述了大数据对审计的影响,然后根据大数据的特点,从数据量、数据结构、数据处理方式三个方面分析大数据环境下进行审计数据分析所需的技术要求,接着从分析学和使用者的角度阐述了大数据环境下进行审计的数据分析方法和分析结果的显示需求,最后提出了我国在大数据环境中如何推进审计信息化的发展,为今后在大数据环境下实施审计提供了参考。

大数据;审计;数据分析

0 引言

审计是保障国家经济社会健康运行的“免疫系统”,在数据信息爆炸的今天,大数据的浪潮促使着审计思维模式的变革。面对已经到来的大数据时代和由此带来的数据量、数据类型、数据处理方式的转变,意味着在大数据环境下进行审计数据分析将面临更大的技术挑战。2012年3月22日,奥巴马宣布美国政府五大部门投资2亿美元启动“大数据研究和发展计划(Big Data Research and Development Initiative)”,以提高美国的科研、教育与国家安全能力。从国家角度来看,大数据已成为一种战略资源[1]。审计署2013年6月6日发布的《审计署关于印发特派办审计数据综合利用指南——计算机审计实务公告第47号的通知》中,对审计数据归集和处理、审计数据管理和共享、审计数据分析技术和方法等做出了详细的规定。大数据的出现为今后开展多元异构、跨领域关联的海量审计数据分析提供了可能。因此,研究大数据环境下的审计数据分析技术方法具有重要意义。

1 研究大数据环境下的审计数据分析的必要性

1.1 大数据的概念和特点

大数据作为一个新兴概念,至今尚未有统一的定义。维基百科中对于大数据的定义是:由巨型数据集组成,这些数据集大小常超出人类在可接受时间下的收集、使用、管理和处理能力。IDC在对大数据作出的定义为:大数据一般会涉及2种或2种以上数据形式。它要收集超过100TB的数据,并且是高速、实时数据流;或者是从小数据开始,但数据每年会增长60%以上。研究机构Gartner给出了这样的定义:大数据是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的信息资产。虽然这3个定义的表述不尽相同,但却直观地将“大数据”与传统数据定义区分开,而且强调了大数据其实不仅仅是“海量数据”,还在于其数据类型的复杂性。一般来说,大数据有四大特征:数据规模大(Volume),数据种类多(Variety),数据要求处理速度快(Velocity),数据价值密度低(Value),即所谓的“4V”特性。

1.2 审计数据分析方法概述

审计人员如何将原生态的数据信息转换成审计证据,这直接影响着审计目标的实现,而这关键之处就是审计人员是否能对被审单位的审计数据进行有效分析。因此,审计的核心方法应该是数据分析方法[2]。

传统环境下,审计人员可以通过检查、观察、询问、函证、重新计算、重新执行、分析程序等分析方法来收集审计证据。在信息时代,计算机辅助审计技术逐渐成为分析审计数据的重要手段,但这主要是针对结构化数据的审计分析。

1.3 大数据的发展对审计数据分析工作的影响

1.3.1 对开展审计数据分析工作提供了机遇和挑战

大数据是下一个社会阶段的金矿和石油[3]。这对于审计人员既是挑战又是机遇。作为审计的核心方法——数据分析,能否有效地从各种超大规模的数据集中提取、挖掘有价值的信息,这将直接关乎审计效率。

1.3.2 全数据模式可以增加审计数据分析工作的精准性

在传统审计工作中,由于数据的繁杂,一般采用数据抽样分析。而大数据“样本=总体”的全数据模式是要分析与审计对象相关的所有数据,使得审计工作可以建立整体到局部的审计思维模式[4]。在全数据模式下开展审计数据分析,一方面规避了抽样风险和从局部推算整体的局限性,从而使得审计数据分析工作结果更加精准;另一方面与传统相比,数据不需要进行预处理,这使其保持了数据的原始特征,从而使得开展数据分析工作能够具有更全面、更接近真实的洞察力。

1.3.3 大数据的流处理特征将提高审计数据分析效率

随着数据量从TB向PB甚至向ZB级转变,传统的批量处理方式被流处理方式取代。审计人员通过利用软件和模型更快地捕捉到价值信息,实现实时分析,这将使审计人员能够更及时地发现问题,有效提高审计工作效率。

1.4 大数据环境下审计的研究不多

对于大数据领域,国内学者也进行了相关研究。如李国杰[5]介绍了大数据的应用现状,同时也对大数据发展中遇到的问题和挑战提出了战略建议。文献[6-8]主要介绍了大数据的分析和查询技术,阐述了大数据处理的基本框架,并对当前的主流实现平台进行了分析归纳。

2013年审计署对全国社会保障资金进行了统一审计,审计资金范围包括社会保险基金、社会救助资金和社会福利资金三部分,总共12类18项资金,这是审计署对大数据的首次尝试。对于海量的社保数据,审计署首次提出要对社保资金从横向、纵向、多角度、全方位进行趋势分析。我国审计领域对于大数据的研究才刚刚起步,有很多关键问题有待研究。

2 大数据环境下的审计技术方法研究

2.1 从数据量来看,大数据环境下开展审计数据分析需要建立云计算平台

随着大数据时代的到来,人们的第一观念就是数据量的“大”。传统的数据分析平台已不再能承载海量数据的分析工作,我们如何从大数据中挖掘出“黄金”呢?时下热门的云计算技术给大数据分析带来了福音。在审计中运用云计算技术,可以免去审计人员在审计现场搭建审计数据分析环境的任务,并且可以通过“聚集供应”模式对所有审计软件、相关数据进行整合、集成,从而打破审计数据分析的空间约束,有效克服系统、数据类型和软件间的不兼容,真正实现审计技术的信息化和网络化[9]。由云计算衍生而出的云存储技术,可以为审计人员提供以互联网为基础的在线存储服务。审计人员可以通过购买获得“专用”且容量“无限大”的存储空间和企业级的服务质量,在审计现场随时通过网络访问自己的数据,避免了传统审计工作地点固定的弊端。云计算技术的成熟发展,为在大数据环境下开展审计数据分析工作提供了便利。

2.2 从数据结构来看,在大数据环境中开展审计数据分析需要NoSQL技术

审计的数据对象从传统数据向大数据进行转变,多元异构、跨领域的大数据使得审计人员面对的数据分析范围发生了扩增,从原先局限的被审计单位的内部数据信息扩展到与其相关的所有外部数据,如来自互联网运营商、电信运营商、银行、交通枢纽等机构的数据。因此,数据类型也从结构化扩增到半结构化甚至非结构化的形态(图1)。显然传统的审计数据分析方法已经不能满足现代审计的要求,如何更好地从大数据中快捷有效地发掘出价值信息,则是当务之急。

图1 数据类型变化

在审计实务中,一般企事业单位都是将数据存储在传统的关系型数据库系统,与之相配套的结构化查询语言就是关系型数据库语言即SQL。我们对于审计数据的分析,主要基于SQL。那么NoSQL技术简单来说,就是不仅仅基于SQL。在传统的关系型数据库系统中,我们需要先进行逻辑数据库设置,对每个存储变量进行字符长度、类型设置,它的数据模式是静态的。而在大数据环境中,数据模式是动态变化的,传统的数据库技术无法解决。同时,对于数据类型的扩增,像文档、报表、图片、音频、视频等数据类型是无法存储在关系型数据库当中的,而这些都将会成为我们的审计数据,SQL不能完全满足审计工作的需求。而这一问题,已在新社会媒体中提出,Facebook、Twitter,包括国内的人人、微博,都产生了对大数据和NoSQL的需求。Google公司作为全球最大的信息检索公司,已广泛使用NoSQL数据库系统,这为在大数据环境下开展审计数据分析工作提供了借鉴。

2.3 从数据处理来看,在大数据环境中审计需要建立分布式处理系统

在大数据时代,数据的时效性增强。如何更加高效地对审计数据进行分析,最快地获取最有价值的审计证据,提高审计效率,这是大数据给审计人员带来的最大挑战。大数据的处理模式有流处理和批处理两种。实时的分析数据一般是采用流处理技术,也可将流处理技术和批处理技术相结合。流处理,顾名思义即源源不断地将原生态数据形成数据流。当新的数据到来即立即处理并返回所需的结果,而批处理采用先存储再处理。将大数据的实时处理运用到审计中,实现了审计的实时监测,减小了舞弊发生的可能性,同时也提高了审计效率。

随着大数据技术的发展,如果要求实时处理大数据,必然要求采用分布式的方式[10]。目前比较有代表性的开源流处理系统主要有:Twitter的Storm、Yahoo的S4以及Linkedin的Kafka等,这也为在大数据环境下开展审计数据分析提供了可能。

2.4 从数据分析学来看,在大数据环境下实施审计需要机器学习进行数据分析

大数据分析技术具体是什么呢?迄今为止,还没有权威人士给出明确的答案,但机器学习是目前人们公认的一大重点技术问题。机器学习是从不确定的细节当中找到我们目前不知道的东西。机器学习常用的领域有:语音识别、字符识别(OCR)、文本分类等,这正适用于大数据环境下新的数据类型。在大数据环境下,开展审计数据分析正可以利用机器学习,来解决聚类问题、分类问题、挖掘频繁项集。对于新出现的文本审计数据类型,机器学习可以通过聚类应用将它按特征分组;通过分类问题纠正被错误归属的审计数据信息;频繁项集挖掘则可以用来审计数据中的频繁共现特征,说明它们之间有某种关联,如天气指数与车载运输的正反比关系。尤其是在国家审计中,审计人员可以对其工作领域多年的审计数据进行聚类分析、频繁项集挖掘等,总结群体行为的特点,为宏观政策的制定提供依据或者揭露不易察觉的舞弊,保障国家经济社会健康运行。

2.5 从数据使用者来看,在大数据环境中实施审计需要数据可视化

对于传统的结构化数据,可以采用数值、表、各种统计图形显示等形式来表示数据,而大数据处理的非结构化数据,种类繁多,关系复杂,传统的显示方法通常难以表现,大量的数据表、繁乱的关系图加大了审计人员对数据信息读取的难度,甚至可能误导审计人员。数据可视化是利用计算机图形学、图像处理的可视计算技术以及Office办公软件,将数据或数据分析结果转换成图形、图像、表格、文件等形式,用三维形体来表示复杂的信息,并可进行交互处理。相较于传统的数据分析,三维形体是对审计对象的各个侧面进行更多的数据描述,可以实现从整体视角对审计对象进行较为全面立体式多角度、多维度数据分析,这样信息的记录更加全面,使审计人员可更加直观地读出数据表述的问题,弥补现有科学分析方法的不足。

3 结语

本文根据大数据的发展和应用现状,针对在我国开展审计数据分析的特点与需求,探讨了在大数据环境下所需审计数据分析的技术要求。目前在审计中,对于大数据的研究仍处于一个非常初步的阶段,我们还有很多问题需要解决,我们应在审计中加大对大数据技术的研发投入,研制出我国可以自主控制的大数据审计产品,提高审计人员的综合素质,加强审计技术应用领域的相关法律法规建设。希望在未来能够利用成熟的大数据技术推进审计信息化的发展。

[1]怀进鹏.大数据是国家战略资源[J].中国经济和信息化,2013(4).

[2]石爱中,孙俭.初释数据式审计模式[J].审计研究,2005(4).

[3]涂子沛.大数据[M].第5版.桂林:广西师范大学出版社,2012.

[4]审计署审计科研所.审计研究报告[R].2013.

[5]李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2012(6).

[6]孟小峰,慈祥.大数据管理概念技术与挑战[J].计算机研究与发展,2013(50).

[7]覃雄派,王会举,杜小勇,等.大数据分析——RDBMS与MapReduce的竞争与共生[J].软件学报,2012,23(1).

[8]王珊.王会举,覃雄派,等.架构大数据:挑战、现状与展望[J].计算机学报,2012,34(10).

[9]岳利敏.云计算在审计中的应用[J].群文天地,2013(1).

[10]王秀磊,大数据关键技术[J].中兴通讯技术,2013(8).

10.3969/j.issn.1673-0194.2015.03.025

F239.45;F232

A

1673-0194(2015)03-0045-04

2014-12-22

猜你喜欢

数据类型人员环境
长期锻炼创造体内抑癌环境
详谈Java中的基本数据类型与引用数据类型
一种用于自主学习的虚拟仿真环境
如何理解数据结构中的抽象数据类型
孕期远离容易致畸的环境
让刑满释放人员找到家的感觉
环境
不得与工会组织任职期内人员解除劳动合同
基于SeisBase模型的地震勘探成果数据管理系统设计
急救人员已身心俱疲