R与当前大数据审计方法的比较研究
2017-06-22羌雨
羌雨
【摘要】当前,审计人员进行数据分析时以Excel统计计算、SQL语句查询分析为主,而在大数据时代来临之际,这两种工具是否仍能继续作为大数据审计工具协助开展审计工作,本文将结合R语言,分别对其展开比较研究,为将来审计人员开展大数据审计提供基础的理论参考。
【关键词】大数据审计 Excel SQL R
一、引言
随着科学的进步以及不断发展,导致现代社会信息化水平日益提高,大数据时代应运而生。在信息化水平不断提高的背景下,审计人员如何利用一些必要的计算机技术来分析被审计数据,从中发现审计线索以确定审计重点、范围,这将成为开展审计工作的前提条件。而当前,审计人员采取的数据工具以Excel与SQL Server为主,本文就将针对这两种工具与R语言之间进行比较研究,并以此探究R在实际审计工作开展的可行性。
二、R语言简介
R语言是S语言的一种实现。S语言同C语言一样,只是一个标准,而围绕它有很多实现。S语言的最初实现版是S-PLUS,但S-PLUS作为一款商业软件,价格十分昂贵,其受众面较窄。后新西兰奥克兰大学的Ross Ihaka与Robert Gentleman共同开发出S语言的另一种实现-R语言。R是一个免费开源、能够自由有效地用于统计计算和绘图的语言和环境,在UNIX、Windows以及Mac OS系统中均可以运行,它提供了广泛的统计分析和绘图技术,包括回归分析、时间序列、分类和聚类等建模方法。
R是一套完整的数据处理、计算和制图软件系统,拥有一套开源的数据分析解决方案,由一个庞大而活跃的全球性社区维护。与其说R是一种统计软件,还不如说R是一统计分析与计算的环境,因为R不仅提供若干统计程序,而且还可进行统计分析,只需使用者指定数据库和若干参数即可。R的思想是:它可以提供一些集成的统计工具,更重要的是,它还可以提供各种数学计算、统计计算的函数,从而令使用者能够灵活地进行数据分析,甚至创造出符合需要的新的统计计算方法。
三、R与当前审计方法比较分析
(一)利用Excel分析
Excel作为我们生活中常用的数据统计、分析工具,早在中学时期便为我们所接触、熟知,Excel能被审计人员广泛接受,一方面与其高被使用频率以及在使用者心中根深蒂固的地位相关,另一方面与其易操作的特点、能够满足大部分数据分析要求的功能密不可分。Excel在审计人员进行非大数据分析工作时,不失为首选工具,能够帮助审计人员高效快速地分析数据并以此发现审计线索,但日前,伴随着大数据时代的进入,数据量大且结构复杂,Excel可能并不能很好地协助进行审计工作,将其与R进行比较,可发现存在以下两方面的不同,同时,这也直接反映了R的优势。
1.Excel所能处理的数据数量受限。Excel满足于非大量数据分析要求,对于海量数据的处理、计算、统计等分析过程可能并不能应用自如。本部分仅针对该公立医院2015年的部分数据进行分析,尚可满足数据分析需求,在针对该公立医院多年的药品数据进行分析时,运算速度较慢,同时会出现软件闪退及程序停滞无法运转的情况,而现今已进入大数据时代,数据数量不断增加及其繁复程度不断提高,这必将为分析数据的工具提出更高要求。而R作为大数据统计软件,能够实现大量数据分析,同时,只要下载安装合适的程序包(关于R中的包将在本文第3部分详细介绍),便能读取包括Excel、SPSS、SAS、Stata等甚至从网页中抓取的数据,基本没有R不能读取的数据形式,完全满足国家审计人员实际大数据审计工作开展的需要。
2.Excel可视化功能有限。Excel中对分析结果进行图表展示的能力有限,以常规的折线图、柱状图、饼图等图形形式居多;此外,难以将大量分析结果在一张图形中进行展示,同时对于大量数据展现的观赏性不强,难以为审计人员分析决策提供帮助。而R是现今最受欢迎的数据分析和可视化平台之一,基于R语言可制作多种精美的图形,允许众多分析结果以代表各自的图形形态在一张图中进行展示,可方便审计人员对分析结果进行宏观观察、分析。
(二)通过SQL语句查询分析
SQL查询是SQL最常用的功能,被广泛应用于目前审计机关针对特定条件、事项进行的查询分析,通过编写简单的SQL查询语句来询问特定的问题,之后数据库通过执行这个查询便可提供回答这个问题的数据信息。SQL的易理解、易操作、易上手等特点成为目前国家审计机关人员重点培训的使用工具之一。但将应用SQL语句进行查询分析与基于R语言进行统计分析过程进行比较,R语言仍具备两点优势:
1.R语言分析数据的功能更为强大。众所周知,SQL语句作为结构化查询语言,在数据查询方面具备强大的功能,优势明显,但在数据挖掘层面,比如进行聚类、回归建模分析等应用时,SQL可能并不如R语言使用得心应手;同时,面对一些高级查询,可能需要通过编写连串的、大量的SQL语句,而R自带多种函数及功能强大的程序包,涵盖统计学、生物学、数学等多个领域,而R又作为免费开源软件,使用者还在不断创建新的包来更新丰富R的使用功能,通过简单的几步函数运行便可实现多种统计需求;除此之外,R语言是用来进行统计分析和绘图的一种语言,除了自身包括强大功能的函数及多种程序包能够满足审计人员进行多种统计分析的要求之外,还可以作为一种可视化语言,能够将分析结果以各种精美的图形展现以帮助分析决策。而进入大数据时代,软件的数据可视化能力至关重要。
2.R语言的应用范围更广。SQL侧重应用于数据库软件,能够方便使用者作相关查询分析,而R作为大数据统计工具,广泛应用于数据分析、数据挖掘等诸多方面,是目前最受欢迎的数据分析和可视化平台之一,其包含的众多具备不同功能的函数、程序包,可满足数据分析人员众多需求。
四、小结
通过应用以上目前审计人员使用最为普遍的两种数据分析工具,以当前审计人员处理、分析数据的方法,与R进行比较,分别分析其与R之间的不同并总结基于R语言开展实际审计工作的优势。目前,审计署机关领导已开始逐渐广泛推行R在大数据审计中的应用,但在各审计厅局出现身影较少,较多审计人员对R并无所知。因此,对于R能否作为大数据审计特有数据分析软件,发挥其重要作用,还需要审计署各机关对R在审计实践中的應用总结,将经验广范围的宣传及推广,使R能在大数据审计中扮演起越来越重要的角色,为适应“大数据”时代开展审计工作的需要,提升审计效率效果作出贡献。
参考文献
[1]陈伟.SMIELIAUSKAS Wally.大数据环境下的电子数据审计:机遇、挑战与方法[J].计算机科学,2016,(1):8-13.
[2]程学旗,靳小龙,王元卓等.大数据系统和分析技术综述[J].软件学报,2014,(9):105-108.
[3]李舰,肖凯.数据科学中的R语言[M].西安:西安交通大学出版社,2015.3.