大数据与云计算的涵义及特点
2018-09-17李东宾
李东宾
摘 要 大数据这个概念近年来在越来越多的场合、被越来越多的人提及,并且经常和云计算联系在一起,云计算与大数据之间到底是什么关系成为热点话题。本文对大数据与云概念进行了解读与区分。
关键词 大数据 云计算 数据挖掘 对审计影响
中图分类号:G424 文献标识码:A
目前,大数据伴随着云计算技术的发展,正在对全球经济社会生活产生巨大的影响。大数据、云计算技术给现代审计提供了新的技术和方法,要求审计组织和审计人员把握大数据、云计算技术的内容与特征,促进现代审计技术和方法的进一步发展。
1大数据、云计算的涵义与特征
随着云计算技术的出现,大数据吸引了全世界越来越多的关注。哈佛大学社会学教授加里·金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”
1.1大数据的涵义与特征
“数据”这个词在拉丁文里是“已知”的意思,也可以理解为“事实”。2009年,“大数据”概念才逐渐开始在社会上传播。而“大数据”概念真正变得火爆,却是因为美国奥巴马政府在2012年高调宣布了其“大数据研究和开发计划”。这标志着“大数据”时代真正开始进入社会经济生活中来了。“大数据”或称巨量资料,指的是所涉及的数据量规模大到无法利用现行主流软件工具,在一定的时间内实现收集、分析、处理或转化成为帮助决策者决策的可用信息。互联网数据中心(IDC)认为“大数据”是为了更经济、更有效地从高频率、大容量、不同结构和类型的数据中获取价值而设计的新一代架构和技术,用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。大数据具有4个特点:第一,数据体量巨大,从TB级别跃升到PB级别。第二,处理速度快,这与传统的数据挖掘技术有着本质的思维的转变,这些转变将改变人们理解和研究社会经济现象的技术和方法。主要表现在以下方面:
(1)是在大數据时代,不依赖抽样分析,而可以采集和处理事物整体的全部数据。19世纪以来,当面临大的样本量时,人们都主要依靠抽样来分析总体。但是,抽样技术是在数据缺乏和取得数据受限制的条件下不得不采用的一种方法,这其实是一种人为的限制。过去,因为记录、储存和分析数据的工具不够科学,只能收集少量数据进行分析。如今,科学技术条件已经有了很大的提高,虽然人类可以处理的数据依然是有限的,但是可以处理的数据量已经大量增加,而且未来会越来越多。随着大数据分析取代抽样分析,社会科学不再单纯依赖于抽样调查和分析实证数据,现在可以收集过去无法收集到的数据,更重要的是,现在可以不再依赖抽样分析。
(2)是在大数据时代,不再热衷于追求数据的精确度,而是追求利用数据的效率。当测量事物的能力受限制时,关注的是获取最精确的结果。但是,在大数据时代,追求精确度已经既无必要又不可行,甚至变得不受欢迎。大数据纷繁多样,优劣掺杂,精准度已不再是分析事物总体的主要手段。拥有了大数据,不再需要对一个事物的现象深究,只要掌握事物的大致发展趋势即可,更重要的是追求数据的及时性和使用效率。与依赖于小数据和精确性的时代相比较,大数据更注重数据的完整性和混杂性,帮助人们进一步认识事物的全貌和真相。
(3)是在大数据时代,人们难以寻求事物直接的因果关系,而是深入认识和利用事物的相关关系。长期以来,寻找因果关系是人类发展过程中形成的传统习惯。寻求因果关系即使很困难且用途不大,但人们无法摆脱认识的传统思维。在大数据时代,人们不必将主要精力放在事物之间因果关系的分析上,而是将主要精力放在寻找事物之间的相关关系上。事物之间的相关关系可能不会准确地告知事物发生的内在原因,但是它会提醒人们事情之间的相互联系。人们可以通过找到一个事物的良好相关关系,帮助其捕捉到事物的现在和预测未来。
1.2云计算的涵义与特征
“云计算”概念产生于谷歌和IBM等大型互联网公司处理海量数据的实践。2006年8月9日,Google首席执行官埃里克·施密特在搜索引擎大会首次提出“云计算”的概念。2007年10月,Google与IBM开始在美国大学校园推广云计算技术的计划,这项计划希望能降低分布式计算技术在学术研究方面的成本,并为这些大学提供相关的软硬件设备及技术支持。目前全世界关于“云计算”的定义有很多。“云计算”是基于互联网的相关服务的增加、使用和交付模式,是通过互联网来提供动态易扩展且经常是虚拟化的资源。美国国家标准技术研究院2009年关于云计算的定义是:“云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络、服务器、存储、应用软件、服务等),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。”根据这一定义,云计算的特征主要表现为:首先,云计算是一种计算模式,具有时间和网络存储的功能。其次,云计算是一条接入路径,通过广泛接入网络以获取计算能力,通过标准机制进行访问。第三,云计算是一个资源池,云计算服务提供商的计算资源,通过多租户模式为不同用户提供服务,并根据用户的需求动态提供不同的物理的或虚拟的资源。第四,云计算是一系列伸缩技术,在信息化和互联网环境下的计算规模可以快速扩大或缩小,计算能力可以快速、弹性获得。第五,云计算是一项可计量的服务,云计算资源的使用情况可以通过云计算系统检测、控制、计量,以自动控制和优化资源使用。
2两者的区别与联系
大数据的超大容量自然需要容量大,速度快,安全的存储,满足这种要求的存储离不开云计算。高速产生的大数据只有通过云计算的方式才能在可等待的时间内对其进行处理。同时,云计算是提高对大数据的分析与理解能力的一个可行方案。大数据的价值也只有通?过数据挖掘才能从低价值密度的数据中发现其潜在价值,而大数据挖掘技术的实现离不开云计算技术。总之,云计算是大数据处理的核心支撑技术,是大数据挖掘的主流方式。没有互联网,就没有虚拟化技术为核心的云计算技术,没有云计算就没有大数据处理的支撑技术。
参考文献
[1] 邓川,杨文莺.云审计对会计事务所的机遇、挑战及对策[J].财会研究,2012(02):1214.
[2] Michael,M.云计算[M].姜进磊译.机械工业出版,2009.
[3] 张为民.云计算:深刻改变未来[M].科学出版社,2009.