解析大数据
2014-04-13张海洋
季 伟,张海洋
(1.安徽新闻出版职业技术学院 计算机中心,安徽 合肥 230601;2宿州学院 办公室,安徽 宿州 234000)
IT领域从来不缺乏新概念,当云计算,物联网等方兴未艾之时,大数据概念又被业界提出来.实际上,大数据概念的提出是比较早的,早在1980年托夫勒的《第三次浪潮》中就有所提及,只是当时影响较小,没有引起业界的广泛关注.2008年《Nature》推出了 Big Data专利[1].2011年《Science》推出了“Dealing with Data”[2],着重研究大数据在科学研究中的重要性.到后来,美国的一些专家、机构对大数据进行了一系列的研究,详细的研究了大数据的产生,核心技术,应用领域等关键问题,并分析了大数据可能产生的影响,以及未来大数据所可能面临的挑战.以至于在2012年3月,美国奥巴马政府发布了“大数据发展计划”,旨在提高人们从海量和复杂的数据中获取知识的能力,发展收集、存储、管理、分析和共享海量数据所需的技术.这是继1993年美国政府“信息高速公路计划”后在国家战略层面上的又一项重大举措[3].
从数据量或者说从数据来源来看,之所以产生如此规模巨大的数据:一是现代科技的发展使得事物基本上都能够数字化,因此产生了巨大的诸如文字、图片、音频、视频等数据;二是计算机和网络技术的发展,尤其是现代移动通讯和物联网的迅猛发展产生了大量数据,如全球最大的网络—互联网,无时无刻不在产生新的数据,又如无线传感器,始终在产生新的数据,这些都是导致数据量成倍的增长重要原因.
从数据类型来看大数据主要包括三种数据类型:(1)结构化数据,一般是存储在数据库中(主要指关系数据库),这也是我们平常在实际应用中处理大量数据的基本方式.(2)半结构化数据,数据多见于Web上的信息.(3)非结构化数据,主要指图像、音频、视频等数据.
根国际数据咨询公司(IDC)监测,2011年全球数据量已达到1.8ZB,预计到2020年,全球数据量将达到35ZB,其中非结构化数据将占其中绝大部分.这种数据量激增势必会打破依赖传统软件处理信息的能力,对于人们如何从如此巨大的数据中获取、存储、处理、分析、共享和显示数据来说,这无疑是一项巨大的挑战,大数据的研究显得尤为必要.
1 大数据概念、特征及应用
1.1 大数据的概念
大数据的概念较抽象,目前为止,尚未有一个统一定义.一般意义上,大数据指无法在可容忍的时间内用传统IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合.世界著名IT咨询公司Gartner给出的定义是:大数据指的是所涉及的资料规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策目的的资讯.
关于大数据的定义,还有很多其他研究机构或者学者给出的定义,但不论是哪种定义,大数据的概念结合大数据的特征来描述可能更准确些.
1.2 大数据的特征
关于大数据的特征,目前普遍比较公认的是4V定义[4],即规模性,多样性,高速性和价值性.
表1 大数据的特征
1.3 大数据的应用
大数据研究中具有普遍的关联关系和因果关系[5],因此,大数据中隐含着巨大的科研信息和商业价值,若能有效的组织和使用这些数据信息,势必会产生巨大的效益.目前,除了一些商业化的大数据处理方案外,还有一些开源项目,如Hadoop(由HDFS和MapReduce组成)就是一个典型的分布式计算平台,在这个平台上可编写分布式并行程序,从而在计算机集群上完成海量数据计算.
2 核心问题
2.1 云计算
大数据与云计算概念不同,但却具有很多相似之处,大数据用到了云计算的核心技术,如MapReduce并行处理技术,海量数据存储技术等.实际上云计算为大数据提供了基础平台和支撑技术,他们之间是工具和用途的关系,相当于云计算技术为大数据提供了基本架构平台,大数据以分布式方式应用在这个基本架构平台上.大数据侧重于计算对象而云计算则更加侧重于计算能力,两者相辅相成.
2.2 大数据基本架构
大数据涵盖了各种技术,包括异构数据融合、分布式技术、NoSQL数据库技术、数据挖掘和可视化技术等.一个典型的大数据处理系统体系架构如下图所示.
图1 大数据系统结构
关键部分解释如下:
(1)获取数据.对大数据来说,数据规模并不是越大越好,因为大数据中可能含有一些错误信息,这些错误信息如果不加以约束,就可能导致后续的分析过程完全错误.因此在获取数据前,要尽可能保证数据的正确性,尽可能详尽的描述数据.
(2)数据处理.大量数据在被处理的时候,考虑到数据的时效性,因此要具备实时处理数据的能力.实时获取数据难度并不大,但因数据处理是数据分析的基础,导致数据的实时处理能力是大数据系统的关键,处理不好就可能成为系统的瓶颈.
(3)数据分析.大量的数据本身并没有多大实际意义,正是有了针对性的分析数据,才使得这些数据发挥特定的作用.对于数据的分析,我们可以结合数据挖掘相关知识来进行.
(4)数据显示.大数据数据类型多样,可采用动作捕捉技术获取用户动作,将用户和数据融合在一起,直接使用户与结果交互.摒弃了传统技术方法显示难以达到预期效果的弊端.
3 面临的挑战
3.1 集成中的异构性
3.1.1 数据异构性
大数据是基于云计算技术的,也就是说大数据需要将分布在各地的数据进行集成,但这些分散在各地的数据具有异构性,主要由结构化、半结构化和非结构化数据或者是其中几种的融合,这就造成了数据集成的困难.
3.1.2 平台异构性
大数据都是要存储在实际载体上,不同的载体实际上就是不同的硬件环境,尽管目前硬件技术较过去有了很大的进步,但各厂家在不同时期生产出来的硬件还是有区别的,不同品牌的硬件差异更大.导致集成过程中由于硬件的异构性,大大降低数据的处理效率,特别是对大规模数据来说,这种差异化带来的效果将是不能忽视的.
3.2 数据存储
在大数据环境下,传统的关系数据库已不能满足存储需求.采用传统的关系数据库在设计上往往是无法实现的,大部分关系数据库不支持分布式存储,而海量数据的分布式存储正是大数据的特点之一,这就产生了矛盾.当前应用系统逐渐使用NoSQL来解决大数据此类问题,放弃了对传统关系操作的支持,作为大数据存储的一种解决方案.
3.3 数据分析
传统的针对结构化数据进行的数据分析,已经形成了一套行之有效的分析体系.大数据中数据处理对象具有明显的差异化,因此传统的数据分析技术难以胜任.传统数据分析针对的处理方式较多.大数据时代,数据的时效性增强,如果还停留在批处理技术阶段则会导致数据“贬值”,因此需要实时分析数据,一般是采用流处理技术,也可将流处理技术和批处理技术相结合.
3.4 数据安全
信息安全问题一直是伴随着信息传播发展起来的.大数据时代,信息呈爆炸式增长,隐私问题凸显.单个的信息可能并不具有明显价值性,但如果通过某些手段,把单个信息累积并关联起来,那么这些聚集起来的信息就可能具有一定的威胁性.相反,如果为了保护数据隐私将数据进行隐藏,那么又将无法体现数据的价值.
4 结语
数据呈现爆炸式增长,促使大数据时代到来,正确利用大数据,会给人们带来极大益处,但与此同时也会给传统的数据管理模式带来极大的挑战.文章从大数据的概念、特征和应用为出发点,研究了大数据的一些核心问题和大数据可能面临的挑战.目前对大数据的研究还不够成熟,或多或少还面临着一些难题,相信未来更加成熟的大数据定会给人们带来革命性的改变.
〔1〕Nature.Big Data [EB/OL]. [2012-10-02].http://www.nature.com/new s/specials/big data/index.htm l.
〔2〕Science.Special online collection:Dealing w ith data[EB/OL].[2012-10-02].http://www.sciencemag.org/site/special/data/,2011.
〔3〕孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展.2013,50(1):146-169.
〔4〕Barw ich H.The “four Vs” of Big Data.Implementing Information Infrastructure Symposium [EB/OL].[2012-10-02].http://www.computerworld.com.au/article/39619 8/iiis_four_vs_big_data/.
〔5〕李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考.战略与决策研究[J].中国科学院院刊,2012.11.12.