APP下载

大数据研究综述

2015-09-18曾雷

软件导刊 2015年8期
关键词:研究趋势研究热点应对策略

摘要:大数据时代的到来引起了业界和学界的广泛关注,大量研究成果不断涌现。对大数据的概念和特征进行了论述,对大数据的研究热点和研究趋势进行了深入的分析,探讨了大数据时代的应对策略。

关键词:大数据;研究热点;研究趋势;应对策略

DOIDOI:10.11907/rjdk.151665

中图分类号:TP3-0

文献标识码:A 文章编号文章编号:16727800(2015)008000102

基金项目基金项目:

作者简介作者简介:曾雷(1992-),男,安徽安庆人,重庆交通大学信息科学与工程学院硕士研究生,研究方向为大数据集处理。

0 引言

21世纪,随着以博客、物联网、移动互联网等为代表的新型社交网络的快速发展,以及平板电脑、智能手机等新型移动设备[1]的快速普及,数据一直呈爆炸式增长,世界已经进入了数据大爆炸时代。

大数据不仅复杂多样,而且具有潜在价值,对数据进行收集最根本的目的是从中提取出有价值的信息,可以根据需求不同将其运用到生物、医疗、经济、科学、环保等众多领域。大数据作为一种战略性资源,对科技进步和社会发展具有重要意义。

1 大数据概念

大数据本身是一个很抽象的概念。最早提出“大数据”概念的是全球知名咨询公司麦肯锡[2],该公司在《大数据:创新、竞争和生产力的下一个前沿领域》报告中称:“数据作为重要的生产因素已经渗透到当今的每一个行业,对海量数据的挖掘效率和运用效率将直接影响着新一轮生产力的增长。”,其给出的定义简单明了:大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。2008年《Science》杂志出版的专刊中给出的定义是:“代表着人类认知过程的进步,数据集的规模是无法在可容忍的时间内用目前的技术、方法和理论去获取、管理、处理的数据。”维基百科[3]给出的定义是:“大数据是指利用常规软件获取、管理和处理数据所耗费的时间超过可容忍时间的数据集。”Gartner公司结合大数据的特点给出的定义:“大数据是种类繁多、高容量、高生成速率的信息价值,同时需要新的处理形式去确保判断的作出、洞察力的发现和处理的优化”[4]。其中比较有代表性的是5V定义[5],即大数据的5个特征,分别是:数据体量(Volume)巨大,数据级别从TB级别跃升到PB级别;数据类别(Variety)大,大数据的来源复杂多样;处理速度(Velocity)快,需要实时地分析数据;数据真实性(Veracity),大数据中的内容与真实世界息息相关;价值密度低,商业价值(Value)高,通过分析数据可获得很高的商业价值。

目前,对大数据的定义尚未完全达成共识,对大数据的定义基本是从大数据的特征为出发点,通过这些特征的阐述和归纳给出定义,这与云计算概念刚被提出来的情况是极其相似的。所以,在研究大数据的同时,不需要过多地拘泥于具体的定义,可以对其不断地分析研究,逐渐补充和完善大数据的定义。

2 大数据研究热点及研究趋势

2.1 大数据研究热点

(1)大数据起源、概念和特点。1997年IEEE第8次会议上,美国NASA研究员Michael Cox将可视化领域中设备存储能力的局限称为大数据问题,“Big Data”这一术语第一次被提出并广泛应用于研究。大数据的概念和特点在上文中详细探讨过,这里不再赘述。

(2)生物信息学。生物信息学(Bioinformatics)是1991年美国学者Lim[6]首次提出的。生物信息学是一门集生物信息的获取、处理、储存、分析和解释等的交叉学科,简单来说,生物信息学就是以核酸、蛋白质等生物分子数据库作为主要研究对象,以数学和计算机为主要研究方法,对生物学实验数据进行存储、管理、注释和加工,使之成为具有生物学价值的信息。伴随着大数据概念的出现,生物信息学满足大数据的5V特征,因此引入大数据作为研究技术将是当下生物信息学的主要研究方向,必然会出现很多研究成果,这些成果也将会带来重大的社会价值。

(3)云计算。计算机先驱John McCarthy在1961年预言:“未来的计算资源会像公共设施一样被使用。”在几十年的发展里,集群计算、网格计算等技术被陆续提出,云计算就是在这些技术基础上发展起来的。云计算具有5个特点:①弹性服务:服务的规模根据业务负载动态变化;②资源池化:以资源池的方式统一管理资源;③按需服务:根据用户的需求自动分配资源;④服务计费:根据用户资源的使用量进行计费;⑤泛在介入:用户可以利用各种终端设备随时随地访问云服务。不难看出,云计算是分布式计算、互联网和大规模资源管理技术融合与发展的产物,云计算作为一种新兴的信息技术发展迅猛。

(4)MapReduce模型和Hadoop开源计算平台。

MapReduce是2004年Google提出的一种并行编程模型和任务调度模型,其中“Map”和“Reduce”的概念和主要思想是借鉴函数编程语言和矢量编程语言,Map函数负责分块数据处理,Reduce函数负责对分块函数的中间结果进行归约,综合以上两种函数的功能,MapReduce通过对问题进行分割,使分割后的Map运算高度并行,再将Map后的结果进行Reduce,得到最终结果。

Hadoop是由Apache开发的一种基于批处理技术的开源计算平台,以Java语言编写,在Linux操作系统上运行,核心组件包括HDFS(Hadoop Distribute File System)和Hadoop MapReduce,具有硬件低廉、高容错性和高传输性等优点, Hadoop已经成为处理大数据的主要手段。

(5)可视化。网络传输过程中的数字化和大量的计算机仿真产生了海量数据,这些海量数据规模已经远远超出了人类分析处理的能力范围,为解决这一问题,可视化应运而生。可视化是指把数据、信息和知识转化为可视的表现形式,以达到对数据更深入认识的目的。可视化技术主要包括数据可视化(Data Visualization)、科学计算可视化(Visualization in Scientific Computing)、信息可视化(Information Visualization)和知识可视化(Knowledge Visualization)。可视化应用范围很广,在数据挖掘、复杂网络、物流、农业、音乐方面都有着非常重要的应用。

2.2 大数据研究趋势

大数据几乎存在于所有的社会领域,已经成为一个多学科交叉融合的热点研究领域,背后隐藏着复杂的新理念和应用价值,所以对大数据的挖掘仍有很大的开拓空间。通过不断研究和抽象,大数据的共性问题已经逐渐清晰明朗,其研究趋势有以下3方面:

(1)技术研究。未来的难点是如何系统科学地搭建和完善大数据相关理论、方法、模型以及探寻指导实践应用。未来一段时期里大数据的主要研究方向将是大数据的获取存储、转换融合、信息安全等问题。

(2)社会科学应用研究。目前大数据的相关成果已在政治、经济、社会和科学研究等领域得到应用,大数据的技术发展一方面使得大量产业和部门改革,另一方面也带来了商业模式的发展创新。未来大数据的应用将更加广泛,如社交媒体言论实时监管、自然灾害预测、国家安全保护等。

(3)多领域研究交融。目前大数据研究的立足点主要是信息科学,随着大数据技术发展,其应用范围将辐射到各个学科领域,学科间的交互渗透将是大势所趋,将推动不同领域的融会贯通。

3 大数据时代应对策略

大数据已经掀起一股新的信息浪潮,下面从3个维度探讨大数据的应对策略。

(1)将大数据提升到国家战略层面。政府部门要带头进行大数据专项研究,从国家层面制定出大数据发展的战略方向;要在立法层面予以支持,积极扶持大数据基础产业的发展;鼓励民间投资,加大大数据产业的研发力度。

(2)注重大数据的基础科学研究。建立大数据科学研究平台,成立国家级大数据共享联盟,产业界、科技界和政府部门都积极参与进来,为学术研究提供基本的数据资源,为大数据应用提供理论支持和技术支持。

(3)人才是第一生产力,应当注重人才培养。中国虽然是人才大国,但大数据方面的创新型人才属于稀缺资源。 因此,优化人才培养、合理布局学科建设等问题显得尤为重要。

4 结语

大数据已经渗透到社会的各个领域,只有充分认识到大数据具备的影响力,不断创新和发展,才能立于不败之地。大数据研究尚处于一个初步的阶段,很多基础性研究有待展开,因此,大数据的研究过程是一个漫长的过程,期望本文能对同行学者有一定的参考价值。

参考文献:

[1] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013(50):146169.

[2] 方巍,郑玉,徐江.大数据:概念、技术及应用研究综述[J].南京信息工程大学学报,2014(23):315.

[3] Big data [EB/OL].[20121002]. http://en.wikipedia.org/wiki/Big_data.

[4] 王珊,王会举,覃雄派.架构大数据:挑战、现状与展望[J].计算机学报,2011(34):17411752.

[5] 刘智慧,张泉灵.大数据技术研究综述[J].浙江大学学报:工学版,2014(48):212223.

[6] C R CANTOR,H A LIM.Electrophoresis,supercomputing and the human genomes[J].World Scientific Publishing Co,1991.

责任编辑(责任编辑:杜能钢)

猜你喜欢

研究趋势研究热点应对策略
近五年我国职业教育研究热点综析及未来展望
自闭症谱系障碍儿童的教育干预
基于社会网络分析的我国微课研究探析
微放电检测方法分析