大数据基本概念、技术与挑战
2015-09-28赵苏阳李艳军钱小燕曹愈远许振腾乔磊汪雷
赵苏阳,李艳军,钱小燕,曹愈远,许振腾,乔磊,汪雷
(南京航空航天大学民航学院,南京 210000)
大数据基本概念、技术与挑战
赵苏阳,李艳军,钱小燕,曹愈远,许振腾,乔磊,汪雷
(南京航空航天大学民航学院,南京210000)
0 引言
随着云计算、物联网、移动互连、社交媒体等新兴信息技术和应用模式的快速发展,信息技术与人类世界政治、经济、军事、科研、生活等方方面面不断交叉融合,全球数据量急剧增加,推动人类社会迈入大数据时代。大数据时代的到来迅速引起了科技界和企业界甚至世界各国政府关注。2008年Nature推出了Big Data专刊、2008年Computing Community Consortium发表了题为 “Big Data Computing;Creating Revolutionary Breakthrough in Commerce,Science,and Society”的报告、2012年奥巴马政府公布“大数据研发计划”、2013年Science推出了“Dealing with Data”,2012年我国学术界亦在北京大学召开了首届中国大数据应用论坛。这些报告计划以及论坛都是为了讨论大数据的应用价值以及大数据可能面对的若干挑战。
1 大数据概述
1.1基本概念
大数据本身并不是一个具体的概念,顾名思义,它是指数据的规模非常大,但是以往也有表示数据规模很大的名词如“大规模数据”、“超大规模数据”等。麦肯锡第一次对大数据作出了定义:大数据是指数据规模大到传统的数据库软件工具已经无法采集、存储、管理和分析的数据集。也可以这样理解:大数据是指利用现有理论、方法、技术和工具难以在短时间内完成分析计算、整体呈现高价值的海量复杂数据集合。
1.2基本特征
大数据的特征一般可以用“5V”来表示:Volume、Variety、Velocity、Value以及Virtual。具体的特征描述见表1[1~2]。
表1 大数据的主要特征
1.3应用
谷歌的首席经济学家Hal Varian说过:数据是可以广泛应用的只是缺乏从中提取知识的能力。收集数据的最终目的是根据具体的需要从数据中提取有用的知识。并将这些知识应用到具体的领域中,当然,不同领域的数据应用有其各自不同的特点。表2是某些具有代表性的大数据应用及相关的比较[3]。
表2 典型大数据应用之间的比较
2 大数据的处理模式
维克托迈尔在《大数据时代》一书中指出了大数据时代处理数据理念的三大转变:要全体不要抽样、要效率不要绝对精确、要相关不要因果。目前,大数据的处理模式主要有静态批量处理(batch processing)和实时的流处理(stream processing)。
2.1批处理
批处理首先要对数据进行存储,然后再对这些静态数据进行集中的处理。如:互联网中的社交网络产生的大量的文本、图片、音视频等不同形式的数据,对这些数据进行批量处理分析,可以发现人与人之间隐含的关系;一些大型搜索引擎的广告分析系统,通过对广告相关数据的批量处理可以提高广告的投放效果来增加点击量。图1是大数据批处理模型。
2006年Hadoop成为了典型的大数据批量处理架构,由HDFS分布式文件系统负责静态数据的存储,并通过MapReduce将计算逻辑分配到各数据节点进行数据计算和价值发现。图2是一个完整的MapReduceguoc[8]。
图1 大数据批处理模型
2.2流处理
流处理的理念是数据的价值会随着时间的流逝而不断减小。新的数据出现时刻和顺序也不能确定,所以,对于流式数据不再进行存储,而是直接进行数据的实时计算。
图2 MapReduce执行流程图
2010年,谷歌推出了Dremel,引领业界向实时数据处理迈进。流式处理典型的应用有(1)数据采集应用,(2)金融银行业的应用。如推特的Storm、Yahoo的S4就是典型流式的数据计算架构,数据在任务中被计算,并输出有价值的信息。图3是流处理中基本的数据流模型。图4为数据流计算模型。
图3 数据流的基本模型
图4 大数据流式计算
总之,批量数据通常具有3个特征:数据体积大、数据精确度高以及数据价值密度低。流式数据的特征是:数据连续不断、出现时间不确定、格式复杂,且对应的处理工具需具备高性能、实时,以及可扩展等特性[4,10]。
3 大数据的分析工具
如今,有很多工具被用来进行大数据的分析,专业或非专业,昂贵或免费开源。2012年,KDNuggets针对专业人员进行了一份调查报告:“一年中在实际项目中用到的大数据、数据挖掘、数据分析软件”。这里简要介绍使用频率最高的前三种。
(1)R(30%)
R是开源编程语言,它可以用来进行数据挖掘/分析和可视化。在R软件环境中可以调用C、C++和Fortran编写的代码。专业用户也可以通过C语言直接调用R对象,R之所以有这么多的用户另一个重要原因是R语言是开源免费的。在KDNuggets的另一份调查报告 “数据挖掘/分析中所使用的设计语言”显示在2012年R语言击败了SQL和Java成为榜首。
(2)Excel(29%)
Excel是Office的核心组件之一。它提供了强大的数据处理、统计分析等功能。
(3)Rapid-I Rapidminer(26%)
Rapidminer是用于数据挖掘、机器学习、预测分析的开源软件。Rapidminer提供的数据挖掘和机器学习程序包括:数据加载和转换(ETL)、数据处理和可视化、建模、评估和部署。Rapidminer是用Java编写的,还可以与R语言进行协同工作[5]。
4 大数据时代面临的问题与挑战
当今,虽然大数据受到社会各界的高度重视,但是无论是在大数据的底层处理系统以及高层的分析手段都存在很多问题和挑战。
(1)数据复杂
大数据的出现,使人们在处理很多问题的时候可以获得大量样本,但这也直接使得数据类型模式多样化、相互之间的关系繁杂、价值小密度大。目前,人们对于大数据复杂性的内在机理及背后的物理意义缺乏理解,极大地制约了人们对大数据高效计算模型和方法的设计能力。
解决大数据复杂的问题需:①研究大数据复杂性规律;②研究在多模态关联关系下的数据分布理论和模型。
(2)计算复杂
大数据多源异构、规模巨大、快速多变、样本量充足,内在关联关系密切而复杂,价值度分布极不均衡等特性对研究大数据的可计算性及建立新型计算范式提供了机遇,同时也提出了挑战。表3是科学发现的四种范式。
解决大数据计算复杂的问题需:①着眼大数据的全生命周期,研究以数据为中心的计算模式;②研究适应大数据的非确定性算法理论;③研究基于自举和采样的局部计算和近似方法;④研究按需约简的方法。
(3)系统复杂
对于规模巨大、结构复杂、价值密度小的大数据,计算复杂度高、周期长、实时性要求高是大数据处理的主要难点。这些难点对大数据处理系统的运行效率及单位能耗提出了苛刻要求,要求大数据处理系统必须具有高效能的特点。
表3 科学发现的4种范式
表4 各类型数据处理的代表性系统
解决系统复杂问题需:①结合大数据价值密度小的特点,针对大数据分布存储和处理的系统架构,以大数据感知、存储与计算融合为大数据的计算准则,在性能评价体系、分布式系统架构、流式数据计算框架、在线数据处理方法等方面展开基础性研究,并对作为重要验证工具的基准测试程序及系统性能预测方法进行研究,通过设计、实现与验证的迭代完善,最终实现大数据计算系统的数据获取高吞吐、数据存储低能耗和数据计算高效率[6~7]。
5 结语
大数据的时代已经到来,数据已经从传统的处理对象转变为一种基础资源,正确利用大数据必将给人们生活带来便利,促进我国未来的科技与经济发展。但大数据规模巨大,结构复杂以及价值密度疏等特点也给大数据的正确利用和广泛应用带来了不少问题与挑战。解决好这些问题与挑战,必须先要对大数据的基本概念、基本特征、计算方式、分析工具进行深度的剖析和理解。IDC预计到2020年中国产生的数据将占全球21%,而我国对于大数据方面的研究已经落后于美国等国家,如何开发、利用大数据这一重要资源,是我国当前亟需解决的问题[9]。
[1]陈美.大数据在公共交通中的应用.图书与情报,1003-6938(2012)06-0022-07
[2]陶雪娇,胡晓峰,刘洋.大数据研究综述.系统仿真学报,1004-731X(2013)S-0142-05
[3]孟小峰.大数据管理:概念、技术与挑战.计算机研究与发展,2013,50(1):146~169
[4]孙大为,张广艳,郑纬民.大数据流式计算:关键技术及系统实例.软件学报,2014,25(4):839~862
[5]张引,陈敏,廖小飞.大数据应用的现状与展望.计算机研究与发展,2013:16~23
[6]程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述.软件学报,2014,25(9):1889~1908
[7]The Economist.Data,Data,Everywhere-A Special Report on Managing Information[EB/OL].http://www.economist.com/node/15557443 [2012-10-02]
[8]Dean J,Ghemawat S.MapReduce:Simplified Data Processing on Large Clusters[C].Proc of OSDI 2004.Berkeley,CA:USENIX Association,2004:3:1~150
[9]王珊,王会举.架构大数据:挑战现状与展望.计算机学报
[10]李建中,刘显敏.大数据的一个重要方面:数据可用性.计算机研究与发展,2013,50(6):1147~1162
赵苏阳,男,江苏扬州人,硕士研究生,研究方向为交通信息工程及控制
李艳军(1968-),男,南京人,博士,教授,研究方向为载运技术与工程
钱小燕(1979-),女,南京人,博士,副教授,研究方向为交通信息工程与控制
曹愈远(1983-),男,南京人,硕士,讲师,研究方向为载运技术与工程
许振腾(1989-),男,山东人,硕士在读,研究方向为载运技术与工程
乔磊(1990-),男,江苏人,硕士在读,研究方向为载运技术与工程
汪雷(1990-),男,湖南人,硕士在读,研究方向为交通运输与工程
Big Data;Basic Concept;Processing Mode;Problems and Challenges
Basic Concept,Technology and Challenge of Big Data
ZHAO Su-yang,LI Yan-jun,QIAN Xiao-yan,CAO Yu-yuan,XU Zhen-teng,QIAO Lei,WANG Lei
(Nanjing University of Aeronautics&Astronautics,Nanjing 210000)
1007-1423(2015)08-0051-05
10.3969/j.issn.1007-1423.2015.08.012
2015-01-15
2015-02-11
随着云计算、物联网、社交网络的发展,数据类型和数量呈现出爆炸式的增长,大数据时代正式到来。人们发现数据可以被当做一种基础性的资源而不仅仅只是简单的处理对象。大数据的数据复杂性、计算复杂性以及数据处理系统的复杂性都给大数据的计算及应用带来极大的挑战。对大数据的基本概念、特征、处理模式以及技术难点进行剖析研究都有助于更好地利用挖掘大数据的潜能和优势。
大数据;基本概念;处理模式;问题与挑战
With the development of cloud computing,Internet of things,social networks,the number and types of data showing explosive growth,the big data era is coming.People found that the data can be used as a fundamental resource and not just a simple processing object.The complexity of data complexity,large data calculation complexity and data processing systems are a great challenge for calculation and application of large data.Analysing the basic concept,features of the data processing mode and technical difficulties is helpful to better tap the potential and advantages of large data.