APP下载

大数据处理研究及现状调研

2014-04-29唐灿

中国市场 2014年40期
关键词:科学研究

唐灿

[摘要]“大数据”一词已经引起了产业界、科技界和政府部门的高度关注。本文简要阐述了大数据的基本概念、研究现状与重大意义,探讨了大数据的科学问题,介绍了大数据应用与研究所面临的问题与挑战。最后提出了作者的几点思考。

[关键词]大数据;第四范式

[中图分类号]F274[文献标识码]A[文章编号]1005-6432(2014)40-0079-02

1引言

早在1980年,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。

大约从2009年开始,“大数据”才成为互联网信息技术行业的流行词汇,并引起了产业界、科技界和政府部门的高度关注。美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。此外,数据又并非单纯指人们在互联网上发布的信息,全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、振动、温度、湿度乃至空气中化学物质的变化,也产生了海量的数据信息。

2012年3月22日,奥巴马宣布美国政府投资2 亿美元启动“大数据研究和发展计划(Big Data Research and Development Initiative)”。这是继1993 年美国宣布“信息高速公路”计划后的又一次重大科技发展部署。美国政府认为,大数据是“未来的新石油”,并将对大数据的研究上升为国家意志,这对未来的科技与经济发展必将带来深远影响。

2大数据的基本概念

人、机、物三元世界的高度融合引发了数据规模的爆炸式增长和数据模式的高度复杂化,世界已进入网络化的大数据(Big Data)时代。以数据为中心的传统学科(如基因组学、蛋白组学,天体物理学和脑科学等)的研究产生了越来越多的数据。例如,用电子显微镜重建大脑中的突触网络,1立方毫米大脑的图像数据就超过1PB。但近年来大数据的飙升主要还是来自日常生活,特别是互联网公司的服务。据著名咨询公司IDC的统计,2011 年全球被创建和复制的数据总量为1.8ZB(10 的21 次方),其中75%来自个人(主要是图片、视频和音乐),远远超过人类有史以来所有印刷材料的数据总量(200PB)。谷歌公司通过大规模集群和MapReduce 软件,每月处理的数据量超过400PB;百度每天要处理几十PB 数据;Facebook 注册用户超过10亿,每月上传的照片超过10 亿张,每天生成300TB 以上的日志数据;淘宝网会员超过3.7 亿,在线商品超过8.8 亿,每天交易数千万笔,产生约20TB 数据。传感网和物联网的蓬勃发展是大数据的又一推动力,各个城市的视频监控每时每刻都在采集巨量的流媒体数据。工业设备的监控也是大数据的重要来源。例如,劳斯莱斯公司对全世界数以万计的飞机引擎进行实时监控,每年传送PB数量级的数据。

一般意义上,大数据是指无法在可容忍的时间内用传统IT 技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。大数据的特点可以总结为4 个V,即Volume(体量浩大)、Variety(模态繁多)、Velocity(生成快速)和Value(价值巨大但密度很低)。首先,数据集合的规模不断扩大,已从GB 到TB 再到PB 级,甚至开始以EB 和ZB来计数。IDC的研究报告称,未来10 年全球大数据将增加50 倍,管理数据仓库的服务器数量将增加10 倍。其次,大数据类型繁多,包括结构化数据、半结构化数据和非结构化数据。现代互联网应用呈现出非结构化数据大幅增长的特点,至2012年年末,非结构化数据占有比例将达到整个数据量的75%以上。同时,由于数据显性或隐性的网络化存在,使得数据之间的复杂关联无所不在。再次,大数据往往以数据流的形式动态、快速地产生,具有很强的时效性,用户只有把握好对数据流的掌控才能有效利用这些数据。另外,数据自身的状态与价值也往往随时空变化而发生演变,数据的涌现特征明显。最后,虽然数据的价值巨大,但是基于传统思维与技术,人们在实际环境中往往面临信息泛滥而知识匮乏的窘态,大数据的价值利用密度低。

3大数据研究的重大意义

大数据是与自然资源、人力资源一样重要的战略资源,是一个国家数字主权的体现。大数据时代,国家层面的竞争力将部分体现为一国拥有大数据的规模、活性以及对数据的解释、运用的能力。一个国家在网络空间的数据主权将是继海、陆、空、天之后另一个大国博弈的空间。在大数据领域的落后,意味着失守产业战略制高点,意味着数字主权无险可守,意味着国家安全将出现漏洞。大数据将直接影响国家和社会稳定,是关系国家安全的战略性问题。因此,我国应尽快研究并制定我们国家的大数据战略。

大数据是现有产业升级与新产业诞生的重要推动力量。“数据为王”的大数据时代的到来,产业界需求与关注点发生了重大转变:企业关注的重点转向数据,计算机行业正在转变为真正的信息行业,从追求计算速度转变为关注大数据处理能力,软件也将从编程为主转变为以数据为中心。大数据处理的兴起也改变了云计算的发展方向,使其进入以分析即服务(AaaS)为主要标志的云2.0时代。采用大数据处理方法,生物制药、新材料研制生产的流程会发生革命性的变化,可以通过数据处理能力极高的计算机并行处理,同时进行大批量的仿真比较和筛选,大大提高科研和生产效率,甚至使整個行业迈入数字化与信息化的新阶段。数据已成为与矿物和化学元素一样的原始材料,未来可能形成数据服务、数据探矿、数据化学、数据材料、数据制药等一系列战略性的新兴产业。

大数据还引起了科技界对科学研究方法论的重新审视,正在引发科学研究思维与方法的一场革命。最早的科学研究只有实验科学,随后出现了以研究各种定律和定理为特征的理论科学。由于理论分析方法在许多问题上过于复杂,难以解决实际问题,人们开始寻求模拟的方法,导致计算科学的兴起。海量数据的出现催生了一种新的科研模式,即面对海量数据,科研人员只需从数据中直接查找或挖掘所需要的信息、知识和智慧,甚至无须直接接触需研究的对象。2007 年,已故的图灵奖得主吉姆·格雷在他最后一次演讲中描绘了数据密集型科学研究的“ 第四范式”(The Fourth Paradigm),把数据密集型科学从计算科学中单独区分开来。格雷认为,要解决我们面临的某些最棘手的全球性挑战,“第四范式”可能是唯一具有系统性的方法。其实,“第四范式”不仅是科研方式的转变,也是人们思维方式的大变化。

4关于大数据的几点思考

4.1大数据的研究目标

计算机科学是关于算法的科学,数据科学是关于数据的科学。从事数据科学研究的学者更关注数据的科学价值,试图把数据当成一个“自然体”来研究,提出所谓“数据界”的概念,颇有把计算机科学划归为自然科学的倾向。但脱离各个领域的“物理世界”,作为客观事物间接存在形式的“数据界”究竟有什么共性问题还不清楚。物理世界在网络空间中有其数据映像,目前一些学者认为,数据界的规律其本质可能是物理世界的规律(还需要在物理世界中测试验证)。除去各个领域的规律,作为映像的“数据界”还有其独特的共同规律吗?这是一个值得深思的问题。另外,大数据依然囿于“术”而无法进诸“道”。

任何领域的研究,若要成为一门科学,一定是研究共性的问题。针对非常狭窄领域的某个具体问题,主要依靠该问题涉及的特殊条件和专门知识做数据挖掘,不大可能使大数据成为一门科学。数据研究能成为一门科学的前提是,在一个领域发现的数据相互关系和规律具有可推广到其他领域的普适性。抽象出一个领域的共性科学问题往往需要较长的时间,提炼“数据界”的共性科学问题还需要一段时间的实践积累。

4.2大数据的相关关系和因果关系

大数据研究不同于传统的逻辑推理研究,而是对数量巨大的数据做统计性的搜索、比较、聚类、分类等分析归纳,因此继承了统计科学的一些特点。统计学关注数据的相关性或称关联性,所谓“相关性”是指两个或两个以上变量的取值之间存在某种规律性。“相关分析”的目的是找出数据集里隐藏的相互关系网(关联网),一般用支持度、可信度、兴趣度等参数反映相关性。两个数据A和B有相关性,只有反映A和B在取值时相互有影响,并不能告诉我们有A就一定有B,或者反过来有B就一定有A。严格来讲,统计学无法检验逻辑上的因果关系。如,根据统计结果:可以说“吸烟的人群肺癌發病率会比不吸烟的人群高几倍”,但统计结果无法得出“吸烟致癌”的逻辑结论。统计学的相关性有时可能会产生把结果当成原因的错觉。如,统计结果表明:下雨之前常见到燕子低飞,从时间先后看两者的关系可能得出燕子低飞是下雨的原因,而事实上,将要下雨才是燕子低飞的原因。很多人认为只要知道“是什么”就行了,没必要知道“为什么”,但事实上正是对事物背后原因的探求推动了人类社会的进步。

4.3大数据研究的社会人文问题

根据数据的来源,大数据可以粗略地分成两大类:一类来自物理世界,另一类来自人类社会。前者多半是科学实验数据或传感数据,后者与人的活动有关系,特别是与互联网有关。这两类数据的处理方式和目标差别较大,不能照搬处理科学实验数据的方法来处理Web数据。

5结论

随着云计算、物联网等的发展,数据呈现爆炸式的增长,人们正被数据洪流所包围,大数据的时代已经到来。正确利用大数据给人们的生活带来了极大的便利,但与此同时也给传统的数据管理方式带来了极大的挑战,期望本文的介绍能给大数据研究同行学者提供一定的参考。

参考文献:

[1]孟小峰.大数据管理:概念、技术与挑战[J].计算机研究与发展.2013,50(1):146-169.

[2]李国杰.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2012(6).

猜你喜欢

科学研究
FMS与YBT相关性的实证研究
2020年国内翻译研究述评
辽代千人邑研究述论
视错觉在平面设计中的应用与研究
点击科学
点击科学
点击科学
科学大爆炸
EMA伺服控制系统研究
新版C-NCAP侧面碰撞假人损伤研究