大数据引发信息时代新变革
2013-03-27张绍雄刘俊杰李成柱
厉 剑 张绍雄 刘俊杰 李成柱
(中国人民解放军75660部队,广西 桂林 541002)
随着各种社交网络日渐成熟,移动带宽迅速提升,云计算、物联网应用更加丰富,各种各样的传感设备、移动终端接入网络,由此产生的数据也正呈现出爆炸式增长态势。美国互联网数据中心(Internet Data Center,IDC)指出,互联网上的数据每年将增长50%,每两年翻一番,目前世界上90%以上的数据却是最近几年才产生的,由此可见,世界已开始进入网络化的大数据(Big Data)时代。“大数据”已成为目前IT界的流行词汇,引起了产业界、科技界和政府部门的高度关注。数据信息的大爆炸预示着未来将会因大数据而改变。
1 大数据概念及特点
大数据(Big data)是指无法在一定时间内用传统IT技术和软硬件工具对其进行感知、获取、管理、处理和应用的海量、复杂的数据集合,其并非单纯指互联网上的相关信息,物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,都是数据来源或者承载方式。大数据通常是指数字化时代创造出的大量结构化、半结构化和非结构化数据。根据数据来源,可以分为两大类:一类来自物理世界,多半是科学实验数据或传感数据;另一类来自人类社会,与人的活动密切相关,特别是与互联网有关。大数据的特点可用 4V来概括:①数据体量(Volume) 大,指收集和分析的数据量非常大,已经形成了PB级的数据量;②数据类型(Variety)多,数据来源广、格式丰富,已冲破了常规的以事务为代表的结构化数据范畴,还包括以网页为代表的半结构化数据和以视频、语音信息为代表的非结构化数据;③数据处理速度(Velocity)快,大数据往往以数据流的形式动态、快速地产生,涌现特征明显,而且自身的状态与价值也往往随时空变化而发生演变,数据的采集、处理都要求具有很强的时效性;④价值(Value)密度低。虽然大数据的潜在价值巨大,但是基于传统思维与技术,人们只会被淹没在数据海洋中,造成信息极度泛滥而无法从中获取有效知识的困境,数据价值利用密度低。
2 大数据技术
大数据技术是指从大数据中快速获得有价值信息的技术。按照层次不同,可大概分为以下六类:①数据采集:利用 ETL( Extraction-Transformation-Loading,数据提取、转换和加载)工具将分布的异构数据源中的数据抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;②数据存取:数据压缩、重复数据删除、自动精简配置、自动分层存储、虚拟化存储、SQL数据库、NOSQL数据库等技术;③基础架构:云计算平台、分布式文件系统等;④数据处理:自然语言处理(NLP,NaturalLanguageProcessing),让计算机"理解"人类的自然语言,是一门融语言学、计算机科学、数学于一体的科学;⑤数据挖掘:假设检验、差异分析、相关分析、回归分析、曲线估计、因子分析、聚类分析、主成分分析、判别分析、对应分析、bootstrap、预测、时序模式、复杂数据类型挖掘(Text, Web ,图形图像,视频,音频)等技术;⑥模型预测:预测模型、机器学习、建模仿真。
3 大数据价值
大数据使我们的认识从定量、结构的世界转为不确定、非结构的世界,它将和交通、通讯网络一样逐渐成为现代社会基础设施的一部分,进而影响社会领域的各个层面。概括而言,大数据的价值主要体现在以下六个方面。
(1)大数据彰显国家发展战略大智慧。大数据是与人力资源、自然资源一样重要的战略资源。大数据时代,国家层面的竞争力将很大程度上体现在拥有大数据的规模、活性以及对数据的解释、运用的能力上,网络空间的数据主权是国家数字主权的集中体现。大数据领域的落后,就意味着产业战略制高点的失守,意味着数字主权无险可守。能否抓住机遇、抢占大数据战略制高点,是国家发展大智慧的重要体现。
(2)大数据引发科学研究方法大变革。海量数据催生了一种新的科研模式,即科研人员只需从数据中直接查找或挖掘所需要的信息、知识和智慧,甚至无需直接接触所研究的对象。2007年已故图灵奖得主吉姆·格雷在他最后一次演讲中描绘了数据密集型科学研究的“第四范式”,把数据密集型科学从计算科学中区分开来,认为“第四范式”将是解决某些全球性挑战的唯一具有系统性的方法。
(3)大数据推动现有产业转型与新产业诞生。大数据的兴起,使信息经济由以信息技术产业为重点向以信息收集与处理为重点转变,从实体服务向数据服务转变。产业界需求与关注点因此发生了重大转变:企业关注的重点转向数据;计算机行业从追求计算能力转变为数据处理能力;软件业也将从编程为主转变为以数据为主;云计算的主导权也将从云供应商转向云需求者,由技术资源转向商业资源,进入以分析即服务(AaaS)为主要标志的 Cloud 2.0时代。数据已成为各类应用的原始材料,未来将形成数据服务、数据探矿、数据化学、数据材料、数据制药等一系列战略性新兴产业。
(4)大数据帮助经济过程实现逆转。大数据改变经济过程的作用在于实现“产消逆转”,推动经济从B2C(Business-to-Customer,生产者对消费者)转向C2B,即转变了以往以生产者为起点、消费者为终点的过程。今后将是消费者向生产者发送信息,生产者根据这些消费信息定制产品。由于消费者量大、分散,就需要发挥大数据的重要作用,帮助人们从源头获取准确消费需求,从而帮助生产者提高生产效益。
(5)大数据导致网络结构组织变革。大数据导致全球互联网去中心化。大数据时代,越来越多的网络内容不再由专业网站或特定人群所产生,而是全体网民共同参与的结果。而且随着如 Twitter、Facebook等更多简单易用的去中心化网络服务的出现,网民参与互联网、贡献内容更加简便、多元化,每一个网民都将变成一个独立的信息提供商,使网络内容逐渐去中心化。巨量网络数据如果只存储在少数的中心服务器和门户网站,就会给数据安全带来严重威胁,数据价值越高,不法分子犯罪成本也将同步提高。为了弱化安全威胁,提高数据可靠性,将利用多服务器、分散系统承载大数据。同时,大数据大流量、高时效的特点也将使各数据节点绕过中心节点实现网状直连,网络架构也将逐步实现去中心化。
(6)大数据提供智慧城市建设新引擎。建设智慧城市,是城市发展的新范式和新战略。智慧城市是通过物与物、物与人、人与人的互联互通能力、全面感知能力和信息利用能力,通过物联网、移动互联网、云计算等新一代信息技术,实现城市高效的政府管理、便捷的民生服务、可持续的产业发展。智慧城市建设中在政府决策与服务、城市产业规划、城市运营管理、人民衣食住行等方面将产生爆发式增长的数据量,只有大数据技术才能支撑起城市智慧化建设。大数据可在城市规划、交通管理、舆情监控、公共服务、衣食住行、安防与防灾等领域为各级部门和机构提供决策支持,使城市从“经验粗放型管理”转向“科学精准型治理”。
4 大数据发展现状及未来发展趋势
目前推动大数据研究的动力主要是企业经济效益。IDC研究显示,当前所有企业的商业数据每隔1.2年就将递增一倍,到2015年,大数据市场前景将达到169亿美元的规模。2012年年底,世界财富 500 强企业中 90%的企业都开展了大数据的项目。在国外,大数据被许多科技企业看作是云计算之后的另一个巨大商机,IBM、Oracle、Microsoft、Google、Amazon、Facebook等跨国巨头是大数据发展的主要推动者,如谷歌基于搜索数据成功建立了盈利模式,亚马逊通过云技术、大数据构建了电商帝国等,大数据引发的信息融合正在改变着IT企业的发展方式。在国内,腾讯公司作为移动互联网巨头是最早尝到大数据甜头的企业,现在,几乎每个拥有手机的网民都是手机QQ用户。另一个互联网巨头百度的新一代搜索引擎的重要支柱之一就是依托大数据,才得以为用户提供更便捷与智能的各种搜索服务,如用户可以在百度搜索引擎中便捷地获取相关病症的原因、症状、治疗等信息,还可以通过搜索引擎,在线咨询医生、在线挂号,大大降低了人们获得医疗信息和服务的门槛。除此之外,阿里巴巴的云计算、奇虎 360的商业模式、微信的运作等等,无不与“大数据”紧密相连。
在科技界,Nature和Science等国际顶级学术刊物相继出版专刊对大数据进行探讨研究。2008年 Nature出版专刊“Big Data”,从不同层面介绍了海量数据带来的挑战。2011年Science推出关于数据处理的专刊“Dealing with data”,讨论了 Data Deluge(数据洪流)所带来的挑战。2012年 4月欧洲信息学与数学研究协会会刊 ERCIM News出版专刊“BigData”,讨论了大数据时代的数据管理、数据密集型研究的创新技术等问题,介绍了欧洲科研机构开展的研究活动和取得的创新性进展。2012年5月,中国香山科学会议组织了以“大数据科学与工程——门新兴的交叉学科”为主题的第 424次学术讨论会,就大数据理论与工程技术研究、应用方向以及大数据研究的组织方式与资源支持形式等重要问题进行了深入探讨。同年 6月,CCF YOCSEF(中国计算机学会青年计算机科技论坛)举办了“大数据时代,智谋未来”学术报告会,就大数据时代的数据挖掘、体系架构理论、大数据安全、大数据平台开发与大数据现实案例进行了全面的讨论。总体看,大数据科学正在逐步形成一个横跨信息科学、社会科学、网络科学、系统科学、心理学、经济学等诸多领域的新兴交叉学科。
大数据的出现也同样引起了许多国家政府的极大关注。美国政府将大数据看作“未来的新石油”,并于2012年3月22日投资 2亿美元启动了“Big Data Research and Development Initiatives” (大数据研究和发展计划),正式将大数据研究上升为国家意志。欧盟在过去几年已对科学数据基础设施投资 1亿多欧元,并将数据信息化基础设施作为Horizon2020计划的优先领域之一,2012年1月截止的预算为5000万欧元的FP7 Call 8专门征集针对大数据的研究项目,仍以基础设施为先导。日本于2013年6月公布了“创建最尖端IT国家宣言”,全面阐述了2013~2020年IT界将以发展开放公共数据和大数据为核心,提出要把日本建设成为一个具有“世界最高水准的广泛运用信息产业技术的社会”,大数据已被安倍政府摆在了新IT国家战略的核心位置。我国目前无论在政府统筹规划、学术理论研究、还是行业实践应用方面在还处于初级阶段。2012年9月,科技部的《中国云科技发展“十二五”专项规划》和工信部的《物联网“十二五”发展规划》等都把大数据技术作为一项重点予以支持。在中国硅谷之称的中关村,大数据产业已经纳入《中关村战略性新兴产业集群创新引领工程(2013-2015年)》,将开展云运营和大数据示范应用,建设云计算应用支撑平台、虚拟化平台,支持开展海量数据存储、数据挖掘和分析等技术的行业应用。纵观国际形势,对大数据的研究与应用已成为许多国家重要的战略布局方向。在国家层面,大数据已经成为继边防、海防、空防之后大国博弈的第四个空间。
未来大数据的发展趋势可主要概括为以下四个方面:①数据将成为资产。未来企业的竞争,将是拥有数据规模和活性的竞争,将是对数据解释和运用的竞争。围绕数据,可以演绎出六种新的商业模式:租售数据模式、租售信息模式、数字媒体模式、数据使能模式、数据空间运营模式、大数据技术提供商;②大数据应用广泛化。用户习惯分析、网络安全、人工智能、售后服务等都可以通过大数据处理做成产品或者应用而实现。现在的大数据技术已经被带入了许多网络和手机的应用中,从购物推荐到找到和自己有关联的人等等。③机器学习无处不在。和数据挖掘相比,机器学习算法并不固定,而是带有自调适参数,能够随着计算次数和数据量的增多,像人类一样通过不断学习积累逐步自我提高改善,从而使挖掘和预测的功能更为准确。机器学习是人类社会在从信息时代迈向智能时代的重要标志。④手机将成为人工智能的数据来源。人们的手机及手机中的应用将会是最大的私人信息来源。应用(如 Google Now、Siri)通过语音识别、语言处理、机器学习,能够理解人类的自然语言,可以清楚的知道人们的工作生活习惯、交往圈子、兴趣爱好以及关注点,并为我们工作生活主动进行出谋划策或发出通知提醒。
5 大数据面临的主要问题
作为一个新生领域,尽管大数据意味着大机遇、大价值,但同时也遭遇工程技术、管理政策、资金投入、人才培养等诸多领域的大挑战。只有解决这些基础性的挑战问题,才能让大数据发挥巨大的的企业和社会效益。主要存在以三个方面的问题。
(1)当今大数据运用仍面临多种技术难关。要以低成本和可扩展的方式处理大数据,这就需要对整个IT架构进行重构,开发先进的软件平台和算法。主要有大数据的去冗降噪技术,大数据的新型表示方法,高效率低成本的大数据存储,大数据的有效融合,非结构化和半结构化数据的高效处理,适合不同行业的大数据挖掘分析工具和开发环境,大幅度降低数据处理、存储和通信能耗的新技术。我国数据处理技术基础薄弱,总体上以跟随为主,短时期内难以满足大数据大规模应用的需求。
(2)数据还不够丰富,开放与共享数据还很难。丰富的数据源是大数据产业发展的前提。而我国数字化的数据资源总量远远低于美欧,每年新增数据量仅为美国的7%,欧洲的12%,就已有的有限数据资源来说,还存在标准化、准确性、完整性低,利用价值不高的不足。数据增值的关键在于整合,整合的前提是数据的开放,但我国政府、企业和行业信息化系统建设往往缺少统一规划和科学论证,系统之间缺乏统一的标准,形成了众多“信息孤岛”,而且受行政垄断和商业利益所限,数据开放程度较低,这给大数据利用造成极大障碍。制约数据资源开放和共享的一个重要因素是政策法规不完善,一方面欠缺推动政府和公共数据的政策,另一方面数据保护和隐私保护方面的制度不完善抑制了开放的积极性。
(3)管理理念和运作方式还难以适配数据化决策。大数据开发的根本目的是以数据分析为基础,帮助人们做出更明智的决策,优化企业和社会运转。哈佛商业评论说,大数据本质上是“一场管理革命”。大数据时代的决策不能仅凭经验,而真正要“拿数据说话”。因此,大数据能够真正发挥作用,深层次看,还要改善传统的管理模式,需要管理方式和架构与大数据技术工具相适配。
6 大数据发展意见建议
(1)健全大数据研究组织机构。2012年10月,中国计算机学会(CCF)和中国通信学会(CIC)各自成立了大数据专家委员会,从行业学会的层面来组织和推动大数据的相关产学研用活动。但这远远不够,应站在国家发展战略的高度,成立由政府部门、科技界、产业界共同参与的国家级的大数据科学研究平台,更好地为大数据统筹建设布局、协同创新研究、推进战略性应用,使大数据建设科学高效发展。此外,还需成立国家级的面向大数据研究与应用的开源社区,集大众智慧力量共建大数据美好未来。
(2)注重大数据科学基础研究。大数据科学作为一个新兴的交叉学科方向,其共性理论基础将来自多个不同的学科领域,包括计算机科学、统计学、人工智能、社会科学等,因此,大数据的基础研究离不开对相关学科的领域知识与研究方法的借鉴。在大数据的基础研究方面,应重点研究大数据的内在机理,包括大数据的生命周期、演化与传播规律,数据科学与社会学、经济学等之间的互动机制,以及大数据的结构与效能的规律性(如社会效应、经济效应等)。在大数据应用基础理论方面,应重点研究大数据与知识发现(学习方法、语义解释),大数据环境下的实验与验证方法等。
(3)布局关键技术研发创新。一是优先支持网络大数据研究。网络空间中的数据与人的活动、社会科学密切相关,是大数据的重要组成部分,对国家的稳定和社会发展有独特的作用,应重视并优先支持网络大数据研究。二是加强各类技术研发。面向大数据应用,加强网页搜索技术、知识计算(搜索)技术、知识库技术、非结构化数据处理技术、非关系型数据库管理技术、可视化技术、人工智能、商业智能、机器学习等技术研发,并推动与云计算、物联网、移动互联网等技术的融合,形成成熟可行的解决方案,为实现商业智能服务提供技术体系支撑。
(4)推进大数据示范应用。一是面向医疗、能源、金融、电信、流通等数据量大的领域,引导行业厂商参与,大力发展数据监测、商业决策、数据分析、横向扩展存储等软硬件一体化的行业应用解决方案。二是面向智慧城市建设与人民日常生活需求,加快推动大数据在智慧城市建设及个人娱乐、生活服务领域的应用。三是选择重点领域、重点企业,鼓励其应用数据清洗等手段,对企业积累的数据进行初步分析整理,提高大数据建设质量。
(5)完善大数据发展环境。一是加强大数据应用背景下信息安全问题的研究,应对好大数据应用带来的信息安全风险,特别是研究基于大数据的情报收集分析工作的信息保密问题。二是加大配套政策法规建设。研究制定“国家数据信息资源管理法”,从国家层面对大数据发展进行宏观调控,对各类数据资源的管理、共享和使用进行制度化、法律化的规范,为大数据建设筑牢发展之基、铺平发展之路。
7 结束语
世界的本质是数据,未来社会将是由“大数据”引领和创造的智慧科技的时代。大数据建设与发展充满了诱惑,也面临着诸多难关,我们应将大数据作为新一轮国家竞争和产业发展的战略制高点,有目标、分阶段、按步骤地搞好长远筹划和短期建设,牢牢掌握大数据发展主动权,切实为改善民生、提升国力发挥重大作用。
[1]姜奇平.大数据与信息社会的意义结构[J].互联网周刊,2012(12):70-71.
[2]邬贺铨.大数据时代的机遇与挑战[J].求是,2013(4):47-49.
[3]赵国栋.大数据时代的三大发展趋势[J].高科技与产业化,2012(5):50-53.
[4]赵国栋,易欢欢,糜万军,鄂维南.大数据时代的历史机遇-产业变革与数据科学[M].北京:清华大学出版社,2013:10-41.
[5](日)城田真琴.大数据的冲击[M].北京:人民邮电出版社,2013:34-51.
[6]严霄凤,张德馨.大数据研究[J].计算机技术与发展,2013(4):38-41.
[7]范承工,周宝曜,刘伟.大数据:战略·技术·实践[M].北京:电子工业出版社,2013:73-76.
[8]王珊,王会举,覃雄派,周烜.架构大数据:挑战、现状与展望[J].计算机学报,2011(10):17-19.
[9]白云川.迎接大数据时代[J].中国制造业信息化, 2011 (12):16-18 .
[10]周傲英.海量数据处理[J].计算机学报,2011(10):1-3 .
[11]张延松,焦敏,王占伟,等.海量数据分析的One-size-fits-all OLAP技术[J].计算机学报. 2011(10):20-21.
[12]涂兰敬.专家观点:“大数据”与“海量数据”的区别[J].网络与信息, 2011(12):11-12 .
[13]覃雄派,王会举,杜小勇,等.大数据分析—RDBMS与MapReduce的竞争与共生[J].软件学报,2012(01):21-23.
[14]陶雪娇,胡晓峰,刘洋.大数据研究综述[J].系统仿真学报,2013(7):142-143.