大数据概念与发展
2017-09-07大数据战略重点实验室
大数据战略重点实验室
摘 要:自从2012年美国政府推出《大数据研究和发展计划》以来,全球各组织、国家都纷纷在大数据战略推进方面积极行动,大数据相关的基础设施、产业应用和理论体系不断发展与完善,大数据正从单一的技术概念逐渐转化为新要素、新战略、新思维。然而,目前社会各界关于大数据的基本概念还没有形成统一、系统化的描述。为深入理解认识大数据的本质,更好挖掘利用大数据的潜能和优势,文章从大数据概念入手,从多个维度剖析了大数据的研究现状,梳理了大数据的概念演变及其特性,并对大数据发展的现状进行分析,以期为大数据研究提供指导。
关键词:大数据研究,概念,特征
中图分类号:N04;TP39;H059文献标识码:ADOI:10.3969/j.issn.1673-8578.2017.04.009
Abstract: Since the U.S. government launched the Big Data Research and Development Initiative in 2012, international organizations and countries around the world have taken active actions to implement big data strategies. As a result, big datarelated infrastructure, industrial applications and theoretical systems are developing and improving. Big data is gradually transforming from a single technical concept to new elements, new strategies and new ways of thinking. However, the various sectors of society still do not have a unified and systematic description of the basic concept of big data. In order to provide guidance for big data research, gain a comprehensive understanding of the nature of big data, and better utilize and exert the potential and advantages of big data, this paper starts from the concept of big data, analyzes the present research status of big data from multiple dimensions, highlights the concept evolution and characteristics of big data, and analyzes the development status of big data.
Keywords: big data research, concept, characteristics
一 定義及内涵
(一) 定义
大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态[1]。
(二)研究现状
目前,学术界、产业界、政府机构都对大数据的内涵和外延有过不同界定,其研究涉及性质特点、要素构成、技术系统、应用范围、价值来源等诸多方面。
(1)技术分析角度。这一类定义重点关注的是对海量、复杂数据进行分析处理,从而获得信息和知识的技术手段[2]。其中较为权威的观点来自于麦肯锡全球研究院(Mckinsey Global Institute, MGI)所发表的《大数据:下一个创新、竞争和生产力的前沿》,该报告提出:“大数据”是指其大小超出了典型数据库软件的采集、储存、管理和分析等能力的数据集。数据集成软件商纳斯达克(NASDAQ)认为,大数据包括了海量数据和复杂数据类型,其规模超过传统数据库进行管理和处理的能力。综合此类观点来看,一是大数据是一种难以处理的大规模数据集,二是需要特定的技术才能完成其采集、分析、应用等。
(2)大数据应用价值角度。这一类定义强调的是大数据的应用,关注的是从数据中获取有价值的信息和知识,最终目的是建立商业方面的竞争优势甚至是创新商业模式。高德纳咨询公司(Gartner Group)曾提出:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。哈佛大学访问学者徐晋在《大数据经济学》中指出,大数据是指存在价值关联的海量数据。其本质是社会经济的离散化解构和全息化重构,表现为行业间海量数据的关系从量变到质变的转变(深度挖掘)。
(3)大数据对社会发展影响角度。这一类定义强调大数据对人类社会生产生活方式、思维范式等产生的重大影响,认为大数据开启了人类发展的新阶段,并且认为这种范式的影响是持久而深远的。数据科学家维克托·迈尔-舍恩伯格(Viktor MayerSchnberger)及肯尼斯·库克耶(Kenneth Cukier)在出版的《大数据时代》中提出,大数据是人们获得新的认知、创造新的价值的源泉;大数据还是改变市场、组织结构,以及政府与公民关系的方法[4]。哈佛大学定量社会学研究所主任盖瑞·金(Gary King)在名为“Why‘Big DataIs a Big Deal”的演讲中指出,大数据技术完全是一场数据革命(big data revolution),这场革命对政府管理、学术及商业带来了很多颠覆式变革。他认为,大数据技术将触及任何一个领域,同时“大数据”时代还将引爆一场“哥白尼式革命”——它改变的不仅仅是信息生产力,更是信息生产关系。
二 起 源
(一)萌芽期
20世纪90年代兴起的复杂性科学,为人类提供了有机自然观,整体全局、关联、演化的复杂性思维方式和新的科学理论方法,也为大数据提供了理论基础,是大数据形成的萌芽阶段。1997年10月,美国国家航空航天局(NASA)阿姆斯研究中心的迈克尔·考克斯(Michael Cox)和大卫·埃尔斯沃斯(David Ellsworth)在第八届美国电气和电子工程师协会(Institute of Electrical and Electronics Engineers,IEEE)关于可视化的会议论文集中首次使用“大数据”概念,并界定了内涵。他们表示,日新月异的计算机技术迅猛生长,并带动了数据处理技术的革新,促使人类重新调整自身认识问题、解决问题的方法。1999年8月,史蒂夫·布赖森(Steve Bryson)等在《美国计算机和协会通讯》上发表了以“大数据的科学可视化”为副标题的论文,首次在期刊中使用“大数据”这一术语。
这一阶段的“大数据”多是一种概念构想,并逐渐开始被一些研究者作为一个术语使用,常直指“大量的数据或数据集”这样的字面含义,还没有涵盖到相关的收集、存储、分析、应用等技术方法与特征内涵。
(二)发展期
从20世纪末到21世纪初期是大数据的发展期,在这一阶段中大数据逐渐为学术界的研究者所关注。如经济学家弗朗西斯·X.迪博尔德(Francis X. Diebold)在2000年撰写《大数据,宏观经济度量与预测动态因素模型》来讨论大数据在经济分析方面的运用。英国Nature(自然)、美国Science(科学)等期刊分别出版了大数据专刊,从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面讨论了大数据处理面临的各种问题。在這一阶段中大数据逐渐为理论界的研究者所关注,相关的定义、内涵、特性也得到了进一步的丰富。
(三)成熟期
2011年至今,是大数据发展的成熟阶段。2011年5月,麦肯锡全球研究院(MGI)发布了《大数据:下一个具有创新力、竞争力与生产力的前沿领域》报告,系统阐述了大数据概念,列举了大数据的核心技术,分析了大数据在不同行业的应用,提出了政府和企业决策者应对大数据发展的策略。2012年,瑞士达沃斯召开的世界经济论坛上,大数据成为主题之一。同时,会上发布的报告《大数据,大影响》宣称,数据已经成为一种新的经济资产类别,就像货币或黄金一样。2014年后,世界经济论坛以“大数据的回报与风险”为主题发布了《全球信息技术报告》(第13版);美国发布了《大数据:抓住机遇、保存价值》;联合国启动“全球脉动”计划,并发布了《大数据促发展:挑战与机遇》;中国发布了《促进大数据发展行动纲要》;经济合作与发展组织(OECD)推出《使用大数据作决策》。越来越多的研究者对大数据的认识也从技术概念丰富到了信息资产与思维变革等多个维度,一些国家、社会组织、企业开始将大数据上升为重要战略。
三 特 性
大数据特性最早的提出者是麦塔集团(META Group,现为高德纳)分析师道格·莱尼(Doug Laney),他在研究报告《3D数据管理:控制数据数量、速度及种类》中指出,“数据激增的挑战和机遇是三维的,不仅仅在我们通常所理解的数据量(volume)层面,还包括数据进出的速度 (velocity) 以及数据种类范围 (variety)”。此后,研究者纷纷从特性角度去分析和理解大数据,并对这种“3V”的观点加以丰富。如IBM商业价值研究院在《分析:大数据在现实世界中的应用》报告中提出应增加准确性(veracity);弗雷斯特研究公司(Forrester Research)分析师布莱恩·霍普金斯和鲍里斯·埃韦尔松认为应增加易变性(variability)等。其中国际数据公司(International Data Corporation ,IDC)的观点最为权威,也得到了研究者的广泛认同,该公司在《从混沌中提取价值》报告中提出了大数据的“4V”特征,即:数据容量大(volume)、数据类型繁多(variety)、商业价值高(value)、处理速度快(velocity)。
(一)规模性(volume)
或称数据体量巨大。目前,大数据的规模尚是一个不断变化的指标,单一数据集的规模范围从几十TB到数PB不等,各方研究者虽然对大数据量的统计和预测结果并不完全相同,但一致认为数据量将急剧增长。
(二)多样性(variety)
即数据类型多样。从生成类型上分为交易数据、交互数据、传感数据;从数据来源上分为社交媒体、传感器数据、系统数据;从数据格式上分为文本、图片、音频、视频、光谱等;从数据关系上分为结构化、半结构化、非结构化数据;从数据所有者分为公司数据、政府数据、社会数据等。
(三)高速性(velocity)
数据的增长速度快,以及要求数据访问、处理、交付等速度快。数据创建、处理和分析的速度持续加快,其原因是数据创建的实时性属性,以及需要将流数据结合到业务流程和决策过程中的要求。速度影响数据时延——从数据创建或获取到数据可以访问的时间差。目前,数据以传统系统不可能达到的速度在产生、获取、存储和分析。对于对时间敏感的流程(例如实时欺诈监测或多渠道“即时”营销),某些类型的数据必须实时地分析,以对业务产生价值。
(四)价值性(value)
大数据价值巨大。大数据能够通过规模效应将低价值密度的数据整合为高价值、作用巨大的信息资产。如美国社交网站 Facebook 有10亿用户,网站对这些用户信息进行分析后,广告商可根据结果精准投放广告。对广告商而言,10亿用户的数据价值上千亿美元。据资料报道,2012 年,运用大数据的世界贸易额已达 60 亿美元。