APP下载

大数据及研究综述

2016-12-31鲁惠林

现代商贸工业 2016年16期
关键词:研究

鲁惠林

(安徽大学商学院,安徽 合肥 230601)

1 大数据的概念及其特征

1.1 大数据的概念

上世纪80年代,大数据这个词汇就已经出现。但是,一开始它仅是用来形容数据量大。而计算机技术的不断发展,数据不在是简单的数字集合,而是指无法在有限时间内用传统的IT技术和软硬件工具对其进行感知、获取、管理、处理的方式。但对于“大数据”的具体定义,目前学术界尚未形成明确统一的定义。2012年高德纳咨询公司认为:大数据是非常重要的信息资产,但它需要新的运算方式来处理,以期提高这项信息资产的决策力、洞察力,并用这些特征来描述大数据。麦肯锡(McKinsey)认为:想要在特定时间内对大数据的内容进行搜集、存储、分析运用,依靠过去传统的数据处理方式已不能解决。

1.2 大数据的特征

关于“大数据”的特征描述,代表性的观点有,IBM将“大数据”的特点总结为“3V”,即大量化(Volume)、多样化(Variety)和快速化(Velocity);著名的数据管理大师维克托·迈尔-舍恩伯格则认为大数据具有4个特点,即“4V”,在前面的基础上增加了Value(价值密度低)。目前,“4V”特征已成最基本的共识,这些特性使得大数据区别于传统的数据概念。

1.2.1 数据规模大

数据量大是大数据的基本属性。想要收集大量数据是十分困难的,只有部分机构会采取抽样调查,而现在,互联网的普及,用户通过智能化的媒介有意的分享或无意的点击、浏览都会产生大量数据;数据量大还体现在人们处理数据的方法和理念发生了改变。早期,人们对事物的认知一直依据抽样调查,以部分数据来描述整体事物。但在某些领域这种方法显然不能完整的描述,可能会忽略很多重要信息。甚至得到的结果都是相反的。而现在,在大多数领域,大数据依托云计算不需要只采取部分样本来反映总体数据。这样,不删减数据能提高准确性。从更多方面来分析事物,这样的结果必然是处理数据增多。

1.2.2 数据种类多

数据类型多,复杂多变是大数据的另一重要特性。虽然以往数据量也不小,但大多数数据都是结构化数据。这种类型的数据存储、处理、查询方按事先定义的方法,抽取有用信息,简单易于人们操作。而现在大数据涌现,呈现的都是非结构化数据,它没有固定的结构属性,数据及它的结构都需要存储。增加了数据处理的难度。各种半结构化、非结构化数据遍及工作、生活中各个角落,这些结构复杂,其增长速度比结构化数据快10倍到50倍。

1.2.3 数据处理速度快

要利用好大数据,就必须要求对其进行快速处理。大数据区别于传统海量数据处理的重要特性之一是要求数据的快速处理。数据增长速度十分之快,这么多激增数据需要更快的数据处理速度,否则这些数据不仅未得到充分利用,不能解决问题,反而可能因为庞大的数据使问题变得复杂。也是大数据区别于传统数据的特点之一也是对爆炸式增长的数据要求实时处理。

1.2.4 数据价值密度低

大数据包含事物各个细节,并未进行删减、归纳、处理,直接是原始的全部数据,所以它也包含了大量的可能无用的信息。对于这种非结构化数据,未了保证它对于新产生的应用有足够的有效信息,就必须为此保留全部数据。这样激增的数据中所含有效信息量的比例在减少,数据价值密度偏低。

2 大数据研究综述

学术界认为“大数据”概念的提出始于上世纪80年代,但起源尚未有严谨权威的考证。有资料说“大数据”概念最早是由麦肯锡公司提出,没有提及具体的时间。从现有研究文献或研究动态来看,美国《Nature》早在2008年就推出了Big Data专刊,从互联网技术、网络经济学、环境科学、生物医药等多个方面介绍了海量数据带来的挑战,《Science》在2011年2月推出专刊“Dealing with Data”,主要围绕着科学研究中的大数据的问题展开讨论,说明大数据对于科学研究的重要性。

国外学者对“大数据”展开的相关研究逐渐引起了国内学者的高度重视,围绕“大数据”的研究工作也全面展开。李国杰、程学旗等为核心的计算机学科专家学者等对其进行了综述性的归纳研究与探讨,阐述了大数据的研究现状与意义,介绍了大数据应用与研究所面临的问题与挑战,并对大数据发展战略提出了建议。

在学者们的不断研究探索中,在理论研究方面,2013年孟小峰、覃雄派等在《大数据管理:概念与挑战》论文中主要是在数据分析、理论和数据查询处理技术的相关研究中,列举了一个数据分析平台需要有几个重要的特点,并对当前主流的数据管理平台进行了归纳。马帅等就“大数据”的异构数据模型和存储复杂的数据智能分析、数据质量以及大数据安全等方面的问题进行了分析与研究。朱志军等人在《大数据、大机遇、大变革》中介绍数据生成的背景、特点和发展趋势,并从实证的角度讨论了对社会和商业智能数据的巨大影响,即数据可能给企业带来巨大的商机。

综上所述,随着互联网的发展,物联网的发展,我们的大部分工作和生活都可以用数据信息来代表,所以大数据时代已经悄然到来。目前学术界的研究主要集中在基础研究上,即更多研究是数据的收集、传输、存储和处理技术和基础设施建设,也有一些学者开始在各个领域的实证应用研究数据。但在实践研究和探索领域仍明显小于理论研究。在大数据领域,多学科交叉及其应用研究的基础理论研究和应用也开始了。

3 研究现状评价

从国内外研究现状来看,“大数据”研究显然是是当前学术界关注的热点问题。事实上,对大数据的认识是逐渐清晰的。从现有可以依据的学术成果来看,明确以“大数据”为主题词的文献研究是近5年来陆续产生的,时间较短,从现状来看,主要有如下特点。

一是大数据的挖掘和处理技术,很大程度上停留在理论研究阶段。大数据研究关注地更多的是数据收集、传输、存储、处理等技术问题以及相应基础平台的构建上。从其发展脉络来看,已逐渐呈现出由理论研究到实践运用的转变,但大数据核心处理技术尚未成熟。

二是如何把“大数据”研究更好地应用于实际,大数据在各个领域内的实证应用与研究分析开始受到关注,尤其是受到政府的关注。随着社会、经济的发展,各行业各类用户对于智能化的要求将越来越高,大数据公共领域、医疗卫生、地矿能源、行业管理、营销与客户分析等各行各业的应用研究逐步兴起,目前这些应用研究属初始阶段,简单、分散、理论不稳定,尚未有主流观点出现。

三是对于大数据的相关理论与研究方法基本上处于认知阶段,比如、概念、特征、现象、问题等,在管理科学领域,大数据在营销、客户分析、综合评价等方面的研究有文献成果,但数量很少,这些前瞻性研究由于缺乏系统理论和化学技术的支撑,远远不能撼动对传统的管理理论与方法的影响。

4 结语

本文从几个常见的大数据概念的描述,分析了大数据的典型特征,在此基础上讨论了大数据技术解决问题的核心问题。大数据时代已经到来,要想更好地从大数据中受益,我们必须充分利用大数据,发挥其社会价值和科学价值。大数据的发展还处于初级阶段,还有很多领域还需要我们积极探索,我们不断开拓空间,如何快速有效地处理大数据,合理利用大数据还需要不断探索和发现。

[1] Manyika J,Chui M Brown J,etal.Big Data: The Next Frontier for Innovation,Competition and Productivity[R].McKinsey Global Institute,2011.

[2] 维克托·迈尔·舍恩伯格.大数据时代[M].杭州:浙江人民出版社,2013.

[3] Specials Archive. Big data[DB/OL].[2008-09-03].Nature,http://www.nature.com/news/.

[4] 李国杰.大数据研究:未来科技及经济社会发展的重大战略领域-大数据的研究现状与科学思考[J].中国科学院院刊,2012,27(06):647-657.

[5] 覃雄派,王会举,杜小勇,王珊.大数据分析——RDBMS与MapReduce的竞争与共生[J].软件学报,2012,23(01):32-45.

[6] 马帅,李建欣,胡春明.大数据科学与工程的挑战与思考[J].中国计算机学会通讯,2012,8(09):22-30.

[7] 朱志军,佘丛国,闫蕾等.大数据、大机遇、大变革[M].北京:电子工业出版社,2012.

猜你喜欢

研究
FMS与YBT相关性的实证研究
2020年国内翻译研究述评
辽代千人邑研究述论
视错觉在平面设计中的应用与研究
关于辽朝“一国两制”研究的回顾与思考
EMA伺服控制系统研究
基于声、光、磁、触摸多功能控制的研究
新版C-NCAP侧面碰撞假人损伤研究
关于反倾销会计研究的思考
焊接膜层脱落的攻关研究