大数据:何去何从*——基于文献计量学的视角
2014-01-01孔成果
肖 明 孔成果
(北京师范大学政府管理学院,北京 100875)
1 引言
网络应用的多样化发展和社会生活的信息化构建引发数据的爆发式增长,美国互联网数据中心指出,互联网上的数据每年按50%的速度增长,每两年便将翻一番[1]。目前,人们关注的不仅仅是数据增长的量变,也更加重视数据增长的质变,正是这种对数据价值的渴求催生了大数据时代的到来。“大数据(big data)”可谓无处不在,政府部门、科技界、产业界均对其追捧不已。
为什么大数据会成为新时代的宠儿呢?一个显见的解释是:杂乱无章的庞大数据中蕴含着潜在的惊人价值。毫无疑问,大数据隐含着巨大的经济、社会、科研等价值,科学、有效地组织和使用大数据将给世界各国带来前所未有的机遇。究竟什么是大数据?它与哪些技术手段相结合?它能够应用在哪些领域?它能够解决什么样的问题?笔者利用文献计量学这一传统的理论工具,以文献及其引文作为研究对象,结合知识图谱工具来描绘大数据研究领域的概况,探究大数据的发展历程、应用领域及其未来发展趋势。
2 背景简介
大数据一经提出,便迅速引起了政界、商界以及学术界的浓厚兴趣,竞相投入大数据研究的浪潮中,部分国家甚至将大数据作为国家战略,置于极其重要的地位。笔者将从以下3个方面来对大数据的研究背景进行简要介绍。
①政府部门。2012年3月,美国奥巴马政府宣布“大数据研究和发展倡议(Big Data Research and Development Initiative)”,将“大数据战略”上升为国家意志[2]。欧盟(European Union)在大数据领域也不甘示弱,投入高达1亿多欧元用于科学数据基础设施建设,并将大数据列为Horizon2020战略计划的优先领域之一[3]。联合国(United Nations)也在2012年发布了大数据政务白皮书,认为通过对丰富的数据资源进行实时分析,可以帮助各国政府更好地响应社会和经济运行,提高国家竞争力和民众生活水平[4]。
目前,我国还没有明确意义上的国家级大数据发展战略,但种种迹象已经表明,中国政府对大数据领域怀有浓厚的兴趣。
②商业领域。2011年6月,全球知名的咨询公司麦肯锡公司(McKinsey&Company)发布了一份名为《big data:the next frontier for innovation,competition,and productivity》的研究报告[5]。该报告对大数据的关键技术及其在医疗、公共、零售、制造业和个人定位等5个领域的应用进行了详细分析,并得出大数据可以在任何一个行业内创造出更多价值的结论。
目前,国内外众多互联网及社交网络公司(如Google、Facebook、百度、腾讯等)也针对自身庞大的用户数据信息展开相关大数据研究,发掘数据中潜在的商业价值,并取得了不菲的业绩。
③学术领域。学术界也对大数据保持了较高的关注度。《Nature》《Science》等国际顶级学术刊物启用专刊来跟踪大数据研究成果。早在2008年,Nature就洞悉了大数据的发展脉搏,开辟专刊《Big Data》[6]。2011年,Science推出《Dealing with Data》[7]专刊,这是Science第一个关于科学数据的专刊。中国计算机学会成立了专门针对大数据研究的大数据专家委员会,中国计算机学会(CCF)大数据专家委员会于2013年底发布了《2013年中国大数据发展白皮书与2014年大数据发展趋势预测》报告,主要论述了2013年中国大数据的发展状况。
3 概念与特点
3.1 概念
“大数据(big data)”术语的提出,可以追溯至Apacheorg的开源项目Nutch。当时,大数据是指用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。
然而,由于大数据本身是一个比较抽象的概念,在其定义这一问题上目前还没有完全达成一致的认识。例如,Chris[8]等人(2012)认为:大数据是由巨型数据集组成,这些数据集的规模巨大到无法通过人工方式在可接受的时间内达到采集、加工、整理并为人类所能解读的信息,大数据必须借助计算机对其进行统计、分析,最终得出客观结果。MIKE2[9]认为大数据应该包含3个方面元素:数据集的复杂程度、数据所蕴含的价值量、利用纵向信息来辅助分析。
3.2 特点
作为一种海量、复杂的数据集合,大数据具有4个层面的特点,通常将其归纳为4V,即:Volume(规模性)、Velocity(高速性)、Variety(多样性)、Veracity(真实性)[10]。其中,规模性要求大数据必须具有足够的数据量,但它同时也强调数据的复杂性;高速性要求大数据必须具有高效的数据处理能力;多样性说明大数据包含多种类型的数据;真实性强调数据的完整性和可信性,决策者能够据此做出关键性决策。
4 研究方法
大数据的提出吸引了大批国内外学者,他们对大数据的研究关注点主要集中在探寻其起源、技术手段、存在的挑战、应用价值等方面[5~7,11]。多方位的研究使得大数据的轮廓越发明晰,然而很少有学者从大数据这一学科领域的本身来全貌地展现其研究现状,而这又具有非常重要的意义。为此,笔者从文献计量学的角度结合知识图谱工具来介绍大数据研究的历史沿革,并对其国内外研究状况进行对比分析,力图让读者更加清晰地了解大数据。
4.1 数据库选择
Web of Science(以下简称WOS)是ISI旗下的著名引文数据库,其中包含SCI(科学引文索引)等知名索引库,其权威性和文章质量都有保证。利用WOS的引文数据可以有效揭示某一学科领域历史概况、研究现状、未来发展趋势及其与其他学科研究的关系。正因如此,笔者以WOS作为国外大数据研究的数据源。
CNKI(中国知网)是目前全球资源规模最大的数字内容出版商,其收录的信息内容经过了深度加工、编辑和整合,并以数据库的方式进行有序管理,具有较高的质量保证。对于某一主题的中文文献,CNKI收录的数据比较全面,能够很好地反映该主题的研究状况。因此,笔者以CNKI作为国内大数据研究的数据源。
4.2 可视化工具
本研究主要借助美国Drexel大学陈超美博士开发的引文可视化工具Citespace III[12],对大数据的研究机构和关键词等进行可视化展示。
4.3 检索策略
“大数据”是近年来逐渐进入公众视野的新兴概念,经过初期的文献预检索发现,大数据是从2009年才开始逐步形成研究热潮。因此,笔者以近5年(2009~2013年)来WOS和CNKI收录的有关大数据的文章为研究对象,从文献计量学角度来进行多方位的分析和研究。
在设置中外文数据库的检索条件时,将时间范围统一限定为2009~2013年,时间跨度为5年,检索时间是2014年3月15日。
外文文献的检索策略是:在WOS中以“TI=big data”作为检索式,共计得到502条结果记录。经过数据预处理后,最终得到439条相关结果记录。
中文文献的检索策略是:在CNKI中以“大数据”作为关键词进行检索,共计得到684条结果记录,经过数据预处理后,最终得到465条相关结果记录。
5 结果分析
从图1中可以直观看出,国内外刊发的大数据研究论文是逐年增长的,且国外的研究起步早于国内。从2011年开始,大数据研究论文每年增幅达到100%以上,随着云计算、物联网等相关领域的快速发展以及大数据表现出来的巨大学术价值和商业价值,大数据研究也进入高峰期(2011~2013年),产出了大量文献,为大数据研究的持续发展打下了坚实基础。
图1 WOS和CNKI的发文数量
5.1 高被引文章
笔者选取WOS和CNKI中有关大数据研究的被引频次前15位的文章,分别介绍了其被引频次、作者和文章名、发表时间、发表期刊(分别如表1、表2、表3所示)。
表1 WOS中被引频次前15位的文章
表2 WOS中被引频次前15位的文章统计
表3 CNKI中被引频次前15位的文章
从一篇文章的被引频次可以看出在该研究领域中该篇文章的重要程度以及其他学者对该篇文章的认可度,结合表1、表2和表3的数据,我们可以清晰地勾勒出国内外大数据领域的研究概貌。
从表1的被引频次可以看出,在国外有关大数据研究的文章中被引频次最高的前3位都集中在2009年和2010年这两年中,其中奠基作是Jacobs、Adam在2009年发表的《The Pathologies of Big Data》[13]。在这篇文章中,Adam结合美国人口普查数据库,从数据库规模的变化、数据库的访问速度等角度阐述了大数据所带来的改变和影响以及大数据所面临的问题。其他被引频次较高的文章也尝试从特定角度来论述大数据。例如,Murdoch、TB[14](2013)以大数据在医疗中的应用为例来介绍大数据对医疗行业的影响及其带来的变革;Trelles、Oswaldo[15](2011)则以我们是否已经准备好迎接大数据的到来为主题进行分析研究。
表2对WOS中被引频次前15位的文章的引用情况进行了详细统计,其中h指数[16]为9说明这15篇文章中有9篇文章至少被引用9次,这也从侧面佐证了这些文章的重要性。
从表3的被引频次可以看出,我国有关大数据研究的被引频次较高的主要集中在2011年和2012年。王珊等人[17](2011)为了满足大数据分析的特点,设计了适合大数据分析的数据仓库架构,从技术角度阐述了大数据环境下给数据分析处理带来的变革和挑战。覃雄派等人[18](2012)主要从技术层面分析了大数据环境下数据管理面临的挑战以及相应的技术革新。李国杰等人[3](2012)分析了在科技及经济社会的发展中大数据研究与应用面临的问题和挑战,并提出了大数据发展战略的若干建议。孟小峰、慈祥[11](2013)则从大数据管理的角度对大数据的概念、技术、基本处理框架以及挑战进行了详细论述。
从国内外相关的研究中可以看出,对于大数据基础理论的探讨,国内外学者并没有表现出浓厚的兴趣,更多的研究主要偏向于大数据的应用,包括:大数据给各行各业带来的变革、存在的问题、潜在的价值和面临的挑战等方面。
5.2 高产作者
对高产作者的统计能够帮助读者快速获取该领域的核心研究人员信息,从而更有针对性地深入了解该领域的相关研究。
表4列举了WOS中近5年来发表的有关大数据的文章作者及其发文量(两篇及以上)。例如,Michael Stonebraker发表过3篇与大数据相关的文章,他是一位著名的数据库专家,并于1992年提出了关系数据库模型,现为麻省理工学院(MIT)的客座教授,具有丰富的大数据理论研究和实战经验;Eric E.Schadt为西奈山伊坎医学院教授,主要从事生物信息学、计算神经学、遗传学等领域的研究;Daniel E.O'Leary现为南加州大学商学院教授,主要研究领域为电子商务、ERP、知识管理、虚拟组织。
表4 WOS中近5年来大数据研究的作者及其发文量(两篇及以上)
续表
表5是对CNKI中收录的我国大数据领域研究学者及其发文量(两篇及以上)的统计。其中,发文量最多的作者为喻国明,他是中国人民大学新闻学院副院长、中国人民大学舆论研究所所长,其从事的新闻传媒工作与大数据之间有着密切联系,仅在2013年就以第一作者的身份发表了5篇有关大数据的论文;进行相关研究的国内学者还有吉林大学的李抵飞博士、中国人民大学信息学院的王珊教授等。值得一提的是,桂林理工大学的张兴旺和李晨晖两人合作发表了4篇有关大数据与图书馆相结合的研究论文。
表5 CNKI中大数据研究的作者信息
结合对表4和表5的分析可知,从事大数据研究的学者拥有不同的学科背景,研究的重点是将自己的研究方向或领域与大数据相结合。此外,国内外学者在大数据的研究切入点上存在着一定差异:国外学者主要侧重于计算机科学、生物学、生态学等自然科学或信息科技领域,而国内学者则更多地侧重于社会学、图书馆学、管理学等人文社会科学领域。
5.3 应用领域
通过对WOS中有关大数据的研究文章进行分析归纳,可以得出国外的大数据研究主要集中在计算机科学、工程学、通信科学、图书情报学、生物化学、生物化学、分子生物学、遗传学、生命科学、经济学、管理学、医学、化学、生态学等学科领域(如图2所示)。大数据的研究为什么会集中在这些领域?究其原因,随着科学技术的发展,人类的认知水平也在不断地提升,计算机科学、生物学、医学等领域信息被更深层次地挖掘,总量巨大、结构复杂的数据集层出不穷,其存储量早已达到PB级或以上。大数据给这些领域造成了巨大的压力,传统的技术手段和思想观念早已不再适用。“变则通,通则久远”,解决问题的需求往往是科学发展的助推剂,大数据在带来压力的同时也蕴含着巨大的潜在价值。
图2 WOS中大数据的相关研究领域
经过统计分析,国内学者对大数据的研究主要集中在如图3所示的诸多领域。其中,大数据与图书情报领域相结合的研究论文占到了全部研究的15%左右,可见图情学者对大数据的关注程度。图书情报领域的学者从事图书馆和信息服务等方面的工作,具有敏锐的洞察力以及准确把握科学发展脉搏的能力,他们不仅仅局限于自身的领域知识,同时也将目光投向其他学科的研究热点和前沿,从而更好地提供专业服务。例如,在大数据背景下,韩翠峰[20](2012)分析了大数据时代图书馆在数据储存、数据挖掘、数据分析等方面的挑战,并预测了大数据背景下图书馆服务模式的改变。
图3 CNKI中大数据的相关研究领域
此外,计算机科学、云计算、物联网、经济学、社会学、新闻传播等领域也和大数据紧密结合,彼此之间相互促进,共同发展。
5.4 研究机构
研究机构是进行一项或多项研究的专门性组织,一定程度上可以理解为学术群体的代名词。发掘某一领域的核心研究机构,关注其动态能让我们准确地把握该领域的研究风向标,大大降低获取研究信息的盲目性。
进行大数据研究的境外机构中既有科研单位,也有企业部门。从图4可以看出,除欧美国家的机构以外,中科院、香港科技大学和香港理工大学在国际大数据研究领域是比较活跃的,且研究成果显著。聚焦国外研究机构分布,麻省理工学院(Massachusetts Institute of Technology)、哈佛大学(Harvard University)、斯坦福大学(Stanford University)、加州大学洛杉矶分校(University of California,Los Angeles)、牛津大学(University of Oxford)等著名高等学府以雄厚的科研实力占据了大数据研究的半壁江山。此外,微软研究院、IBM研究院也利用自身的资源和技术优势展开了大数据的深层研究。
图4 境外大数据研究机构
我国在大数据领域进行深入研究的主要机构如图5所示。从图5中可以看出,大数据的研究既有各大高校,也有科研单位,且呈南北鼎力之势。北方主要以中国人民大学新闻学院和信息学院、北京大学新闻与传播学院、中国标准化研究院、国家标准委员会标准信息中心、工业和信息化部等单位或机构组成大数据研究的阵营,其中中国人民大学(以下简称人民大学)是大数据研究的主力军,这一方面是因为人民大学具有浓厚的大数据研究底蕴,拥有较强的学科背景;另一方面人民大学也抓住了大数据兴起带来的机遇,占领大数据研究的制高点。南方进行大数据研究的机构主要分布在电信行业、高等教育学府和图书情报机构,中国电信股份有限公司广东研究院、中兴通讯股份有限公司、复旦大学新闻学院、上海图书馆、上海科学技术情报研究所等科研单位从各自的专业领域出发,成为大数据研究的主力军。
图5 国内大数据研究机构
5.5 关键词
关键词是一篇文章所要论述的精髓所在,通过提取文章中的关键词,进而构建关键词共现网络,揭示出该领域的研究热点。
从图6可以直观地看出,国外大数据研究与云计算、可视化、社交网络、数据库、编程、算法、系统、性能等信息技术或应用领域关系密切。其中,云计算是指通过网络提供可伸缩的廉价的分布式计算能力,它是进行大数据研究最不可或缺的一环。而大数据通常是数量巨大的半结构化和非结构化数据,实时的大型数据分析需要借助如Map Reduce框架来为数以千计的电脑分配工作。
图6 国外大数据研究的关键词共现
在可视化和社交网络方面,大数据也具有非常广阔的应用前景。社交网络在近几年风靡全球,注册用户节节攀升,看似杂乱无章的庞大后台数据中蕴含着惊人价值。Facebook、Twitter等著名社交网站正基于自身的数据源开展大数据的分析研究。此外,大数据的可视化也是目前研究的重要方向之一。
结合图7可知,我国在大数据领域的研究中涉及的关键词主要有云计算、物联网、数据挖掘、数据分析、信息服务、图书馆等。图7中,云计算、物联网、数据挖掘、图书馆、信息服务等数据节点比较突出,说明它们与大数据研究关系更加密切。究其原因,大数据的根本在于数据挖掘,目的是从大量的半结构化和非结构化数据中获取有用的知识或潜在的价值。从总体上来看,云计算是进行数据挖掘的重要技术平台支撑,物联网是大数据产生的源泉之一,而图书馆则是借助大数据环境下的有利因素更好地为读者提供信息服务。
图7 国内大数据研究的关键词共现
从关键词共现的角度来看,国内外学者都十分重视大数据与云计算的结合,充分利用云计算的分布式并行计算能力进行海量的、复杂的数据处理,实现大数据的高效处理。然而,国内外学者研究的侧重点也有所不同:国外学者的研究主要集中在算法、框架、编程、系统性能、可视化等技术领域,从底层来丰富和完善大数据;国内学者则主要偏向于大数据的应用研究,涉及信息服务、移动互联网、电子政务、图书馆等多个方面。
5.6 期刊
通过对WOS中有关大数据研究的刊发期刊(如图8所示)进行分析不难发现:美国计算机协会通讯(COMMUN ACM)、科学杂志(Science)和自然杂志(Nature)是国外大数据研究成果汇聚的核心期刊,2012年三大期刊的影响因子(Impact Factor)分别为2.511、31.027和38.579。还有一些为大数据研究开辟的专刊,如BIG DATA NEXT FRONTI,这些期刊共同构成了国外大数据研究的知识共享阵地。
图8 WOS中大数据研究的刊发期刊
国内大数据研究所刊发的期刊涉及的领域主要有计算机科学、图书情报学、信息通信技术、新闻传媒、电子政务、企业管理等方面(如图9所示)。其中,图书情报领域的核心期刊《图书与情报》刊发了多篇有关大数据给图书馆带来的机遇与挑战的文章,具有较高的影响力。
图9 CNKI中大数据研究的刊发期刊
6 结语
笔者以近5年(2009~2013年)来WOS和CNKI中有关大数据研究的论文为研究对象,从计量学的角度,利用知识图谱工具剖析了大数据领域的国内外研究现状,着重分析了高被引文章、高产作者、研究机构、期刊、关键词和应用领域等方面的内容,归纳后得到以下几点结论。
①国内外学者都非常重视大数据的研究,国外研究起步较早,主要偏向于大数据的应用方面;而国内的研究则相对较晚,但既注重基础理论的探讨也重视应用领域的研究。
②大数据涉及的学科主要有计算机科学、医学、生物学、经济学、政治学、信息科学、生态学、社会学等,可见大数据研究是一个多学科交叉融合的典型,它为其他学科的发展提供了新的视角,但其自身也处在不断发展完善之中。
③大数据研究的相关热点领域主要有云计算、物联网、图书与情报、商业管理、移动互联网、新闻传媒等。大数据的研究归根结底在于应用,就目前的发展趋势来看,大数据拥有非常广泛的应用前景。
④高等院校和商业研究机构是大数据研究的两大主力军,从事大数据研究的机构既有像哈佛大学、北京大学、中国人民大学这样的高等学府,也有诸如微软研究院、麦肯锡研究院、中国电信研究院之类的商业研究机构,这些都是产学研相结合的最佳实践。
从目前发展趋势来看,大数据与云计算、物联网等技术手段的融合将会更加深入,应用领域也将不断扩展,处理结果将会更多地以可视化方式加以呈现,最终成为战略决策的支撑。
[1]工业和信息化部电信研究院.大数据引发的安全问题及应对措施.[EB/OL].[2014-03-15].http://www.catr.cn/kxyj/catrgd/201403/t20140314_1003862.html.
[2]Big Data Across the Federal Government[EB/OL].[2014-03-15].http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_fact_sheet_final_1.pdf.
[3]李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2012(6):647-657.
[4]Big Data for Development:Opportunities&Challenges[EB/OL].[2014-03-15].http://www.unglobalpulse.org/sites/default/files/Big Data for Development-UNGlobal Pulse June 2012.pdf.
[5]Big Data:The Next Frontier for Innovation,Competition,and Productivity[R/OL].[2014-03-15].http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation.
[6]Big Data.Nature,2008(7209):1-136.
[7]Science.SpecialOnlineCollection:DealingwithData[EB/OL].[2014-03-15].http://www.sciencemag.org/site/special/data/.
[8]Chris Snijders,Uwe Matzat,Reips.“Big Data”:Big Gaps of Knowledge in the Field of Internet Science[J].International Journal of Internet Science,2012(1):1-5.
[9]Big Data Definition.[EB/OL].[2014-03-15].http://mike2.openmethodology.org/wiki/Big_Data_Definition.
[10]What Is Big Data?[EB/OL].[2014-03-15].http://www.villanovau.com/university-online-programs/what-is-bigdata/.
[11]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013(1):146-169.
[12]Chen,CM.CiteSpace II:Detecting and Visualizing Emerging Trends and Transient Patterns in Scientific Literature[J].JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY,2006(3):359-377.
[13]Jacobs,Adam.The Pathologies of Big Data[J].COMMUNICATIONS OF THE ACM,2009(8):36-44.
[14]Murdoch,TB,Detsky,AS.The Inevitable Application of Big Data to Health Care[J].JAMA,2013(13):1351-1352.
[15]Trelles O,Prins P,Snir M,Jansen RC.Big Data,But Are We Ready?[J].Nature Reviews Genetics,2011(3):224.
[16]Hirsch,J.E.An Index to Quantify an Individual’s Scientific Research Output[J].Proceedings of the National Academy of Sciences of the United States of America,2005(46):16569-16572.
[17]王珊,等.架构大数据:挑战、现状与展望[J].计算机学报,2011(10):1741-1752.
[18]覃雄派,等.大数据分析——RDBMS与MapReduce的竞争与共生[J].软件学报,2012(1):32-45.
[19]韩翠峰.大数据带给图书馆的影响与挑战[J].图书与情报,2012(5):37-40.