APP下载

全球大数据研究的历史演进:1993—2016年

2017-07-25李天柱刘小琴

中国科技论坛 2017年7期
关键词:视图聚类论文

王 倩,李天柱,刘小琴

(辽宁科技大学工商管理学院,辽宁 鞍山 114051)

全球大数据研究的历史演进:1993—2016年

王 倩,李天柱,刘小琴

(辽宁科技大学工商管理学院,辽宁 鞍山 114051)

运用CiteSpace软件对WOS中的3296篇论文进行全样本分析,发现全球大数据研究分为探索期、增长期和爆发期,具有覆盖学科领域广泛、生命科学大数据研究活跃及人文社会科学大数据研究与科学和技术学科大数据研究同步发展等特征,美国和中国在大数据研究中贡献突出。全球大数据研究形成“理论萌芽阶段-技术探索阶段-实践应用阶段”的演进路径,未来大数据研究会从理论研究向产业化研究转变,相关研究会更加注重解决实际问题。

大数据;CiteSpace;研究热点与研究前沿;演进路径;趋势预测

大数据对经济社会的深刻影响与巨大价值已经得到全球关注[1],围绕大数据的研究成为各个学科领域的热点,相关文献激增。但是,大数据研究在时间和空间(包括学科领域和研究力量)上如何分布,研究热点和研究前沿如何变化,是否遵循特定的演进路径,学术界对于这些问题仍缺乏相应的研究,而这些问题对于大数据的技术预见,以及企业、研究机构的研发决策、战略规划乃至政府政策制定等都具有参考价值。本文运用历史研究的思路回溯大数据领域的相关文献,通过对文献进行计量对上述问题进行回答。

具体而言,运用文献计量学中的可视化研究方法,以“big data”为检索主题进行精确检索,从Web of Science数据库(包括SCI-E、SSCI、CPCI-S和CPCI-SSH四个子库)中获取文献数据,检索的时间跨度为所有年份,文献类型选择“article”,下载数据方式为“全记录与引用的参考文献”,数据格式选择“纯文本”,检索时间为2016年9月19日。最终得到有关大数据的论文题录信息共3296条,检索发现最早的一篇大数据论文发表于1993年,而数据库实时更新导致2016年的数据仍不完整,但2016年已有的文献数据对研究主题仍有重要作用,因此将2016年列入数据来源,本文的研究时间跨度也因此被确定为1993—2016年。对文献数据的计量采用CiteSpace软件,该软件主要用于科学文献数据计量和分析、识别及显示特定学科或知识领域在一定时期内发展的动向和趋势,可探测和分析某个领域研究前沿的变化趋势及研究前沿与其知识基础之间、不同研究前沿之间的相互关系[2],发现前沿领域的演进历程[3],适合本文的研究主题和研究目的。

1 全球大数据研究的总体态势

1.1 时间和学科领域分布

按照时间序列对检索得到的3296篇论文进行分析,可以将全球大数据研究的历史演进划分为3个主要阶段:第一阶段为1993—2010年,大数据论文发文量共19篇,对大数据研究处于探索期;第二阶段为2010—2013年,大数据论文发文量共325篇,对大数据研究进入增长期;第三阶段为2013—2016年,大数据论文发文量共2952篇,对大数据研究进入爆发期,其中2015年的发文量达到1288篇,2016年前8个月的发文量就高达993篇,这与社会各界对大数据的热烈反应是高度一致的。进一步观察发现,全球大数据研究具有如下特征:①覆盖领域广泛,不仅包括计算机科学、工程学、物理、数学、生物学、化学等科学和技术学科,也包括经济、管理、科学学、情报等社会科学,共涉及89个学科(排名前25位的学科如图1所示)。其中计算机科学对大数据研究的贡献最大,共发表论文1334篇,占全部论文比例近一半。其次是工程学,共发表论文609篇;②大数据研究在生命科学中具有广泛应用和关键地位,发文量前25位的学科领域中出现了计算生物学、生物化学和分子生物学、生物技术与应用微生物学、神经科学、医疗信息学等多个与生命科学密切相关的学科。但最早提出大数据理念的天体物理等学科[4],对大数据研究的贡献却不是很显著;③近年来经济学、科学学、情报学与管理学等人文社会科学对大数据研究的贡献迅速提高,几乎与科学和技术学科同步发展。

图1 大数据研究排名前25位的学科

1.2 研究力量分布

(1)国家分布。大数据研究论文发文量处于前10位的国家如图2所示。美国在大数据研究中占据绝对优势,共发表论文1406篇,占全部论文发文量的42.64%。其次是中国,共发表论文753篇,占全部论文发文量的22.85%。处于第三到第五位的分别是英国、澳大利亚和德国。同时,大数据研究力量排名前10位的国家其发文量变化情况与图1中大数据论文的整体增长趋势高度吻合(见图3)。

图2 大数据研究处于前10位的国家

图3 论文发文量前10位的国家增长趋势

(2)期刊分布。大数据论文发文量排在前10位的期刊如表1所示。排名第一位的是医学期刊PLOS ONE,发表的大数据论文共59篇,说明医学健康领域对大数据研究高度重视。排名第二的是大数据专刊,发表论文数49篇。排名前十的期刊中有8个期刊与计算机研究有关,反映出计算机科学是大数据研究的基础。

(3)机构分布。大数据研究处于前10位研究机构见表2。中国科学院发文量位居全球第一位,共发表100篇,占全球发文总量的2.86%,是前十名中唯一的科研院所。从所属国家来看,美国和中国的研究力量最强,排名前十的研究机构中有八所美国大学上榜,中国科学院和清华大学则占据了前两名。

表1 论文发文数量前10名的期刊

表2 论文发文数量前10名的研究机构

2 全球大数据研究的热点与前沿

2.1 研究热点

(1)研究热点识别。关键词是作者对文章核心内容的精炼与概括,如某一关键词在其领域内反复出现(即高频关键词),则可通过该关键词所表征的主题反映出当前的研究热点[5]。在CiteSpace软件界面上选择时间跨度为1993—2016年,时间区间为1年,节点类型选择“Keyword”,主题词选择“None Phrases”,抽取数据对象为Top30,算法选择为None,视图方式选择聚类视图(cluster views),用title terms对各个聚类进行标签,共得到27个聚类,如图4所示。

图4 关键词聚类标签视图

对大数据研究文献的关键词进行合并去重处理,得到被引频次最高的前20个关键词,如表3所示。从关键词聚类分析发现,在技术方面,大数据分析、云计算、机器学习、mapreduce、hadoop等技术模型是当前的研究热点;在应用方面,大数据被广泛用在人口社会科学、生物医学、生态系统、生物基因等领域。本文着重分析排名前10的聚类。

表3 热点关键词统计表

①聚类0:big data(大数据)。包括big data analytics(大数据分析)、social media(社会媒体)等45个关键词,主要集中在大数据的分析、社会媒体应用等方面。②聚类1:temporal lobe(颞叶,医学术语)。包括data compression(大数据存储)、high frequency oscillation(高频震荡)等17个关键词,主要集中在大数据存储、高频震荡学习等方面。③聚类2:dbgap database(数据库)。包括population science(人口科学)、team science(团队科学)等12个关键词,主要聚焦在人口科学、团队科学等方面。④聚类3:virtual screening(虚拟筛选)。包括co-screen(共同筛选)、qsar model(定量构效关系模型)等11个关键词,主要侧重筛选编码RNA、定量构效关系模型等方面。⑤聚类4:communication study(通信研究)。包括critical question(关键问题)、presidential adder(总统加法器)等10个关键词,侧重关键问题及总统加法器方面。⑥聚类5:international geophysical year(国家地球物理年)。包括big science(大科学)、internationalbiological program(国际生物学计划)等10个关键词,集中在数据管理、生态系统、人类基因组等方面。⑦聚类6:application architecture(应用程序体系结构)。包括componentsof architecture(体系结构组成)、decision support(决策支持)等9个关键词,主要集中在数据挖掘应用架构、数据挖掘方法等方面。⑧聚类7:radio channel(无线信道)。包括fdd mode(FDD模式)、robust non(非)等8个关键词,主要应用在移动无线通信、无线信道方面。⑨聚类8:molecular population genetics(分子群体遗传学)。包括dna polymorphism analyze(DNA多态性分析)、natural selection(自然选择)等7个关键词,侧重于生物科学研究。⑩聚类9:social system(社会系统)。包括human factor(人为因素)、spatiotemporal correlation(时空相关性)等7个关键词,主要应用于社会科学、经济学领域。

(2)研究热点演进。为明确大数据研究热点随时间变化的情况,在聚类视图的基础上,视图方式选择时区视图(time-zone views),生成关键词聚类时区视图,发现全球大数据研究热点的演进明显分为三个阶段:

①数据处理研究(1993—2008年)。该阶段的热点主要是云计算、大数据分析、hadoop、mapreduce、模型等技术,尤其是hadoop、mapreduce带来的并行式和分布式算法,为更高效率的管理和处理海量数据带来了可能,同时云计算模式为大数据提供了存储空间和计算能力,是大数据处理技术基础形成的阶段。②数据挖掘研究(2008—2011年)。该阶段的热点主要是云计算、社交网络、社交媒体、数据分析、数据挖掘等。社交媒体、社交网络的普及产生了海量数据,而沉睡的数据只是一堆低价值密度的垃圾,通过数据挖掘才能发现和创造其潜在的价值[6]。③数据应用研究(2011—2016年)。该阶段的热点主要是大数据应用、数据分析、机器学习等。与传统数据分析相比,大数据分析的核心是从类型多样、动态产生的海量数据中挖掘信息和提取知识并付诸应用,从而创造价值,成为当前大数据研究的重点。

2.2 研究前沿

突现词(burst terms)能准确反映某个领域的研究前沿,适合探测某个新兴领域的趋势和突然变化[7]。在CiteSpace软件界面上,选择主题词类型burst terms,gamma值设为0.2,视图方式选择时区视图(time-zone views),其他参数设置不变,运行软件,生成突现词时区视图(见图5),从中得到全球大数据研究前沿的演变过程。

图5 突现词时区视图

①第一阶段(2008年以前)。data mining(数据挖掘)、application architecture(应用程序体系结构)、components of architecture(建筑构件)、application(应用)、anomaly(异常)、data analysis(数据分析)、adaptive optics(自适应光学)、differential reduction(微分还原)、analytic signal(解析信号)这9个关键词的突变率较高,说明数据挖掘、数据分析、应用程序体系结构等时该阶段的研究前沿。②第二阶段(2008—2011年)。data compression(数据压缩)、cyclic redundancy code(循环冗杂码)、data encryption(数据加密)、eeg(脑电图)、development planning(发展规划)这5个关键词的突变率较高,表明与大数据有关的数据压缩、数据加密、循环冗杂码的处理成为此阶段的研究前沿。③第三阶段(2011—2016年)。bigdata(大数据)、performance(行为)、mapreduce(分布式计算)、network(网络)、algorithm(算法)、model(模型)等7个关键词的突变率最高,尤其performance(行为)是突变率最高的关键词,说明近年来大数据行为管理研究得到了高度重视,可能是未来几年的研究前沿。

3 全球大数据研究的演进路径

一个研究领域的知识基础会随时间的变化而演进,演进过程中必然产生导致研究演进的关键节点文献,探测研究演进中的关键节点文献,可发现该领域核心理论的演进路径[8]。关键节点文献一般指中心度或共被引频次较高的文献,表示文献作者对某个领域的研究主题、方法有着重要新理论或重大理论创新[9]。在CiteSpace软件中节点类型选择“Cited Reference”,其他参数设置不变,视图方式选为时区视图(time-zone views),得到大数据研究文献共被引时区视图,图谱中共生成252个节点,591条连线(见图6)。从图6中选取共引频次较高的10篇大数据关键节点文献,如表4所示。

图6 研究文献共被引时区视图

序号共引频次发表年份关键节点文献12132008MapReduce:simplifieddataprocessingonlargeclusters2532008Bigdata:Thefutureofbiocuration3492009Hadoop:TheDefinitiveGuide4482009Detectinginfluenzaepidemicsusingsearchenginequerydata5562009Lifeinthenetwork:thecomingageofcomputationalsocialscience6992011Bigdata:Thenextfrontierforinnovation,competition,andproductivity71042012Criticalquestionsforbigdata:Provocationforacultural,technological,andscholarlyphenomenon8702012BusinessIntelligenceandAnalytics:Frombigdatatobigimpact91082013BigData:ARevolutionThatWillTransformHowWeLive,WorkandThink10542014TheparableofGoogleFlu:trapsinbigdataanalysis

通过对关键节点文献的分析,可将全球大数据研究的演进路径归纳如下:

①理论萌芽阶段(1993—2008年)。此阶段大数据的理论基础较为缺乏,学术界研究的主要问题是大数据的核心技术和应用前景。如2008年Google公司的Dean发表了一篇关于MapReduce算法的论文,该文的共引频次高达312次。2008年Howe在Nature大数据专刊上发表的论文提出“生物文献数据结构化”概念,将非结构化数据转化为结构化数据,提高生物大数据信息的获取率和利用率。②技术探索阶段(2009—2011年)。此阶段随着对大数据核心技术的深入探索,加入大数据研究的学者和机构不断增加,研究重点逐渐从技术层面向应用层面扩展。如2009年White介绍了开源分布式架构Hadoop的核心算法,它能够对大量数据进行分布式处理并构建一种可靠、高效、可伸缩的计算系统。2009年Ginsberg在Nature上发表论文,采用大数据搜索引擎查询数据并对流行性流感活动进行检测。2009年Lazer揭示了在社会科学基础上大数据的潜在价值及在未来发展中的障碍。2011年全球麦肯锡研究院(MGI)发布研究报告Big data:The next frontier for innovation,competition,and productivity,从商业和经济角度揭示大数据发展的现状和潜力,并为生物医疗、政府管理部门、销售行业、制造行业和地理信息科学等应用领域提出了应对大数据时代的策略。③实践应用阶段(2012—2016年)。此阶段全球大数据研究的重点主要是大数据理念、云计算,及大数据在社会管理、信息管理的应用等,呈现出研究和应用相互交融的态势。如2012年Boyd在Information,communication&society上发表论文,从文化、科技、学术、分析及预测六个方面,对大数据领域的未来发展进行深入探索。2012年Chen在MIS QUARTERLY上发表Business Intelligence and Analytics:From big data to big impact的论文,为商务智能分析领域从业者和研究人员提供了解决数据相关问题的框架,并基于Web 2.0对商务智能分析的演进、应用和新兴的研究领域进行大数据分析。2013年,Viktor在Big Data:A Revolution That Will Transform How We Live,Work and Think中提出大数据时代的思维变革、商业变革和管理变革,并明确指出大数据时代的最大转变是由相关关系取代因果关系。2014年Lazer在Science上发表论文提出对于大数据的研究不应只专注于“大数据革命”,还应专注于所有数据革命。

4 结论

本文运用科学计量学理论,借助CiteSpace软件对WOS中收录的大数据研究论文进行分析,得到如下结论:①全球大数据研究可以划分为探索期、增长期和爆发期三个主要阶段,并形成研究覆盖领域广泛、生命科学相关的大数据研究活跃,以及人文社会科学的大数据研究与科学和技术学科的大数据研究同步发展等特征;②美国和中国在全球大数据研究力量中占据优势,PLOS ONE、大数据专刊等学术期刊是全球大数据研究的主要阵地,而中国科学院在全球大数据研究机构中位居第一位;③全球大数据研究的热点明显形成了“大数据处理技术-大数据挖掘技术-大数据应用实践”的演进路径,研究前沿则集中在数据挖掘、系统模型的构建及数据管理方面,从大数据的理论层面向应用层面转变将是未来大数据研究的主要趋势;④全球大数据研究具有较为明确的演进路径,经历了“理论萌芽阶段-技术探索阶段-实践应用阶段”的过程,未来大数据研究会从理论研究向产业化研究转变,对大数据的相关研究会更加注重解决实际问题。

[1]Mckinsey Global Institude.Big data:the next frontier for innovation,competition and productivity[R].May,2011.

[2]CHAOMEI C.Searching for intellectual turning points:progressive knowledge domain visualization[J].Proceedings of the National Academy of Sciences of the United States of America,2004,101(Suppl.1):5303-5310.

[3]CHEN C.CiteSpaceⅡ:Detecting and visualizing emerging trends and transient patterns in scientific literature[J].Journal of the American society for information science and technology,2005,57(3):359-377.

[4]维克托·迈尔—舍恩伯格,肯尼思·库克耶.大数据时代——生活、工作与思维的大变革[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2012.

[5]赵蓉英,许丽敏.文献计量学发展演进与研究前沿的知识图谱探析[J].中国图书馆学报,2010,36(5):60-68.

[6]李天柱,马佳,吕健露,侯锡林.大数据价值孵化机制研究[J].科学学研究,2016,34(3):321-329.

[7]陈超美.CiteSpaceⅡ:科学文献中新趋势与新动态的识别与可视化[J].陈悦,等译.情报学报,2009,28(3):401-421.

[8]刘则渊,等.科学知识图谱:方法与应用[M].北京:人民出版社,2008.

[9]MOED HF.Citation analysis in research evolution[M].Dordrecht:Springer,2005.

(责任编辑 刘传忠)

更正说明

本刊于2017年第5期刊登的文章《物联网产业开放式创新的跨组织知识流动》中,课题基金号应为:国家自然科学基金面上项目(71672095),南开大学亚洲研究中心资助课题(AS1519)。

特此更正。

《中国科技论坛》编辑部

Historic Evolution of Global Big Data Research:1993—2016

Wang Qian,Li Tianzhu,Liu Xiaoqin

(School of Business Administration,University of Science and Technology Liaoning,Anshan 114051,China)

This paper carried out the whole sample analysis of 3296 papers from the Web of Science by CiteSpace.It found that the research history of the global big data was divided into exploration period,increase period and eruptive period.The researches showed the characteristics such as a wide range of covering subjects,animate big data research of life science,the simultaneous development of big data research on humanities and social sciences and science and technology.The US and China contributed prominently in the big data research.The global data research formed the evolving path of“the theory embryonic stage—the technology exploratory stage—the practical application stage”.And it would change from theory to industry in the future and be paid more attention to solve practical problems.

Big data;CiteSpace;Research hotspots and research frontiers;Evolution path;Trend prediction

国家自然科学基金项目(71372121、71472080),辽宁省自然科学基金项目(2015020067),辽宁省社会科学规划基金项目(L15BGL004),辽宁省教育厅科技项目(2016TSZD05)。

2016-10-31 作者简介:王倩(1992-),女,辽宁鞍山人。辽宁科技大学工商管理学院硕士研究生;研究方向:新兴技术管理。

F062.3

A

猜你喜欢

视图聚类论文
基于K-means聚类的车-地无线通信场强研究
视图
Y—20重型运输机多视图
SA2型76毫米车载高炮多视图
基于高斯混合聚类的阵列干涉SAR三维成像
Django 框架中通用类视图的用法
基于Spark平台的K-means聚类算法改进及并行化实现
基于加权模糊聚类的不平衡数据分类方法
下期论文摘要预登
下期论文摘要预登