APP下载

基于CitespaceⅢ的大数据研究的可视化分析*

2016-03-15姜俊锋丁香乾侯瑞春曲丽君

计算机与数字工程 2016年2期
关键词:可视化领域文献

姜俊锋 丁香乾 侯瑞春 曲丽君

(1.中国海洋大学信息科学与工程学院 青岛 266100)(2.青岛农业大学 青岛 266109)



基于CitespaceⅢ的大数据研究的可视化分析*

姜俊锋1丁香乾1侯瑞春1曲丽君2

(1.中国海洋大学信息科学与工程学院青岛266100)(2.青岛农业大学青岛266109)

摘要近年来,大数据已经成为科技界和企业界,甚至成为各国政府关注的热点。大数据隐含着巨大的经济、社会和科研价值,已经引起了各行各业的高度重视。分析大数据研究的前沿热点和未来发展趋势,有效地组织和使用大数据,将对社会经济和科学研究发展产生巨大的推动作用。论文基于Java平台的知识图谱分析软件CitespaceⅢ,对大数据研究相关文献进行可视化分析,明确了开展大数据研究的经典关键文献和学科前沿热点,预测了大数据领域的未来发展趋势,为学者和读者更好地了解大数据提供了帮助。

关键词大数据; 可视化分析; CitespaceⅢ; 知识图谱 出现频次中心性关键词出现频次中心性Bigdata8160.23Networks620.12MapReduce1750.19Performance500.09Cloudcomputing1530.17Analytics410.07Hadoop1080.15Algorithm410.06Datamining790.14Visualization390.04 是一篇文献所表述内容的高度概括,也是一篇文章的精髓。通过对关键词进行共现网络分析,揭示出在大数据研究领域的研究热点。如图5。出现频次前十位的关键词及中心性如表2所示。 出现频次中心性关键词出现频次中心性大数据12150.34图书馆340.02云计算1460.13数据分析290.11数据挖掘770.23智慧城市260.00Hadoop430.18移动互联250.02物联网420.09MapReduce230.02

Visualization Analysis about Big Data Research Based on CitespaceⅢ

JIANG Junfeng1DING Xiangqian1HOU Ruichun1QU Lijun2

(1. College of Information Science and Engineering, China Ocean University, Qingdao266100)

(2. Qingdao Agricultural University, Qingdao266109)

AbstractIn recent years, the research about “Big Data” has been the hot topic of scientific community, business community and even dozen governments. Big data implies huge economic, social and scientific value, which has attracted attention of all walks of life. Analyzing the frontier hotspots and the future development trends of the research of the big data, organizing and utilizing the big data effectively will be a huge boost to the economic and scientific development. The knowledge mapping analysis software-CitespaceⅢ based on Java platform is used to do the visualization research about the literature related about the big data, and the critical study and frontier hotspots of the big data research are carried out, the future trends in the field of the big data are predicted, and provided help for people is provided to know the big data better.

Key Wordsbig data, visualization, CitespaceⅢ, knowledge mapping

Class NumberTP391

1引言

人、机、物三元世界的高度融合引发了数据规模的爆炸式增长和数据模式的高度复杂化,世界已进入网络化的大数据时代[1]。《Nature》和《Science》等杂志相继出版专刊[2~3]来探讨大数据带来的挑战和机遇。著名咨询公司麦肯锡声称,“数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素,人们对于大数据的挖掘和运用,预示着新一波生产力增长和消费者盈余浪潮的到来”[4]。2012年3月22日,奥巴马宣布美国政府投资2亿美元启动“大数据研究和发展计划(Big Data Research and Development Initiative)”[5]。这是继1993年美国宣布“信息高速公路”计划后的又一次重大科技发展部署。美国政府认为大数据是“未来的新石油”,一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分,对数据的占有和控制将成为国家间和企业间新的争夺焦点。本文以2009年~2014年Web of Science数据库中大数据相关文章为研究对象,利用可视化图谱分析工具CitespaceⅢ加以分析,得出大数据领域近6年的研究热点前沿,以及未来可能的发展趋势。

2研究方法和数据来源

2.1研究方法

本研究使用的可视化分析工具是美国费城德雷克塞尔大学(Drexel)信息科学与技术学院博士陈超美开发的基于Java平台的CitespaceⅢ软件。CitespaceⅢ是一款用于计量和分析科学文献数据的信息可视化软件,具有多元、分时、动态的特点,它利用分时动态的可视化图谱展示科学知识的宏观结构以及发展脉络,直观地展示某一领域的信息全部内容,识别并显示某一领域科学发展的新趋势和新动态,展现研究热点及前沿方向[6]。

2.2数据来源

本文以SCI(Thomson.ISI)网络版——Web of Science中的科学引文索引扩展版数据库为分析的数据来源。以“Big Data”为关键词,检索年限设定为2009~2014在Web of Science中检索文献。共计得到2639篇与大数据领域相关的参考文献。数据下载的方式设定为“全纪录并且包含所引用的参考文献”,并且保存在以download为名称开头的download_bigdata.txt文件中。数据下载结束时间是2015年3月。

3结果分析

将从Web of Science上下载的大数据相关文献记录download_bigdata.txt文件全部录入CitespaceⅢ软件中,然后对其进行相关选项的设定。首先设置时间,选择时间分区为2009~2014年,时间跨度为1年,这样就形成了6个时间段。然后分别选择Keyword、Institute、Author、Cited Reference、Cited Author、Cited Journal作为分析对象,设定时间片阈值为30。这样,运行CitespaceⅢ软件就可以对研究对象进行关键词共现分析、机构合作分析、作者合作分析、文献共引分析、作者共引分析以及期刊共引分析等,并且绘制相应的科学知识图谱,以揭示大数据领域研究的热点及前沿[7]。

3.1大数据研究领域文献的时空分布特征

某一领域的历时性变化趋势可以从一个侧面反映该领域的发展状况。为此,我们对Web of Science上对大数据领域研究的年度发文量进行了统计,如图1所示。

图1 年费文献量柱状图

从年份文献量柱状图可以看出:2009年~2014年Web of Science上共发表以“Big Data”为主题的论文2639篇,而且由2009年的16篇到2014年的1302篇,明显看出,刊发的大数据相关研究论文数量是逐年递增的,随着物联网、云计算等相关领域的快速发展以及大数据表现出来的巨大的商业价值、学术价值和政治价值,使得大数据的研究进入高峰期,为未来大数据相关研究打下了坚实的基础[8]。

为了更清晰地揭示大数据研究领域的发展状况,我们对大数据相关研究的国家空间特征进行分析。选择country作为分析对象,运行CitespaceⅢ软件对2009~2014年2639篇大数据领域相关文献的作者来源地区和国家进行可视化分析,得到有关国家针对大数据研究的实力分布图谱。在图2中圆圈的大小代表来源国家出现的频次,圆圈越大,表明该国作者出现的频次越多,反之越少。可以清晰地看出在大数据研究领域,美国具有绝对的优势,以频次921居于世界首位。中国频次479位居第二,德国频次128,英国频次101,韩国频次97。由此可见,无论是西方国家还是东方国家,发达国家还是发展中国家都在积极进行大数据有关研究。

图2 研究领域人员所在国家分布图

虽然我国还没有明确意义上对大数据研究的发展战略,但是种种迹象表明,我国政府对大数据的研究也具有积极浓厚的兴趣[9],我国以479的频次位居大数据相关研究的前列。由表1可见,我国在大数据研究领域年度变化有一直上升的趋势,在2014年达到了254的发文量。

表1 我国的研究发文量年度变化表

3.2关键节点文献分析

图3 共引文献网络图谱

进行大数据领域研究分析,网络节点设定为参考文献和主题词,将主题词来源设定为文献标题、文摘、描述符三种,并且主题词设定为“涌现词”,运行CitespaceⅢ,得到输出网络所涵盖的节点(Nodes=141)和连线数(Links=346),同时绘制除了大数据研究领域的文献共引网络图谱,如图3所示。

从共引文献网络图谱中,可以发现:由DEAN J,Ghemawat于2008年发表的MapReduce:simplified data processing on large clusters[10]是大数据研究领域最近几年引用频次最高的文献。

图4 关键文献历史引用频次

查看该文献的历史引用频次,如图4,可以看出该文献在最近几年被引用206次,从一篇文章的被引频次可以看出该文章在该研究领域的重要程度以及该领域其他研究学者对该篇文章的认可程度,也就是说引用频次高的文章就有可能是该研究领域的关键文献或者奠基性文献。此外,在该领域的关键文献详细信息如表2所示。

表2 WOS中被引频次前五位的文章

3.3关键词共引分析及研究热点演进分析

图5 大数据研究的关键词共现

可以看出,大数据研究与MapReduce,Cloud Computing,Hadoop,Data Mining,Networks,Classification,Algorithms,Performance等技术或者领域有着密切关系。研究者十分注重研究大数据和云计算的结合,云计算可以快速、自动地进行扩展以支持海量数据和基础设施,以及其分布式并行处理能力为大数据提供灵活的计算环境。Hadoop和MapReduce[11]是能够对结构化或者半结构化的海量数据进行分布式处理的软件框架。大数据的根本在于数据挖掘[12],数据挖掘是一种决策支持过程,它通过高度自动化地分析海量数据,做出归纳性的推理,从中挖掘出潜在的模式,就是从结构化或者非结构化的海量数据中搜索隐藏于其中的有着特殊关系性的信息的过程,发现数据中潜在的价值,帮助决策者调整市场策略,减少风险,做出正确的决策,这对于企业的发展十分重要。从中心性也可以看出,数据挖掘是大数据研究未来着重的方向。而随社会网络数据的激素攀升,传统的网络挖掘方法无法有效应对大数据社会网络场景,为了解决这些问题,针对大数据网络挖掘,提出了基于MapReduce并行计算的挖掘方法。针对大数据和分析的关系,笔者认为,数据分析[13]是组织有目的地收集数据、分析数据,并使之成为信息的过程,也就说个人或者企业为了解决生活生产中的决策或者营销问题,运用科学的分析方法对数据进行处理的过程。在以往的市场调研工作中,数据统计分析也能帮助我们挖掘出所收集数据的隐藏信息,但是这种数据的分析是“向后分析”,分析的是已经发生过的事情,而在大数据与分析的关系中,数据的统计分析是“向前分析”,它具有预见性。大数据意味着“巨量复杂数据”,数据量大,结构复杂,因此,传统的可视化数据分析模型已经无法满足研究的需求,必须针对大数据的特点构建一套有效可视化分析理论及模型[14],因此,大数据可视化研究具有十分重要的意义,也是未来大数据领域研究的趋势与侧重点。

3.4我国大数据研究分析

为了进一步研究国内大数据研究的现状,笔者选取CNKI作为国内大数据研究数据来源,以“大数据”作为关键词,时间段选取“2009~2014年”进行检索,共得到1218条结果记录。数据下载结果保存在以download为名称开头的download_bigdata_CNKI.txt文件中。数据下载结束时间是2015年3月。

对CNKI上发表的文献进行年度分析,发文数量年度变化图如图1所示。由此可见,经过科研人员的不断努力,已经使我国在大数据研究领域中有所突破。也就是说,在近几年,对大数据的研究已成为研究的热点和重点,处于研究的发展阶段,拓展空间广阔。

表4 CNKI中被引频次前五位的文章

从表3的被引频次我们可以看出,我国有关大数据研究领域的被引频次较高的文章主要出现在2011年和2012年。王珊、王会举等人[15](2011)对当前大数据平台并行数据库、MapReduce及基于两者的混合架构进行了分析归纳,设计了适合大数据分析的数据仓库架构;覃雄派等人[16](2011)分析了当前数据管理技术的局限性,并且提出了以MapReduce为代表的非关系数据管理技术与关系数据管理技术相结合的优越性。孟小峰等人[17](2013)对大数据基本概念进行剖析,阐述大数据管理的基本框架,就云计算技术对于大数据时代数据管理产生的应用进行分析,最后归纳总结了大数据时代所面临的新挑战。另外,一些学者还对大数据研究未来发展方向、与其它领域联系等做了深入研究。

对从CNKI下载的大数据研究相关文献进行关键词共现分析,得到图6。

从图6以及表4可以看出,我国对大数据的研究与国外学者对大数据的研究是一致的,都十分重视大数据研究与云计算的结合,充分利用云计算的分布式并行计算能力对海量的、复杂的数据进行处理。但是,国内外对大数据研究的侧重点略有所不同:国内学者研究领域主要集中在算法、框架、编程、性能等方面;国内则偏重于应用研究,涉及物联网、图书馆、智慧城市等多个方面。

4结语

大数据增长迅速,很多企业数据已经进入TB级别,对大数据处理需求的迫切性和重要性,引发了全球学术界、工业界和各国政府的高度关注和重视,全球掀起了一个与20世纪90年代信息高速公路相提并论的研究热潮。美国和欧洲一些发达国家政府都从国家科技战略层面提出了一系列的大数据技术研发计划,以推动政府机构、重大行业、学术界和工业界对大数据技术的探索研究和应用。

本文以近几年(2009年~2014年)来WOS中有关大数据研究的相关论文为研究对象,利用知识图谱分析软件CitespaceⅢ剖析了大数据领域的研究现状。

1) 大数据在企业、社会和国家层面已经慢慢成为重要的战略资源,未来几年数据资源化将成为新的战略制高点,是抢夺的新焦点。

2) 大数据的处理离不开云计算技术,云计算技术为大数据提供可扩展的弹性的基础设施支撑环境以及数据服务的高效模式;大数据则为云计算提供了新的商业价值。大数据与云计算的完美结合将会带来巨大的社会价值。

3) 基于大数据的数据挖掘、机器学习以及人工智能等可能会改变小世界里的很多算法以及基础理论。

4) 总体而言,云计算、物联网、移动互联网等新兴计算形态,既是大数据产生的地方,也是需要大数据分析方法的领域。

如何识别出有效信息并且加以利用是我们应该关注的重点,将大数据研究领域与可视化相结合,了解大数据相关领域的发展趋势,提升数据的可操作性是未来研究的课题[18]。通过对大数据领域研究热点的演进分析,凸显了大数据研究的重要发展方向、前沿热点和演变,有效组织和使用大数据,将对社会经济和科学研究发展产生重要影响,这也是我们国家需要密切关注的。

参 考 文 献

[1] 梁文鑫.大数据时代——课堂教学将迎来真正的变革[J].北京教育学院学报(自然科学版),2013,(1).

LIANG Wenxin. Big Data era-the classroom will ushered a real change[J]. Beijing Institute of Education(Natural Science),2013,(1).

[2] Specials: Big Data[J/OL]. Nature,2008,455.(2008-09-03)[2014-07-02]. http://www.nature.com/news/specials/bigdata/index.html.

[3] A Special Issue of Science: Dealing with Data[J]. e-Science Technology & Application,2011,2(1):93-94.

[4] 郑玲微.大步跨入“大数据”时代[J].信息化建设,2013,(1).

ZHENG Lingwei. Step into the “big data” era[J]. Infromation Technologly,2013,(1).

[5] 郎杨琴.美国发布“大数据的研究和发展计划”[J].科研信息化技术与应用,2012,3(2):89-93.

LANG Yangqin. US release “research and development programs of big data”[J]. Science Technology and Application,2012,3(2):89-93.

[6] 侯剑华,胡志刚.CiteSpace软件应用研究的回顾与展望[J].现代情报,2013,(4).

HOU Jianhua, HU Zhigang. Retrospect and Prospect of software applied research,2013,(4).

[7] Liu Hailong, Zhu Yeping, Guo Yanzhi Li. Visualization Analysis of Subject, Region, Author, and Citation on Crop Growth Model by CiteSpace Ⅱ Software[J]. Knowledge Engineering and Managent,2014:243-252.

[8] Armbrust, Michael; Fox, Armando; Griffith, Rean; A View of Cloud Computing[J]. Commuiantions of The ACM,2010:50-58.

[9] 袁露,肖志勇,王映龙.论大数据的现状及其发展研究[J].教育教学论坛,2014,(44).

YUAN Lu, XIAO Zhiyong, WANG Yinglong. The status and developmental research of the Big Data[J]. Education Teaching,2014,(44).

[10] Dean, Jeffrey; Ghemawat, Sanjay, Mapreduce: Simplified data processing on large clusters[J]. Communications of The ACM,2008:107-113.

[11] Taylor, Ronald C. An overview of the Hadoop/MapReduce/HBase framework and its current applications in bioinformatics[J]. BMC BIOINFORMATICS,2010.

[12] Deepa, V. K; Geetha, J. RexyR. Rapid Development of Applications in Data Mining[J]. IEEE International Conference on Green High Performance Computing,2013.

[13] 顾君忠.大数据与大数据分析[J].软件产业与工程,2013,(4).

GU Junzhong. Big Data and Big Data Analysis[J]. Software Industry and Engineering,2013,(4).

[14] 代双凤,董继阳,薛健.科学计算中大数据可视化分析与应用[J].工程研究-跨学科视野中的工程,2014,(3).

DAI Shuangfeng, DONG Jiyang, XUE Jian. Visualization analysis and application of the big data in scientific computing[J]. Engineering-Engineering Interdisciplinary Perspective,2014,(3).

[15] 王珊,王会举,覃雄派,等.架构大数据:挑战、现状与展望[J].计算机学报,2011,(10).

WANG Shan, WANG Huiju, QIN Xiongpai, et al. Big Data architecture: Challenges, Present and Future[J]. Computers,2011,(10).

[16] 覃雄派,王会举,杜小勇,等.大数据分析——RDBMS与MapReduce的竞争与共生[J].软件学报,2012,(1).

QIN Xiongpai, WANG Huiju, DU Xiaoyong, et al. Big Data Analysis—Competition and Symbiosis of RDBMS and MapReduce[J]. Journal of Software,2012,(1).

[17] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,(1).

MENG Xiaofeng, CI Xiang. Big Data management: concepts, technologies and challenges[J]. Computer Research and Development,2013,(1).

[18] 肖明,孔成果.大数据:何去何从——基于文献计量学的视角[J].图书馆学刊,2014,11:110-11.

XIAO Ming, KONG Chengguo. Big Data: Where to go: Bibliometric Perspective.

中图分类号TP391

DOI:10.3969/j.issn.1672-9722.2016.02.026

作者简介:姜俊锋,女,硕士研究生,研究方向:软件工程与智能信息系统。丁香乾,男,教授,研究方向:计算智能、软件工程、数字家庭、制造业信息化等。侯瑞春,女,高级工程师,研究方向:计算机应用技术等。曲丽君,女,工程师,研究方向:计算机应用技术等。

基金项目:青岛市民生科技计划项目任务书(编号:14-2-3-56-nsh),“青岛市特色蔬菜产业大数据平台建设与应用示范”项目资助。

*收稿日期:2015年8月14日,修回日期:2015年9月27日

猜你喜欢

可视化领域文献
基于CiteSpace的足三里穴研究可视化分析
基于Power BI的油田注水运行动态分析与可视化展示
Hostile takeovers in China and Japan
基于CGAL和OpenGL的海底地形三维可视化
Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
领域·对峙
“融评”:党媒评论的可视化创新
The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
The Role and Significant of Professional Ethics in Accounting and Auditing
新常态下推动多层次多领域依法治理初探