APP下载

云计算研究的文献统计分析与热点分析

2013-12-29纪磊磊

电脑知识与技术 2013年16期

摘要:统计了国际近5年的云计算研究文献的时间分布、国家/地区分布和研究机构分布情况,对清楚认识和把握云计算研究力量现状具有一定意义。利用基于知识图谱的CiteSpace软件,对云计算研究的相关文献进行分析,绘制了云计算研究热点的知识图谱。分析结果显示,目前云计算研究热点主要围绕云计算性能、算法、设计、安全、软件即服务和映射简化模型等领域。

关键词:云计算;文献统计;知识图谱

中图分类号:TP39 文献标识码:A 文章编号:1009-3044(2013)16-3816-04

云计算被看作是继个人计算机变革、互联网变革之后的第三次IT浪潮,是中国战略性新兴产业的重要组成部分。通过分析文献的分布情况,对清楚认识和把握国际云计算研究的现状有一定现实意义。通过分析文献所包含的信息,能够较为全面的反映出学科研究的状况,有利于后人在前人的研究成果的基础上了解本学科最新研究前沿,把握学科研究方向,对于推动云计算研究与应用具有十分重要的意义。

1 数据来源与研究方法

本研究所使用的数据,全部来源于美国的科学情报研究所(Institute for Scientific Information,ISI)出版的Web of Science数据库。ISI是目前国际上惟一的且最具学术权威性的引文信息源,故选择Web of Science数据库能更准确、全面的检索到国际云计算研究的全部高质量文献。数据的检索策略是“主题=(cloud computing)AND文献类型=(Article)AND 语种 =(English),时间跨度=2009-2013,数据库= Science Citation Index Expanded (SCI-EXPANDED)、Conference Proceedings Citation Index - Science(CPCI-S)和Conference Proceedings Citation Index - Social Science Humanities(CPCI-SSH)”。检索结果是获得2005篇文献,对2005篇文献进行“研究方向=(COMPUTER SCIENCE)”精炼处理,得到896篇计算机科学方面的文献,这些精炼后的文献是本文的文献分析的基础。数据下载日期是2013年5月12日。

本研究运用计量学的方法,使用Web of Science中自带的统计分析功能和Excel 软件的绘图功能相结合的方法,从时间分布、地区分布、机构分布、高被引文献分布等方面896篇云计算研究文献进行统计和计量分析,把握其分布特征,以期描绘国际云计算的现状;同时通过绘制科学图谱来展示云计算研究前沿领域的研究动态。科学知识图谱的绘制借助陈超美博士开发的信息可视化软件Citespace,通过分析Citespace绘制的聚类视图和时间线视图,能够看出一个学科或知识域在一定时期发展的动向以及若干研究前沿 [1]。

2 云计算研究的分布特征

2.1 时间分布

2.2 地区分布

2.3 机构分布

利用Web of Science 中自带的分析功能,对精炼结果中得到的896篇文献按机构进行统计。按机构类别统计分析,取前500个记录篇后,发现总论文数目为1333篇文献,这是不同机构合作的缘故。纵观文献的机构分布前500条记录可知,其中发表1篇文献的机构有186个,发表2篇文献的机构有142个,发表3篇文献的机构有61,发表4篇文献的机构有38个,发表5篇文献的机构有30个,发表6篇文献的机构有15个,发表文献数量大于6篇机构和相应数量如图3所示。发表文献的机构分布较为平均,说明云计算在世界范围内起步是相对一致的,目前还没有出现云计算领域的绝对领导者,中国的研究机构已经取得一定成绩。国家应该在该领域给予重点支持,在已有基础上加大力度,增强原始创新水平,加以较强的政策和资金支持,抢占制高点,实现跨越式发展。

3 云计算研究热点的可视化分析

主题词是一篇文章的核心与精髓,是文章主题的高度概括和凝练。因此对文章的主题词进行分析,以频次高的主题词来确定一个研究领域的热点问题[2-5]。该文借助CiteSpace软件,进行国际云计算研究的热点和前沿知识的可视化分析。CiteSpace是一基于共引分析的引文网络可视化软件,此软件可以选择使用关键路径(pathfinder)算法或最小生成树(minimum spanning trees)算法对科学文献引文共引网络的路径进行分析和处理,并可以通过显示高频主题词确定国际云计算研究的主要研究热点[6-9]。

云计算的核心作用是向用户提供以租用计算资源为形式的服务,云计算的资源包括存储资源、计算资源、网络资源、基础设施资源以及其它资源。云计算的资源管理系统从逻辑上把这些资源耦合起来作为一个单个的集成资源提供给用户。资源管理是云计算系统的核心问题,是实现云计算的保障之一。

虚拟化是一种软件技术,使计算元件在虚拟的基础上而不是真实的基础上运行。通常虚拟化作为一个抽象层,有效的分离了硬件与软件,使人们将精力集中在软件所提供的服务上。云计算是第三代的IT,是动态的,包括数据存储和服务器,所有的信息和数据都在动态的架构上,这样才有云的概念。对于存储、服务器的服务动态化,就必须实现硬件的动态化,而这一切都要看服务器在虚拟化方面的能力,虚拟化是动态的基础,只有在虚拟化的环境下,云才是可能。所以虚拟技术的使用是云计算的关键,这也是图3中虚拟化(virtualization)作为第三大热点的原因。

网格是一种大家约定和遵守的标准,连接不同硬件系统、软件系统,是应用系统的纽带,对外提供服务接口,共享和协调是网络的本质特征。网格计算的思路是聚合分布资源,支持虚拟组织,提供高层次的服务。而云计算是网格计算的技术发展,在研究云计算时就不得不提及目前正在使用的网格计算。

主题词性能(performance)、算法(algorithm)、设计(design)、安全(security)、软件即服务(software as a service)和映射简化模型(mapreduce)都是云计算的热点。在云计算的应用过程中,良好的设计、适当的算法和优化的资源管理是实现云计算的保障,卓越的性能和软件即服务的理念是云计算的固有追求,而作为大规模数据集并行运算的编程模型是云计算数据处理的核心技术。

4 结论

本文以云计算为研究对象,以ISI Web of Science数据库中收录的以cloud computing为标题的文献为数据源,利用ISI Web of Science自身分析功能和Excel绘图功能相结合,以及利用信息可视化技术工具CiteSpace对其进行分析,运用科学计量的方法以知识图谱的方式展示无线传感器网络领域的研究力量分布,分析了计算机科学中云计算研究的热点,由此得出以下结论:第一,云计算领域的研究力量来自多个国家(地区)和机构,这些研究机构主要分布在美国、中国、澳大利亚、德国、英国、西班牙、台湾、韩国和法国等国家(地区)并且大多是大学和研究所,它们在云计算领域的研究具有非常重要的作用。第三,通过词频分析方法确定了计算机科学中云计算研究的热点主题包括云计算(cloud)、资源管理(resource management)、网格(grids)、性能(performance)、算法(algorithm)、设计(design)、安全(security)、软件即服务(software as a service)和映射简化模型(mapreduce)等。

参考文献:

[1] 陈超美,陈悦,侯剑华,梁永霞.CiteSpace II:科学文献中新趋势与新动态的识别与可视化[J].情报学报,2009,28(3):401-421.

[2] R. Bailón-Moreno E.Jurado-Alameda. Analysis of the field of physical chemistry of surfactants with the Unified Sciencto metric Model. Fit of relational and activity indicators[J].Scientometrics,2005,63(2):259-276.

[3] BelvauxG,Wolsey L A.Bc-prod: a specialized branch-and-cut system for lot-sizing problems[J].Management Science,2000,46(5):724-738.

[4] 赵蓉英,许丽敏.文献计量学发展演进与研究前沿的知识图谱探析[J].中国图书馆学报,2010,36(5):60-68.

[5] 侯海燕,刘泽渊,陈悦,等.当代国际科学学研究热点演进趋势知识图谱[J].科研管理,2006,27(3):90-96.

[6] Chen C.Generalised similarity analysis and pathfinder network scaling[J].Journal of the American Society for Information and Technology,1998,10(2):107-128.

[7] Chang S J,Chung C N,Mahmood I P.When and how does business group affiliation promote firm innovation a tale of two emerging economies[J].Organization Science,2006,17(5):637-656.

[8] Morris S,Chen C.Visualizing evolving networks:minimum spanning trees versus pathfinder networks[R].Washington:2003.

[9] Chen, C. and Morris, S.Visualizing evolving networks: Minimum spanning trees versus Pathfinder networks. Proceedings of IEEE Symposium on Information Visualization, (Seattle, Washington, 2003), IEEE Computer Society Press,2003:67-74.