基于citespace的可视化分析发展研究
2019-05-07王博戴欣颖杨儒仲
王博 戴欣颖 杨儒仲
摘要:在现代科技的推动下,人们追求更严密更有效的参考数据。citespace软件在提供具体、有力的数据方面有十分重要的作用,如领域研究热点或突显词。通过结合可视化分析的发展以及可视化为文献分析所带来的便捷,阐述现代技术citespace对信息检索的影响。本文运用citespace分析3100篇关于“可视化分析”文献,希望可以推动可视化分析的发展,完善可视化的功能。
关键词:文献分析;网络发展;数据挖掘
引言
信息检索是一种在进行论文或其他文章写作时,进行的必要的文献参考,通过在知网、web of science等网站上获取所需信息或数据,使文章获得更有力的支撑或补足缺失的信息。
在现代化科学技术的快速发展与时代的进步下,人们对可视化的研究在不断深入,进而对有关信息检索的研究也在不断增长。目前,国内对可视化分析的研究群体在不断扩展,人们对信息检索可视化研究的范围也在不断扩大。这种高效且便捷的方法无疑在以后的信息检索中占据更重要的位置,随着逐渐完善系统功能,在将来或能根据用户的设定习惯,优先筛选出符合条件信息,更方便清晰的操作环境也会需要改进的,用citespace对在CNKI检索出的关于“可视化分析”的为例探讨。
通过在知网上对相关主题文献进行检索,发现从2010年开始,关于citespace的文献信息逐渐增加,可见人们对于可视化的数据分析越来越重视,应用越来越广泛。Citespace是由陈超美团队研发的,在Java语言运行环境下的可视化分析软件,本文基于5.3.R4版本,对从CNKI数据库检索到的文献进行分析,得到该领域重要研究机构、主要研究作者、研究热点及研究演化路径,并用图谱加以展示。
1文献分析与知识图谱
1.1文献时间及数量分布
根据在CNKI上检索2010年——2018年间,主题关于“可视化分析”,得出的3100个文献数据,通过数据分析,可知2010年有94篇文章发表,从2010年开始,发表数量呈指数增长,到2018年已有808篇。在2014年到2018年间,是可视化分析的研究的快速增长期,也说明了数据的可视化分析在工作中越来越重要,学界逐渐对该领域有更高的关注。
1.2文献的机构分析
在citespace的运行界面中,把Node types设置成Institution,实现对文献的研究机构的分布情况。得到知识图谱如图 1
在图谱中,各节点表示其研究机构,节点间的连线表示各机构间的合作情况,节点的大小代表了机构发文量的多少。从图上看出,共59个节点,提出发文不足3次与无效的研究机构,节点连线仅为17条,可以说明该领域的研究有许多的机构参与,但各机构的联系与合作不足,还多处于独立研究。图中的圆形节点越大表示关键词出现的次数越多,出现频次较多的关键词一定程度上可以代表相关研究热点。
对频次进行整理排序,发文量第一的武汉大学信息管理学院为26篇,第二名陕西师范大学教育学院是23篇。远高于后面的学院,两家机构都保持着每年的持续发文,是该领域的研究主力。
1.3文献的作者分析
在Node types 中設置为Author,再次运行citespace,得到对可视化分析作者的知识图谱(表2)。从图谱得知,作者之间的网络关系散乱,之间没有过多联系,中心作者与其他合作者至多有5条连线,说明领域内作者之间的合作较少,且多是两人之间的小型合作模式,大多数作者也都是单独研究。通过对比分析剔除无效作者,统计出前十发文数的作者,由表1看出,唐云芝发文数18篇,在该领域十分突出,熊华军、田金徽、何晓萍、赵蓉英、祁占勇分别有9篇的发文数,且都是在近几年发表,说明对于可视化分析的研究正在逐步发展,在今后会有更卓越成绩。
1.4=文献的关键词分析
通过关键词的分析,可以直观的看出文章的主要信息或热点词汇,通过文献关键词,可以快速了解文章主题与观点。下面从关键词的共现分析和聚类分析进行数据列举,探讨关键词在文献中的重要作用。
1.4.1关键词共现分析
在citespace界面,将Node Types选择keyword,时间选择2010年到2018年,跨度为1,采用pathfinder算法,点击run,开始运算,生成“可视化分析”的关键词共现知识图谱如图2。
图谱中的一个加号图形代表一个关键词,颜色深浅代表发表文献的时间,节点的范围越大代表发表的文献越多,越外层的颜色越浅,代表年份越近。各节点之前有连线,代表关键词之间有共现,粗细代表共现频率系数。图谱共163个节点,185条连线,密度为0.014。从图中可直观看出,“可视化分析”、“知识图谱”、“citespace”、“可视化”、“研究热点”,这五个关键词的体积较大且位于中心位置,相互之间有所关联。且从节点、连线、密度的数据表明,可视化分析的研究领域已经有所发展,并且受到广泛关注有一定规模,其研究网络也相互之间有关联,使文献具有多样性。
通过罗列关键词频率,可以分析目前该研究领域的热点情况,数据包括关键词名称、出现频次、中心度、年份。分别代表了关键词在文献出现的总次数,关键词之间的信息流的数量对网络体系的相关程度。有必要从频次和中心度两方面来进行数据对比,保留了排行前十的数据分别了解(表2与表3)。
从表2与表3可看出,排名前十的频率和中心度的关键词,存在很高的相似度,如:可视化分析、可视化、citespace、研究热点、研究前沿。说明研究热点集中在这几个类信息上,有着重要的主导作用。但从年份上看出大都集中在2011-2014年,近年的研究有些像其他方向发展,说明人们已经对可视化有了初步了解并且向其他领域开拓新的发现。
1.4.2关键词聚类分析