VOSviewer 应用现状及其知识基础研究
2022-07-08魏瑞斌
李 杰,魏瑞斌
(1.中国科学院文献情报中心,北京 100190;2.安徽财经大学管理科学与工程学院,蚌埠 233030)
1 引言
VOSviewer 是由荷兰莱顿大学科学元勘中心(CWTS) 的凡·艾克 (Ness Jan van Eck) 和瓦特曼(Ludo Waltman) 博士在2009 年推出的一款用于文献计量网络构建和可视化的工具[1]。它将引文分析、文献耦合、文献共被引、共词分析、聚类分析等文献计量学方法集成到软件当中,并可以分析用户从Web of Science、Scopus、Dimensions 和PubMed等文献数据库中获取的数据。通过VOSviewer 能实现对文献中的作者、机构、国家、期刊、关键词、术语等不同单元进行分析,可以构建合作网络、共词网络、文献引证网络、文献共被引网络以及术语共现网络等知识网络类型。此外,VOSviewer 还支持对课免费获取的数据资源的分析,包括了Crossref、Europe PMC、Microsoft Academic、Semantic Scholar、OpenCitations 以及Wiki-Data 等。鉴于该软件在处理文献信息方面功能强大,加之免费和持续的改进,越来越受到科学计量和领域分析的专家学者的青睐。
在以往的研究中,虽然文献[2]以Web of Science 和中国知网期刊全文数据库为数据源,从发文时间、作者、学科和研究主题4 个方面进行定量分析。但从最近的检索结果看,Web of Science 平台的数据,尤其是2020 年和2021 年出现了一个非常迅猛的增长。本文将通过更为全面视角和数据集来对VOSviewer 在英文文献中的应用情况进行统计分析,并结合相关数据对该领域的知识基础结构进行较为深入的分析,以期对国内学者应用该软件提供参考。
2 数据获取和研究方法
2.1 数据获取
本文在 Web of Science 平台,以主题为“VOSviewer” 进行检索,时间截至2021年9月,数据库为SCI-EXPANDED、SSCI、A&HC、CPCI-S、CPCISSH和ESCI,共检索到相关论文1 221 篇。如图1 所示,主题为VOSviewer 的论文开始于2009 年,截至2021 年9 月,论该主题的论文数量呈现为一个的指数增长的趋势。这表明VOSviewer 正在被越来越多的研究者应用在科学研究过程中使用。从时间上看,2009—2014 年,VOSviewer 主题论文年产出不足10篇,增长速度并不快。从2017 年开始,论文的增加速度明显较快。从论文的年度占比分布看,2020 年论文年度占比达到了29.1%,截止到2021 年9 月,更是占比达到了总论文的40.1%。这说明,VOSviewer 主题的论文进行了一个快速增长期,受到了越来越多研究者的关注。该软件的应用值得引起国内研究者的关注。
图1 VOSviewer 的应用趋势分布Fig.1 Application trend distribution of VOSviewer
2.2 研究方法
本文将主要从两个方面对该领域的研究现状进行分析。
(1) 统计分析。分别从地理空间的分布、领域期刊分布以及研究主题角度进行分析。地理统计统计分析,有助于认识VOSviewer 在全球分布的空间特征以及影响力情况;领域和期刊的分析,有助于认识VOSviewer其应用的核心领域及期刊的分布情况;主题分析用于揭示VOSviewer 主要应用于哪些主题的论文中,以及VOSviewer 主要被用来研究和解决哪些问题等。
(2) 文献共被引。对VOSviewer 主题论文的高被引参考文献及其组成的知识结构进行分析,从而获得在VOSviewer 应用中的核心文献特征。
3 VOSviewer 应用现状分析
3.1 作者的空间分布
从统计结果看,本数据集中的作者分布于全球685个城市和92 个国家或地区,这反映了VOSviewer 在被全球科学者应用的广泛性。从作者所在区域看,亚洲地区发文642 篇,位列第一。西欧地区发文472 篇,排名第2。拉美地区208 篇,排名第3。中国学者发文量为370 篇,占比30%,位列高产国家或地区首位。美国学者和英国学者分别以115 篇和113 篇分列第2和第3,占比约为9%。虽然该软件的开发者来来自荷兰,但荷兰学者的总发文量仅为36 篇,排名为第16。论文的产出与一个国家科学研究的活跃度和科研人员规模密切相关,这也使得小国家的总发文量偏小(图2)。
图2 作者的全球城市分布Fig.2 Global city distribution of authors
从城市分布看,VOSviewer 的应用在欧洲、中国和美国东部最为密集。这是因为在中国和美国的东部密集地分布了大量的科研机构。欧洲国家众多,城市分布上也会呈现出密集的特征。在高产城市中,排名前10 的城市,中国占到了8 个。排名前10 的城市依次为北京 (76 篇)、上海 (60 篇)、香港 (50 篇)、广州 (44 篇)、武汉 (41 篇)、德黑兰 (36 篇)、成都(35 篇)、圣地亚哥 (29 篇)、南京 (28 篇) 以及兰州(25 篇)。
从论文被引的角度看,论文总被引超过1 000 次的国家或地区分别为Netherlands (荷兰,3 565 次)、China (中国,2 196 次)、Spain (西班牙,1 264 次)、United States (美国,1 238 次) 以及United Kingdom(英国,1 221 次)。结合发文量可以发现,荷兰的发文量相对比较少,但论文的总体影响力是最高的,平均被引达到了99 次。中国论文排名第一,论文的总被引排名第二,但篇均被引仅为6 次。这是因为VOSviewer原创性和创新性的成果来源于荷兰,因此在引证上表现尤为突出。中国虽然论文发表很多,但多停留在VOSviewer 的应用上,创新性还存在一定的不足。
图3 展示了发文量不小于10 篇的32 个机构之间的合作关系。节点大小与机构的发文量成正比,节点的颜色越接近红色则表示机构的总被引次数越高。在所有机构中,来自中国的机构表现仍然突出。排名前3的机构都来自于中国,分别为兰州大学(23 篇)、香港大学 (22 篇) 以及四川大学 (21 篇)。此外,格拉纳达大学 (20 篇)、安纳杰国立大学 (19 篇)、智利大学(17 篇)、武汉大学(17)、西班牙阿尔梅里亚大学 (16篇)、北京理工大学 (15 篇) 以及中国医科大学 (15篇)。作为软件的开发单位,莱顿大学以发文13 篇,位列15 位。在总被引和篇均被引上,排在前两位的机构都来自荷兰,分别为莱顿大学 (被引总频次为2 994次,篇均被引230 次) 和阿姆斯特丹大学 (被引总频次为477 次,篇均被引48 次)。来自中国的机构中,仅仅只有香港大学的发文总被引(329 次) 和篇均被引(15 次) 都位于前10 位。在所有机构的合作中,香港大学与维也纳大学、波兰科学院、匈牙利科学院以及它们之间建立了较强的合作关系。
图3 作者的机构合作网络Fig.3 Institutional collaborative network of authors
3.2 学科与期刊分布
VOSviewer 刊载在171 个学科领域,其中由载文量不小于10 篇的52 个领域组成的共现网络如图4 所示。排在前5 位的领域为Environmental Sciences (环境科学,158篇)、Information Science &Library Science (信息与图书馆学,150 篇)、Management (管理学,122 篇)、Green&Sustainable Science&Technology (绿色与可持续科学与技术,100 篇) 以及Business (商业,90 篇)。通过VOSviewer 提供的聚类算法对网络进行聚类,得到6 个不同的聚类,分别为生物医学;环境科学;管理、商业与经济领域;信息、计算机以及图书馆学;护理科学务与医学信息计量领域。这从一定程度反映出,VOSviewer 作为一款文献计量工具,在不同的学科都得到了广泛应用,突出了它在科学研究中的通用性。
图4 论文的学科分布Fig.4 Subject distribution of papers
VOSviewer 主题的论文发表在719 种学术期刊上,其中载文量不小于10 篇的仅仅为8 种期刊,如表1 所示。Sustainability 以发文量60 篇,排名第一。排名第二的为科学计量领域的知名期刊Scientometrics。该刊物上不仅刊载了VOSviewer 的理论与方法技术的论文,同样也刊载了一部分案例分析类的论文。从论文的出版平均年份来看,除了Scientometrics 之外,其他期刊刊载VOSviewer 在近期相对是比较活跃的。其中,高载文量期刊Sustainability 和International Journal of Environmental Research and Public Health 论文集中出现在2020 年。作为MDPI 的开源期刊,过去一年该期刊录用了大量的文献计量学的论文,其中有一大部分使用了VOSviewer 作为分析工具。从期刊载文的分布看,VOSviewer 主题的论文呈现出集中与分散相结合的特征。其分散分布体现了该类研究论文的跨学科性,其集中分布反映出某些学术期刊对这些研究的青睐。但采用同一工具和类似方法的不同主题分析,可能在一定时期会被期刊减少录用。因此,可以预见,后续部分期刊或会减少此类论文的发表,而一些新兴的载文期刊或将成为新的高产期刊。
表1 论文分布的主要期刊Table 1 Major journals of papers published
3.3 研究主题分析
通过VOSviewer 选取了词频不小于5 次的关键词,并生成了共词网络,如图5 所示。关键词网络图中共包含117 个关键词,为了使得可视化更加清晰,仅仅显示了共线频次不小于10 次的共词关系。在所有关键词中,词频排名前10 的关键词依次为bibliometrics(文献计量,719 次)、VOSviewer (449 次)、scientometrics (科学计量,105次)、web of science (103次)、scopus (93 次)、citation analysis (引文分析,84次)、visualization analysis (可视化分析,67次)、citespace (66 次)、co-citation analysis (共被引分析,54次) 以及literature review (文献综述,49次)。从图5 中可以看出,VOSviewer 主要应用与领域的文献与科学计量、可视化分析以及文献综述中,在使用中主要使用的方法为引文分析、共被引分析和共词分析。这是因为,VOSviewer 作为科学计量与文献计量领域的新兴工具,主要用来可视化呈现文献内部的知识单元的关联特征。在应用过程中,最常用的数据库为Web of Science 和Scopus,这是因为不仅VOSviewer 可以直接对这两种数据库的数据进行分析,而且两种数据库也具有较高的质量和数据完整性。
图5 VOSviewer 应用论文的关键词网络 (词频出现次数不小于5 次,共包含117 个关键词)Fig.5 Keyword network of VOSviewer application papers(the frequency of words is not less than 5 times,and there are 117 keywords in total)
进一步对关键词按照类别分为数据库、工具类、方法类和研究主题与目的。如表2 所示,Web of Science和Scopus 为使用最为频繁的数据源;除VOSviewer外,CiteSpace、Gephi 以 及 Bbibliometrix常常与VOSviewer 同时被使用。方法类的主题主要为文献计量学和计量学中常见的分析方法,包括了引文分析、可视化分析、共被引分析、合著分析以及共词分析等。在研究的主题与目的关键词中,VOSviewer 主要被用来绘制知识图谱、进行研究趋势分析或是来进行领域的综述等研究。在研究主题中,新冠、可持续发展、社交媒体、可持续发展以及供应链等分析。
表2 VOSviewer 应用论文各分类中的代表关键词Table 2 Representative keywords in each category of VOSviewer application papers
在时间趋势上,提取了出现平均年份不小于2020年的45 个关键词,如图6 所示。VOSviewer 应用论文涉及Scopus 数据库的平均出版时间为2020 年,表明研究在使用Scopus 发表的论文集中在2020 年左右,这是因为VOSviewer 开始版本是以Web of Science 为标准数据的,Scopus 数据引入的较晚。在工具方面,与CiteSpace、biblioshiny 以及bibliometrix 等知识图谱工具的结合也成新兴的热点。在研究主题方面,VOSviewer 主要用来分析当下的科技关注热点,诸如internet of things (物联网)、blockchain (区块两)、artificial intelligence (人工智能)、depression (抑郁)、circular economy (循环经济)、small and medium enter-prises (中小企业)、covid-19 (新冠) 以及industry 4.0(工业4.0)等。在软件的功能的进一步应用中,bibliographic coupling (文献耦合) 成为新兴的应用方向。
图6 平均年份不小于2020 年的关键词词云(共包含45 个关键词)Fig.6 Keyword word cloud with an average year no less than 2020(including 45 keywords in total)
4 知识基础
在每一个研究领域,都会由于作者的引用行为形成一批同行认同的基础性研究成果。这些研究成果为后续的研究在理论、方法或者是研究过程等方面提供研究基础。本文从VOSviewer 主题论文中提取了参考文献被引频次不小于20 次的论文构建其知识基础及其结构,共提取了1963—2018 年的66 篇论著,得到的共被引网络如图7 所示。从文献共被引网络来看,左侧的文献是以科学知识图谱相关论文为主要组成,右侧则主要为文献计量的基础论文和文献计量学方面的应用型的论文。
图7 VOSviewer 应用论文的文献共被引网络 (仅仅显示了共被引强度不小于20 的关系)Fig.7 The literature co-citation network of VOSviewer application papers(showing only the relationship with co-citation strength of not less than 20)
进一步按照论文涉及的内容特征,将其总结为5个部分 (表3)。主要包含了VOSviewer 的理论背景文献、VOSviewer 自身的技术设计文献、CiteSpace 工具的技术与案例文献、数据库比较与分析方面的文献以及应用型的文献。从文献的分布时间来看,VOSviewer文献图谱研究是基于文献计量学中的文献耦合、文献共被引、作者共被引以及共词分析等理论发展而来,这些早期原创性理论和概念的提出成为目前以文献作为基础绘制科学知识图谱的基础。在前期文献计量学理论与方法基础上,VOSviewer 的团队对基于知识单元共现的可视化呈现和计算进行了系统的研究和分析,并在此基础上提出了具有一定先进性的文献图谱绘制方案。在实际的研究中,关于CiteSpace 等工具基础和应用型的文献被带来大量应用。在这些软件中,涉及了CiteSpace、SCIMAT 以及基于R 语言的Bibliometrix工具包。在长期的发展过程中,以VOSviewer 为主题的论文也积累了大量的应用型的文献。从分析中发现最为活跃的应用型的文献的学者为MERIGO,他有6篇专门分析期刊的论文和4 篇关注主题的分析论文出现在了网络。但是,作为文献计量学领域外的学者,在应用型的文献中还存在大量的误用。例如,对该高产学者论文的调研发现,论文祝往往是对软件生成结果的直接解读,缺少数据清洗和消歧的过程,存在大量的低级错误(如作者重复、主题单复数未处理等)。
表3 VOSviewer 高被引文献的分类Table 3 Classification of highly cited articles in VOSviewer
5 研究结论与讨论
从文献计量分析结果看,在Web of Science 平台收录的期刊中,利用VOSviewer 进行科学研究的论文数量在经过缓慢增长之后已经进入一个迅猛发展阶段。从作者空间分布、学科与期刊分析看,VOSviewer 已经得到了不同国家学者的普遍认可。从统计结果看,国内学者在Web of Science 核心合集收录出版物上的发文量占到总体的30%,这反映了中国学者对VOSviewer使用比较活跃,借助VOSviewer 发表了大量的案例研究类论文。VOSviewer 作为一款以文献为处理对象的工具,它在不同学科都有一定的应用前景,在文献综述、学科结构的刻画、文献关系的分析、不同层次的合作网络研究等主题都有其独特的优势。从研究者所采用的数据看,目前还主要集中在Web of Science、Scopus 等引文数据库,对于通过学术搜索引擎和维基百科等互联网资源获取相关数据的研究还很少。这是因为在商业性的数据库在数据的精确性、完整性以及更新的及时性上要比免费的数据库根据优势,所分析的结果信度要更高。结合论文内容看,在国际科学计量学领域,已经开发并得到广泛应用的文献计量工具鲜见国内学者的身影,国内学者在工具的应用方面占据了绝对的规模优势,但在软件和方法的原理层面涉及较少,因此也很难出现有创新性和影响力较大的研究成果。