文献信息分析工具的比较
2015-03-22士靖
, , ,士靖
文献信息分析工具通过结合文献计量学、社会计量学、统计学、图形学、信息科学、计算机科学的技术和方法,帮助用户快速地获取高价值信息,高效追踪学科前沿。现有的文献信息分析工具主要分为基于统计的分析工具、基于文献计量的分析工具、基于社会网络的分析工具和基于PubMed的分析工具四大类。随着分析工具种类的不断增加,已有一些学者对其进行了比较研究,如M.J. Cobo等对知识图谱类工具进行了系统介绍和比较[1],肖明[2]、杨思洛[3]等也对知识图谱类工具进行了比较。尽管如此,目前对文献信息分析工具比较研究方面还存在诸多不足,涉及的范围比较窄,并不能起到帮助用户全方位了解和选择分析工具的作用。
本文拟遵循可获得性(开放性)、使用广泛性和功能优越性原则,选择其中一些工具进行比较研究,以期达到帮助用户筛选工具、提高不同工具使用效率的目的。
1 研究对象和方法
1.1 研究对象
本文所取文献信息分析工具主要来源于官方网站(如Histcite,SCI2,Vosviewer,Citnetexplore,Gephi,Network Workbench Tool, SciMAT,Inspire,VantagePoint,ColPalRed,Bibexcel,Pajek,SATI,GOPubMed, PubMedplus,本地PubMed,Anne O'Tate,PubFocus),科学网(如Citespace,Bicomb)和CSDN网站(如Netdraw,Ucinet, Refviz)。
根据工具的功能进行分类,并从各类工具中选取多个代表性工具,具体选取过程和结果如下。第一类是基于统计的分析工具,如SPSS,SAS,Excel 等。此类工具现已应用于多个领域,本研究不做介绍。第二类是基于文献计量的分析工具,如Histcite[4],Citespace[5-7],Bibexcel[8],Inspire[9],ColPalRed[10],SATI[11],Leydesdorff系列软件[12],Bicomb[13],SCI2[14],Network Workbench Tool[15],Vantagepoint[16],Vosviewer[17],Citnetexplore[18-19],SciMAT[20],Refviz。 其中,Bibexcel,Bicomb,SATI,Leydesdorff系列软件是专门用来构建关系矩阵的工具,Bibexcel的功能最为强大,Bicomb和SATI是国内学者开发的;Histcite,Citnetexplore用于直接引文网络,Histcite影响力更大、使用更广泛;Citespace,SCI2,Vosviewer,Network Workbench Tool,SciMAT是功能较为完整的工具;SCI2,Network Workbench Tool是同一团队开发的,具有很大的相似性,但SCI2在功能和广泛性方面更具优势;VantagePoint,ColPalRed,Inspire是收费工具,无法获取。第三类是基于社会网络的分析工具,如Pajek[21-22],Ucinet[23],Gephi[24],Netdraw。其中Pajek和Ucinet是综合分析工具,功能多样。第四类是基于PubMed的分析工具,如GOPubMed[25],PubMedplus,本地PubMed,PubFocus,Anne O'Tate[26]。其中,GOPubMed是最早基于语义分类工具开发的,功能强大;本地PubMed和PubMedplus是国内机构研发的,融合了多个工具的功能。相对来说,Anne O'Tate和PubFocus的功能较为简单。综上所述,最终选择了13种的分析工具进行比较,详见表1。
1.2 研究方法
根据文献分析工具的性能和分析流程对分析工具从多个维度进行比较。分析流程通常分为数据准备、分析、结果解读和可视化等三个步骤[1]。数据准备是文献信息分析工具实现目标的基础,包括文献检索和数据预处理;分析是文献信息分析工具工作的主体,包括构建关系矩阵、标准化处理、映射和分析方法的选择;结果可视化和解读则是文献信息分析工具的价值体现,旨在通过各种图谱的展示,帮助用户对结果进行解读。最终确定从支持的数据格式、数据预处理、构建的矩阵、标准化处理、分析方法、结果的可视化6个维度对选出的13种分析工具进行比较。
2 文献信息分析工具的比较
2.1 支持的数据格式
文献分析是基于一定的数据进行的,分析工具主要支持书目数据、网络数据或者其他格式数据。基于PubMed开发的工具,将PubMed作为数据源,无须导入数据;而基于社会网络的工具,如Pajek,Ucinet等不支持书目数据,而是导入经过加工的网络格式数据或用户自行创建的矩阵数据。表2可见,大部分工具支持WOS,Scopus,PubMed等数据库。其中,Citespace支持多个数据库,SCI2则支持多种类型的数据。对于中文数据库,Citespace,Bibexcel等支持转化后的CSSCI数据库,Bicomb和SATI支持万方和中国知网数据库。
表2 13种分析工具支持的数据格式
2.2 数据预处理
数据预处理是分析的一个重要步骤,主要有去重、时间切片、数据精简和网络精简等功能。13种分析工具的数据预处理功能见表3。
表3 13种分析工具的数据预处理功能比较
表3显示SciMAT和SCI2包含4种数据预处理模块,优势明显;大部分工具支持数据精简和网络精简;Pajek和Ucinet无数据预处理功能。GOPubMed,PubMedplus和本地PubMed基于语义分类工具GO&MeSH引入本体概念,支持语义级的交换,可消除或减少由于同义词或相近词概念及术语的混乱,在语义数据处理方面优势明显。此外,PubMedplus还增加了单位和作者异名的规范处理功能。
2.3 实现的关系矩阵
关系矩阵中最常见的分析单元是期刊、文献、参考文献、作者、主题词或关键词。分析单元之间的关系可分为三类。第一类是直接引文关系,即直接从信息的发送者到信息的接受者。第二类是将分析单元之间的关系用做共现数据,即通过计算两个分析单元在文献中同时出现的次数来衡量两个分析单元之间的相似性,包括合作、耦合、共引和共词。合作用来分析研究领域的社会结构,共词则是使用文献中最重要的主题词或者关键词研究一个领域的概念结构[27],共引和书目耦合用来分析研究领域的知识结构。区别在于,书目耦合是固定和永久的引文关系,共引关系是随时间而变的[28]。第三类是一些不常见的或复杂的网络。表4列举了各种分析工具可以创建的关系矩阵。可以看出,没有一个工具可以创建全部关系矩阵,大部分工具都支持共现矩阵的创建,其中Citespace,Vosviewer,SciMAT,SCI2,Bibexcel等可以构建多数关系矩阵,但只有Histcite和SCI2支持直接引文网络。相对于GOPubMed和本地PubMed仅关注于一种网络,PubMedplus可以构建4种网络,Pajek和Ucinet则不支持文献计量学网络的创建。此外,SATI可以创建包含词条共现矩阵、频率分析矩阵、文档词条矩阵等在内的8种矩阵。
表4 13种分析工具构建的关系矩阵
2.4 标准化处理
构建了分析单元的关系矩阵之后,需通过标准化处理对数据间的相似性进行测量来获得数据之间的隐含关系,简而言之就是对数据进行规范化。13种分析工具的标准化处理方法见表5。
表5 13种分析工具的标准化处理方法
常用标准化处理方法有Salton's余弦、Jaccard's指数、Equivalence指数、关联强度等[2]。如表5所示,大部分分析工具都使用了上述方法中的一种或多种;GOPubMed,PubMedplus,本地PubMed则因使用GO&MeSH工具,使用潜在语义分析将语料库与本体进行连接;Pajek和Histcite则无规范化处理的功能。
2.5 分析方法
分析工具所用的分析方法很多,如网络分析、地理空间分析、时间序列、性能分析、突变检测等。网络分析是测量某一节点在整个网络中的中心度,或一个聚类在图谱中的中心度;地理空间分析则是回答事件在哪里发生及其对周围区域的影响;时间序列,或纵向分析旨在分析不同时间段研究领域的演变,主要通过对趋势、离群、活动、模式和季节性等的观测,是知识图谱分析中最常见的一种分析方法;性能分析使用基于引文的文献计量学指标和方法来量化图谱和网络中不同元素的重要性、影响和质量;突变检测是时间序列分析的一种,旨在发现有限的持续时间内变量的剧烈变化[1]。表6显示,最常见的方法是网络分析、时间序列分析和突变检测。其中,Citespace,SciMAT和SCI2的分析方法最多;Ucinet采用多种网络分析指标。本地PubMed和PubMedplus等都使用了期刊影响因子、H指数、被引频次等指标;此外,PubMedplus使用了替代计量学的评价指标Altmetric得分,本地PubMed增加了威望指数。
表6 13种分析工具的分析方法
2.6 可视化图谱
可视化图谱用来帮助用户分析和理解结果。不同分析工具构建的图谱也不同(表7)。
表7 13种工具的可视化图谱
在时间序列分析的可视化中,Histcite使用编年史图,Citespace使用时间线视图,SciMAT使用演变地图和重叠条目图,GOPubMed,PubMedplus和本地PubMed则使用的是趋势图。Citespace,Vosviewer,SCI2,Pajek,Ucinet,GOPubMed,本地PubMed等可实现多种类型的可视化图谱。其中SCI2是一个模块化的工具集,除自身所具备的可视化技术,还内置多种可视化软件;SATI, Bibexcel,Bicomb等不具备可视化功能,需要借助其他可视化软件。
3 结论和建议
3.1 结论
通过对13种分析工具的比较,可以看出每一个工具都有着不同的特点,没有一个工具能够囊括所有的功能。比较结果显示,Citespace,SCI2,SciMAT功能较完整,其他工具也有各自的优势。对13种分析工具特点归纳如下。
Histcite主要用于对书目数据进行基本的统计分析,以时间序列编制引文编年史图展示领域的演变路径,但无法对数据进行标准化处理,分析方法较少。
Citespace支持中文数据库在内的多个数据库,可以构建常见的关系网络,采用多种文献计量学分析方法定量分析可视化结果,从多个角度展示某领域的演变历程,但其无法实现数据的去重。
Vosviewer的优势在于可视化,能从多个视图对结果进行展示,可构建多种矩阵,并支持文本挖掘,但其无法实现数据的去重,不能通过时间演变展示一个领域的演进路径。
SciMAT具有强大的预处理能力,能构建多种文献计量学网络,并以文献计量学指标对结果的影响力进行定量分析,还可通过配置向导的方式引导用户进行分析。
Bibexcel专门用来构建文献计量学关系矩阵,具有高度的灵活性,需借助其他的可视化软件来进行可视化分析。
Bicomb支持中文数据库,能进行基本的统计分析,并生成多种共现矩阵和词篇矩阵,但数据处理和可视化方面存在不足。
SATI支持中文数据库,实现基本的统计分析,能构建多类矩阵。
Pajek支持大型的网络数据,不仅可以构建一些普通的网络图,还支持特殊网络的构建,具有强大的图形处理能力,但不支持文献计量关系矩阵的创建,数据预处理能力差。
Ucinet可导入矩阵,也可自行创建,具有网络分析功能,内置可视化软件,但不支持文献计量学矩阵的创建。
GOPubMed是最早使用基于本体的语义分类工具,支持分类导航分析,使用户能快速找到最相关的文献,但创建的关系矩阵单一。
本地PubMed使用多个计量学指标对文献进行评价,可以从多个角度对分析结果进行可视化。
PubMedplus基于PubMed,在数据处理方面解决了作者重名的问题,其最大的优势在于其强大的聚类分析功能。
一个好的问题,一个精彩而恰到好处的悬念可以引发学生主动去思考,去学习。例如教《新型玻璃》一课,在指导学生学习时,我就向学生提出这样一个问题,“新型玻璃到底新在哪?有什么特点?如果你是玻璃厂厂长,你怎么样向大家推销你的玻璃?”学生由于好奇就纷纷地寻找答案。通过阅读,他们很快就知道各种新型玻璃的特点。一篇说明文,单靠教师乏味的直叙,学生是上得很无聊的。因此,让学生带着问题自己去阅读,去理解课文,不仅使学生掌握了课文内容,也帮助他们认清了各种新型玻璃的特点。
3.2 建议
3.2.1 对用户选择分析工具的建议
由于文献信息分析工具种类众多,在开展分析时,应了解不同工具的特点,再根据不同的分析目的、特性和拟解决的问题,选择恰当的分析工具。
一是要根据数据源选择合适的工具。若数据源为PubMed,可以选择GOPubMed,PubMedplus或者本地PubMed及支持PubMed数据库的工具;对于用户自行创建的矩阵数据,选择Pajek或Ucinet。
二是Citespace,SCI2,SciMAT,Vosviewer,SATI,Bibexcel,Bicomb等工具均可用于共现分析。一般来讲,用户可以根据数据源选择上述任何一个工具进行分析。不过共词分析和合作者分析需要对源数据进行去重,所以应选择SciMAT或SCI2。Bibexcel,SATI和Bicomb等工具主要用于构建各类关系矩阵,但需借助其他工具进行可视化。
三是不同的工具分析方法不同,用户可根据需求进行选择,如时间序列分析,需支持时间序列分析的工具,选择Histcite,Citespace,SciMAT,SCI2,Pajek等工具;对于直接引文网络的构建,选择Histcite和SCI2等工具。
四是Citespace,SciMAT,Ucinet,本地PubMed和PubeMedplus等具有多种文献计量学指标,可以对产生的图谱进行定量分析。
五是对于中文数据,Bicomb和SATI支持中国知网和万方数据库,Citespace支持中国知网和CSSCI数据库,Bibexcel支持转化后的CSSCI数据库。
六是可考虑多个工具联合使用,因为没有一个软件可以实现全部的功能。
3.2.2 对文献信息分析工具研发工作的建议
文献信息分析工具是文献计量学、社会计量学、统计学、图形学、信息科学和计算机科学技术相结合的产物。国内对文献信息分析工具的研究起步晚,专业人员的投入不足,应加强多个领域的合作研究[29]。
文献信息分析工具针对书目数据进行分析,数据库导出的数据越丰富,文献信息分析工具的价值越高。国内的大型数据库不支持引文数据的导出,故无法进行引文分析,应进一步加强与国内全文数据库的合作,促进双赢。
大部分文献信息分析工具通过图谱实现对某一学科宏观和微观、定性和定量的把握,图谱的视觉效果对于结果的解读起着“一图胜千言”的作用。因此,要进一步加强分析工具的图谱展示功能。
4 结语
文献信息分析工具有着探测前沿热点、预测发展方向的作用。科学研究人员学会选择和使用这些工具,将使他们的科学研究更加高效。