词频分析及常用工具比较研究*
2016-07-25左丽华
左丽华
(浙江工业大学图书馆,浙江 杭州 310023)
词频分析及常用工具比较研究*
左丽华
(浙江工业大学图书馆,浙江 杭州 310023)
[摘要]首先梳理了词频分析的一般过程并对现有词频分析工具总结归类。在此基础上,从软件基本信息、支持数据类型、数据预处理、数据分析与结果导出等方面对国内常用词频分析工具Bibexcel、CiteSpace和SATI进行了比较分析。并以WOS数据库为数据源,对3个软件实际分析结果进行比较,以期为科研人员使用词频分析方法提供有益的帮助。
[关键词]词频分析BibexcelCiteSpaceSATI
1 词频分析及现状
词频分析是文献计量学中传统的和具有代表性的一种内容分析方法,基本原理是通过词出现频次多少的变化,来确定热点及其变化趋势[1],目前已经在各学科领域得到广泛应用。笔者通过对国内文献调研发现,国内研究人员多运用一种分析工具对特定学科领域某个时间段的文献所使用的关键词进行分析,依据分析结果确定特定学科研究热点。已有的研究成果侧重特定词频分析工具在具体领域的应用,对词频分析过程及分析工具本身的探讨较少。由于词频分析工具众多且分析过程各有差异,利用不同的分析软件处理相同的数据所得结果也不尽相同。因此有必要对词频分析的过程进行梳理,并对词频分析工具进行对比研究。该研究有助于研究人员在定性判断领域研究热点基础上,快速地选择词频分析工具对领域研究热点进行一个量的判断。
2 词频分析过程
词频分析一般的过程主要分为数据检索、清洗加工、词汇提取、统计分析等阶段。其中数据检索包括确定检索目的并明确是对国际或国外某一学科领域进行分析还是侧重对国内某一学科领域进行分析;确定检索范围,有的通过检索学科领域的核心期刊对某一学科进行分析,有的通过筛选检索词,用经过简化和精炼的检索词来搜索相关领域的研究成果;选择检索平台,目前国内外各类大型文献数据库为大批量下载数据提供了方便,分析的目的不同所选用的数据来源也不同;制定检索策略,同一检索主题即使是同一数据库采用不同的检索方法获得的检索结果也会相差很大,因此检索策略的制定对最后的结果分析有直接影响;检索并评估检索结果,如果首次检索结果不理想需重新调整检索策略再次进行检索;数据采集下载,通过人工判读删除无用数据,然后下载数据。数据清洗加工,词频分析最终结果的可靠性很大程度上依赖于原始数据的准确性,清洗对下载的数据进行筛选、去重和勘误,常常需要人工识别。最后是数据分析,借助分析工具对下载的题录数据进行抽取,从标题、摘要或关键词抽取的词汇,根据关键词的词频数,选定高频关键词,对高频关键词详细分析,除了统计分析还可以进行深入的文本挖掘和可视化。这些过程结束之后对结果进行解释并得到一些结论。
3 词频分析工具类型
计量分析中常用的词频分析工具可分为3类:①研究人员自主开发软件,编写程序实现相关题录信息的处理,如《基于词频分析的国内情报学研究热点》[2]一文,作者选用了Java语言编程实现关键词抽取和统计。这种方法要求研究人员具有一定的编程水平。②利用SPSS、Excel、NoteExpress等非专门用于词频分析的统计工具中的相关功能实现词频提取和分析,例如《基于词频分析的近10年知识管理的研究热点和研究方法》[3]一文运用了NoteExpress软件中的文件夹信息统计功能。这些工具多用于简单的词频分析,对进一步进行词的共现或者可视化分析则比较困难。③利用各种专门的知识图谱绘制工具分析词频。目前我国研究人员常用的词频分析软件有Bibexcel、CiteSpace、TDA、WordSmithTools等。这些专门开发的计量分析工具功能较强大,除了进行词频分析,还可以分析引文、合作者、机构等并可将分析结果以图谱的形式展现。
4 词频分析工具比较
笔者通过文献调研发现国内最常用的词频分析工具有Bibexcel、CiteSpace和SATI。现依据词频分析过程,重点对这三款免费词频分析的计量工具进行比较研究,分析它们的优缺点和不同之处,以期为国内开展词频分析提供借鉴。
4.1基本信息
Bibexcel[4]软件可在其开发者Olle Persson的个人网站上免费下载,每次下载的软件都是当前最新版本,因为该网站总是会及时用新版本更换旧版本。Windows系统、Linux系统都可以运行该软件。CiteSpace[5]也可在网站上免费下载最新版本和英文用户手册,其运行环境要求是在安装Java运行环境的Windows系统。SATI[6]是由国内学者开发的一款兼顾处理国内期刊题录数据和国际WOS题录数据的信息统计分析软件。
4.3支持的数据类型
文献计量分析中数据采集常用的方法是检索特定数据库,通过检索得到详细记录,然后下载检索结果中相关题录信息。计量分析常用数据主要来源数据库有CNKI、CSSCI、WOS、SCoups等。不同计量分析工具支持不同数据格式。因此使用不同软件进行词频分析时,首先要明确这些软件可以支持的数据类型。
Bibexcel可处理的数据集中在Web of Knowledge平台上的数据库,包括WOS数据库、Derwent专利数据库、Medline数据库等。从WOS下载的数据要以纯文本格式保存。Bibexcel可处理CSSCI数据库中的数据,但需要进行格式转换,用的比较多的转换软件是刘盛博开发的CSSCIREC。导入Bibexcel的数据都要先创建成OUT文件,OUT文件是使用BibExcel软件进行计量分析的起点。创建OUT文件时,要确定使用书目记录中的哪个字段创建文件,如进行词频分析,则需要选择关键词字段来创建OUT文件。以OUT文件为起点,根据分析目的生成多种中间文件,如.doc、.out、.cit、.oux、.xls等。Bibexcel产生的书目数据可进一步导入Excel、SPSS、UCinet、Pajek等软件,用于完成更多的计量分析工作。
CiteSpace支持的数据源包括WOS、Arxiv、CNKI(Ref-Work)、CSSCI、Derwent、NSF、Scopus、SDSS、ProjectDX等数据库。CiteSpace虽支持中文数据的导入,但有局限性,其必须使用相应的插件对数据进行转化。如对于CNKI数据库,选择检索结果使用“导出/参考文献”,以“Refworks”格式下载题录信息,以download开始命名文件,然后使用CiteSpace中 CNKI(Refworks)按钮转换CNKI数据文件。
SATI是一个专门分析国内期刊论文题录信息的软件,同时拥有分析WOS题录数据功能。支持EndNote、NoteExpress、HTML和CSSCI格式的题录数据,软件开发者推荐Endnote格式使用中国知网导出的EndNote格式的题录数据;NoteExpress格式使用万方数据库提供的NoteExpress格式题录数据,因为对应数据较为完整;HTML(WOS)格式是WOS数据库平台导出的HTML格式题录数据;CSSCI格式是南京大学CSSCI检索题录数据格式。
3个软件对英文数据库,特别是WOS数据库都有很好的支持。Bibexcel和CiteSpace虽然支持中文数据库,但分析之前需要做格式或者编码的转换。这两款软件主要是针对国外数据库平台开发的,对国内的数据库数据不能直接处理。SATI能很好地支持对中文数据库的分析,兼顾国内外题录数据。
4.4数据预处理
数据预处理是计量分析过程中最为重要的一个步骤,在词频分析的过程中,特别是英文词频分析存在单复数变化、拼写错误、美式英式拼写差异时,如果对这些数据不加以整理合并,统计时会发生巨大差异,进而影响分析结果的准确性。如果输入的是不可靠的数据,那么无论软件的分析功能多么强大,最后都无法保证结果的正确性。因此,先对数据进行整理是十分必要的。
Bibexcel允许对文本数据有不同的预处理方法,如英语单词的词干提取,重复词的删除。Citespace在数据统计中以词频为主要计算方法,同时以阈值调节控制结果,可以删除和合并同类词。SATI可对英文关键词、主题词、标题和摘要字段进行断词、停用词、词干提取的预处理操作,对中文题录标题、摘要进行中文分析和停用词处理。对于国际文献,利用文本预处理技术,进行Tokenization与Stemming操作,即只进行形变处理(标点符号、大小写、单复数及词干提取)。对于国内文献题录关键词并没有进行删减或对同义相似词的词频进行合并等操作。
4.5数据分析与结果导出
Bibexcel在进行数据分析之前,需将下载的数据转换成Bibexcel可处理的Doc文件格式。Doc文件格式中包含很多字段,进行词频分析需要从Doc文件中将关键词字段单独抽取出来,保存为Out文件。选择工具栏analyze菜单下的相关功能菜单,得到后缀名.frg的文件,统计得出关键词的词频;.coc文件则是关键词共现文件,可进一步得到共词矩阵,导入其他软件中进行可视化分析。
CiteSpace具备统计突显关键词的功能,即将某时间段高被引的关键词加以突显,显示某段时间的研究热点。其采用的是一种“突发词检测”算法来确定研究前沿中的概念,基本原理就是统计相关领域论文的标题和摘要中词汇频率,根据这些词汇的增长率来确定哪些是研究前沿的热点词汇。最终以图谱方式显示关键词间的引用关系,节点的大小表示关键词频次的高低。
SATI对输入的题录数据进行文本预处理后,将其自动转化为SATI专用数据文件XML格式文件。随后即可抽取字段信息,从关键词、主题词、摘要等字段中抽取词汇,并保存为. txt文本文件,在此基础上进行下一步统计分析。此外还可以按照时间和期刊对数据进行限定,生成相应频次统计文档,并保存为.txt文本文件。SATI的另一大功能就是构建知识矩阵,可生成词条共现、频率分布和文档词条3类矩阵。在SATI生成的Excel格式和txt文本格式的知识矩阵数据后,可将相应的矩阵文档导入SPSS、Ucinet、Netdraw中以生成各种基本图表、聚类图、多维尺度分析图、共现网络知识图谱等。
4.6实例分析
由于3个软件都能很好地支持WOS数据库中的数据,不需要其他软件对数据进行转换,笔者选择WOS数据库为数据源,检索近5年发表的高校图书馆论文。以(university librar*)OR(college librar*)OR(academic librar*)为主题,文献类型限制为ARTICLE,时间跨度是2011~2015年,共检索出文献3088篇。将下载的数据分别导入3个软件进行词频分析。
Bibexcel分析结果如图1所示,从分析结果可以看出,近5年关于高校图书馆研究的高频词汇是信息素养、数字图书馆、开放获取、元分析、用户研究、电子资源、图书馆员、馆际互借等。此外,Bibexcel产生的词频数据可复制到Excel表格中,抽取高频词后,再拷贝到Bibexcel中进行高频词共现分析。
图1 BibExcel词频分析结果
SATI分析结果如图2所示,SATI对词语进行了词干提取,其分析结果与Bibexcel分析结果词频排序大致相同,但词频数存在差异,如数字图书馆(Digital libraries),Bibexcel得出的词频数是60,而SATI得出的结果为66。其他词语也存在类似情况。
图2 SATI词频分析结果
CiteSpace分析结果如图3所示,可见CiteSpace分析出来的词频跟前两个工具分析的结果在数量和排序上都存在差异,如教育(Education),Bibexcel分析的词频数是24,SATI经过词干提取后结果是39,而CiteSpace词频结果却是84,可能与CiteSpace从多个题录中抽取词有关。
图3 CiteSpace词频分析结果
虽然不同软件分析得出的词频排序在大趋势上相同,但每个词具体的排序却不尽相同,可见不同词频分析软件其分析结果存在差异。从上面三幅结果图也可以看出,BibExcel 和SATI以很简单的界面呈现结果,如果进一步进行共词可视化分析BibExcel和SATI需要借助其他软件,而CiteSpace直接将可视化结果呈现出来,可通过对图谱的进一步分析获得其他结果。由此可见,在词频分析方面,BibExcel和SATI强大的功能主要体现在字段抽取和共现矩阵的共现上,CiteSpace主要是图谱呈现。
5 结语
词频分析作为文献计量学中一种常用分析方法,其分析过程遵循计量分析的一般步骤。实际研究工作中有多种类型的工具可进行词频分析,常用的词频分析软件Bibexcel、CiteSpace和SATI三款软件在数据预处理、数据分析和结果导出等各环节都存在差异,即使对同一数据源数据进行词频统计结果也会各有异同,因此在进行统计分析时,各软件之间可互相参照,互相验证,同时互相补充。
参考文献:
[1]汤建民.基于文献计量的卓越科研机构描绘方法研究——以国内教育学科为例[J].情报杂志,2010(4):5-9,35.
[2]肖明,李国俊,杨楠.基于词频分析的国内情报学研究热点(1998~2007)[J].情报杂志,2009(8):21-25.
[3]储节旺,钱倩.基于词频分析的近10年知识管理的研究热点及研究方法[J].情报科学,2014(10):156-160.
[4]PERSSON OLLE.Bibexcel[EB/OL].[2015-11-26].http://homepage.univie.ac.at/juan.gorraiz/bibexcel/index.html.
[5]CHAOMEICHEN.CiteSpace[EB/OL].[2015-12-05].http://cluster.cis.drexel.edu/~cchen/citespace/.
[6]DOWNLOADBOUND.Refviz[EB/OL].[2015-12-06].http:// www.downloadbound.com/refviz-2.1-crack-serial-keygendownload.html.
左丽华女,1989年生。硕士,助理馆员。研究方向:文献计量学。
[分类号]G252.8
收稿日期:(2016-03-14;责编:杨新宽。)
*本文系浙江省图书馆学会2015年度学术研究课题“词频分析工具的比较研究”(项目编号:Ztx2015 B-10)成果之一。