APP下载

我国图书馆联盟研究的文献计量和可视化分析*
——基于Netdraw和CiteSpace软件的比较研究

2018-03-01尹怀琼刘晓英周良文杜方冬周文琦董风华

图书馆 2018年2期
关键词:发文图谱可视化

尹怀琼 刘晓英 周良文 杜方冬 周文琦 董风华

(中南大学图书馆 长沙 410013)

1 引言

近年来,随着可视化知识图谱技术的发展,国内外科研人员设计开发了越来越多的可视化文献分析软件, 如:CiteSpace[1]、Bibexcel、Ucinet、Netdraw、Pajek、Histcite、VOSViewer和NWBTool等。但这些软件的开发主要基于外文文献的处理,只有 CiteSpace 增加了对CNKI 及 CSSCI 题录数据的处理程序。2012年,国内学者刘启元开发了文献题录信息统计分析软件SATI[2],可导入处理 ENDNOTE、Note Express及 Note First 格式的国内文献题录数据,进行数据格式的转换、字段信息的抽取、词条频次的统计和知识单元共现矩阵、词条频率逐年分布矩阵及文档词条矩阵的构建,进而将数据导入其他可视化图谱生成软件(如VOSViewer和Netdraw),以生成聚类图、多维尺度图谱、网络知识图谱、策略坐标图等可视化结果[3]。因此目前能进行中文文献题录统计分析的工具仅有SATI和CiteSpace的中文处理程序,两者对中文作者和机构的统计、关键词抽取的不同原理将直接影响到CiteSpace和Netdraw可视化图谱的生成效果,因此有必要对其不同的特点进行分析,以帮助科研人员更好地选择中文文献可视化分析软件。

我国对“图书馆联盟”的研究始于20世纪90年代末石海玉[4]对华盛顿研究图书馆联盟的介绍,经过近20年的发展,我国对图书馆联盟的研究取得了一定的成果,发表了很多相关的学术论文,但对图书馆联盟相关论文进行可视化分析的文献还不多。因此,文章以“图书馆联盟”为研究主题,对SATI和CiteSpace在中文文献题录统计分析时各自的特点进行实证对比分析,同时对我国“图书馆联盟”研究文献进行CiteSpace和Netdraw可视化对比分析,探讨近年来我国对图书馆联盟的研究现状,了解其核心作者、机构和期刊分布情况,以揭示图书馆联盟研究的热点和前沿领域。

2 数据来源与研究方法

2.1 数据来源

为了尽可能保证数据查全,文章不同于其他可视化分析文献选择单一数据库的文献进行分析,而是选取万方数据系统及中国知网CNKI两个数据库所收录的以“图书馆联盟”为主题的期刊文献数据,时间范围确定为2010年1月~2016年10月,检索日期为2016年10月7日。检索策略为:主题=图书馆联盟。检索结果为:万方的期刊论文1322篇,CNKI的期刊论文1750篇。将所有数据导入Endnote去重,删除说明、通知及广告等,剩余1767篇期刊论文。为了尽可能排除数据误检带来的统计偏倚,通过浏览题目及摘要,排除不相关论文269篇,最终得到图书馆联盟相关期刊论文1498篇。文章以此1498篇论文为来源数据进行分析。通过必要的手工调整源数据格式,将1498篇来自CNKI和万方数据的论文源数据调整成统一的SATI或CiteSpace要求的数据格式,以用于数据导入分析。

2.2 研究方法

文章运用SATI3.2 和CiteSpaceⅤ软件对论文的年代、机构、期刊、作者和关键词进行提取分析,并与来源数据比较两款软件的信息提取及统计差异。由于SATI并不能直接生成可视化图谱,需要将转化后的相关矩阵导入Netdraw或VOSviewer 生成需要的可视化图谱,文章运用Ucinet将SATI提取的矩阵数据转换成“##h”文件,录入“##h”文件到Netdraw进行图谱分析。所得图谱中节点大小表示分析项出现的频次,连线表示分析项之间的共现,可用粗细表示共现程度,聚类分析中不同的颜色表示不同的类型。CiteSpace则可以直接进行图谱分析,CiteSpace选择Pathfinder算法,参数设置为:整个7年的数据分为7片,根据具体情况调整和确定(C,CC,CCV),其中C是文献最低被引频次,CC是两篇文献的共引频次,CCV是文献的共引系数[5]。根据分析主题节点的不同,分别选择作者、机构、作者和机构、关键词作为节点进行可视化分析,所得节点“年轮”的颜色和厚度分别表示分析项的时间和数量,节点紫色外圈表示分析项的中心度,节点的大小表示分析项出现的频次,节点之间的连线越粗表示分析项之间的共现越高,联系越紧密[6]。

3 我国图书馆联盟研究知识图谱分析

3.1 发文量分析

CiteSpace没有年代发文量的统计功能,我们通过SATI的年代频次统计功能分析图书馆联盟的发文情况(见图1),以便了解该领域研究的基本情况。

图1 我国2010—2016年图书馆联盟研究文献数量统计图

结果显示2010—2016年累计发表相关论文1498篇,其中2010年、2011年、2012年、2013年、2014年和2015年各有196、254、242、268、234和201篇与图书馆联盟相关的论文发表。2013年达到顶峰,之后开始回落。2016年由于数据不完整,检索得到的论文数量较少。总体来说,最近几年我国关于图书馆联盟的发文量呈稳定状态,年均发文量232篇,说明我国近年来对图书馆联盟的研究已进入相对成熟期,需与其他知识结合催生新的知识增长点。

3.2 机构分析

将CiteSpace的网络节点类型设置为“机构”,阈值为(2,2,20),(4,3,20),(4,3,20),即可得出机构的合作分布图(见图2),导出机构发文量的统计结果(见表1)。SATI则可通过机构频次统计功能统计出各机构对图书馆联盟研究的发文量(见表1)。通过人工统计来源数据,得到机构对图书馆联盟研究的原始发文量(见表1)。由于SATI 提取的机构合作矩阵都为零,Netdraw生成的可视化图全部是独立节点,无法显示机构之间的合作关系。

图2 我国2010—2016年图书馆联盟研究的机构合作CiteSpace图谱

表1 我国2010—2016年图书馆联盟研究机构发文量分布表

3.2.1 机构发文与合作知识图谱分析

结合表2和图2可以看出:我国对图书馆联盟研究仍然处于分散状态,机构间合作少,少有的几个机构间的合作也大多是同一作者在不同学校求学时以多机构名义发表文献而成。此外,我国对图书馆联盟的研究集中在高校图书馆,机构发文排名前20的仅吉林省图书馆和首都图书馆2家。发文较多的机构有燕山大学图书馆、吉林省图书馆、福州大学图书馆、乐山师范学院图书馆、天津农学院图书馆等。上述机构的高产出与其开展图书馆联盟建设实践不无关系,如燕山大学图书馆是河北高校数字图书馆中心;吉林省图书馆开展了吉林省数字阅读联盟服务。此外,目前国内图书馆联盟研究机构真正有明确研究方向和规划,并有高产出的机构并不多,发文量在10篇以上的机构仅11家。

3.2.2 软件比较分析

SATI和CiteSpace统计的机构发文量排名稍有不同。各机构实际发文量与CiteSpace统计结果相差不大,但其中华南师范大学经济与管理学院数据差异较大。经查证原始来源数据,发现华南师范大学经济与管理学院的作者存在两种机构的表达:“华南师范大学经济与管理学院”和“华南师范大学经济与管理学院信息管理系”。这种机构表述不同是造成CiteSpace与实际数据差异的主要原因。而各机构实际发文量与SATI统计结果相差较大,经查证原始来源数据发现,SATI机构发文量以第一机构发文为准,而且出现了很多统计错误,尤其是对几家发文量较高的机构统计错误较大,如吉林大学管理学院、南京大学信息管理学院、东北师范大学图书馆。因此,从机构发文量的统计看,CiteSpace比SATI更准确。

由于SATI 提取的机构合作矩阵都为零,Netdraw是以SATI提取的数据为基础进行图谱分析,这就直接导致Netdraw对中文文献无法进行机构间合作关系的分析,而CiteSpace则能够很好地显示机构间的合作关系。

3.3 作者分析

将CiteSpace的网络节点类型设置为“作者”,阈值为(2,2,20),(4,3,20),(4,3,20),得到图书馆联盟研究作者合作情况的可视化图(见图3),共有94个网络节点,22条连线,导出作者发文量(见表2)。此外,将CiteSpace的网络节点类型设置为“作者”和“机构”,得到图书馆联盟研究作者和机构合作的可视化图(见图4),可以直观看出图书馆联盟高产作者的所在机构。通过SATI的作者频次统计功能统计出各作者对图书馆联盟研究的发文量(见表2)。此外,SATI还提供第一作者的统计功能。将SATI提取的作者矩阵通过Ucinet转换后导入Netdraw生成作者合作知识图谱(见图5)。

3.3.1 作者发文与合作知识图谱分析

结合图3、4和表2可以看出:近几年我国研究图书馆联盟的作者有一定的合作,共15个合作圈,其中发文量较多的合作圈有高波、张建中和王少薇合作圈,许子媛和鄂丽君的合作圈,王泽琪和王代礼的合作圈等3个,但总体来说作者间的合作不太密切,而且多为同一机构内的合作,缺少机构间的合作。目前对图书馆联盟研究发文量较大的作者有:南华师范大学高波(18篇)、燕山大学许子媛(11篇)、乐山师范学院许军林(9篇)、郑州大学袁静(9篇)、福州大学詹庆东(9篇)等。

Netdraw的作者合作图谱则只显示有合作的作者,没有合作的作者则不显示,由于没有阀值的设置,只要有一篇合作的作者均会显示,结果显示我国近年来关于图书馆联盟研究的合作圈有15个,这和CiteSpace的分析结果一致。

图3 我国2010—2016年图书馆联盟研究的作者合作CiteSpace图谱

表2 我国2010—2016年图书馆联盟研究作者发文量排前分布表

图4 我国2010—2016年图书馆联盟研究的机构作者合作CiteSpace图谱

图5 我国2010—2016年图书馆联盟研究的作者合作Netdraw图谱

3.3.2 软件比较分析

SATI和CiteSpace统计的作者发文量排名和实际发文量完全一致,SATI比CiteSpace多一功能,即对第一作者发文量的统计。CiteSpace可以同时选择机构和作者两个节点进行共现分析,直观揭示了高产作者所在的机构。此外,SATI和CiteSpace对作者的统计均未考虑同名同姓的情况,如“高波”应该是中共武汉市委党校和华南师范大学的两个不同的作者,但SATI和CiteSpace均未区分,认为是同一人。

由于SATI和CiteSpace在提取作者发文量的一致性,因此CiteSpace和Netdraw图谱结果的作者合作圈也高度一致,不同的是CiteSpace显示发文量超过阀值的所有作者,并以连线的方式显示合作关系,而Netdraw只显示有合作的作者。

3.4 发文期刊分析

由于CNKI源数据没有参考文献,因此无法利用CiteSpace或Netdraw进行期刊共引分析。但SATI具有期刊频次统计功能,近年我国关于图书馆联盟发文量排前的期刊见表3。

我国图书馆联盟领域的论文发表在129种期刊上,其中发文量排名前16的期刊发文量占总比52%,形成了图书馆联盟论文发表的主要阵地。这16种期刊除了《兰台世界》是档案学领域期刊外,其他15种均为图情领域期刊。

表3 我国2010—2016年关于图书馆联盟发文量期刊分布表

图6 我国2010—2016年图书馆联盟研究的关键词共现CiteSpace图谱

图7 我国2010—2016年图书馆联盟研究的关键词聚类CiteSpace图谱

3.5 研究热点及发展前沿分析

对某一领域文献题录中的关键词进行词频分析可以初步确定该领域的研究热点,将CiteSpace网络节点类型设置为“关键词”,调整参数为(4,3,20;5,4,20;5,4,20),运行“Burst Terms”突变检测,得出图6的关键词共现图谱,并导出关键词词频统计数据(见表4),对其进行聚类分析,得到图7关键词聚类图谱。SATI则可通过关键词频次统计功能统计出各关键词的词频(见表4)。将通过Ucinet转换后的关键词数据导入Netdraw,得到我国近年来关于图书馆联盟研究的关键词共现图谱(见图8)和K核聚类图谱(见图 9)。

图8 我国2010—2016年图书馆联盟研究的关键词共现Netdraw图谱

图9 我国2010—2016年图书馆联盟研究的关键词聚类Netdraw图谱

表4 我国2010—2016年图书馆联盟研究关键词词频统计表

3.5.1 关键词共现及聚类分析

通过CiteSpace进行关键词突变检测,得到0个突变关键词,对关键词进行聚类形成图书馆联盟研究的18个聚类,这些是近年来我国图书馆联盟的研究主题:文献资源共享、云计算、协同创新、跨系统图书馆联盟、数字资源、知识转移、公共文化服务、数字图书馆、医学图书馆、社区图书馆、管理模式、公共文化服务体系、用户管理系统、可持续发展、资源建设、战略规划、指标体系、图书馆合作。对聚类项进行近义项合并以及综合判断,得出近几年我国图书馆联盟领域研究热点如下:

(1)图书馆联盟的理论研究。涵盖聚类中的协同创新、知识转移、管理模式、战略规划、可持续发展。我国对图书馆联盟的理论研究取得了一定成绩,界定了图书馆联盟的概念、发展起源,探讨了图书馆联盟的任务、类型、研究内容、社会效益以及构建联盟的关键因素。介绍国外图书馆联盟的管理模式和战略规划,积极探索适合我国的战略管理和可持续发展模式一直是图书馆联盟的重要研究内容。而基于协同创新及如何支持协同创新是近几年学术界关注的重大理论问题。协同创新理论运用于图书馆联盟也受到了众多图情学者的高度关注,认为图书馆联盟内部成员馆之间需要制定一套合理的跨组织知识流动协同创新机制[7]。

(2)图书馆联盟的技术研究。涵盖聚类中的云计算。在大数据时代,云计算技术被广泛应用于图书馆联盟领域,成为近几年图书馆联盟的研究热点。积极探索云计算下的图书馆联盟的服务模式和资源建设策略将给联盟的发展带来新契机[8]。

(3)图书馆联盟的建设实施研究。涵盖聚类中的文献资源共享、数字资源、资源建设、医学图书馆、社区图书馆、公共文化服务、公共文化服务体系、跨系统图书馆联盟、图书馆合作。文献及数字资源是图书馆联盟的客观对象、物质基础,资源共享是图书馆联盟的主要特征和精髓,是研究图书馆联盟不可分割的主题和核心[9]。图书馆联盟的建设过程实际上是文献信息及数字资源共建共享的过程,其具体内容主要涉及数字资源的建设和共享、数字图书馆的建设。而医学图书馆、社区图书馆、公共文化服务、公共文化服务体系、跨系统图书馆联盟、图书馆合作则是近年来图书馆联盟建设涉及的几种具体类型,如上海交通大学医学院图书馆成立了医学图书馆联盟;吕亚娟提出公共文化空间的特征价值为社区图书馆联盟提供了较好的契机,推进社区图书馆的持续发展[10]。

(4)图书馆联盟的用户研究。涵盖聚类中的用户管理系统。随着图书馆“以用户为中心”服务思想的确立,用户行为及需求调查[11]、用户管理系统设计[12]成为近年来图书馆联盟研究的热点主题。

(5)图书馆联盟的评价研究。涵盖聚类中的指标体系。图书馆联盟建设好坏的衡量,必然涉及图书馆联盟的评价研究。图书馆联盟[13]及其联合数字参考咨询[14]、信息服务[15]环节的绩效评价成为近年来图书馆联盟研究的热点主题。

从Netdraw共现图谱(见图8)节点大小可以看出,我国近几年关于图书馆联盟的研究主题集中于区域性图书馆联盟、高校图书馆联盟、数字图书馆联盟、公共图书馆联盟、数字资源及其共建共享、文献传递、馆际互借、云计算、信息服务模式等方面。

Netdraw聚类分析(见图9)的结果有9种不同的颜色,表示有9种不同的分类,根据节点大小和节点群数量多少来综合判断,我国近几年关于图书馆联盟的研究热点从Netdraw聚类分析来看主要有6大类,其中以节点大并多的红色区为核心大类,主要是关于图书馆联盟的理论研究领域,具体包括区域性图书馆联盟、数字图书馆、信息服务、云服务、馆际互借、可持续发展等。其他5类则是关于图书馆联盟应用研究领域,大致为资源整合与共享、图书馆联盟读者及学科服务、图书馆联盟实例、区域图书馆联盟数据库联合采购及合作、图书馆联盟绩效评价等。

3.5.2 可视化软件比较分析

从表4来看,SATI和CiteSpace对关键词频次的统计次数基本一致,但是SATI对一些无意义的关键词不做剔除处理,而CiteSpace则做了相关处理,如SATI统计的高频词联盟、建设、高校、模式、对策、策略、区域和共享等,CiteSpace的统计频次均为零。但SATI和CiteSpace对近义关键词均未作合并处理。

CiteSpace对关键词的共现图谱比较美观,聚类结果每个类别均赋予主题,清晰明了,但CiteSpace有很多参数的设置,需要使用者具备一定的技巧。而Netdraw对关键词的共现图谱应用简单美观,但其聚类区分度不高,每个大类也没有赋予专门的主题,而是由很多文献的关键词群聚一起。

4 结论

4.1 我国图书馆联盟研究现状

本研究主要利用CiteSpace、Netdraw和SATI软件,从年度分布、机构分析、作者分析、期刊分析和热点及发展前沿分析五个方面对我国CNKI和万方数据库中2010—2016年间关于图书馆联盟的相关文献进行了统计分析,研究结果显示,近年来我国关于图书馆联盟研究的作者及机构合作不紧密,处于各自为阵的局面。研究文献量总体呈稳定状态。研究热点主要集中在理论研究的协同创新、知识转移、管理模式、战略规划、可持续发展;技术研究的云计算在图书馆联盟的运用;建设实施研究的文献数字资源共建共享及各类图书馆联盟的建设和合作;用户研究以及绩效评价研究等方面。

4.2 两种文献计量软件比较

表5 SATI和CiteSpace软件统计功能比较

从表5我们可以发现,CiteSpace和SATI在信息的提取统计方面各有优缺点,但SATI在机构发文量的统计方面存在较多错误,对无意义的关键词不进行剔除处理,这必然会造成可视化图谱生成前的源数据存在较大偏差,对可视化图谱的可靠性造成一定的影响,需要进一步改进。

4.3 两种可视化软件比较

Netdraw和CiteSpace软件有各自的优缺点,在支持的中文数据源和数据格式、可视化图谱生成效果、应用领域等都存在一定区别,Netdraw需要借助SATI的词频提取功能和Ucinet转换SATI数据后才能对中文文献进行数据图谱分析,因此其对SATI的依赖度较大,SATI对词频提取的不足直接影响Netdraw的图谱生成效果。而CiteSpace则可以直接对中文文献进行数据图谱分析,功能比较丰富,但操作比较复杂,需要具备一定的技巧。

表6 Netdraw和CiteSpace软件图谱功能比较[16]

(来稿时间:2017年7月)

1.The CiteSpace homepage [EB/OL].(2004-09-13) [2017-02-07]. http://cluster.cis.drexel.edu/~cchen/citespace/.

2.刘启元,叶鹰.文献题录信息挖掘技术方法及其软件SATI的实现——以中外图书情报学为例[J].信息资源管理学报,2012(1):50-58.

3.李纪,李莘. 基于SATI及CITESPACE的学科服务研究知识图谱对比分析[J]. 兰台世界,2015(29):138-140.

4.石海玉,王芳芳,肖莉明. 虚拟网络环境下的图书馆组织——华盛顿研究图书馆联盟[J]. 图书馆杂志,1999(5):41-43.

5.郝世博, 朱学芳, 朱光,等. 国内外信息可视化研究的比较分析[J]. 图书情报工作, 2013, 57(14):105-113.

6.李阳, 谢笑, 谢阳群. 基于CiteSpace Ⅱ的我国图情领域信息共享研究可视化分析[J]. 图书馆, 2013(4):45-48.

7.孔繁超. 图书馆联盟协同创新过程研究——基于知识流动的视角[J]. 图书馆,2015(2):28-31,40.

8.吴元业. 图书馆联盟云计算应用研究——以DRAA新门户为例[J]. 图书馆论坛,2014(3):103-106.

9.曾莉,张云,谢松. 基于CSSCI的图书馆联盟研究现状分析[J]. 图书馆研究,2014(6):111-115.

10.吕亚娟. 公共文化空间视角下的社区图书馆联盟构建[J]. 合作经济与科技,2014(10):115-116.

11.张洪艳. CRM在图书馆联盟用户管理系统中的新发展——用户参与用户管理[J]. 图书馆工作与研究,2011(7):35-37.

12.李春艳,毕东. 高校图书馆联盟服务与用户需求的调查分析——以云南省高校用户群为例[J]. 现代情报,2016(9):112-115,135.

13.赵蓉英,王嵩. 基于熵权物元可拓模型的图书馆联盟绩效评价[J]. 图书情报工作,2015(12):12-18.

14.吕少妮,吴正荆. 图书馆联合数字参考咨询知识服务能力的评价研究[J]. 图书情报工作,2014(17):41-45.

15.高明磊. 吉林省图书馆联盟信息服务质量评价方法研究[J]. 高校图书情报论坛,2013(1):46-47,62.

16.文庭孝,刘晓英. 我国非物质文化遗产研究的可视化分析——基于三种可视化工具的比较分析[J]. 图书馆,2016(2):21-27.

猜你喜欢

发文图谱可视化
基于CiteSpace的足三里穴研究可视化分析
基于Power BI的油田注水运行动态分析与可视化展示
绘一张成长图谱
10条具体举措! 山东发文做好返乡留乡农民工就地就近就业
基于CGAL和OpenGL的海底地形三维可视化
“融评”:党媒评论的可视化创新
校园拾趣
爷孙趣事
以牙还牙
补肾强身片UPLC指纹图谱