基于CiteSpace的国内外数字图书馆研究论文的比较分析*
2014-03-10洪凌子黄国彬
洪凌子,黄国彬,于 洋
基于CiteSpace的国内外数字图书馆研究论文的比较分析*
洪凌子,黄国彬,于 洋
统计发现CSSCI和WoS中近十年数字图书馆主题的文献数量不断减少,假设这一现象和数字图书馆领域的发展情况相关。以CiteSpace为工具,分别对CSSCI及WoS文献进行高频词、主题聚类及突变词分析,比较国内外数字图书馆的研究热点、主题演化情况等,分析结果基本验证文献数量减少并维持在较低水平这一趋势。
数字图书馆 CiteSpace 主题演化 可视化
0 引言
数字图书馆既可指包括数字资源加工系统、用户服务系统和图书馆数字化管理系统的全面支持图书馆数字化建设的综合系统,也可指使用数字技术采集、存储和保存信息,并提供信息存取服务的特定图书馆。其相关理论及应用自20世纪90年代起,受到了国内外学者的广泛关注[1-2],研究主要从数字图书馆所涉及的技术、服务方式、管理模式等多方面展开,研究对象及方法多种多样。为明确数字图书馆领域的研究现状及特点,不少学者就已发表的数字图书馆方面的文献进行了计量分析[3]。董伟[4]采用共词分析的方法,得到国内1999~2008年间数字图书馆领域研究热点集中的四大区域。邱均平等[2]从文献计量的基本定律出发,总结了在文献增长、核心作者、核心机构等方面的国内研究现状。闫伟东[5]以WoS及SSCI为文献来源,使用HistCite、CiteSpace II等工具定性定量地分析了引文情况、关键领域等。目前,少有国内研究是同时以国内外文献为研究对象来综合分析比较国内外数字图书馆领域研究主题的异同。
本研究收集了以数字图书馆为主题的中外文献,在进行文献数量统计的基础上,结合CiteSpace进行定性定量分析。通过主题聚类,研究对比国内外相关文献在主题上的异同;结合突变词分析的结果,探究数字图书馆领域某一问题的缘起和发展,以揭示数字图书馆领域的整体发展情况。经统计发现,国内外数字图书馆领域的文献数量自2005年开始下降,从2007年起一直保持在较低水平。利用主题分析和突变词分析,追溯数字图书馆领域不同研究主题的发展历程,可以相对合理地解释文献数量减少这一现象。
1 数据来源及总体情况描述
1.1 数据来源
本研究分别选取了CSSCI和Web of Science中的相关文献进行计量分析。在CSSCI中,设定主题为“数字图书馆”,时间限定为2001-2011年,共检索到2770篇中文文献。在Web of Science中使用高级检索,为避免复数形式的遗漏,设置检索式为主题词=(digital librar*)AND语种=(English)AND文献类型= (Article),时间跨度选择为2001年1月1日至2011年12月31日,由此共检索到1570篇外文文献。虽然WoS文献中包括部分国内研究成果,但仅占少部分。以WoS文献为调研对象,在一定程度上能反应国际上的主题研究情况。
1.2 发文量分析
在图书情报领域,数字图书馆的研究是重要组成部分之一。根据王红对1998-2007年间研究热点的分析显示,1998-2002年数字图书馆是仅次于图书馆和高校图书馆的研究主题,在2003-2007年成为第二大研究主题[6]。然而根据近10年的文献分析结果(见表1),数字图书馆相关的研究有增速放缓甚至逐渐衰落的趋势。数字图书馆的研究已经走过了鼎盛时期,近两年论文发表数量有较大程度的减少。
从数量变化趋势图(见图1)上可以明显地看出中外文文献的数量变化走势基本一致,即2001-2003年处于上升期,2004-2005年基本达到高峰。中文文献自2002年起就维持在高峰水平,外文文献从2001-2004年逐步发展到顶峰。2005-2007年,中外文文献数量出现明显下降,2007年后国内外数字图书馆相关的文献量都维持在较低水平。
表1 2001-2011年CSSCI和WoS中有关数字图书馆的论文数量
图1 2001-2011年CSSCI和WoS中有关数字图书馆的论文数量变化趋势图
发文量减少并维持在较低水平,原因主要有:(1)数字图书馆的理论已相对成熟,在现有技术水平下对有关服务模式及管理模式的探讨已经取得一定的成果。在数字图书馆所依赖的技术发生质的变化之前,很难有创新成果出现。(2)数字图书馆领域的研究对象进一步分化,派生出多个对具体技术或新型图书馆模式的子研究领域,如多媒体数字平台的构建、个人图书馆的设立等。对衍生领域的研究日渐深入、增多,因此纯粹将数字图书馆整体问题作为研究对象的文献相对减少。
2 主题分析
2.1 高频关键词分析——国内外对比分析
表2 CSSCI和WoS高频关键词对比
高频关键词反应了近年来的热门研究主题。从表2的CSSCI及WoS高频关键词中可以看出,研究主题的选择既有相同之处又存在差异。相同的主题主要有:和元数据相关的研究;对信息检索问题的进一步探讨;针对用户及用户行为的研究,提出了个性化服务的概念;针对特定图书馆的研究,如CSSCI中的高校图书馆、复合图书馆,WoS中针对学术图书馆的研究。有所区别的是,CSSCI中数字图书馆涉及到的知识产权问题仍然是近年来的关注热点,这从CSSCI中的热点关键词“知识产权”“版权”“著作权”中可以看出,WoS高频关键词几乎没有反映该主题;数字图书馆框架的构建、设计等具体操作问题是WoS热点之一,而CSSCI中关注此类问题的论文较少。
整体来看,高频关键词的性质也有所不同。在CSSCI高频词中,有若干词概括性强,甚至可代表某一个大的研究方向,如知识管理、信息组织、信息资源、信息服务、信息技术等;而WoS高频词中此类关键词较少,更多的是涉及某一具体对象、性质或表示某一操作的研究,如“electronic journals”“digital storage”“behavior”“usability”“design”“model”“framework”等。由此可反映出两者在所研究问题的抽象或具体程度上有所不同,CSSCI文献着重于理论的研究探讨,而WoS文献倾向于实际操作层面及针对具体问题的研究。
2.2 关键词共现聚类分析
2.2.1 国外-WoS
在CiteSpace的共被引分析中,由于存在被引文献越近,其被引就相对越少的情况,因此需设置3个时间切片的阈值。而在已发表的文献中,两个词语共同出现的次数不受其所在文献的发表年份影响。因此调整CiteSpace中(c,cc,ccv)参数均为(3,2,15),执行关键词共词聚类的分析,得到主题聚类图(见图2)。
由于CiteSpace是根据某一类中词的权重来抽取类名,因此可能存在概括片面或不准确的问题。分析每一类中具体的关键词,并去掉意义不明的小类,主要得到以下几个大类:
(1)数字图书馆在科学交流中发挥的作用(见类 #0 tenopir),主要的关键词有“journals”“publishers”“tenopir”等。Tenopir是著名的图书情报领域专家,目前就职于美国田纳西大学信息科学学院,主要研究科研人员和学生的交流模式以及电子期刊带来的交流模式改变;著作有《工程师的交流模式》 《从学术的角度看学术阅读及图书馆的价值》等。他主要采用访谈调查的方法,获取科研人员对电子信息环境的描述、评论等,总结他们信息交互,新知识创造的方式。Tenopir也采用对比研究的方法,在《澳大利亚、芬兰及美国的学术电子阅读模式比较》一文中对各国学术研究人员进行调查,证明了数字图书馆所提供期刊的重要价值,表明学科差异比国家及个人差异对阅读模式的影响更大。
图2 WoS关键词聚类图
(2)用户对象的研究(见#2 user acceptance),包括的关键词有“individualdifferences”“technology acceptance model”“perceived ease of use”等。这一主题的文献以数字图书馆的使用者为研究对象,调研用户在使用图书馆上的行为差异和对信息的接受方式等。为使用户利用数字图书馆的效果达到最优,对用户的基本信息需求行为展开研究是必要的。
(3)数字图书馆中涉及到的版权问题(见#3 copyright law)。关键词“electronic journals”“copyright”及“intellectual property”出现的年份较早,都在2005年以前,且其后不再出现。从关键词的出现情况基本上可以断定,国外在数字图书馆版权问题的研究上已经相对成熟。
(4)多媒体数字图书馆系统及多媒体信息的管理和检索问题(见 #5 automatic index con struction),包括的关键词有“image indexing”“video”“electronicmedia”“informa tion retrievals”等。与传统图书馆不同,数字图书馆增加了大量的多媒体信息,这些多媒体资源的管理方式、检索方式等与文本信息都有很大的区别。多媒体信息的管理是数字图书馆特有的重要问题之一,一直得到学者们的研究和关注。
(5)数字图书馆的模型、框架、标准、用户界面等基本问题(见#6 visualization)。这一类的关键词最多,包括“models”“system”“frame”“semanticweb”“ontology”等,主要涉及数字图书馆的相关技术问题,如系统的建立、系统框架的构建等。语义网和本体是数字图书馆的知识管理以及信息检索中的基础问题,对这一主题的研究有重要贡献的是Edward Allan Fox。2001年Edward提出了基于开放存储的开放式数字图书馆的框架,以开放存储为基础,利用都伯林核心元数据集和开放文件的元数据收割协议标准将不同来源的文件整合到一个系统中,便于管理和互操作,在此基础上建立不同的用户接口,满足不同的功能需求;他在被引率高达305次的2003年的《数字图书馆》一文中指出,数字图书馆资源的扩充带来信息检索需求的变化,对数字图书馆提出的新要求包括:能支持用户更高级的使用需求,能支持访问权限控制和版权控制等。该文总结了目前国际上为数字图书馆互操作的发展而建立起来的国际标准包括SGML、XML、Z39.50、IP和HTTP协议等,说明未来的发展趋势是世界型的数字图书馆;另外,Edward于2004年提出基于工作流、结构、空间、场景及社会(5S)的数字图书馆模型,对数字图书馆的架构进行了探索。
2.2.2 国内-CSSCI
采用相同的方法分析来自CSSCI的数字图书馆文献。在CiteSpace上调整不同的阈值能得到不同的聚类情况,在聚类情况可解释的情况下,阈值调整至(4,2,18),得到10个聚类(见图3)。
图3 CSSCI关键词聚类图
根据聚类情况可得到七个大类,包括:网络存储环境的研究(包括网络化);数字图书馆工作人员能力素质的研究;开放文件的元数据收割协议;版权;信息服务方式(包括数字参考咨询);针对数字图书馆中数字对象的研究;数字图书馆中的信息检索问题等。
数字图书馆的版权问题单独构成一大类,主要包括版权授权模式的研究、有关版权纠纷问题的研究、各国版权政策的比较研究等。与WoS文献集合类似,版权问题在2001年的相关文献中已经占有一定分量,也是近十年来研究的热点论题。
信息服务这一主题包括数字图书馆中信息服务模式的发展及演变、信息服务系统的构建、信息服务质量评价方法及评估体系的构建等几个基本方面。有少量论文针对信息服务中的基本法律问题进行了探讨。用户研究的主题虽然在高频词中尚未体现,但在聚类中和服务模式有联系。有关用户研究的内容有用户的心理研究、用户界面的研究及用户信息素质教育等。
在图书馆自动化这一主题上,信息检索以及个性化推荐是两个突出的研究热点。对CSSCI文献集合中以“信息检索”为主题的论文的摘要进行概括,可以分为两大类:(1)结合数字图书馆这一特殊背景,对信息检索技术进行研究。信息检索是计算机信息处理的主要研究内容之一,图情领域的学者结合学科特点也参与了探索,建立了基于本体的、基于语义网的、基于标签、基于排序学习以及跨平台的多种数字图书馆信息检索模型。(2)围绕信息检索的应用展开研究,包括对检索模式、检索策略的调查和总结。针对个性化服务的研究同样可从技术和应用两个角度进行归纳,主要包括个性化信息服务模型的构建以及个性化服务模式、应用情况的研究。
2.2.3 国内外对比
综合文献分析可以看出,国内外在数字图书馆领域的热点研究内容基本一致。基础的研究方向包括:数字图书馆相关技术的研究、围绕用户展开的信息服务研究以及与知识产权相关的数字图书馆版权问题研究。数字图书馆技术的相关问题依赖于计算机及信息处理技术的改进,而对用户和知识产权问题的研究在2001-2011年间一直持续进行,但文献量在不断减少,可见版权问题的研究也在逐渐成熟。
值得注意的是,国内外在研究主题上并不是完全一致。以Tenopir为代表的美国图书馆学者对数字图书馆对科研人员交流方式的影响展开了调查和研究,这一主题或许可归为用户研究的内容,但国内目前很少有针对特定数字图书馆用户群的研究,也没有关注数字图书馆给科研人员工作带来的影响以及科研人员是否充分利用数字图书馆的问题。或许该问题可拓展为新的研究主题。
3 主题演化对比分析
Citespace中提供突变词检测功能,突变词是指“一个变量的值在短期内发生很大变化”。在不使用被引文献的基础上,变量是指施引文献中所用的单词或短语的频次[7]。在Cite-Space II中,从题目、摘要提取出现频率突然增加的专业术语,用来标注共引网络,作为对正在兴起的理论趋势和新主题涌现的探测[8]。由于本文所分析的文献量较少,所检测到的突变词数量也比较少,因此可对其进行全面分析。而采用共引网络标注则会忽略主题变化的细节,因此主要针对出现的突变词进行分析。
3.1 WoS文献突变词分析
在WoS文献集合中,若使用名词性词组检测,词组过少,不能反映文献中出现的新知识。而纯文本探测,则会出现大量重复性词组,如“patient education”和“patient education materials”虽然是两个不同的词组,但表达了相同的意思。因此在处理数据时,采用纯本文检测的方法,且人为去掉重复以及意义不清的词组,最终从WoS相关文献的294个原始突变词中提取出88个突变词。
表3 WoS数字图书馆文献的突变词数量分析
从突变词的出现情况来看,2001-2004年间,均有一定数量的突变词;2005年之后,在突变词不再出现。由于2001年是起始年份,在突变词探测时,已经在2000年及更早以前文献中出现过的词组仍被算做突变词,因此总数量较多,且跨度时间相对长。2002年和2003年有相当数量的突变词出现,说明在数字图书馆领域仍有未涉及过的相对新颖的内容。在2002年和2003年突变词中,分别有78%及74%词的时间跨度只有一年,这些词所指的论题有可能暂时无法深入研究,或者可以深入挖掘的内容有限;另有少量突变词在出现之后仍被持续使用。2004年起突变词数量相比2002年及2003年有所增加,而这些突变词的时间跨度都在3年或3年以上。2004年是数字图书馆发展的一个转折点,同年相关文献数量激增。突变词数量的变化说明在数字图书馆中出现了较多新的研究主题,而且这些主题在接下来的3年中得到了充分的发展。2005年之后,突变词不再出现,这一点也同2005年之后数字图书馆领域的论文数量逐渐减少,至2007年起维持在低迷水平的现象相呼应。突变词的数量变化解释了文献数量变化的原因,即数字图书馆研究领域缺少新的论题,导致文献数量明显减少,然后维持在一个较低数量上。以下对个别具体的突变词进行解读。
表4 WoS数字图书馆文献的突变词
2001年出现了“个性化信息”“用户差异性”以及“病人教育”等关键词,研究集中在数字图书馆的使用者上。与之相承的是2003年提出的专业领域的数字图书馆以及2004年提出的“个性化数字图书馆”。在研究用户对象的基础上,学界提出服务于不同用户的“个性化数字图书馆”,这是数字图书馆信息服务发展的一个方向。
“病理教育”“学术交流”“电子政务”“可视化界面”等突变词都仅存在于2002年;与之类似,2003年中有“搜索机制”“中心本体论”“信息搜寻”“信息转换”“韩国”等关键词。脱离数字图书馆,这些关键词也可以是其他知识体系中的内容。可见2002-2003年数字图书馆领域知识的创新主要来自和其他领域的交叉研究,这也解释了这些突变词时间跨度短的原因。
此外,2002年及2003年还出现“数字鸿沟”“虚拟参考咨询服务”“数学图书馆”“标准”等关键词,且持续时间较长,体现了数字图书馆内容体系研究的多元化。数字鸿沟是一种社会化现象,怎样通过数字图书馆的分布和运作来消除该现象,是数字图书馆研究的重要问题之一。“虚拟参考咨询服务”是数字图书馆催生出的一种新服务方式。在数字图书馆的建设发展过程中,必然存在着标准设定的问题,这一方面说明数字图书馆的内容体系在不断完善,另一方面也凸显了有关数字图书馆基础问题的研究持续时间较长。
2004年达到数字图书馆研究的顶峰时期,提出了多个创新的基础论题,主要有个性化数字图书馆的建设、语义网及语义基础、图书馆特藏的处理、面向服务的数字图书馆、数字图书馆杂志以及上下文感知技术等。一方面,基础论题的提出使数字图书馆得到更多的研究和关注;另一方面,个性化推荐及语义网都是由计算机信息处理领域的学者提出并发展起来,在信息技术有所突破,有了新发展的基础上,数字图书馆的相应研究也紧随其后,更进一步。由此可见,数字图书馆的发展受相关学科的影响和制约。
3.2 CSSCI文献突变词分析
采用纯文本检测的方法处理CSSCI文献集,经过人工去重等预处理之后得到分析结果,见表5、表6。
表5 CSSCI数字图书馆文献的突变词数量分析
CSSCI文献中突变词出现的趋势和WoS文献类似,2001年突变词最多,这是由起始年份决定的;2002-2003年间,有一定数量的突变词,但大部分跨度只有1年,跨度在2年以上的只占少部分;2004年却出现13个突变词,它们的时间跨度都达到3年及以上。然而,CSSCI文献中出现的突变词却和WoS文献中的突变词有一定区别。
2001年突变词中有“汕头大学”“混合图书馆”“党校图书馆”“美国记忆”,2002年中有“天津图书馆”“台湾省”,2003年“国家科学数字图书馆”。可以看出,国内出现了不少针对具体地域(如天津、台湾)或特定类型图书馆(如大学图书馆、党校图书馆、混合型图书馆)的研究,这一点是WoS文献中所没有的。然而该类研究由于对象具体,因此不具持续性,突变词跨度时间都只有1年。
表6 CSSCI数字图书馆文献的突变词分析
2004年出现了存储区域网络、mhp(多媒体家庭平台)、oai(提高资源共享范围和能力的互操作协议标准)、语义网等专指性很强的关键词,可以看出有关数字图书馆技术的研究在不断增加。“信息网络传播权”和“公共借阅权”的出现,表示更多与数字图书馆相关的法律问题受到学者们的关注。这说明,数字图书馆与其他专业领域的交叉成为数字图书馆主题创新之处。
3.3 主题演化对比分析
综合分析可得出以下结论:(1)数字图书馆的突变和创新大部分出现在数字图书馆和其他学科的交叉领域,依赖其他学科的发展,因此主题发展的独立性不强。这种交叉主题的创新在不断得到补充和更新,如数字图书馆中涉及到的各种法律问题、技术问题、数字图书馆在医学教育上的应用等。有些突变由于研究对象过于具体,研究对象的改变就能引出主题的突变,然而不存在实质性的创新。(2)数字图书馆体系的其它主题主要有数字鸿沟问题、虚拟参考咨询服务、数字图书馆中有关标准的设定等。这些主题丰富了数字图书馆体系,也在逐步发展成熟中。因此数字图书馆主题的文献数量虽然有所减少,但仍维持在一个固定的水平。
4 结语
本文主要对国内外数字图书馆的研究论文进行了分析,从主题分类和主题演化两个角度总结了数字图书馆近十年来的发展情况,分析了数字图书馆领域文献数量减少,并维持在较低水平的原因。对比文献中出现的高频关键词以及关键词共现聚类的情况发现,国内外在用户行为研究、知识产权问题、数字图书馆系统的构建、数字图书馆中涉及到的信息描述及信息检索等主题上具有一定的共同点;在数字鸿沟的研究、科研人员交流模式、数字图书馆的个性化服务等问题上各有侧重。国内关于数字鸿沟的选题较少,可加强这方面的探讨。从整体上分析,国内外的热点研究内容基本一致。从相关对象和涉及的行为事件来看,研究主题比较全面。另外,文献主题的变化和突变词出现的情况有关。从突变词数量减少,突变词主要由其他学科的专业词及具体的名称词组成这两方面可以看出,数字图书馆领域的创新主要来自于学科的交叉以及具体研究对象的转变。
然而值得注意的是,数字图书馆主要以计算机及互联网为载体,随着计算机技术的发展,数字图书馆也可以相应地调整服务方式。美国伊利诺伊大学厄巴纳-香槟分校的本科生图书馆、密歇根大学的克雷奇图书馆就已将数字图书馆的服务融入学生的社交网络;宾夕法尼亚大学图书馆则将社会书签引入数字图书馆系统中,为同学们进行信息资源组织和推荐。这是否能够给我们带来一些启示,考虑将数字图书馆与互联网上新兴的信息服务技术及信息传播方式结合起来,不断更新和补充数字图书馆体系的内容,更好地提供信息服务。
[1]王红.基于共词分析法对近十年我国图情学研究热点的分析[J].情报杂志,2011,3(30):59-64.
[2]邱均平,温芳芳.近五年来图书情报学研究热点与前沿的可视化分析—基于13种高影响力外文源刊的计量研究[J].中国图书馆学报,2011,3(37):51-60.
[3]赵丹群.基于CiteSpace的科学知识图谱绘制若干问题探讨[J].情报理论与实践,2012,10(35):56-58.
[4]邱均平,王明芝.1999~2008年国内数字图书馆研究论文的计量分析[J].情报杂志,2010,2(29):1-5.
[5]陈超美.CiteSpace中的Burst Detection[EB/OL]. [2013-03-18](2012-05-03).http://blog.sciencenet. cn/blog-496649-566289.html.
[6]董伟.国内近十年数字图书馆领域研究热点分析—基于共词分析[J].图书情报知识,2009,30(5):58-63.
[7]闫伟东.数字图书馆发展的可视化分析[J].公共图书馆,2012,9(1):30-34.
[8]陈超美.CiteSpace II:科学文献中新趋势与新动态的识别与可视化[J].陈悦,等译.情报学报,2009,3(28):401-421.
Comparative Analysis on the Research Papers Related to Digital Library Development at Home and Abroad Based on CiteSpace
HONG Ling-zi,HUANG Guo-bin,YU Yang
Statistics reveals that the research papers on digital library from CSSCI and WoS has been declining for the recent ten years.It is assumed that the decrease is associated with the development of digital library.This paper analyzes the high frequency words,the subject clusters and the burst items of articles in CSSCI and WoS with CiteSpace,then compares the hot research topics and theme evolution of digital library at home and abroad.The results prove that research papers about digital library do decrease and stay at a lower level.
digital library;CiteSpace;theme evolution;visualization
格式 洪凌子,黄国彬,于洋.基于CiteSpace的国内外数字图书馆研究论文的比较分析[J].图书馆论坛,2014(6):91-100.
洪凌子(1989-),女,北京师范大学情报学研究生;黄国彬(1979-),男,博士,北京师范大学政府管理学院硕士生导师,本文通讯作者;于洋(1988-),女,北京师范大学情报学研究生。
2013-09-10
*本文系中央高校基本科研业务费专项资金资助项目“知识图谱软件的技术原理与评价指标体系研究”(项目编号:2012LYB02)研究成果之一