基于Bicomb的数字图书馆研究热点分析
2016-03-03杨茜芸
杨茜芸
摘 要:本文选取CNKI数据库收录的3390篇有关数字图书馆的相关研究的论文为数据源,利用BICOMB进行相关数据提取。首先是对研究文献进行形式特征的可视化分析,包括研究文献的时间分布、著者及著者机构分布、来源分布。然后对研究文献的内容特征进行可视化分析,通过高频关键词的统计分析、共词分析等分析了近年来数字图书馆有关研究的热点领域。发现我国数字图书馆研究论文年发文量和研究主题随时间的推移而变化显著。从数量上看,发文量依次经历了上升、下降、基本持平3个阶段,从内容上看,以资源建设、信息技术、知识服务等主题相互结合、渗透的线索发展。
关键词:数字图书馆;bicomb;研究热点
1.引言
数字图书馆的建设及相关研究起步于20 世纪90 年代初的美国。我国国家图书馆自1995 年起开始跟进国际上数字图书馆的研发进展。1997 年,由国家图书馆、中山图书馆等单位共同承担的“中国试验型数字图书馆项目”,标志着我国数字图书馆事业进入到了试验阶段。经历了10 余年的发展,我国数字图书馆领域的研究课题立项逐渐增多,研究内容日益广泛,研究成果大量发表,其中也出现了一些关于数字图书馆研究文献定量分析的论文。本文在有关文献研究的基础上,选取国内CNKI 收录的1994-2014 年间刊载在核心期刊的有关数字图书馆的相关研究论文,对论文的发表年代进行统计与分析。得出该研究领域不同时段的研究热点,以期发现我国数字图书馆研究主题的发展与变化规律。
2.数据来源与研究工具
2.1 数据来源
本研究以中国学术期刊网络出版总库作为数据来源,为了能够检索到准确、全面的论文,数据检索起止时间段设定为“不限”到“2014”。以“篇名”为检索项,采用“数字图书馆”作为主要检索入口词,分别组配“评价”、“评估”(组配逻辑为“与”)的方式进行检索。由于检索到的论文包含有会议通知、会议讲话、纪念文章以及与主题明显相关性不大的论文,在期刊的来源里面就只勾选SCI来源期刊、EI来源期刊、核心期刊和CSSCI,最后经过筛选以及去重,最后得到论文3390篇。
2.2 研究工具
具体分析时主要采用 Bicomb软件、Excel 软件作为主要研究工具。其中Bicomb共词分析软件采用目前技术成熟、流行的数据库语言开发,对CNKI的书目文献信息进行快速扫描,准确提取并归类存储、矩阵分析等等,为进一步研究提供全面、准确的基础数据,并允许用户对某些功能进行修改、增加等拓展,具有较强的适应性。
3.研究文献的形式特征可视化分析
文献特征,是指将不同文献区分开来的标志。它包括文献的内容特征和文献的形式特征。对研究文献的形式特征进行汇总性分析,有利于发现某一主题内的文献随时间的变化情况、核心作者群及核心来源等。
3.1研究文献的时间分布
科学文献的数量是衡量科学知识的重要尺度之一,本文着眼于整体的宏观的文献数量与比率的分布状况,通过文献的数量与比率的数据统计与计算,来描述和预测文献的数量、比率的发展状况,进而给出总体性的统计描述与结论。经过BICOMB统计,CNKI共收录了1994年至2014年3390篇论文,依照文献分布的年代次序,绘制成图1。
由图1可看出数字图书馆相关研究论文的发表数量总体呈逐步上升趋势。大致可分为三个时期:①1994-2000年,我国有关数字图书馆的研究已初见成熟。②2001-2003年,有关数字图书馆的研究发展缓慢。③2004-2006年,数字图书馆的相关研究已经进入快速发展时期。④2006至今,我国有关数字图书馆的研究论文的文献发文量则处于一个比较平稳的状态。
3.2研究文献的著者分析
我们在统计过程中采用正规计数法对论文著者进行著者分析,经统计,数字图书馆研究领域的3390篇论文共有3205位作者,见表1。
由表1可见,发表一篇论文的作者数占总作者数的81%,同时写两篇论文的作者为368人,这与洛特卡定律所描述的数据还存在差异,这表明在有关数字图书馆的研究尚未达到使用洛特卡定律的条件,也说明该领域的研究尚处于发展阶段,还没有形成稳定的核心作者群。从表1可以得出,发文量最多的著者论文数为32篇,m4.24,因此,根据普赖斯理论,可以认为,在数字图书馆相关研究领域,发文3篇及以上者为核心著者。
3.3研究文献的机构分析
利用BICOMB统计了全部作者的机构,现列举出发文量较大的部分高校,见表2。统计的结果显示,我国在图书馆相关文献的作者大多分布在高校和科研机构中,而且这些院校多为实力雄厚的综合型高校以及理工科高效,如武汉大学、兰州商学院信息工程学院等。
3.4研究文献的来源分析
根据BICOMB统计,3390篇论文共涉及发表在209种不同期刊上,现列举出部分数据,见表3。由此可发现,数字图书馆相关的论文分布比较集中,主要分布于与图书情报密切相关的信息管理类、情报学和图书馆学等学科期刊上。
4.研究文献的内容特征可视化分析
文献的内容特征常按照文献内容的学科分类或主题关系来描述。通常一篇文章的关键词是其核心内容的浓缩和提炼,是文献的精髓所在,能够较好地反映某一研究领域的主题分布与特点,可以体现出某一学科领域的发展方向,从而有助于发现该学科的范式特征。对研究文献的内容特征进行分析,能够把握某一领域的研究热点与趋势。
4.1高频关键词的统计分析
关键词是从论文的题名、摘要和正文中选取出来的,是对文章主题的高度凝练。某一关键词在文献中出现的次数越多,则表明该关键词所表征的研究主题是越热门的研究热点。因此,通过关键词的词频进行统计分析,高频关键词集中体现了某研究领域的研究热点和发展动向。由于不同作者对同一概念的关键词界定不同,为保证词汇的内容指向性以及语义规范性,需要对关键词进行规范化的处理,即对同义词进行合并处理。
4.2高频关键词的共词分析
如果仅对高频关键词进行统计,则无法看出这些关键词之间的关系,所以要进一步对高频关键词进行处理,通过关键词共现技术来深入挖掘它们之间的联系。
利用BICOMB软件共现矩阵功能统计其高频关键词在每篇论文中出现的频次,可以得到35*35的共现矩阵。下表是高频关键词共现矩阵的部分数据,其中,“0”表示该词在该篇文献中没有出现过,“1”表示该词在该篇文献中出现过。对角线上的数据为该关键词出现的频次。
5.结语
数字图书馆的研究是一个不断发展的过程,我国数字图书馆领域研究日趋成熟,也可能是随着研究的不断深化,出现新的分支研究领域。过去的20年中,数字图书馆的热点研究内容随着时间推移也出现了变化,以数字图书馆为主题的论文研究内容丰富多样。随着计算机网络技术的发展,必然会影响到传统图书馆的发展趋势。2000年以后,数字图书馆的概念逐渐清晰,虚拟图书馆等概念被数字图书馆取代,其相关研究结果表明数字图书馆的总体发展趋势基本上是按照数字图书馆资源建设、技术研发等主题为线索持续开展的,研究内容逐渐从数字图书馆建设构想过渡到技术实现及资源开发,再到资源共建共享、完善数字图书馆服务等方面。综上所述,数字图书馆研究论文内容的变化侧面反映出我国数字图书馆的建设已经从理论逐步走向实践。为用户提供个性化信息服务以及完善数字图书馆的资源共享共建、数字图书馆软环境建设及服务质量完善成为目前的研究热点。结合当前信息技术和网络技术发展最新成果,如云计算技术在数字图书馆共享共建研究中的应用也应该会成为今后的研究热点。(作者单位:华中师范大学)
参考文献:
[1] 中国数字图书馆[EB/OL].http://www.d-library.com.cn/wm/lsyg.html.
[2] 殷沈琴,张计龙,任磊.基于关键词共现和社会网络分析法的数字图书馆研究热点分析[J].大学图书馆学报,2011(4):25-30,38.
[3] 董伟.国内近十年数字图书馆领域研究热点分析———基于共词分析[J].图书情报知识,2009(5):58-63.
[4] 苏娜.基于共词分析的数字图书馆领域研究主题及进展分析[J].情报杂志,2009(6):15-19.