APP下载

我国图书馆学的主要研究热点、研究领域及趋势预测

2018-03-06杨利超

图书馆理论与实践 2018年1期
关键词:图书馆学图谱可视化

杨利超

(河南省图书馆)

1 引言

图书馆学主要是采用科学方法探讨与图书馆相关的内容,涵盖图书馆的发展与运营所需的各种知识,例如目录、出版、印刷、图书、图书馆、图书馆的组织与管理、数据采集和整理、阅览、外借、馆际合作与资源共享、图书馆与社会,以及图书馆学与其他学科之间的关联。[1,2]

学术研究文献是知识具体的产出之一,可代表某项研究主题的智慧结晶,若汇总一门学科领域研究者的研究主题文献,则可判断该学术领域的发展状况,并依据一门学科所产出的文献,来追溯该学科知识发展的历程。然而文献数量会随时间累积而呈现增长趋势,早期科学计量领域的学者往往花费不少时间,进行大量文献的分类工作,用以建立学科的演进过程,但判断多流于主观,而运用客观量化的分类方法,尤其当涉及跨学科(Multi-disciplinary)的研究领域时,则难以描述整体研究发展历程。随着计算机与网络技术的日新月异,学术文献已从纸本转变为电子化数据,充足便利的电子文献资源可大幅降低知识扩张的空间障碍,使知识得以广泛传播,被后人借鉴,电子化数据库已成为学者进行研究的一项有力工具。即便过去与现代在信息可得性方面存在极大差异,但在科学计量课题中仍保有共同的初始目标——揭示科学知识的发展历程。当今对于科学知识演进历程的研究已延伸至学术研究合作与引文网络现况、研究趋势和研究主题的扩散等课题,并辅以交互式的可视化图形,以展现研究领域的相互关联性及文献分布情形。[3-5]

目前我国在图书馆学领域尚无一套知识分类的准则与系统架构,有鉴于此,本研究拟对我国图书馆研究领域的文献进行分类研究。运用文献计量学方法,将图书馆学的相关文献绘制成知识图谱,呈现国内图书馆学领域研究的分类与分布情形,以有效统计文献、整理知识学术群聚,进而探索其知识发展历程,揭示近十年来我国图书馆学领域的主要研究热点和领域、这些研究领域的相互关联性及文献分布整体情形,并对未来的我国图书馆学的整体研究趋势进行预测。

2 文献回顾

欲剖析学科研究的趋势与定位,文献整合工作是极为重要的一环。本研究尝试通过科学计量学的相关理论对图书馆学研究领域文献进行系统化的整理,绘制其文献引文分布情形的可视化知识图谱。相关研究的重点包含科学计量方法、引文分析方法以及对特定科学领域进行实证案例分析等主题。鉴于本研究以图书馆阅读推广研究领域为研究范畴,故本节对图书馆学研究领域的文献计量分析进行回顾和整理。

欧美等国家早在20世纪30年代,已经利用期刊文献的引文分析法来探讨图书馆学产生的文献特性。在后来的研究中,W.M.Barnard使用引用文献分析法,对多种图书馆学期刊加以分析,用以了解这些文献的特性。研究结果显示,在进行文献引用时,期刊的引用频率高于图书,在被引用的期刊中超过半数以上集中于10种核心期刊。[6]C.A.Bolles在其研究论文中发现,[7]在引用文献类型方面,图书被引用比例占50%以上,期刊占42.57%;在引用语种方面,英文文献被引用比例高达97.14%。B.C.Peritz分析了图书馆学核心期刊所刊登的论文,探讨图书馆学研究发展状况。[8]C.O.Frost针对39种图书馆学的核心期刊论文进行引用文献分析,用以了解所使用的研究方法、研究主题、参考文献篇数以及各年份的变化走向,研究发现平均每篇论文引用7.4篇参考文献,其参考文献的主题则是以图书馆学与信息科学为主,占78%,由此可看出图书馆学领域的自我引用比例相当高。[9]另外,716篇期刊论文所采用的研究方法中,以调查法、信息系统设计及历史研究法三种为最常使用的研究方法。

国内对于图书馆学的文献研究始于20世纪80年代。近三十年来在各研究机构以及学者专家的努力之下,对于图书馆学的文献研究已经初具规模。丘峰等人以图书馆学与情报学共20种期刊作为研究对象,分别进行引文概况、学科、文献类型、语种、年代、自引和互引内容、图书馆与情报学科的差异等项进行统计与分析。[10]熊润芝对58种与图书馆学相关的中文期刊进行引文分析研究,对引文量、引文类型、语种、著者、被引频次等做了统计、分析与评价,从统计数据中看出,图书馆学的文献引用率逐年上升。[11]侯锦权[12]等人针对我国1991-2000年图书馆学期刊的发表论文及引文做统计分析研究,主要包括20种图书馆学情报学期刊,共计52期,1,330篇文章。研究发现,图书馆学和情报学期刊的引用比例上升最快,图书馆学从最初的12.8%上升到33.1%,情报学从最初的30.7%上升到66.7%。而在引文文献类型方面,图书引文比例下降至33.9%,期刊的引文比例则上升到60.5%。这表明我国图书馆学研究领域越来越重视引文的作用。

综合以上的文献回顾可以发现,目前国内外对于图书馆学领域方面进行了大量的研究,但针对图书馆学领域可视化的研究较少。[13]为此,本文将知识可视化引文网络分析工具CiteSpace引入图书馆阅读推广研究领域,文献回顾发现当今科学计量领域引文分析研究已成基础,其中共被引分析可有效展示学科关键文献分布情形以及前瞻研究学术群聚的现况。故本研究尝试以CiteSpace进行实证分析,聚焦至我国图书馆学的研究热点领域及未来研发趋势,提供良好的互动工具和实时可视化网络呈现方式,从而深入挖掘学术群聚现况,建立客观评鉴指标架构。

3 研究方法

本研究针对科学计量与知识领域可视化的问题,以科学计量学理论与引文分析理论为基础,通过可视化知识图谱来呈现图书馆阅读推广领域相关研究文献之间的关联性与演进历程,绘制可视化图形。具体研究过程涉及诸多算法,且需辅以相关统计软件完成图谱,如词频算法、文献向量相似度计算、径路搜寻算法、社会网络分析中心度与中介度之衡量计算等,运用软件执行运算后绘制出知识图谱。

3.1 知识图谱绘制流程

可视化的目的在于通过图像的视觉效果来显示大量资料下的隐含信息,将资料以可视化的方式呈现,能直观了解资料的特性。欲对学术领域绘制知识图谱,需通过信息检索搜集大量的文献数据资料,经过筛选剔除、相似度计算后,才能呈现在知识图谱上。当今许多信息可视化领域之研究,就是利用信息检索者数据模式(User Meta Model)来绘制可视化的数据图形。

信息检索者数据模式首先要删减需计算的文献数量,通过信息检索结果、摘要关键词数据或是筛选剔除无关文献数据,而后迅速进行计算并产生结果。此模式包含检索结果及其文献属性数据,如作者、标题、关键词、期刊名等,皆可作为知识图谱的分析节点单位。信息检索结果数据也常转换成矩阵数据,透过引文次数、关键词共现次数等方法,展示知识图谱。信息检索者数据模式与知识图谱或可视化图形的产生具有高度关联性。根据Borner等学者提出之知识领域可视化程序可知,知识领域可视化的绘图通常包含六个一般性的连续步骤程序:① 资料选取;② 定义分析单位;③ 选择测量方式;④ 计算单位间相似性程度;⑤ 分类单位间彼此合作交流的分布情形;⑥ 利用可视化工具辅助分析并诠释。流程中步骤④与步骤⑤常整合为单一个操作,也可称作数据布局(Data Layout),用以描绘资料分布情形。[14]

图1 文献于向量空间上之表现示意图

3.2 词频算法

信息检索过程中使用的关键词有两类,一种英文简称DE(Description),也称作作者关键词(Author Keywords),即作者本人自己列出的研究关键词;另外一种是ID(Identifier),也称作增补关键字(Keywordsplus),此类主题词是通过ISI在参考文献中进行标题选择而来。此种方法产生的关键词具有客观性,是建立在计算机算法基础之上的。本文将对主题关键词进行实证分析。[15]

每一篇文献都由许多词汇所组成,因此可以找出具有代表性的词汇组成文件向量,文件向量常用来指代向量空间上的文章。词汇表示其在空间中的维度。而每一个词汇则表示空间中的一个维度,维度的值用来表明文件在此维度的重要性,所以当两文献相似时,在空间上的向量也比较接近。每个词汇对于不同的文献有不同的重要性,此时即可以利用[词汇权重]来做为重要性衡量的指标。图1为三维的向量空间模型,空间上有三个空间向量(D1,D2,D3),即三篇文献,每一篇文献由三个不同的索引词汇(T1,T2,T3)所组成,因权重值的不同,在空间上的位置也不同。

用矩阵方式来表示一文件即为Di=(Wm1,Wm2,Wm3,…,Wmn),则有m篇文件、n个索引词汇的[词汇-文件矩阵]为下列矩阵所示,其中,Wmn表示第n词汇于第m篇文件中的权重。

在词汇权重的计算上,有三个重要的因素会影响其结果。① 词出现的频率:某一词出现在一文件中的次数越多,表示该词与该文件越相关。② 词的特殊性:某一词在文件集合中所出现的文件数。当某一词在文件集合中出现次数越高时,相对于某一篇文件的重要性越低。③ 文件长度:当文件越长时,相对来说某一词出现的次数也较多。因此,文件的长短会影响词在各文献权重大小,所以必须适当考虑文章长度标准化。

单一文献中如果某一词出现频率高,则表示对该文章越具代表性,其权重值越高。然而在文章集合中,皆出现某一字词时,却不具太大的代表性,因此,组合TF与IDF的权重计算方式,如果一词汇在某文章出现频率越高,但其他文章集合出现次数少时,其拥有较高的权重,公式如下

Wij为词Tj在文章Di中的权重,tfij为词Tj于Di中出现的次数,dfi为词Tj在文章集合N中,具有Tj的文件数,N为一文章集合。

为了避免一个词汇出现于所有所收集文件中时,导致该词汇权重为0的状况发生,笔者采用标准化公式导入CiteSpace软件中的学术群聚卷标计算功能,其公式如下所示

计算完词汇权重后,即可形成文献的向量空间模型,用来进行文献之间以及文献与类别之间的相似度比较。由于可将每一篇文章视为一个空间当中的向量,因此文章之间的关系可以利用空间向量中的cosine函数来计算出文章之间的相似程度。利用这样的计算方法来分类文件群聚,以新的文献与类别之间的相似度为标准,判断文献是否与该类别相似度够高而被分入该群聚当中。最后可呈现知识图谱上的学术群聚状况。文献相似度之余弦定理计算公式如下所示

Wik,Wjk分别表示文件di和dj中第k个关键词的权重。

3.3 CiteSpace知识图谱分析软件

文件数据和共被引分析采用CiteSpace软件进行处理,该软件是专门用于探测学科学数群聚现况与知识前瞻研究趋势的应用软件。CiteSpace由Drexel大学ChaomeiChen学者在2003年开发,其主要目标就是利用可视化技术,辨别学科领域中新兴突起研究议题和学术群聚,应用功能包括共被引分析及基于共被引文章和引用这些文章关键词的复杂引文网络的群聚分类,从题目、摘要中撷取主题关键词作为的信息卷标。[16]

CiteSpace可以提供2项基础功能:① 利用引文网络,识别学科领域发展中的重要路径;② 识别学科领域发展中的关键节点。CiteSpace定义的知识图谱的关键点是指连接各个不同群聚网络的节点(见图2):Landmark node代表高被引的节点,Hub node代表连结广度高、共被引次数高的节点,Pivot node代表链接两个群聚网络的共同关键节点。

图2 CiteSpace绘制共被引知识图谱之节点类型

基于以上的优势,本研究采用CiteSpace软件作为知识图谱分析软件,将人工筛选的相关文献数据转换成Excel矩阵格式,绘制知识图谱进行数据分析,如中心性分析、中介性分析和学术群聚分析等。

4 研究分析结果

本节基于科学计量学的引文分析理论,结合知识图谱的建构流程,以图书馆学研究领域为基础,通过数据搜集、数据分析、数据处理、知识领域可视化等途径,进行实证研究。

4.1 数据来源

本文以中国知网数据库为数据源,搜索方式采用主题搜索,对“图书馆”、“公共图书馆”以及“文献分析”等关键词进行组合检索,选取时间从2007年1月1日开始到2016年12月31日为止,总共检索到1,683篇文献,经过文献比对,剔除会议以及年代老旧的文章后,最终有1,213篇入选分析样本。

4.2 结果分析

4.2.1 论文发表趋势分析

通过发表趋势的分析,可以了解目前该领域的研究现状以及未来发展的趋势,从而更好地分析该领域论文的总体研究进展情况。从图3中可以发现,图书馆学领域的研究文献在2007-2010年处于萌芽期,文献发表数量基本不变,处于短暂的积累期;2010年之后,图书馆学领域的研究论文数量呈现快速上升的态势,这与前几年的积累有重要关系,同时与近年来图书馆信息化建设规模和速度加快有关。但随着近年来图书化信息化建设速度的饱和及放缓,2016年的文献发表数量相较2015年有所降低。

图3 国内图书馆学研究领域的论文发表趋势分析

4.2.2 论文发表机构分析

在对图书馆学领域的研究论文发表趋势进行分析后,进一步对这些论文中的发表机构进行分析,本文选取前10名的论文发表机构进行分析。图书馆学领域的研究较为活跃的论文机构为中国国家图书馆、武汉大学、北京大学、南京大学、山东大学等,其中中国国家图书馆在该领域的论文发表数量为51篇,武汉大学在该领域的论文发表数量为45篇,北京大学紧随其后,共有42篇文献发表在该领域,可见这些机构在图书馆学领域的雄厚研究实力以及高校在这个领域的绝对研究实力(见图4)。

4.2.3 文献来源结构分析

进一步对图书馆学研究领域的论文来源进行结构分析。目前,图书馆学研究领域论文的杂志主要来源为《图书情报工作》(109篇)、《中国图书馆学报》(56篇)、《国家图书馆学刊》(40篇)、《图书馆杂志》(34篇),基本都是以图书情报学领域为主。从学科角度来看,位居前列的领域为图书情报和数字图书馆,共计1,154篇,其他学科分布的数量很少,为数不多的分布在出版(47篇)、计算机软件(32篇)以及高等教育(31篇)等领域,显示了图书馆学领域文献发表的集中度较高。

4.2.4 主题关键词共现网络分析

在对图书馆学领域的论文发表趋势、发表机构以及来源杂志及学科进行分析后,为了进一步挖掘图书馆学领域研究的内在关联性,本文选择知识图谱CiteSpace软件中的关键词频分析以及共现网络分析,深入挖掘图书馆学领域研究文献的内在关联性。图书馆学研究领域的论文关键词主要集中在图书馆学(314篇)、情报学(120篇)、图书馆(101篇)、文献学(40篇)、文献计量(39篇)等方面(见图5)。进一步对关键词进行共现网络分析可以发现,“情报学”与周围关键词的连接最多,并且各连接分支线条较粗,显示较多的文献关联;同时,“图书馆”和“文献计量”这两个关键词也是网络的关键点,与周围关键词连接较多,显示这些领域的研究最多,为热门研究领域,并且随着时代的进步,以“数字图书馆”和“知识管理”等关键词的图书馆学的研究也逐渐兴起。另外,从关键词共现网络分析图中可以发现,“知识图谱”和“引文分析”这些领域也存在互相关联和融合,代表这些领域也将是未来的研究热点。

图4 国内图书馆学领域的研究文献发表机构分析

5 总结与展望

5.1 总结

本研究采用引文分析的方法,通过引文数据库检索文献数据,采用CiteSpace绘制出的共被引知识图谱有效地呈现图书馆学研究领域的动态发展及演进历程。

(1)图书馆学领域的论文在2007-2010年处于萌芽期,文献发表数量基本不变;经过短暂的积累期后,图书馆阅读推广的研究论文数量呈现急速上升的态势,这也与近年来图书馆信息化建设规模和速度加快有关;但随着近年来图书化信息化建设速度的饱和及放缓,2016年的文献的发表数量有所降低。

(2)图书馆学的研究机构主要以高校为主,显示了高校在这个领域的绝对研究实力。通过进一步对图书馆学研究领域的论文来源进行结构分析发现,图书馆学领域文献发表的集中度较高。

(3)对图书馆学研究领域的关键词进行共现网络分析可以发现,情报学与周围关键词的连接最多,并且各连接分支线条较粗,显示较多的文献关联。同时,图书馆和文献计量这两个关键词与周围关键词连接较多,显示这些领域的研究较多,为热门研究领域。

图5 图书馆学研究领域论文的主要关键词分析

5.2 展望

学科演进历史与知识管理是一项长期性的工作,目的在于寻找学科发展的逻辑与群聚现象。笔者为高校图书馆和公共图书馆未来的阅读推广研究的趋势作如下分析及建议。

(1)本文针对图书馆学领域进行深入地文献分析及挖掘,但研究范围仅限于我国,并未对全球的发展趋势做进一步分析。未来在该方面的研究应该在全球范围内对图书馆学领域的研究现状进行分析,这样才能更加全面准确地把握该研究领域的文献整体研究趋势。

(2)本文在图书馆学研究领域的文献分析中,并未对文献数据与知识产出影响力进行评估。建议未来学者通过同行评鉴及专家评鉴等方式,对该领域的学术影响力进行研究,从而增加文献研究的客观性及实用性。

[1]毛赣鸣.图书馆知识资本构成及其价值转移机制研究 [J].图书情报工作,2016,39(7):77-81.

[2]李文兰,杨祖国.中国情报学期刊论文关键词词频分析 [J].情报科学,2015,38(1):68-70.

[3]马世杰.《图书馆工作与研究(1991-2006)》论文关键词统计分析[J].图书馆工作与研究,2008,46(1):101-105.

[4]张新兴.2000-2006年我国基于本体的信息检索研究论文定量分析 [J].情报科学,2013,48(7):1016-1021.

[5]叶鹰.图书情报学前沿研究领域选评[J].中国图书馆学报,2016,39(4):63-70.

[6] W M Barnard.Exploring internal stickiness:Impediments to the transfer of best practice within the firm[J].StrategicManagementJournal,2016,48 (17):27-43.

[7] CABolles.Understandingtheinfluenceoforganizational change strategies on information technology and knowledge management strategies[J].Decision SupporSystems,2011,31 (1):55-69.

[8] B C Peritz.Motivations for academic web site interlinking:Evidence for the web as a novel source of information on informal scholarly communication [J].Journal ofInformationScience,2013,29 (1):49-56.

[9] C O Frost.Why do web sites from different academic subjects interlink [J].Journal of Information Science,2013,29(6):453-471.

[10]丘峰.1996-2005年SCI-E数据库中数字图书馆研究文献定量分析[J].情报科学,2015,38(12):16-23.

[11]熊润芝.图书馆学文献分析[J].中国图书馆学报,2011,37(3):40-50.

[12]侯锦权.基于共词分析的国外图书馆学情报学领域研究现状探析[J].情报杂志,2011,30(11):37-41.

[13] Zhao Dangzhi,Strotmann A.Counting first,last,or all authors in citation analysis:A comprehensive comparisoninthe highly collaborative stem cell research field [J].Journal of the American Society For Infor mation Science and Technology, 2011,62(4):654-676.

[14]苏新宁.图书馆情报与文献学研究热点与趋势分析——基于CSSCI的分析[J].情报学报,2016,53(6):373-383.

[15]邱均平,等.2002年国内外情报学发展动向分析[J].情报学报,2013,46(5):12-18.

[16]邱均平,李星星.近十年来我国图书馆知识管理研究论文的统计和分析[J].图书馆,2012,39(2):71-74.

猜你喜欢

图书馆学图谱可视化
基于CiteSpace的足三里穴研究可视化分析
思维可视化
绘一张成长图谱
基于CGAL和OpenGL的海底地形三维可视化
“融评”:党媒评论的可视化创新
补肾强身片UPLC指纹图谱
主动对接你思维的知识图谱
中国比较图书馆学发展探究
广西图书馆学会2013年年会暨第31次科学讨论会在贵港举行
广西图书馆学会2012年年会暨第30次科学讨论会在南宁举行