国内图情领域研究热点和趋势的可视化研究
2023-09-01李舒平何燕
李舒平,何燕
(1.合肥师范学院图书馆,合肥 230601;2.中国科学技术大学图书馆,合肥 230026)
1 研究理论基础
1.1 可视化分析
可视化是一种分析方法,主要应用于海量数据分析,可辅助人工操作将数据进行关联分析,并做出完整的分析图表。目前国内文献计量学领域主要的可视化分析工具是陈超美团队的CiteSpace 软件,主要用来分析外文数据库。本文利用中国知网系统自带的可视化分析,工具来对数据进行分析可以直接对中文文献进行可视化分析,但具有一定局限性,限定每次最多可对200 篇文献进行可视化分析。
1.2 文献引用与合作
引文概念最早来源于加菲尔德(James Abram Garfield),1963 年提出引文可以用来评价期刊文献的质量,尽管这一概念在实际使用过程中,由于引用的语言环境和引用主观因素等而存在缺点,就像加菲尔德本人评价的那样,尽管评价方法简单粗暴,但却能便捷的给出答案,目前仍然是重要的评价期刊和论文质量的有效方法。
1963 年,普赖斯(Price)[1]在Small Science,Big Science一书中率先提出科研合作的概念,并首先研究了无形学院的科研合作相关问题。美国社会学家Zuckerman[2,3]等的研究表明,如果科学活动处于快速发展阶段的话,那么科研合作无论是规模还是范围都将快速增加。持功能主义观点的学者Ziman[4]认为,科研合作被作为一种科研政策工具,奥尔森指出,两种情况下的合作,一方承担更多成本而开展的合作,原因是存在额外的选择性激励[5]。科研合作的动机多个层面:共享科研的设备、资金、治理和知识等类资源[6],使得科研资源能够实现优势互补,是当代大科学发展及学科交叉背景的必然趋势,这样也能巩固科学家之间的社会关系,建立更加牢固的科学共同体[7]。
1.3 关键词中心性
中心性是社会关系网络中非常重要的一个指标,而中介中心性通常指社会关系网络中位于任意两个点的最短距离上点,这个点通常能过控制其他点之间的联系程度。本文中的关键词中介中心性指利用中国知网检索的某篇高质量论文具有影响其他关键词的关键词,这种关键词往往具有核心关键词的作用。
2 国内图情领域二十五年研究热点和趋势的可视化的分析
2.1 数据样本采集
基于引文理论,如果一篇文献被引频次越高,表明该文献的质量越高。本文利用CNKI 中国知网数据库,按照影响因子从高到低顺序选取了9 种期刊。中国图书馆学报(综合影响因子:8.019)、情报理论与实践(综合影响因子:2.623)、图书情报知识(综合影响因子:2.795)、图书情报工作(综合影响因子:2.632)、情报科学(综合影响因子:2.430)、情报杂志(综合影响因子:2.310)、图书与情报(综合影响因子:3.264)、情报资料工作(综合影响因子:2.764)和现代情报(综合影响因子:2.435)。为了有效探究国内图书情报领域过去二十五年的前沿研究发展规律,本文以五年为一个时间段,从1998—2022年五个时间段进行选取高质量期刊论文,即选取每个时间段高被引频次的论文进行分析,检索时间段分别设定为1998.1.1—2002.12.31、2003.1.1—2007.12.31、2008.1.1—2012.12.31、2013.1.1—2017.12.31、2018.1.1—2022.12.31,同时由于利用中国知网自身的可视化分析功能,每次最多只能分析200篇文献,所以依次选取五个时间段被引频次排序前200 的论文,进行可视化分析,同时为了对同一个时间段的不同质量论文进行横向对比分析,进而选取了2018—2022年时间段被引频次为201~400 的200 篇论文,作为与同时间段被引频次排序前200的论文进行对比。
2.2 数据基本情况的可视化分析
对五个时间段的文献数和被引数等基本数据指标进行分析(见表1)。2003 到2007 年这个时间段的文献篇数最多,为15 294 篇;2018 到2022 年这个时间段的文献篇数最少,为8 356 篇;总被引数为2008 到2012 年时间段最高为35 807;总下载数2013 到2017 年最高为1 198 506;篇均被引数2008到2012 年时间段最高为179.04;篇均下载数2013到2017 年最高为5 992.53。从1998 到2022 年的25年间,下载被引比呈下降趋势,表明论文被下载下来之后,会被更加严格的进行筛选是否能作为研究参考依据。
表1 各时间段的基本指标分析表
2.3 来源、基金和机构分布的可视化分析
文章进而对9种期刊高质量论文的期刊来源分布、基金分布、机构分布等进行分析(见表2)。从表2中来源分布可见,高质量的论文里,《情报杂志》和《情报科学》这两本期刊占比最大,除了1998—2002年这个时间段,《中国图书馆学报》期刊占最大比重为49%之外,其他时间段几乎都是《情报杂志》期刊占比最大。
表2 来源分布、基金分布和机构分布
在基金分布方面,高质量论文主要来源于国家社会科学和自然科学基金资助项目的成果产出,而且从1998到2022年5个时间段有逐渐增加的趋势,占比分别为2.5%、8%、16.5%、21.25%、27%,2018—2022 被引频次201~400 的文献进行分析,基金占比更达到31%。从机构分布可知,武汉大学发表高质量论文具有学术共同体话语权的绝对优势。
2.4 作者合作网络分析
通过对图情领域25 年高质量论文的作者合作可视化数据进行分析,得到作者合作网络情况分析详见表3。从表3 可见,高质量论文的合作情况并不显著,每个时间段的合作组数都不超过10%,两个单位的合作组数不超过5%,三个单位的合作组数最高2008—2012 年时间段的3.5%。可见图书情报领域的高质量论文合作偏低,表明图书情报领域的资源分布不尽均衡,少数单位例如武汉大学、北京大学、南京大学等,这样的单位具有绝对的资源优势,掌握着话语权,很少需要其他单位的智力资源等的优势互补,而其他需要合作的单位由于不能提供资源互换的优势,导致难以与优势单位进行合作,加剧了该学科领域发展的马太效应(matthew effect)。
表3 作者合作网络情况分析
3 文献共引和关键词共现的可视化分析
3.1 文献共引网络分析
对图情领域9种期刊二十五年高质量论文文献共引网络数据进行可视化分析,得到文献共引网络分析表4,从中可见,共引的组数呈现逐段增加的趋势,分别为16 组、22 组、42 组、44 组和55 组。共引纯外文文献组数从2008—2012年时间段开始出现,并一直保持稳定。本组文献篇数和共引文献篇数都几乎呈逐段增加的趋势,自引形成的共引组数每段都很低,共引外文文献篇数从2008—2012年时间段开始有明显提升。
表4 文献共引网络分析
同时对五个时间段文献的被引频次分别进行排序,并把每个时间段被引频次最大节点的文献按照五个时间段的先后顺序从下往上进行排序,并整合成图1。从中可见,1998—2002 年参考文献最大的三个节点文献依次是《项目风险管理》(被引频次2 877)《传播学原理》(被引频次2 009)《生态学基础》(被引频次1 221)三本专著;2003—2007年参考文献最大的三个节点文献依次是《层次分析法引论》(被引频次6 743)《普通语言学教程》(被引频次4 533)《文献计量学》(被引频次2 162)三本专著;2008—2012 年参考文献最大的三个节点文献依次是《情感化设计》(被引频次6 134)Perceived Usefulness,Perceived Ease of Use,and User Acceptance of Informatin Technology(被引频次5 234)《网络共和国》(被引频次:4407)三本专著;2013-2017 年参考文献最大的三个节点文献依次是Econimic Action and Social Structure:The Problem of Embeddedness(被引频次6 326)期刊论文、Perceived Usefulness,Perceived Ease of Use,and User Acceptance of Information Technology(被引频次5 234)《CiteSpace 知识图谱的方法论功能》(被引频次5 144);2018—2022年参考文献最大的三个节点文献依次是Perceived Usefulness,Perceived Ease of Use,and User Acceptance of Information Technology(被引频次5 234)专著、Evaluating Strucrural Equation Models with Unobservable Variables and Measurement Error(被引频次:2 792)期刊论文、On the evaluation of structural equation models(被引频次2 713)期刊论文。
图1 五个时间段被引最大节点文献排序图
3.2 各时间段关键词总体分析
为了得到图情领域25 年研究热点和趋势的详尽信息,对可视化的关键词信息进行提取和分析整理,得到关键词共现网络分析表5,从中可见,1998—2002 年时间段,国内学者最关注的热点主要包括:信息资源和共享、信息技术和信息需求、知识管理、信息管理;同时也开始关注:信息计量学、统计分析、情报科学、情报学研究、引文分析;并关注围绕数字图书馆的知识管理;并随着网络服务的兴起,也开始关注“信息安全”相关问题。
表5 关键词共现网络分析
2003—2007年时间段,延续了前面五年1998—2002年的关注热点,“信息需求、高校图书馆发展趋势、信息资源共享及信息技术发展、信息管理”等问题依然是国内学者的研究热点;并且知识产权相关的“专利申请、专利文献、专利信息、专利权人”等问题开始受到学者的关注,并开始关注“图书馆员、工作满意度”,及“信息素质能力”相关问题。
2008—2012 年时间段,“专利信息、专利质量、专利权人”等问题持续被关注,同时引文分析和舆情分析成为当时关注的两大热点范畴。围绕引文分析开展的工作主要为“引文分析、共词分析;信息服务、信息需求、数字图书馆、用户服务”;围绕“舆情分析”开展的工作主要为“意见领袖、指标体系、影响因素”。
2013—2017年时间段,随着大数据时代到来的理论认知,国内学者开始关注数据模型、可视化分析和数字图书馆相关问题,网络舆情也依然是重要的关注热点,并且隐私保护等大数据时代出现的问题也被更多关注。同时跟网络伴生的在线课程和创客空间等也被关注。
2018—2022年时间段,人工智能以及智慧图书馆相关问题被广泛关注,各类突发事件、网民、舆情、社交媒体、意见领袖等方面的问题依然是研究热点。
3.3 关键词演变与趋势分析
3.3.1 技术本体串联的图书情报领域发展脉络
图书情报领域的发展受到大数据技术科学的重要影响,图书情报领域围绕信息相关技术出现了很多研究热点和主体。例如伴随信息技术,1998-2002 年数字图书馆开始被广泛关注,直到2018 到2022年智慧图书馆的被广泛关注,都表明计算机本身的技术发展直接影响了图书情报领域的发展趋势和走向。尤其是人工智能等新技术的兴起[8],更是为图书情报领域的发展提供了新的契机,将为图书馆发展提供新的动力和机遇,也是吸引研究人员关注的话题。
3.3.2 分析工具串联的图书情报领域发展脉络
在技术本体的发展基础上,出现了各种研究方法,其中最受关注和广泛利用的方法是文献计量学、引文分析及可视化分析方法,同时研究者主要通过Spss、Ucinet、CiteSpace 等分析工具软件对图书情报领域的研究热点进行分析[9]。通过以上方法和分析工具,图书情报领域的研究学者不断探测研究的趋势和热点,从2008到2017年的十年都是研究热点,传统的信息服务逐步趋向于转型为知识服务,并开始利用社交媒体工具服务于实践和探索研究。
图书情报领域利用分析工具开展学术评价,从时间发展角度大体分为三个层次的开展评价研究,第一个层面是文献评价,主要利用引文分析方法,对期刊、论文和专利等文献进行评价。第二个层面是科研评价:主要包括对研究机构、科研团队及科学家的创新水平和能力进行的学术评价,可以作为文献评价的延伸,丰富了图书情报领域的研究层面,也是近年来图书情报领域的研究热点。第三个层面是社会热点评价:主要关注政府等社会热点话题。
3.3.3 服务职能串联的图书情报领域发展脉络
1998-2002年阶段开始关注信息检索和数字信息问题,逐渐扩展到对信息检索相关联的信息计量学、情报科学等学科的关注,以及对用户数字资源建设与数据共享等相关问题的关注。基于技术和分析工具的发展,国内图书情报领域的服务方向也不断拓展。主要包括几个层面,第一个层面是面对图书馆用户的服务,利用不断更新的信息和计算机技术,深入分析用户的信息潜在需求,并不断完善图书馆和情报部门的资源建设和服务能力。第二个层面是服务教学科研发展,尤其是高校和科研院所的图书馆,能否服务好学校的教学和科研需求是对图书馆非常重要的考核指标,也是图书馆发展的基本职能,图书情报领域的专家也不断探索科研发展对图书情报的需求。第三个层面是服务政府,随着网络舆情、社交媒体和意见领袖等相关问题的研究成为国内学术界的新热点,图书情报领域专家学者对政府情报信息的关注度逐渐提升。[10]
4 结 语
本文对图情领域二十五年研究热点和趋势进行了可视化研究。1998—2022 年国内图书情报领域的研究不断拓展和深化,国内图情学科顺应科技的发展,在学科自身发展的同时,也不断提升服务能力,拓展研究方法,提升学科发展的广度和深度。从本文的分析可见,国内图情学科的关注热点越来越聚焦,马太效应的作用越发显著,具有优势的研究单位的研究能力越来越强,没有优势的研究单位越来越难以跟上发展的步伐。科研合作不显著,并以同地域的单位合作为主。
二十五年间,国内图情领域在资源建设基础上,主要朝着技术本体、分析工具和服务职能三个发展脉络进行发展演化,但各发展演化路径不是各自独立,而是相辅相成,促进图情学科的不断发展。