基于学科结构图谱的图书馆学科分析服务
2019-09-11
“双一流”建设背景下,图书馆作为高校教学与科研的重要支撑服务部门,应不断引入新理念、新方法、新技术,加快服务转型升级,发挥自身优势,提高服务能力,深度参与到学校“双一流”建设中去[1]。作为学校的文献资源中心,高校图书馆亟需转变传统服务定位,进一步整合资源与技术、拓宽服务内容、创新服务模式、延伸服务领域;作为学校的智库,在学科建设方面提供学科分析、科研评价、资源保障等服务[2]。高校“双一流”建设的核心在于学科建设,因此要求高校图书馆的发展建设应以学科服务为核心,一流学科的建设需要一流的学科服务[3]。
在图书馆传统服务转型的今天,各高校图书馆都在学科服务领域进行了大量探索和创新,形成了各具特色的学科服务内容[4-6]。近年来,随着ESI、InCites、CiteSpace、Innograph等专业数据库和平台工具的发展,基于ESI(Essential Science Indicators)学科分析和专利信息分析的学科竞争情报服务获得了广泛关注,基于共被引、关键词共现等聚类分析技术也得到了广泛应用[7]。
随着高校图书馆纷纷建立机构知识库,基于学科分类的文献计量分析也逐渐成为图书馆新的服务模式,但高校图书馆提供学科情报分析服务尚处于起步阶段,总体来说不够深入,学科服务的内容比较简单,服务形式比较单一,如对标文献计量分析,鲜有针对具体学科内容开展满足发展需求的知识情报服务[8]。
此外,在学科资源的保障方面,当前仍主要依据学科分类购买数据库资源,但随着学科交叉融合的趋势越来越明显,学科发展不再只靠单一学科领域的资源支持。各数据库资源利用统计大都基于整体利用情况分析,资源重叠、重复计算问题突出。学科资源建设需要更具针对性、精准化的资源利用分析服务,更多地考虑本机构学科发展和科研活动的需求,而不是仅依靠学科分类或整体利用率的高低决定是否购买数据库,从而使学科资源建设更契合本机构科研人员的实际需求。
2017年,首都医科大学(以下简称“我校”)图书馆承担了中国科协委托的“生命科学领域前沿跟踪研究”之“脑科学前沿跟踪研究课题”,笔者参与了其中的脑科学前沿发展态势分析工作,初步将科学结构图谱方法应用于具体的学科情报分析中。此后我校图书馆还为本校及附院的临床医学、口腔科学、妇产科学等多个学科提供了具有针对性的学科分析服务。本文整合以往的学科服务工作经验,并进一步深化学科分析内容,以期为图书馆学科服务的内容优化提供参考建议。
1 基于学科结构图谱的学科分析服务
学科结构图谱也称“学科知识图谱”,指结合传统文献计量和现代文本挖掘、信息处理、复杂网络及可视化等方法技术,综合分析特定学科研究前沿中的热点、重点研究方向及其之间的关联关系与发展进程的方法[9-10],国际上通常用于绘制全领域的科学结构图谱,以分析不同科学领域研究前沿的交叉融汇演化趋势[11]。科学结构图谱在科技情报研究中应用广泛[12],尤其在日本的应用已经十分成熟[13-15]。中国科学院王小梅团队对科学结构图谱进行了比较深入的研究,先后发布了4期全领域的科学结构图谱[16-19],引起了国内外的广泛关注。
基于学科结构图谱的学科分析服务,可以根据服务对象的具体需求,深入揭示和关联分析某个具体学科的研究热点、重点及其内在关系,并进行知识化、可视化呈现,有助于快速识别学科热点前沿方向及重点研究主题,把握该学科的发展态势,追踪国家或机构的研究动态变迁过程,掌握不同国家或机构在该学科领域的发展优势和潜力,从而辅助科研工作者确定未来研究的发展方向,为决策者制定学科发展规划和战略部署提供支撑服务[20],有利于高校图书馆充分利用资源优势,在“双一流”建设中发挥更重要的作用。
2 基于学科结构图谱的学科分析方案设计
ESI是目前世界范围内普遍接受的学术评价指标工具,被广泛应用于高校和研究机构的科研评价分析。本文以ESI数据库中学科领域研究前沿(Research fronts)包含的核心文献(Top paper)及其施引文献(Citing paper)和参考文献(Reference)为数据基础,制定学科分析服务方案(图1),具体分析内容包括学科发展前沿分析、学科影响力分析、学科发展态势分析、学科资源保障分析等4个方面。
2.1 学科发展前沿分析
2.1.1 研究热点
利用每个研究前沿包含的核心文献和施引文献集,基于研究前沿的共被引关系进行聚类。不同研究前沿之间共被引次数越多关系越紧密,共被引的研究前沿数量越多表明涉及的研究数量越多、范围越广,因此由共被引聚类形成的研究前沿集群可以代表该学科的热点前沿方向。
2.1.2 研究重点
提取某一学科领域每个研究前沿的主题词、关键词并进行共现分析。共现主题词越多的研究前沿之间关联度越强,主题词、关键词出现的不同研究前沿个数越多、词频越高,表明其在该学科涉及的研究范围越广、重要性越强,从而获取该学科前沿的重点研究主题及其之间的关联关系。
2.2 学科影响力分析
2.2.1 前沿引领度
每个学科研究前沿包含的核心文献均为该领域的热点论文或高被引论文,是该学科的高影响力论文,因而国家或机构在某个学科领域发表的核心文献所占比例在一定程度上可以反映该国家或机构在该学科的引领度。
2.2.2 前沿参与度
研究前沿的施引文献包含所有引用了该研究前沿核心文献的文献,正是施引文献的广泛引用形成了核心文献,大量施引文献参与研究最终形成了研究前沿,因而施引文献所占比例可以反映一个国家或机构在该学科研究前沿的参与度。
图1 学科分析服务方案设计
2.2.3 前沿贡献度
被引文献是指被研究前沿中核心文献所引用的参考文献,被引文献无疑对该研究前沿的形成具有不可磨灭的贡献,因而被引文献占比在一定程度上可以体现某个国家或机构在该学科领域的贡献度。
2.3 学科发展态势分析
2.3.1 前沿覆盖度
通过分析某个国家或机构发表的学科前沿核心文献、施引文献在学科各热点研究方向和重点研究主题中的分布情况,即发文主题词、关键词在该学科领域内研究热点和研究重点中的分布情况,可以揭示这个国家或机构在该学科领域研究前沿中的覆盖度,展现其学科发展优势。
2.3.2 前沿活跃度
对某个国家或机构发表的学科前沿核心文献、施引文献及其主题词、关键词进行时序分析,可以呈现这个国家或机构在该学科领域研究前沿中研究主题或方向随时间变化的情况,反映这个国家或机构在该学科领域研究前沿中的活跃度,展现其学科发展态势。
2.4 学科资源保障分析
分别按学科分类和前沿相关两种方式统计本机构已购买的学科资源覆盖率,前者按WoS学科分类,分析某学科领域的期刊资源中本机构已购买的比例;后者根据某学科领域核心文献及其施引文献和参考文献所发表的期刊合集,即与研究前沿相关的期刊合集,统计本机构已购买的比例,反映本机构对该学科资源的保障情况,从而作为优化资源建设的参考依据。
3 神经科学结构图谱实证案例分析
本文以神经科学为例,绘制神经科学领域的学科结构图谱,揭示全球范围内神经科学领域的研究前沿热点和重点方向,分析我国和我校在该学科领域所处的学术地位及发展态势,以及我校在该学科领域的资源保障情况,验证基于学科结构图谱的学科分析服务可行性。
以ESI研究前沿为数据源(截止2017年10月9日),提取2012-2017年神经科学与行为学领域的497个研究前沿;利用WoS平台检索下载该领域研究前沿包含的2 304篇核心文献及其施引文献集和参考文献集;利用Python实现关键词抽取、同被引聚类、关键词共现等文本挖掘分析,绘制全球视野的神经科学结构图谱;利用Gephi软件可视化呈现2012-2017年全球神经科学领域的热点研究方向及其内在关系,分析该学科领域研究实力最强的10个国家及我国在该领域最强的10个研究机构所处位置,以及我校在该学科领域的表现及资源保障情况。
3.1 全球神经学科领域的发展前沿分析
3.1.1 研究热点
基于研究前沿的共被引关系进行聚类得到该领域研究热点分布及其之间的关联关系(图2),经判读可知“中枢神经系统”“阿尔茨海默病理”“脑功能网络”“帕金森病理”“自闭症”“中脑”等是该领域的主要研究热点集群。
图2 神经科学与行为学领域研究热点分布
3.1.2 研究重点
基于研究前沿之间的共词关系进行聚类,获取该领域10个重点研究主题及其之间的关系图谱(图3)。
图3 10个重点研究主题及其之间的关系图谱
其中“阿尔茨海默病”“帕金森病”和“Meta分析”是三大最重要且关系最紧密的研究主题,可见Meta分析方法在阿尔茨海默病和帕金森病研究方面应用广泛。从图3中不但可以看出Meta分析多应用于自闭症谱系障碍(autism spectrum disorder)研究,而且可看出224号研究前沿是多个研究主题的交叉点。经判读该研究前沿的研究主题是有关脑疾病治疗药物的研发,如利拉鲁肽(Liraglutide)等属于交叉研究主题。
根据关键词出现的研究前沿个数,总结神经科学领域的研究重点关键词。图4展示了出现在10个以上研究前沿中的关键词,标签越大出现的频次越高。
从图4可知阿尔茨海默病(Alzheimer’s disease)、帕金森病(Parkinson disease)、自闭症谱系障碍(Autism spectrum disorder)、磁共振成像(Magnetic resonance imaging)、肌萎缩侧索硬化症(Amyotrophic lateral sclerosis)、神经退行性疾病(Neurodegenerative disease)、重度抑郁症(Major depressive disorder)、前额叶皮质(Prefrontal cortex)、脑脊液(Cerebrospinal fluid)、精神分裂症(Schizophrenia)等是该领域研究前沿的重要关键词,代表该领域的重点研究主题。
图4 神经科学与行为学领域的研究重点关键词云
3.2 神经科学领域学科影响力分析
3.2.1 引领度
以该领域研究前沿的核心文献所占比例进行国别或机构对比分析。图5展示了神经科学领域发表核心文献数量最多的10个国家及其所占比例。美国在该领域处于绝对的引领地位,参与了近2/3核心文献研究,中国排在第12位,仅参与了4.82%的核心文献研究。图6展示了中国发表核心文献数量最多的10个机构。其中首都医科大学发表4篇,排在第11位。
3.2.2 参与度
以该学科领域研究前沿施引文献的所占比例进行国别或机构分析。图7展示了引用神经科学领域核心文献最多的前10个国家及其施引文献所占比例。美国在该领域的参与度也遥遥领先,中国在该领域的参与度位居前列,排在第4位。图8展示了中国引用核心文献最多的10个机构,首都医科大学排在第3位。
图5 研究前沿核心文献排名前10的产出国
图6 研究前沿核心文献中国排名前10的产出机构
图7 研究前沿施引文献排名前10的产出国
图8 研究前沿施引文献中国排名前10的产出机构
3.2.3 贡献度
以该学科领域研究前沿引用的参考文献所占比例进行国别或机构分析。图9展示了被引文献最多的前10个国家及其所占比例。美国在该领域的贡献度依然最高,中国在该领域的贡献度位居前10,排在第9位,占比3.81%。图10展示了中国被引文献最多的10个机构,首都医科大学排在第6位。
图9 研究前沿参考文献排名前10的产出国
图10 研究前沿参考文献中国排名前10的产出机构
3.3 神经科学领域发展态势分析
3.3.1 覆盖度
分别统计分析中国和首都医科大学在神经科学领域发表的核心文献在该领域研究前沿中的分布,结果显示中国在该领域参与研究的核心文献覆盖了69个研究前沿(图11),在该领域的497个研究前沿中仅占13.88%。其中“472”“223”“038”“052”“132”“367”“356”等几个研究前沿节点的出入度较高,即关联的研究前沿数量较多,覆盖范围较广。经判读其研究主题分别是“大脑功能连接”“背根神经节”“复杂神经精神障碍”“重度抑郁症”“帕金森病”“前额叶皮质”“神经退行性疾病”等,说明我国关于这些主题的研究较广泛深入,具有一定的国际影响力。
首都医科大学参与的核心文献研究仅覆盖了“188”“495”“097”“378”4个研究前沿(红圈标记),经判读其研究主题分别是“原发性抑郁症”“脑卒中后星形胶质细胞中线粒体的转移”“重度抑郁症的分子机制”“图雷特综合症”。此外,中国作者在该领域参与的施引文献研究覆盖了478个研究前沿,覆盖率达到96.18%,可见我国虽然在该领域参与的核心文献覆盖度较低,但施引文献覆盖度很高,说明我国科研人员近年来广泛参与神经科学领域各研究前沿方向的研究,具有一定的发展潜力。首都医科大学参与的该领域研究前沿施引文献覆盖了216个研究前沿,覆盖率为43.46%,国内排在第4位。
图11 中国在神经科学与行为学领域的研究前沿主题关系图谱
3.3.2 活跃度
图12利用可视化工具TimeFlow呈现了中国发表在神经科学与行为学领域的核心文献关键词在时间尺度上的分布情况,节点大小描述关键词出现在不同核心文献的篇数多少。从图12可以看出,我国近2年在“重度抑郁障碍”“阿尔茨海默病”“静息态功能磁共振成像”等方面研究比较活跃。调节下方时间尺度控制栏,可自由切换至不同年份区间,显示不同时间段的研究热点关键词;鼠标悬停在关键词节点可以查看该关键词所属的核心文献、研究前沿等详细信息,因此可以比较快速地把握我国在该领域的研究热点随时间变化的情况。如2012年的“阿尔茨海默症(Alzheimer’s disease)”、2013年的“重度抑郁症(Major depressive disorder)”、2014年的“静息状态功能磁共振成像(Resting-state FMRI)”、2015年的“大脑功能性连接(Functional connectivity)”、2016年的“脑保护(cerebral protection)”、2017年的“帕金森病(parkinson's disease)”等均是对应年份的重要研究方向。
采用类似方法技术,还可对施引文献的关键词进行可视化呈现,从而预判某个国家或机构在该领域的发展潜力方向。
图12中国参与神经科学领域研究前沿核心文献的关键词时间分布
3.4 神经科学领域资源保障
我校图书馆当前的资源建设主要侧重于医学类资源的保障(表1)。从表1可以看出,依据WoS学科分类统计神经科学领域期刊资源中我校已购买的比例,覆盖率达79.76%。但根据该学科领域核心文献及其施引文献和参考文献所发表的期刊合集统计我校已购买的比例,覆盖率仅达到51.28%,远低于通过学科分类统计得到的覆盖率。因此根据科技文献在不同学科领域的引用轨迹和科研人员的真实引用情况优化资源建设方案,能够切实提高资源建设对科研活动的满足率。
表1 首都医科大学神经科学领域期刊资源保障情况
注:“*”代表研究前沿相关的核心文献、参考文献和施引文献所发表的期刊去重之后的合集
4 结语
本文基于首都医科大学图书馆学科服务工作的实践经验,总结提出的学科分析方案不仅涵盖了当前主流的学科分析内容(如核心文献和施引文献的计量分析),还将核心文献的参考文献纳入分析范围,更充分地考虑了知识的演变历程和历史贡献;不仅对学科领域研究重点、热点进行挖掘,还揭示了它们之间的关联关系及时序演化,通过可视化呈现不同时期的学科研究主题变化;不仅对学科领域文献进行了计量统计,还针对文献内容进行了深入挖掘和分析,并分析了本机构在该领域的研究覆盖度、活跃度等发展态势;不仅通过学科分类资源统计,还通过学科领域核心文献及其施引文献和参考文献所发表的期刊合集分析本机构已购买资源对研究前沿相关文献的覆盖率,充分揭示学科现有资源保障的不足,为后续资源建设提供精准优化建议。
本文的部分内容结合专家解读已整合在研究报告《生命科学领域前沿跟踪研究——脑科学》中并呈交中国科协,它将服务于中国“脑计划”决策者。本文采用的部分方法技术也已应用于本校及附院的学科分析服务中,为本机构学科评估、科研管理、学科发展等提供知识情报服务,说明基于学科结构图谱的学科服务具有可行性和实践意义。
“双一流”建设目标对高校图书馆学科服务提出了更高更深的要求,图书馆必须深化学科服务、创新服务模式,才能更好地适应这一要求,为学校发展和学科建设提供一流服务。高校图书馆只有充分利用资源优势,不断提升服务水平,才能提高其在高校发展中的影响力,从而争取更多的发展政策支持和制度保障,使图书馆在学校人才培养、科学研究、社会服务和文化传承中发挥更重要的作用。“双一流”建设的新形势为高校图书馆的发展带来了机遇和挑战,基于学科结构图谱的学科分析将有助于提升高校图书馆在学科服务中的深度和水平,满足新时代高校发展对图书馆服务的新需求。