医学信息学跨学科测度指标与论文影响力关系
2022-11-18陈小清李炜超邢美园
陈小清,李炜超,刘 丽,邢美园
大数据时代,随着科学研究的不断深化,创新技术的不断发展,科学研究变得越加复杂,仅靠单一学科知识已经无法完全满足科学技术发展的需求,借鉴、参考其他学科的研究成果或研究方法成为科研创新涌现的源泉。因此不同学科间开始交叉,相互融合与辅助,跨学科合作研究形式逐步兴起[1]。2019 年Nature刊载的一篇文章,以Web of Science(WOS)收录的1900-2019 年发表的8.8万余篇论文为数据源,分析了这些论文的施引和被引的学科后发现,论文的参考文献和引用的学科多样性正在增加,论文的跨学科性也在增加,科学研究越来越呈现出跨学科的特点[2]。诺贝尔奖官网统计资料显示:“1901-2016 年间诺贝尔自然科学奖跨学科研究成果获奖数共计210 项,而具有不同学科背景的合作奖人数占比从1901年的35%增长至2016 年的87.6%”[3]。由此可见跨学科研究意义重大,它是促进知识生产和创造的重要途径,有助于潜在知识生长点的识别与创新趋势的预测,有利于促进创造性成果的萌发。
目前,研究者主要从3 个角度对跨学科进行测度分析[4],分别为基于参考文献的跨学科测度[5-6]、基于合著者的跨学科测度[1,7]和基于文献内容的跨学科测度[8-9]。参考文献作为学术论文的重要组成部分,能够反映其知识基础及学科知识来源,参考文献的学科多样性也能够体现论文的学科交叉程度[10]。从参考文献角度对跨学科性进行的研究主要集中在图书情报学[6,11-13]、人文社会科学[14]、经济学和物理学[15]、物理学和化学[16]、人工智能领域[17],分析医学信息学领域跨学科性的研究并不多。有学者借鉴文化知识模因的思想,研究了医学信息学与卫生保健、医学、计算机科学和统计学的知识关系[18];有学者利用知识产出分析了医学信息学的发展特征及其与关联学科间的交叉关联特征和发展态势[19];有学者以医学信息学作为示例研究了知识引入和知识产出的学科交叉度特征,其中知识引入方面的学科交叉度指标包括引用学科类别总数、跨学科引用指数、信息熵和专业度[20]。本文利用WOS 收录论文的参考文献数据集,基于WOS 核心合集的学科分类体系,选取跨学科种数和布里渊指数对近60年国际上医学信息学领域的跨学科特性及其与论文影响力关系进行统计分析,以展示医学信息学领域的跨学科情况,为医学信息学的深入研究提供参考。
1 数据与方法
1.1 核心学科
本文涉及的所有学科均来自WOS 最新的学科分类体系。由于医学信息学相关研究对其他学科文献的引用分布并不均匀,因此不同学科的被引次数、被引时间跨度也各不相同。为了突显不同被引学科的重要程度,参考已有研究引入核心学科的概念[21]。如果在参考文献中某学科的比例高于该学科在WOS 中论文比例时,该学科即为核心学科,反之则为非核心学科。由于本文中WOS 收录的医学信息学原始文献截止到2019 年,因此在计算某学科在WOS 中论文比例时,统一设置这些学科的原始文献截止年为2019 年。
1.2 跨学科测度指标
国内外具有代表性的跨学科测度指标主要有跨领域引用指数、信息熵、布里渊指数(Brillouin’s Index,BI)、跨学科种数、专业度和区分度指数、中介中心度、基尼指数、Rao-Stirling 指数、多样性指标(diversity,DIV)、Ture diversity(TD)等[22-23],本文采用的度量指标是布里渊指数和跨学科种数。
1.2.1 布里渊指数
布里渊指数是基于引文的跨学科性测度最常用的指标,其计算公式为:
公式(1)中,N代表样本总数,ni是指i类别中的样本数。本文测量的是年度论文参考文献集,N指某年所有论文的参考文献所涉及的学科总数,ni为i学科被引用的次数。在WOS 学科分类体系中存在一对多的情况,即一种期刊同属于2 个或以上学科,本文将文献所涉及的学科都参与计算。BI 的取值范围是[0,+∞)。跨学科引用的学科类别i越多,ni在各学科中分布越均匀,BI 就越大,观测对象的多样性程度就越高,即文献的跨学科程度就越高[12]。
1.2.2 跨学科种数
本文所指的跨学科种数是指除该文所属学科医学信息学外,这篇论文的参考文献所属的学科类别数。跨学科种数越多,说明该学科与其他学科交叉程度越大。
1.3 影响力评价指标
选取被引频次、学科规范化的引文影响力(category normalized citation impact,CNCI)和相对于全球平均水平的影响力(impact relative to world,IRW)作为学术影响力评价指标,选取使用次数作为社会影响力评价指标。从WOS下载的全记录数据中提取被引频次和使用次数,从InCites 数据库中检索并下载学科分类为“Medical Informatics”的年度数据获得CNCI 和IRW。
1.4 数据来源与处理
本文以WOS 数据库中的SCIE 和SSCI 两大期刊引文索引为数据来源,检索式为:WC=medical informatics,发文时间截止到2019 年,文献类型限定为“article”,下载文献的“全记录与引用的参考文献”格式。检索时间是2021 年6 月4 日。论文参考文献所属学科通过其来源出版物所属学科认定,通过Python 脚本计算实现。计算过程中剔除参考文献为空的论文。
各指标年度数据通过Python 脚本计算,并借助Gephi 可视化软件对部分结果进行展示。指标间的相关性分析利用SPSS 19.0 软件进行Spearman 相关检验(检验水准α=0.05)。本文的研究分析框架如图1 所示。
图1 医学信息学跨学科分析及跨学科测度指标与论文影响力关系的研究分析框架
2 结果
共计检索得到61 523 篇医学信息学论文,有效论文61 211 篇,最早的论文发表于1961 年。2010-2019 年各年度的发文量(剔除参考文献为空的论文)、BI、被引频次等相关指标见表1。
表1 2010-2019 年医学信息学领域跨学科测度指标和影响力指标
2.1 核心学科
检索得到的61 211 篇医学信息学论文的参考文献共涉及229 个学科,学科之间引用情况见图2。图2 中每个节点代表不同的学科,节点的大小表示该学科的知识流入总量(即被引次数总和),节点越大说明被引次数越多,反之则越少;边反映医学信息学和其他学科之间的知识交叉情况,边的粗细代表交叉程度的大小,由相应节点学科和医学信息学的共现次数决定,边越粗代表学科之间的交叉越密切,反之则交叉关系较浅。参考文献是知识流入的标志,通过参考文献学科类别可体现不同学科知识贡献。图2 显示,医学信息学领域的研究除本学科的基础研究外,以卫生保健科学和服务(Health Care Sciences &Services)、统计学和概率(Statistics &Probability)、全科和内科学(General &Internal Medicine)的学科知识流入贡献最大。
图2 医学信息学论文对其他学科的引用
经计算,共得到33 个核心学科,这些学科发文量占WOS 文献总量的19.79%,在医学信息学论文参考文献涉及学科的总频次中占62.09%(表2)。33个核心学科首次出现时间主要集中在1961-1992年,时间跨度上均从出现后一直持续至今。与医学信息学关系最密切的是卫生保健科学和服务(Health Care Sciences &Services),其次是统计学和概率(Statistics &Probability),随后是全科和内科学(General &Internal Medicine),公共事业、环境和职业健康(Public,Environmental &Occupational Health )、数学和计算生物学(Mathematical &Computational Biology),这与图2显示结果一致。核心学科中,20 个为生物医学相关学科,7 个为计算机科学相关学科,占参考文献所涉及学科总量的47.83%,这可能与医学信息学自身是医学和信息科学的交叉学科有关。
表2 医学信息学论文参考文献的核心学科
2.2 跨学科情况
1961-2019 年医学信息学的BI 取值范围为[0.6451,1.7490],平均值为1.5361。1976 年之前医学信息学的BI 基本在均值以下,1976 年之后BI值均在平均值之上。医学信息学跨学科种数的取值范围为[10,225],平均值为137。1989 年之前医学信息学每年论文的跨学科种数在平均值之下,1989年之后均在平均值之上。近60 年医学信息学的BI和跨学科种数分布见图3。
图3 1961-2019 年医学信息学BI 和跨学科种数年度分布
图3 显示,医学信息学的跨学科种数一直在不断增加,且有继续上升的趋势。BI 的变化主要分为3 个阶段:第一阶段(1961-1976 年)为波动期,出现了27 个核心学科;第二阶段(1977-2005年)为稳定发展期,相继出现了6 个新的核心学科,均为医学相关学科;第三阶段(2006-2019 年)为缓慢上升期,跨学科种数平稳增加,33 个核心学科均已出现,医学信息学的学科交叉性表现越来越明显。
2.3 相关性
跨学科测度指标间及与影响力评价指标间的相关性分析结果见表3。因CNCI 和IRW 数据起始于1980 年,因此在分析与CNCI 和IRW 的相关性时从1980 年开始。根据相关系数r判断两变量相关的密切程度,r取值范围为-1~1。r为正表示两变量正相关,反之则负相关;|r|≥0.7 表示两变量高度相关,0.7>|r|≥0.4 表示两变量中度相关,|r|<0.4 表示两变量低度相关[24]。
表3 跨学科测度指标间及与影响力评价指标间的相关性分析结果
分析结果显示,BI 与跨学科种数呈高度正相关,BI、跨学科种数均与有效发文量、被引频次、使用次数呈现高度正相关,BI 与CNCI 呈中度正相关,与IRW 呈弱正相关,跨学科种数与CNCI、IRW均呈现中度正相关。
3 分析
3.1 医学信息学领域论文的跨学科表现
研究结果显示,医学信息学领域论文在发表的起始年就已存在引用其他学科的情况,且其跨学科种数逐年上升,这与以相同学科分类体系研究其他学科领域的跨学科趋势有所不同。有研究结果显示,人工智能领域研究论文在跨学科发展早期(萌芽期)未引用任何其他学科,即跨学科种数为零,引用的学科数量变化趋势为“不变→迅速增加→上下波动→平稳”[17]。该趋势与有学者研究发现的医学信息学领域的学科交叉演化特征结果相类似[20]。2019 年,在254 种学科分类中医学信息学领域论文就涉及到229 种(占90.51%)。有学者研究发现国际上医学信息学的研究热点主要集中在电子健康档案、临床决策支持系统、数据的隐私与安全等卫生信息技术这3 大类中[25]。医学信息学研究中大数据技术至关重要,能够将信息技术和医疗健康深度融合,充分挖掘数据的医疗价值,推动医院综合治疗水平的提高。同时,医学信息学研究过程中离不开医学相关理论知识和实践经验、计算机技术的融合。知识流入研究结果显示,流入知识所涉及的学科对医学信息学领域的研究有很大贡献。1961-2019 年医学信息学领域的知识流入主要集中在卫生保健、医学和计算机领域,关系最为密切的5 种学科为卫生保健科学和服务,统计学和概率,全科和内科学,公共事业、环境和职业健康及数学、计算生物学。这与其他学者得出的卫生保健、医学、计算机科学和统计学与医学信息学之间的知识输入关系依次变弱、卫生保健与医学所起到的知识作用大于计算机科学和统计学等结论[18]有所不同。
另外,医学信息学的BI 除了早期(1961-1976年)出现波动外,基本呈上升趋势,但幅度不大,平均值为 1.5361。有学者研究得出的学科多样性测度指标跨领域引用指数和香农熵的年度变化趋势[26]与本文的跨学科测度指标布里渊指数在2010-2017 年间变化趋势一致。
综上所述,医学信息学领域论文涉及的学科比较丰富,研究跨度非常广泛,这可能与医学信息学本身就属于交叉学科有一定的关系。相关学科对医学信息的核心研究领域的贡献度明显较大。医学信息学的跨学科性明显,而且一直在稳步发展,但与经济学和物理学这种大学科相比,医学信息学的跨学科强度仍有所欠缺。有学者对高被引论文跨学科性的比较分析结果显示,经济学和物理学的年度BI 范围均为(2.0,2.6),高于医学信息学领域的BI[15]。
3.2 医学信息学领域论文的跨学科测度指标
BI 综合表达了学科交流的丰富性及引用与被引在各学科分布的均匀性。与跨学科引证指数、h度指标相比,更为均衡地考虑了学科引用的强度、广度,以及引用频次分布的均匀性对学科交叉程度的影响[14]。
从BI 的概念上看,跨学科引用的学科类别越多,引用频次在各学科中分布越均匀,BI 就越大。本文的研究结果也证实了BI 与跨学科种数呈高度正相关性。有学者参考ESI 的22 个学科大类对1980-2018 年图书情报学领域学科交叉程度与文献学术影响力的关系进行研究,也得出了BI 与学科种数呈高度正相关性的结论[13]。本文的研究结果还显示,随着发文量的增加,BI、跨学科种数会上升,这一结论与有些学者的研究结果有所不同。有学者对人工智能领域进行跨学科研究,得出人工智能的年度BI、引用的学科数量均与文献量不存在相关性[17];有学者参考WOS 学科分类体系对图书情报学期刊2013 年度论文集进行分析,得出BI 与发文量不存在相关性。这些学者的研究结果之所以与本文的研究结果存在差异,可能与研究的学科领域不同有关[27]。
3.3 跨学科测度指标与论文影响力关系
一般而言,BI 越大、跨学科数量越多,说明论文的跨学科性越强、知识流入的学科领域越多,但这并不意味着用户对学术成果的关注度越高[28],因此需要进一步研究跨学科测度指标与论文影响力的关系。论文影响力一般可分为学术影响力和社会影响力。
在学术影响力方面,本文的研究结果显示,跨学科测度指标(BI 和跨学科种数)与论文总被引频次呈现高度正相关性。研究所选取的指标不同或论文集不同,相关性结果也会不同。如有学者以香农熵和跨学科引用指数作为跨学科测度指标时,发现香农熵与总被引次数具有较强的正相关性,跨学科引用指数与被引频次呈非常弱的相关关系[26];有学者选取与本文相同跨学科测度指标(BI),以图书情报学期刊作为团体研究对象时,发现论文总被引频次与BI 呈现低度正相关性[27]。本文的研究结果还显示,BI 与CNCI 呈中度正相关性(r=0.429),与IRW 呈弱正相关性(r=0.328);跨学科种数与CNCI、IRW 均呈现中度正相关性(r值分别为0.433、0.455)。有学者研究结果显示CNCI 与BI 和跨学科种数均呈现低度正相关性(r值分别为0.373、0.390)[13],即与本文得出的结果有所不同,这可能是因为所参考的学科分类体系不同所致,该学者参考的是ESI 学科分类体系,而本文参考的是WOS 学科分类体系。
在社会影响力方面,本文的研究结果显示,使用次数与BI、跨学科种数均呈现高度正相关性。目前,关于跨学科测度指标与社会影响力指标之间关系的研究较少。目前的研究结果显示,不同的社会影响力评价指标与跨学科测试指标之间关系有所不同。如有学者对总使用次数和年均使用次数与跨学科测度指标(跨学科引用指数和香农熵)的相关性进行分析,发现仅香农熵与论文总使用次数存在较强的正相关性[26];有学者基于Scopus 学科分类体系对高被引论文的跨学科性与Altmetrics 指标相关性进行分析,发现BI及跨学科种数与Altmetrics指标呈现负相关关系[28]。
综上所述,医学信息学领域论文的跨学科测度指标(BI 和跨学科种数)与论文的学术影响力和社会影响力均呈线性正相关关系。一方面,随着跨学科种数的增加,BI 变大,年度论文的总被引频次会增加,学科规范化引文影响力会增强,相对于全球平均水平的影响力也会提升;另一方面,论文的使用次数也会随之增加,研究者的关注度也随之提高。
4 结语
本文选取WOS 核心合集的分类体系,利用WOS 收录论文的参考文献,对医学信息学的跨学科性及其与论文影响力的关系进行了分析,得出以下结论:一是医学信息学的研究跨度非常广泛,参考文献涉及学科数量超过WOS 学科分类中学科总数的90%以上,但与经济学和物理学这种大学科相比,医学信息学的跨学科强度仍有所欠缺;二是医学信息学领域的知识流入主要集中在卫生保健、医学和计算机领域,关系最为密切的5 种学科为卫生保健科学和服务、统计学和概率、全科和内科学、公共事业和环境和职业健康及数学、计算生物学;三是医学信息学领域的BI 和跨学科种数平均值分别为1.536 1、137,随着发文量的增加,BI 和跨学科种数会上升;四是医学信息学领域的BI 与跨学科种数呈高度正相关性,二者均与影响力评价指标呈正相关性,与被引频次、使用次数呈高度相关性。
本文的研究也存在一定局限。如参考文献中存在未被WOS 收录的文献,可能会对结果造成一定程度的影响;本文仅参考了WOS 学科分析体系,忽略了其他学科分类体系作为参考时医学信息学的跨学科特性;本文仅选取了参考文献数据集,并未考虑施引文献,只从知识流入的角度描述了医学信息学的跨学科性,研究的全面性需进一步提高。
总之,医学信息学领域的跨学科性表现明显,且一直在稳步发展。未来还需进一步深入研究医学信息学与交叉学科间知识流动的主题范畴与演化趋势、跨学科引用对知识生长的作用,更深入地了解医学信息学的跨学科情况,为学科发展提供参考。