施引侧文献计量指标的设置、优势与应用研究
2023-02-08FRANCISNarin栾春娟胡志刚
FRANCIS Narin 栾春娟 胡志刚
关键词:文献计量指标;施引侧;被引侧;引文分析;实用性;及时性
中图分类号:G306;N18 文献标识码:A DOI:10.3969/j.issn.1003-8256.2023.06.007
0 引言
探索施引侧文献计量指标的设置、优势与应用,有助于推动文献计量学学科与时俱进发展,使其更好地为政策制定和科学评价服务。施引侧文献计量指标是否更具有优势和应用价值?传统的文献计量指标基本上都是从被引侧(cited side)设置和应用的,这根源于其产生的历史,受制于当时的科学技术发展水平。随着科学技术突飞猛进的发展,尤其是计算能力的大大提升,我们提出文献计量指标的设置和应用应该由被引侧转向施引侧(citing side)。基于当前年份、施引侧的文献计量指标,不仅能够给我们带来更多的科学洞见,同时对政府考核与评价目标的实现、科学共同体的学术研究与学术评价,也具有更重要的理论意义和实践意义。
施引侧文献计量指标强调当前年份,这样做时效性更强,与政策问题更相关。当前几乎所有的文献计量研究都是从被引的角度来做分析的。比如,分析师通常会问这样的问题:2015年发表的、被引用次数最多的化学论文是哪篇?然而,我们认为,无论就政策方面还是应用方面,一个更相关的问题,都应该从当前年份的、施引侧的角度提出。比如,2021年发表的论文施引最多的化学论文是哪篇?类似的,2021年发表的论文施引最多的作者是哪位?2021年发表的论文施引文献的高频关键词有哪些?等等。不难发现,施引侧的文献计量指标,更有利于科学评价和对研究前沿的追踪。
1 国内外研究进展述评
1.1 关于被引侧文献计量指标的研究
被引侧文献计量指标的相关研究成果,主要集中于对以下知识单元的分析:被引文献(cited references)、被引期刊(cited journal)、被引作者(cited author)、被引机构(cited organization)和被引国家(cited country)等。科学文献发表之后,大部分文献不会得到学者的引证,只有少数会被引证,高被引文献更是凤毛麟角。在科学出版物日益增长而科学家的时间和精力非常有限的情况下,高被引文献常常被视为一个学科或研究领域的经典文献,进而被研究人员更多地阅读甚至引用[1- 2]。揭示科学文献在学术期刊集中与离散分布的布拉德福定律(Law of Bradford),早在20世纪30年代初就已经被科学家确认了。该定律将刊载某学科专业论文的期刊划分为核心区、相关区和非相关区,各个区的文章数量几乎相等,此时核心区、相关区、非相关区期刊数量的比例为1∶n∶n2(n>1)的关系[3]。学科专业论文在学术期刊集中-分散分布的规律,揭示了少量的核心期刊刊载了大量学科专业论文的规律。期刊共被引分析(co-citedjournal analysis,CJA)方法被广泛应用于某一研究领域的核心期刊识别[4- 5];高被引期刊往往被视为一个学科或研究领域的核心期刊。核心期刊的甄别,为科研人员和图书资料建设单位节约时间、节省经费、提高文献信息服务质量提供了重要的科学决策支撑。
随着科学的发展,对科学家评价的方法与指标也在不断演进。早期时候,科学家发表论文的数量指标常常被用来评价科学家影响力的大小[6]。但后来,人们逐渐认识到,与科学家发表论文的数量指标相比较,科学家被引用的频次更能够反映其影响力的大小[7]。于是,对被引作者的检索和分析开始流行起来,高被引作者常常被视为一个学科或研究领域的核心人物[8]。类似地,学者们也常常采用机构共被引分析方法与国家共被引分析方法,来识别具有较高影响力的高被引机构与高被引国家[6];也有一些科学评价机构直接通过被引侧的被引频次等检索结果,来判别具有较高学术影响力的机构或国家[9]。
1.2 关于施引侧文献计量指标的研究
施引侧文献计量指标的研究成果,主要集中于探索研究前沿热点主题、高产机构、高产作者、科学合作等方面,而这些方面的研究又往往基于施引侧文献中知识单元的共现分析方法。一个学科或研究领域的前沿热点主题,总是受到研究人员的关注和追踪[10-12]。学者们常常基于CiteSpace、VOSviewer 等可视化分析软件[13-14],采用关键词共现分析[15-16]、专业术语的突变分析[11]、主题词词频变动趋势检测[17]等方法,进行研究前沿或研究热点主题的探测分析。高产机构常常被认为拥有雄厚的研究实力,并且科研成果产出丰硕;高产机构可以在当前几乎所有数据库中检索得到[18-19]。高产作者是一段时期内或者长期发表活跃的作者;在当前几乎所有数据库中,都可以依据作者排序筛选出高产作者[20-21]。科学合作逐渐成为科学研究的主流趋势。有学者专门对诺贝尔奖获得者进行过分析,发现有三分之二的获奖者是与其他科学家合作完成的获奖成果[22]。施引侧的文献耦合分析方法,针对施引文献中的作者、机构、国家等不同知识单元,可以进行作者合作[23]、机构合作[24]和国家合作[25]的分析研究。
1.3 研究评述
当前包括Web of Science在内的几乎所有数据库都是从被引侧设置的文献计量指标。学者們的研究也多数是基于被引侧进行的。虽然也有施引侧的研究成果[26-28],但我们尚未发现正式提出文献计量由被引侧转向施引侧的学术观点。本研究提出,在当前的科学技术发展高度上,是时候将文献计量指标由被引侧转向施引侧了;并论证施引侧文献计量指标设置的可行性、优势与应用。采用施引侧的文献计量指标更实用、更及时,将更有利于实现其政策制定和科研评价的宗旨,发挥其优势,推动科学技术的进步和发展,为相关决策者提供支撑。
2 被引侧文献计量指标的起源、目的与历史环境
2.1 被引侧指标的起源
从历史上看,尤金·加菲尔德(Eugene Garfield)在开发科学引文搜索工具时,是以法律搜索工具谢泼德引文(Shepard's Citations)为模型的。谢泼德引文是一套自1873年在美国出版的、美国最高法院和各州高级法院的案例索引,早期为印刷的法律案例汇编版本[29-30]。该套索引方便查找相关案例中援引(引用的意思)的案件、法庭判决与法律条款,并追踪这些援引是否被另一个法院准许、辨别、推翻或另作解释。谢泼德引文是被引侧导向的(a cited side orientation),即以早期被引用的案例为起点。谢泼德引文产生的原因,是因为美国是实行判例法的国家,“遵循先例”是法官审判案件的基本原则。具体地说,法官审判案件的时候,需要查看之前美国最高法院和各州高级法院的案例,本着“相同情况相同处理,类似情况类似处理”的原则,即遵循先例的原则,对本案件进行审理和判决。判例法制度保证了判决的一致性,具有其自身的特点和长处。类似的,起初印刷版本的科学引文索引(Science Citation Index,SCI),列出了所有施引某个特定被引论文的论文[31],从而能够让我们基于某个特定的被引论文追踪科学大厦的兴起与发展轨迹。
2.2 被引侧指标的目的
需要指出的是,文献计量学指标包括引文分析指标,最初是为政策目的而提出的。第一套重要的指标出现在1972 年提交给美国总统的《科学指标》(Science Indicators 1972)报告中:“这项工作的最终目标是建立一套指标,这些指标将根据企业为国家目标做出贡献的能力和表现,揭示美国科学和技术的优势和劣势”[32-33]。由此可见,提出文献计量指标的目的,是为了查清对国家发展目标来说科学的贡献有多大。文献计量指标是具有实践意义的,因此,任何使之更容易实现其目的的公式或算法改进等,肯定是受欢迎的。
2.3 被引侧指标产生的历史条件与发展
传统的文献计量指标大多数之所以基于被引侧的视角,这既源于它们的历史起源,也归因于20世纪60—70年代科学技术的发展水平,尤其是当时计算能力的限制,当时正式的文献计量学刚刚出现,尚处于萌芽阶段。
在计算方面,谢泼德引文的开发早在计算机发明之前,而最初的SCI是在1955年提出的[34],早在计算机被广泛使用或非常强大之前。事实上,1972 年由CHI研究公司(Computer Horizons,Inc.)为《科学指标》开发的第一套文献计量指标,并不是基于对单个论文的精确引用匹配,而是基于对期刊间引用的分析,从SCI中提取期刊引用索引。直到后来的《科学指标》报告,CHI才有可能通过计算来处理现在已被计算机化的SCI磁带,并根据论文引用的精确匹配和被引用作者所在国家和机构的精确识别,开发出国家绩效统计数据。所有后来的《科学指标》报告(现在称为《科学与工程指标》)中使用的文献计量指标直到今天仍然很大程度上基于被引年份(cited year)。
3 施引侧文献计量指标的设置、优势与应用
3.1 施引侧指标设置的可行性及优势
基于当前年份的、施引侧的文献计量指标有两个重要属性:稳定性(stability)和及时性(timeliness)。转换为施引侧指标后,相關数据库,比如Scopus 和Web ofScience这样的主要数据库,将在它们的算法中添加施引年搜索(citing year search)。添加之后,他们将最近年份,比如2021年,发表的论文添加到数据库中。然后根据2021年发表论文的引证数据,就可以确定2021年发表的论文引用最多的是哪些国家/地区、哪些机构、哪些作者、哪些论文、哪些学科、哪些主题词,等等。即添加了施引年搜索后,就能够检索出施引侧相关的排序结果;这些施引侧的检索结果是最终的、确定的结果。基本流程如图1所示。
图1中,选择检索字段“施引年”,可以在检索框中输入最近的年份,比如2021年,而后得到检索结果。检索结果可以有多种排序方式:国家/地区、机构、作者、文献、学科、主题词等等。检索结果可以进一步精炼,比如,如果想了解物理学科的情况,就可以将其精炼,进一步了解2021 年物理学科施引论文主要来自于哪些国家、机构等。
3.2 施引侧指标的应用场景与先例
转换为施引侧的、施引年搜索,能带来一系列积极的效果。比如,2021年人工智能领域施引的全部文献的国家排序、机构排序、作者排序、文献排序等;或者表现突出的前百分之十的国家和机构等。这些结果都是最新的、并且只需要为每个施引年计算一次的结果。它们的时效性将使它们对政策目的更有用,因为它们在形式上将类似于大多数决策者和政治家所熟悉的普通经济指标。
转换到施引侧的文献计量指标,将带来许多新的洞见,而且具有较强时效性。比如,一个施引年(citingyear)的H指数——一位科学家H篇论文被任何施引年份发表的论文引用至少H次的数值。这样计算的结果,将提供一个精确的时间序列,清楚地显示该科学家对当代科学影响的出现、上升、高峰和衰退。另一个新的指标是“科学周期时间(science cycle time)”,即被任一施引年所引用论文的中位数年龄,用来衡量一个机构或科学家论文的影响力的时效性。
施引侧指标是有应用先例的,它们在CHI的专利引用活动研究中曾经被采用,例如技术时间线图谱(techlineprofile)[35]和技术周期时间(technology cycle time)。技术时间线图谱是被CHI公司采用的、描述公司专利组合特征的当前影响指数(current impact index),该指数是指一个公司最近五年的专利在本年度被引用的标准化比率。技术周期时间即被该公司当前专利施引的专利年龄的中位数。如果是基于之前的3~5年被引侧数据,CHI将很难向其企业客户提供其竞争对手的资料。在CHI的财务模型中,这些当前的、施引年份指标的时效性更为重要,它们对股票绩效的预测相当成功,因为这些模型可以识别出股价似乎低于其技术价值的公司[36]。显然,在预测股票市值时,时效性是至关重要的。
3.3 施引侧指标的应用实例
为了更清晰地展示施引侧指标的应用,我们选择全新大型文献索引系统OpenAlex,根据《自然》新闻报道,OpenAlex 是一个包含2 亿余份科学文献的索引平台,该索引的目标是建立一个文献之间相互关联的全球研究系统数据库。基于OpenAlex数据集,分别查询发表于2013年、2015年、2017年、2019年和2021年五年的文献计量学(bibliometrics)领域文献并进行施引侧的引文分析,得到各年的施引文献及被引文献的情况如表1所示。以2021年为例,这一年共发表文献计量学论文2 580篇,此为发文数量,也是施引文献数量;它们累计施引了69 952篇文献,去重后共54 920篇;这些被引文献的平均发表年份为2012.41年;H 指数为32,即有32篇被引文献、其中每一篇的被引次数都在32 次以上。从各年的比较来看,被引文献与施引文献的比值并不一致。例如,2013年施引文献有1 332篇,而被引文献有13 740篇,去重后仅10 207篇;去重前后被引文献数量分别为施引文献数量的10.3倍和7.7倍;而2021年这两个比例分别为27.1 倍和21.3 倍。这说明2013—2021年,施引文献在引用数量上有了大幅上升。
表2进一步展现了各个施引年度的被引文献分布的主要期刊、作者和学科情况。五个施引年份中,被引最多的期刊始终都是Scientometrics;排名第二的高被引期刊在2013、2015和2017年为Journal of the Associationfor Information Science and Technology,在2019年和2021年为Journal of Informetrics。除上面三本期刊之外,Science、Nature、Research Policy 和PLOS ONE 也经常位列前五的高被引期刊之中。此外,在2021年还出现了新的高被引期刊Journal of Cleaner Production,表明清洁生产(cleaner production)相关主题研究在2021 年受到学者们广泛关注。
从高被引作者来看,2013—2021 年的被引次数最高的作者依次是LoetLeydesdorff(2013)、WolfgangGl?nzel(2015)、Lutz Bornmann(2017)、Ludo Waltman(2019和2021),体现了文献计量学领域高影响力学者的代际更替。其他高被引学者还包括Eugene Garfield(2013 年位列第三,2015 年位列第二,2017 年位列第四)、Henk F. Moed(2013 年位列第四,2015 年位列第三)、Nees Jan van Eck(2019 和2021 年均位列第二)、José M. Merigó(2019 年位列第四、2021 年第三)、ChenChaomei(2021年位列第四)等。
從高被引领域主题来看,基于OpenAlex 中的领域主题划分,在选定的五个施引年份,引用最多的领域主题都是Computer science,不过其在各年的占比不尽相同。在2013年,有5 314篇被引文献来自该主题,占总被引文献数量的38.7%;而在2021年,来自该主题的被引文献有18 643篇,占总数量的26.7%,下降了12个百分点。这表明了引用的主题集中度降低,而主题多样化程度提高。Citation 是被引文献中的另一个高频主题,尤其在2017 年之前,Citation 主题的被引文献量都高居第二,是热门主题。但是在2021 年,Citation 主题的占比已经跌出前五的行列,表明该主题的影响力在下降。Data science 在2013 年至今也一直位列热门主题词的前五之列,表明数据科学是文献计量学的重要研究基础。此外,前五的高频主题中还有Medicine、Business、Psychology、Political science 等表示具体应用领域的主题,并且其占比逐年上升,这表明文献计量学正经历着从学科的自身建设转向面向具体领域应用研究的趋势。
4 结论与讨论
本研究中,在梳理文献计量被引侧指标起源、目的、历史条件和后续发展的基础上,探讨了文献计量由被引侧转向施引侧的历史时机、施引侧指标在数据库中设置的可行性、施引侧指标的优势,和施引侧指标的应用场景、应用先例与应用实例。我们认为,无论就政策方面还是应用方面,文献计量指标都应该从当前年份的、施引侧的角度设置和应用。因此,建议文献计量指标由被引侧转换到施引侧,这将大大提高文献计量指标的实用性、及时性和对用户群体的影响。
随着科学技术日新月异的发展,尤其是计算能力的空前提升,文献计量指标理应与时俱进。文献计量指标由被引侧向施引侧转换,在理论层面具有合理性;在设置层面具有可行性;在实践层面,具有更强的时效性和应用性。概括之,与被引侧文献计量指标相比较,施引侧文献计量指标具有其优势和应用价值。被引侧的文献计量指标仍然有其生存和发展的空间,有其存在的必要性和价值性。应该说,在某些方面、某些具体事项上,施引侧的文献计量指标更具优势和应用价值。