APP下载

引用关系中的诺贝尔奖效应研究*
——以2009-2016年21位诺贝尔化学奖得主为例

2021-07-20韩佳燕

情报杂志 2021年7期
关键词:奖得主学术论文学者

韩佳燕 赵 勇

(1.太原理工大学图书馆 太原 030024; 2. 中国农业大学图书馆情报研究中心 北京 100083)

0 引 言

高层次科技人才的培育、引导和管理是加快建设创新型国家和世界科技强国面临的突出和迫切议题之一。当前,我国正处于加速培育诺贝尔奖级成果和人才的关键窗口期[1]。诺贝尔自然科学类奖项是顶级科研成果评价的主要指标,诺贝尔奖得主在科学共同体权威结构中居于顶尖位置[2],是最具代表性的高层次科技人才,也是国内外学界研究的焦点。

管理学、教育学、心理学界主要从职务头衔[3]、成长经验[4]、人格特质[5]等方面对诺奖得主的成才规律进行了总结,图书情报学界更多是基于合作模式[6]、发文引文等文献计量指标[7]对诺奖得主的学术产出表现与获得诺奖之间的关联进行了探测。也有学者对于诺奖领域中的“学术链”“人才链”的现象成因[8-9]、识别方法[10],以及诺奖得主的科研模式和规律[11-12]进行了研究。然而,目前鲜见有研究聚焦诺奖得主的文献引用关系。从引用者出发来研究被引者,有助于发现对引用者产生重要影响的作者,从而更好地了解引用者[13]。同时,由于诺贝尔奖在科学和社会中的至高地位,获得诺贝尔奖可能引发一系列“诺奖效应”[14]。已有研究发现诺贝尔奖可能导致诺奖得主的生产力、发文模式、署名顺序、合作者、研究方向、学术影响力[15-16]等方面发生变化。那么,诺奖得主的文献引用关系在获奖前后是否发生了变化?这是本文重点研究的问题。

本文以2009-2016年间的21位诺贝尔化学奖得主为例,以每位诺奖得主被Web of Science的核心合集数据库收录的学术论文为研究样本,对引用关系中的诺贝尔奖效应展开定量研究。本文研究的价值在于:通过对比分析获奖前后诺奖得主的学术引用行为,揭示高层次科技人才的学术行为规律及其背后的机理,可以为相关管理部门制定科技人才政策提供决策依据,有利于遵循规律顺势推进学术研究,引导学术交流,促进科技创新。

1 研究框架

引用关系由施引者、被引者、施引者对于被引者的学术引用行为共同构成。本文主要立足于诺奖得主的施引角度,分析其在学术论文中的施引行为以及引用认同群体。在施引行为研究方面,由于获奖后的发文时间窗较短,获奖前后的统计时间窗差异较大,引用次数缺乏可比意义,因此,本文将主要从引文时滞以及引文轨迹两方面对获奖前后诺奖得主的施引行为特征展开分析。

图1 研究框架

学者的引用行为受到社会网络的潜在影响,作者首先会引用其本人熟知作者的文章[17]。作者的声誉、学术排名[18]以及科学社会关系[19]对于学术引用具有一定的影响。在被引群体研究方面,本文将重点关注诺奖得主的被引群体的声誉、学术水平、以及被引者与诺奖得主之间的科学社会关系。科学社会关系可分为一般交流关系、合著关系、同事关系以及师徒关系[20]。鉴于数据的可获取性,本文主要关注同事、合著、师徒三种科学社会关系。具体研究框架如图1所示。

2 数据准备

2.1数据获取

2.1.1 诺奖得主学术论文 2019年8月在诺贝尔奖官网获取2009-2016年21位诺贝尔化学奖得主的全名和获得诺奖相关的代表作信息,在Web of Science核心合集数据库中以“诺奖得主代表作→诺奖得主姓名→诺奖得主的文献集合”的路径进行检索,以尽量查全其学术论文集合。

2.1.2 诺奖得主学术论文与其参考文献信息 筛选出21位诺奖得主为第一作者或通讯作者的学术论文集合并分别导入CRExplorer软件,以相似度阈值为90%进行参考文献的合并去重,导出施引文献与参考文献一一对应的记录集合。

2.1.3 参考文献题录数据 CRExplorer软件导出的21位诺奖得主学术论文中的参考文献共计46 534篇。由于文献数据规模较大,考虑到检索可得性,其中DOI字段为空的参考文献在本研究中未考虑。筛选出DOI字段不为空的36 707篇参考文献,以DOI为依据在WOS核心合集数据库中进行检索,检索到30 517篇,将未检索到的6 190篇参考文献在Scopus数据库中进行扩检,检索得到5 819篇文献。在WOS核心合集数据库以及Scopus数据库中检索得到21位诺奖得主的参考文献共计36 336篇。

2.1.4 参考文献作者与机构 利用中国农业大学图书馆开发的元数据分析工具BibStats以及Excel软件对参考文献的题录数据进行分解,得到参考文献的通讯作者姓名和一级通讯机构,无通讯作者时取第一作者递补。

2.1.5 被引学者H指数与维基百科收录情况 利用八爪鱼数据爬取软件在Web of Science数据库以及Scopus数据库爬取被引学者的全名信息以及H指数。为保证收集数据的准确性,爬取步骤设定为“文献→作者→作者详情页面→作者全名及H指数信息”。然后,利用八爪鱼数据爬取软件在维基百科官网输入被引学者全名,爬取检索结果的页面链接。

21位诺奖得主参考文献的检索信息详见表1。如表1中的“检到数量/CR总量”所示,本文的数据样本占诺奖得主所有参考文献数据的47%以上,绝大部分都在75%以上,因此可以认为基于这些数据样本展开分析是具有代表意义的,得出的分析结论具有一定的合理性。为保证数据表示的清晰可读性,本文所有图表利用简化形式来表示各位诺奖得主的姓名及其获奖年份,各编码代表的源数据见表2。

表1 2009-2016年诺贝尔化学奖得主学术论文中的参考文献检索情况

表2 2009-2016年各位诺贝尔化学奖得主的编码含义

2.2数据处理

2.2.1 被引学者姓名格式统一化 将来源于WOS核心合集数据库和Scopus数据库的被引学者姓名统一为WOS姓名形式,如将Abo, T.替换为Abo, T。

2.2.2 被引学者特征确定 被引学者特征包括被引学者声誉(即是否被维基百科收录)、被引学者学术水平(即H指数水平)、被引学者与施引诺奖得主是否具有同事关系、是否具有合作关系、是否具有师徒关系。

诺奖得主与被引学者的同事关系依据诺奖得主的发文机构以及被引者的通讯机构来判断。诺奖得主与被引学者的合作关系以诺奖得主为第一作者或通讯作者的学术论文作者来判断。以学术谱系数据库(https://academictree.org/)中的信息为依据,本文将诺奖得主的直系学生、直系老师以及二代老师看作与诺奖得主具有师徒关系。

被引学者的学术水平在本文中用H指数来衡量。由于H指数绝对数值的大小界定尚无一个统一的标准,而三分位数可以帮助确定分组时组间界限以及分层抽样时中层的划分,将数列三等分为低值、中值、高值三部分[21],因此本文利用三分位数将被引者的H指数划分为上、中、下三个级别。H指数等级越高,即代表学术水平越高。各位诺奖得主学术论文中被引群体的H指数等级划分节点如表3所示,可以发现各位诺奖得主被引群体的H指数等级划分节点的数值相差不大,下-中位段H指数节点都在20左右,中-上位段H指数节点都在40左右。21位诺奖得主中有18位其自身的H指数处于上位段水平,学术水平较高,这说明大部分诺奖得主在学术论文中所引用的学者中有2/3学术水平低于自己,有1/3的被引学者与诺奖得主自身学术水平相当;也有少数诺奖得主的H指数处于中位段水平,如表3中加粗标注所示。

表3 21位诺贝尔化学奖得主学术论文中被引学者H指数的等级划分情况

被引学者是否被维基百科收录依据八爪鱼爬取到的被引者姓名的检索结果链接来判断,维基百科收录与否的检索结果链接不同,检索结果链接前缀为https://en.wikipedia.org/w/index.php?search=的标注为维基百科未收录,检索结果链接前缀为https://en.wikipedia.org/wiki/的标注为维基百科收录,默认维基百科收录者的声誉较高。

2.2.3 施引行为特征确定 施引行为特征包括引文时滞和引文轨迹。CRExplorer软件可导出施引文献出版年(PY)、被引文献出版年(RPY)、施引文献对于被引文献的施引轨迹类型(TYPE)等字段。引文时滞为首个施引文献出版年(PY)减去被引文献出版年(RPY)的差值。引文轨迹指一篇文献发表后的被引次数随时间变化的曲线[22]。2018年2月发行的1.8.2版本的CRExplorer软件支持揭示参考文献在导入的施引文献集合中的引文轨迹,并根据引文轨迹来对参考文献的类型进行标识,用(TYPE)字段表示。各类特征数据的处理过程总结如表4所示。

2.2.4 获奖前后数据划分 以诺奖得主获得诺贝尔奖当年为分界点,按照诺奖得主学术论文的出版年份,对诺奖得主在获奖前(包含诺奖年)和获奖后所发表的学术论文进行划分,得到获奖前和获奖后的被引学者特征数据以及施引行为特征数据。

表4 各类特征数据的处理过程概要

3 数据分析

3.1被引群体与诺奖效应

3.1.1 自引率升高 2009-2016年21位诺贝尔化学奖得主在获奖前后作为第一作者或通讯作者的学术论文发文情况及自引率如表5所示。21位诺奖得主中有4位在获奖后无第一作者或通讯作者发文情况,这可能是与年龄、诺奖效应等因素存在一定的关系。随着年龄增长,科学家的生产力一般呈下降趋势,获奖后科研外的社会性活动增加也可能导致科学生产力下降。其余17位获奖后有论文发表的诺奖得主,除2009年的Ada E. Yonath外,16位诺奖得主获奖后的自引率都不同程度地高于获奖前。另外,根据自引率一般分布在10%~36%的范围内[23],自然科学和医学领域的自引率一般在20%左右的研究结论[24],本研究中获奖前后的自引率都明显偏低,这可能是因为本文的研究样本仅限于学术论文类型的文献,且自引率仅按通讯作者为本人来计算而造成的。

表5 21位诺贝尔化学奖得主获奖前后的发文量及自引率

续表5 21位诺贝尔化学奖得主获奖前后的发文量及自引率

3.1.2 受科学社会关系和作者声誉影响更大 在17位获奖后有论文发表的诺奖得主中,大多数诺奖得主获奖后在学术论文中引用来自具有科学社会关系和声誉较高的学者的文献的比例增加,仅有2009年的诺奖得主Ada E. Yonath在获奖后引用四种关系型参考文献的比例降低(见图2)。

图2 获奖前后诺奖得主学术论文中参考文献的科学社会关系占比(%)

此外,图2中合作占比、同事占比、师徒占比、维基收录占比中,实线围成的形状均与虚线围成的形状类似,这表明大多数诺奖得主在获奖前后的学术引用风格相似。如图3所示,大多数诺奖得主获奖后在学术论文中的关系型被引学者占比增加,只有2015年的诺奖得主Tomas Lindahl在获奖前引用具有合作关系和同事关系的学者较少,但在获奖后引用这两种科学社会关系类型学者论文的比例大幅增加。另外,对比图2和图3,获奖前后诺奖得主在学术论文中参考文献的科学社会关系占比均大于被引学者的科学社会关系占比,这说明不论获奖前后,诺奖得主都倾向于引用具有科学社会关系或声誉较高的学者的多篇文献。

图3 获奖前后诺奖得主学术论文中的被引学者的科学社会关系占比(%)

3.1.3 更注重作者学术水平 根据诺奖得主获奖前后学术论文中获奖前后被引学者的H指数分析,从被引学者层面统计,如表6所示,获奖前,诺奖得主引用下位段H指数的学者最多,仅有2012年的诺奖得主Brian K. Kobilka引用上位段H指数的学者最多。获奖后,诺奖得主在学术论文中引用的上位段H指数学者占比最大,而2012年的诺奖得主Brian K. Kobilka在获奖后引用上位段H指数学者的比例较低。2015年的诺奖得主Tomas Lindahl自身的H指数较低,他在获奖前较为均衡地引用了各等级H指数的学者,在获奖后对于下位段以及上位段H指数的学者引用比例较小,对于中位段H指数学者引用较多。另外,可以发现,诺奖得主在获奖后所引用学者的H指数平均值一般大于在获奖前引用学者的H指数平均值。这说明在获奖后,诺奖得主更关注学术水平较高的作者。

从参考文献的层面来统计,如表7所示,不论获奖前后,诺奖得主在学术论文中引用上位段H指数学者所著文献的比例最大,且按参考文献计算的平均H指数值均大于按被引学者计算的平均H指数值,这说明诺奖得主在获奖前后均倾向于引用较高学术水平学者的更多篇文献。值得说明的是,表6和表7都显示2015年的诺奖得主Tomas Lindahl在获奖后引用上位段H指数学者较少,结合表5可知Tomas Lindahl在获奖后仅有一篇作为第一作者或通讯作者的学术论文,这可能由于样本量太小而导致结论的偏差。

表6 获奖前后被引学者的H指数(以被引学者统计)

表7 获奖前后被引学者的H指数(以参考文献统计)

3.2施引行为与诺奖效应

3.2.1 引文时滞变长 引文时滞指论文发表时间与其引文发表时间之差,用来表示引文的新旧[25]。如表8所示,获奖前后诺奖得主学术论文中的引文时滞分布都呈右偏分布,即在获奖前后诺奖得主都以引用近期的文献为主,这符合引文时滞的一般分布规律[25]。从引文时滞的平均值和中位值来看,大多诺奖得主在获奖后的引文时滞略大于获奖前,这可能是由于在获得诺贝尔奖后,诺奖得主除科研之外的社会活动增加,如访谈、讲座、政策决策和公共服务活动等。这些活动占据了诺奖得主原来的部分科研时间,可能使得诺奖得主与其他学者的科学交流变少,对于其他学者的科研成果的响应时间变长。从引文时滞的最大值和最小值来看,获奖前后未表现出明显差异。

3.2.2 热点施引减少 通常一篇论文在发表后的几年时间内会被其他论文引用,逐渐达到被引次数的高峰,之后被引次数慢慢减少,直到被人遗忘,这样的引文轨迹称为经典引文轨迹[26]。还有一些引文轨迹比较特殊,如“睡美人”文献[27]、“昙花一现”型文献[28]等。同样,根据参考文献在特定施引文献集合内的引文轨迹,CRExplorer软件将每篇参考文献归为睡美人文献、持续被引文献、热点文献或生命周期文献。CRExplorer对于各类文献的定义以及具体判定标准[29]见表9。

表8 获奖前后诺贝尔化学奖得主的引文时滞对比

表9 CRExplorer中的特定引文轨迹类型文献说明

表10 诺奖得主获奖前后学术论文中的参考文献的特殊引文轨迹类型占比

17位诺奖得主获奖前后学术论文中的参考文献的引文轨迹类型如表10所示。值得说明的是,在分析过程中,笔者发现CRExplorer确定持续被引文献时存在不足之处,部分识别出的文献不符合“持续被引文献”的内涵,根据“持续被引文献”定义(见表9),若某位诺奖得主于同年引用了3篇同出版年的文章,且只引用了这一次,那么这3篇参考文献均会被识别为“持续被引文献”,而这种只被引用了一次的文献实际上与在多个年份中均被引用的“持续被引文献”是存在根本区别的,并不属于特殊的引文轨迹类型。因此,本文人工判别并删除了这些不满足“持续被引”内涵的文献。

由表10可知,获奖前热点类型的参考文献占比普遍比获奖后比例更高,这与在获得诺贝尔奖后,咨询、讲座等活动增加,诺奖得主分配给科研活动的时间和精力变少存在一定关系。其研究主题不再频繁地更新变化,因此对于新兴文献在集中于其发表后三年内的“昙花一现型”引用减少。此外,获奖后诺奖得主学术论文中特殊引文轨迹类型的参考文献占比增多,这主要是因为诺奖得主在获奖后发文量较少,获奖后的参考文献总量也较少,而许多特殊引文轨迹类型的参考文献是在获奖前后均被引用的,因此获奖后的特殊引文轨迹类型的参考文献占比会表现为更多。

4 结 语

本文对诺奖得主获奖前后学术论文中的被引群体特征以及其施引行为特征进行了对比分析,发现引用关系中表现出一定的诺奖效应。在获得诺贝尔奖之后,诺贝尔化学奖得主在学术论文中的自引率变高,引用认同学者中同事、合著者、师徒、声誉较高作者、高学术水平作者的占比增大。从施引行为特征来看,获奖后诺奖得主对于文献的响应速度变慢,“昙花一现型”的热点引用减少。但不论获奖前后,诺奖得主都更倾向于多次引用来自具有科学社会关系、声誉较大、学术水平较高学者的文献。

本文研究结论对高层次科技人才管理和引导具有一定的启示。一要重视“科学社区”对于学术行为的影响。同事、师徒、合作等科学社会关系有利于促进学术交流,应关注科学家之间的科学社会关系,推进构建学术谱系数据库。高层次科技人才可作为自己所在科学社会网络中的代表人物,被推举为科学社区的“区长”,通过促进科学社区代表间的交流,高效促进学术成果共享和科学发展。二要善于发挥高层次科技人才的引领作用。当前,文献数据库已经可以通过引用关系来识别研究热点[30],可以满足追踪热点研究的需要,而从业多年的高层次科技人才则在引领研究发展方面可以发挥巨大作用,他们往往具有丰富的经验和独到的眼光,更有可能引领未来的发展前沿方向,做出一些前瞻性研究,可以积极鼓励和引导有志的青年学者加入,做好潜力人才储备。

猜你喜欢

奖得主学术论文学者
学术论文征集启事
学术论文征集启事
学术论文征集启示
学者介绍
学者简介
学术论文征集启事
学者介绍
诺奖得主唐娜·斯特里克兰:做自己喜欢的事
诺奖得主霍夫曼团队落户深职院
六大诺奖得主答经济之问