优质论文中的“天鹅群”及其“伴随睡美人”探析
2021-07-17张慧叶鹰
张慧,叶鹰
(1.上海大学图书情报档案系,上海 200444;2.江苏省数据工程与知识服务重点实验室,南京大学信息管理学院,南京 210023)
1 引言
作为优质论文的一类特殊引文现象,“黑-白天鹅”模型独树一帜[1],其实证探索已应用于以物理学、化学和生物医学为代表的自然科学类诺贝尔奖优质论文中,并得到了较好的实证效果[2]。因此,本文试图扩展探索“黑-白天鹅”模型的学科适用性,考查其是否同样适用于诺贝尔经济学奖的优质论文,但是结果却很不理想。为探索可适用于更广泛学科范围的特殊引文模式,本文在“黑-白天鹅”模型的基础上进一步发现了“天鹅群”模式,并应用在诺贝尔奖物理学和经济学优质论文的分析中,其中“天鹅群”所占比例均在40%以上[3]。
同时,“睡美人”(Sleeping Beauty)[4]作为描述科学研究中的“延迟承认”现象,自2004年被提出以来,其是公认的优质论文具有的一种特殊引文模式,对其量化特征的研究包括对识别“睡美人”文献方法的探讨[5]、“王子文献”的挖掘等方面[6],Ke等[7]提出了“睡美人指数”B,用于在大量文献中识别“睡美人”文献;Du等[8]进一步改进了“睡美人指数”B,提出了Bcp指标;Ye等[9]提出了“引文角”(citation angle),可同时用于识别“睡美人”现象和“昙花一现”现象,并可综合B指数和Bcp指数等。此外,研究表明在天才的作品中可发现较多“睡美人”文献[10]。
与“睡美人”仅从量化角度测量不同,“黑-白天鹅”模型和“天鹅群”模式是建立在质性判定基础上的量化模型,研究者在探索过程中又进一步发现了“天鹅群”模式中存在“伴随睡美人”现象[11],获得“天鹅群”模式和“伴随睡美人”的相互关联,构成综合论文质与量进行测评的特殊探讨。现以物理学和经济学为实证参照提供学界参考。
2 方法论
论文品质的判定一般通过同行评议来进行,属于定性研究的范畴,本文中对优质论文的界定也同样来源于同行判定的结果。由于公认的优质论文集稀缺,本文采用最具有公信力的诺贝尔奖作为判定,选择诺贝尔奖获奖者的论文作为研究起始。首先,涉及的概念是关键论文(key paper)和关键论文集(key publications),两者的定义如下。
定义1:关键论文
关键论文,是诺贝尔奖获奖者在被授予奖项时依据的相关论文,会以最重要贡献对应的论文载入史册。本文定义的关键论文是诺贝尔奖获奖者被授予奖项时凭据的最重要论文,会在演讲报告中被提及。关键论文的确定来自定性判断。
定义2:关键论文集
诺贝尔奖获奖者在获奖之后会做演讲报告(Nobel lecture),在报告中获奖者会详细阐述自身研究生涯及重大发现,并列出一系列参考文献。本文定义关键论文集为诺贝尔奖获奖者在演讲报告的参考文献中引用的自身文献(即自引文献)。关键论文的判断依靠的是定性判断,所以关键论文不一定被包含在关键论文集中。在关键论文集中,部分获奖者会将在获得诺贝尔奖之前整个研究生涯的所有研究文献均列入演讲报告的参考文献中,一定程度上会影响到论文的品质,所以关键论文集的论文品质不及关键论文优质。
综合关键论文和关键论文集的定义,本文研究的优质论文界定如下。
定义3:优质论文
关键论文和关键论文集构成优质论文。其中,前期研究中对“天鹅群”模式和“伴随睡美人”模型的探索均基于优质论文中的关键论文[3,11],本文的研究扩展采用关键论文集,选择关键论文集可在更大的范围内探索“天鹅群”模式和“伴随睡美人”模型。
2.1 模型
本文前期研究以“黑-白天鹅”模型为基础[1-2]。在“黑-白天鹅”模型中,“天鹅”论文有两种类型,分别是“黑天鹅”论文和“白天鹅”论文,两者定义如下。
定义4:“黑天鹅”论文
“黑天鹅”论文代表某一科学领域的突破性发现。本文的关键论文即“黑天鹅”论文。
定义5:“白天鹅”论文
“白天鹅”论文为“黑天鹅”论文发表前的高被引论文,且被“黑天鹅”论文所引用。
在“黑-白天鹅”模型中,“黑天鹅”论文一经发表,“黑天鹅”论文被引量与“白天鹅”论文被引量呈现出“此消彼长”的状态,其描述的特点是“黑天鹅”论文具有科学突破性,“黑天鹅”论文的出现打破了“白天鹅”论文原有的引文形态。
为进一步探索可适用于不同性质学科的优质论文的特殊引文模式,“黑-白天鹅”模型被扩展为“天鹅群”模式[3],模式图如图1所示。
其中,横轴T表示论文发表年份;纵轴C表示论文被引量;B代表“黑天鹅”论文;W1和W2代表两篇“白天鹅”论文;TS为“黑天鹅”论文发表年份;TS+5为“黑天鹅”论文发表后的第五年。
由图1可知,在“天鹅群”模式中,“黑天鹅”论文和“白天鹅”论文在“黑天鹅”论文发表后的五年时间引文曲线均呈现显著增长的趋势,两种类型的论文呈现“共舞”状态,发展形成一组“天鹅群”。“黑-白天鹅”模型和“天鹅群”模式中均选择五年时间窗口,是基于van Raan[4]识别“睡美人”文献的标准(van Raan法则)来考虑,即“睡美人”文献需满足两个条件:一是文献沉睡期至少为5年,且年均被引量小于等于2;二是文献唤醒后4年内被引量大于20。因此,“黑-白天鹅”模型和“天鹅群”模式均选择五年时间窗口来进行解析。“天鹅群”模式中选择“黑天鹅”参考文献中被引量最高的前两篇作为“白天鹅”论文。
图1 “天鹅群”模式示意图
根据“黑天鹅”论文和“白天鹅”论文在“黑天鹅”论文发表后五年时间的被引量来定义“天鹅群”指数GS,进行量化研究,其公式为
其中,CB为“黑天鹅”论文在发表后五年时间窗口的被引量;CW1和CW2分别为两篇“白天鹅”论文在同段时间窗口的被引量。基于公式(1),并结合“黑天鹅”论文和“白天鹅”论文被引量的相对大小,可将“天鹅群”模式划分为以下三种类型:
类型1:CB>CW1且CB>CW2,即CB同时大于CW1和CW2;
类型2:CB≤CW1且CB≤CW2,即CB同时小于或等于CW1和CW2;
类 型3:CB>CW1且CB≤CW2,或CB≤CW1且CB>CW2,即CB介于CW1和CW2之间。
在“天鹅群”的三种类型中,类型1表示“黑天鹅”比任意一只“白天鹅”都强壮,类型2表示任意一只“白天鹅”比“黑天鹅”强壮,类型3则囊括了其他情况。其中,类型1的“天鹅群”最接近“黑-白天鹅”模型的思想,类型2和类型3则为“天鹅群”模式中存在的特殊类型。
由于研究发现“天鹅群”模式中存在“睡美人”现象,故需考虑“伴随睡美人”模型,如图2所示[11]。
图2 “伴随睡美人”模型示意图
“伴随睡美人”模型,是在“天鹅群”模式基础上结合“睡美人”模型形成的,用于探索“天鹅群”模式的“白天鹅”论文中存在的“睡美人”现象。图2中“白天鹅”论文W2即属于“伴随睡美人”文献。“伴随睡美人”文献可定义如下。
定义6:“伴随睡美人”文献
“天鹅群”中存在的“睡美人”文献即“伴随睡美人”文献。
通常情况下,“天鹅群”模式的两篇“白天鹅”论文中仅存在一篇“伴随睡美人”文献(W1或W2),但也存在两篇“白天鹅”论文均属“伴随睡美人”文献的少数情况。与“黑-白天鹅”模型和“天鹅群”模式相同,“伴随睡美人”模型也是同时综合论文质与量测评的研究。区别于单纯定量挖掘“睡美人”文献的方法,“伴随睡美人”模型从全新角度综合论文的质性判断和定量分析来探索“睡美人”现象。
2.2 数据
本文选择诺贝尔奖物理学和经济学两个学科的关键论文集,数据获取时间窗口为2001—2010年,采集步骤如下:第一,在诺贝尔奖官网(https://www.nobelprize.org/)搜集各学科获奖者的演讲报告;第二,从这些报告参考文献中可获得每位获奖者的关键论文集;第三,从WoS(Web of Science)数据库中获取诺贝尔奖获奖者关键论文集的引文数据及其参考文献的引文数据,作为“天鹅群”模式和“伴随睡美人”模型探索的基础数据,关键论文集中的论文为计量模式中“黑天鹅”论文,关键论文集中论文参考文献被引量最高的两篇论文为计量模式中“白天鹅”论文。
在“黑-白天鹅”模型中,本文基于前文提及识别“睡美人”文献的van Raan法则[4],设立CW>50和CB>100,用于“黑-白天鹅”模型定量研究,即“白天鹅”论文与“黑天鹅”论文被引量五倍于“睡美人”文献值设置,用于区分五年时间窗口不同类型的“天鹅”。本文对优质论文研究聚焦于诺贝尔奖物理学和经济学两个学科,考虑到不同学科领域论文引用情况不同,结合ESⅠ(Essential ScienceⅠndicators)2010—2019平 均学 科 引用 率记录(2020年6月查询),即物理学和经济学的平均学科引用率分别为11.48和9.09,设定“天鹅群”模式和“伴随睡美人”模型中CB和CWi在两个学科分别大于等于50和25。下文实证研究将据此设定开展。
3 实证结果
2001—2010年诺贝尔奖物理学和经济学关键论文集数据汇总如表1所示,涉及各学科获奖科学家人数、关键论文集中去除重复数据后的论文数目和“天鹅群”实例数目、“伴随睡美人”实例数目以及各自所占关键论文集论文数目的比例。
表1 2001—2010年诺贝尔奖各学科关键论文集数据汇总
2001—2010年物理学和经济学分别有27位和21位科学家被授予诺贝尔奖项,各学科关键论文集分别包含225篇和295篇论文。本文分别在物理学和经济学关键论文集中发现了89个和85个“天鹅群”实例,占比分别为39.56%和28.81%。由此可见,不同于“黑-白天鹅”模型仅可适用于物理学、化学和生物医学等自然科学类学科(在经济学适用比例不足1%)[3],“天鹅群”可同时适用于物理学和经济学两个不同性质的学科。此外,物理学和经济学中分别识别出10篇和24篇“伴随睡美人”文献,占比分别为4.00%和6.78%,远高于Ye等[9]的一项研究(仅存在约0.1%的典型“睡美人”文献)。
3.1 物理学和经济学的“天鹅群”
2001—2010年诺贝尔奖物理学和经济学获奖者中,分别有8位和2位获奖者关键论文集中未发现有“天鹅群”实例。除此之外,分别有6位和7位获奖者“天鹅群”实例占比在区间(0,30%],有8位和7位获奖者“天鹅群”实例占比在区间(30%,70%],两个学科均有3位获奖者“天鹅群”实例占比大于70%。物理学和经济学“天鹅群”实例根据“天鹅群”指数区分的类型分布如表2所示。
表2 2001—2010年诺贝尔奖各学科“天鹅群”实例类型分布
由表2可知,在物理学和经济学关键论文集中均是“类型2”的“天鹅群”占据绝大多数,所占比例均在70%以上;其次为“类型3”的“天鹅群”;“类型1”的“天鹅群”占比最低,尤其在经济学学科占比仅为1.18%。由此可见,“天鹅群”实例类型分布在物理学和经济学两个学科具有一致性。
3.2 物理学和经济学的“伴随睡美人”
本文分别在2001—2010年物理学和经济学关键论文集中识别出10篇和24篇“伴随睡美人”文献。其中,物理学2004年获奖者David J.Gross和2007年获奖者Albert Fert均有4篇“伴随睡美人”文献,2008年获奖者Makoto Kobayashi有2篇“伴随睡美人”文献且伴随着同一篇“黑天鹅”论文;经济学2001年获奖者Joseph E.Stiglitz、2002年获奖者Vernon L.Smith、2007年获奖者Eric S.Maskin和2009年获奖者Oliver E.Williamson分别有6篇、4篇、3篇和6篇“伴随睡美人”文献,其余2004年获奖者Finn E.Kydland、2006年 获奖 者Edmund S.Phelps、2007年获奖者Roger B.Myerson、2008年获奖者Paul Krugman和2009年获奖者Elinor Ostrom各有1篇“伴随睡美人”文献。这里分别选择物理学2004年获奖者David J.Gross和经济学2001年获奖者Joseph E.Stiglitz的3篇“伴随睡美人”文献进行展示,如图3所示。图3中均以一个横轴加双纵坐标轴展示,横轴表示论文发表年份,纵轴表示论文被引量。每幅图中无标记曲线表示“黑天鹅”论文(B),“▲”标记和“-”标记分别表示两篇“白天鹅”论文(W1和W2)。
图3 诺贝尔奖物理学和经济学“伴随睡美人”文献部分实例
在图3中,物理学3篇“伴随睡美人”文献均为“白天鹅”论文W1,且这3篇文献实为同一篇“睡美人”论文,但因伴随不同“黑天鹅”论文被发现,所以计为3篇“伴随睡美人”文献。这3组“伴随睡美人”实例文献信息如下:
·2004Gross_1
“黑天鹅”:Gross D J,Wilczek F.Ultraviolet behavior of non-abelian gauge theories[J].Physical Review Letters,1973,30(26):1343-1346.
·2004Gross_2
“黑天鹅”:Gross D J,Neveu A.Dynamical symmetry breaking in asymptotically free field theories[J].Physical Review D,1974,10(10):3235-3253.
·2004Gross_4
“黑天鹅”:Gross D J,Wilczek F.Asymptotically free gauge theories.Ⅰ[J].Physical Review D,1973,8(10):3633-3652.
伴随以上3篇“黑天鹅”论文而被识别出的“伴随睡美人”文献信息为:
Weinberg S.A model of leptons[J].Physical Review Letters,1967,19(21):1264-1266.
依据van Raan法则[4],此篇“伴随睡美人”文献“唤醒时间”为1971年,“睡眠时期”年均被引量为1.2,论文被“唤醒”之后四年被引量为622。
经济学3篇“伴随睡美人”文献均为图3中“白天鹅”W2。这3组“伴随睡美人”实例文献信息如下:
·2001Stiglitz_1
“黑天鹅”:Grossman S J,Stiglitz J E.On the impossibility of informationally efficient markets[J].The American Economic Review,1980,70(3):393-408.
“白天鹅”2:Hayek F A.The use of knowledge in society[J].The American Economic Review,1945,35(4):519-530.
·2001Stiglitz_2
“黑 天 鹅”:Stiglitz J E.Ⅰncentives and risk sharing in sharecropping[J].The Review of Economic Studies,1974,41(2):219-255.
“白天鹅”2:Arrow K J.The role of securities in the optimal allocation of risk-bearing[J].The Review of Economic Studies,1964,31(2):91-96.
·2001Stiglitz_3
“黑天鹅”:Stiglitz J E.Some lessons from the East Asian miracle[J].The World Bank Research Observer,1996,11(2):151-177.
“白天鹅”2:Kuznets S.Economic growth and income inequality[J].The American Economic Review,1955,45(1):1-28.
依据van Raan法则[4],以上3篇“伴随睡美人”文献“唤醒时间”分别为1973年、1969年和1972年,“睡眠时期”年均被引量分别为0.48、1.33和1.11,论文被“唤醒”之后四年被引量分别为25、36和27。
在多数情况下,“天鹅群”模式的2篇“白天鹅”论文中,仅有1篇可被识别为“伴随睡美人”文献,但在物理学2008年获奖者Makoto Kobayashi、经济学2002年获奖者Vernon L.Smith和2007年获奖者Eric S.Maskin的实例中均存在同1个“天鹅群”的2篇“白天鹅”论文都属“伴随睡美人”文献的情形。
本文在诺贝尔奖物理学和经济学分别发现10篇和24篇“伴随睡美人”文献,“伴随睡美人”文献本质实为“睡美人”文献。由于存在文献重复的情况,各学科“伴随睡美人”文献中“睡美人”论文数目要小于等于“伴随睡美人”文献数目。因此,物理学10篇“伴随睡美人”文献实为4篇“睡美人”论文,经济学24篇“伴随睡美人”文献实为14篇“睡美人”论文。
4 讨论和总结
本文基于诺贝尔物理学和经济学奖对优质论文中的“天鹅群”模式和“伴随睡美人”现象进行了探讨,其中优质论文数据集选取了关键论文集。本文研究结论如下:
(1)优质论文中的“天鹅群”模式可同时适用于诺贝尔奖物理学和经济学两个不同性质的学科,在各学科关键论文集占比分别为39.56%和28.81%,比仅适用于以物理学、化学和生物医学为代表的自然科学类学科的“黑-白天鹅”模型更具有普适性。此外,“天鹅群”类型在物理学和经济学中的分布具有一致性,“类型2”的“天鹅群”占据绝大多数,“类型3”的“天鹅群”占比最低。
(2)优质论文的“天鹅群”中同时存在“伴随睡美人”,在物理学和经济学关键论文集中“伴随睡美人”文献占比分别为4.00%和6.78%,远高于Ye等[9]的普通文献集里仅存在约0.1%的典型“睡美人”文献。
本文的局限性主要是优质论文集得之不易,论文要获得国际公认优质很难;仅依据van Raan法则[4]识别“睡美人”文献也有局限。这些局限有碍本文方法的推广应用,其他扩展考虑[12-13]和王子文献识别[14-15]可能有助于深化相关研究,而改进和优化策略及途径则有待继续进一步探索。