基于全文计量的COVID-19论文撤稿后持续被引现象研究
2023-12-10任檐雨杨思洛
任檐雨 杨思洛
基金项目:本文系国家社会科学基金后期资助项目“基于全文计量分析的知识交流体系研究”(项目编号:22FTQB003)研究成果之一。
作者简介:任檐雨,本科生;杨思洛,教授,博士生导师,通信作者,E-mail:58605025@qq.com。
收稿日期:2023-04-04 发表日期:2023-10-20 本文责任编辑:刘远颖
摘要:[目的/意义]新冠(COVID-19)疫情期间,有较多相关主题的论文被撤稿,但通过各权威数据库或网站检索发现,这些论文在撤稿后仍被持续引用。本研究旨在从引文内容层面分析其撤稿后的传播和影响,并就重大公共事件中引证和撤稿机制的优化提出建议,以促进学术交流的良性发展。[方法/过程]首先从WoS、Scopus和PubMed数据库中获取COVID-19撤稿论文及其施引文献全文,并对施引文献中的引文上下文进行人工抽取;然后通过撤稿标记情况、引用对象、引用位置和引用情感4个维度构成的全文引文分析框架进行人工标注和内容分析。[结果/结论]COVID-19撤稿论文被识别的概率和速度远超生物医学领域的其他论文,撤稿机制起到一定的学术净化作用;但其内容仍在扩散,其中的不可靠和错误信息大量传播。此现象须引起研究者、期刊及数据库等各方足够的重视,重大公共事件中的引证和撤稿机制亟待优化。
关键词:COVID-19;撤稿论文;全文引文分析;学术净化;学术影响
分类号:G251
引用格式:任檐雨, 杨思洛. 基于全文计量的COVID-19论文撤稿后持续被引现象研究[J/OL]. 知识管理论坛, 2023, 8(5): 399-413[引用日期]. http://www.kmf.ac.cn/p/360/.
自新冠(COVID-19)疫情暴发以来,人类社会各方面受到了巨大影响。为了应对突如其来的重大公共卫生事件,加快对该病毒的了解,实现更有效的防控,学术界快速响应。相关研究成果产出速度加快,简短的报告、观点和意见等数据类型明显增多[1];期刊论文出版的周期也大大缩短,据统计,2020年的前6个月,COVID-19主题的论文平均被录用时间仅为19.3天[2],中位数仅为6天[3]。匆忙的撰写和发表、不够充分的同行评审、少数作者“蹭热点”的主观倾向,甚至是恶意造假、抄袭、违背科研伦理等学术不端行为导致COVID-19主题的论文在呈指数级增长的同时,撤稿率也居高不下[4] 。然而,从世界各权威数据库或出版商网站都可以观察到,这些论文在撤稿后仍然获得了一定的引用量,部分甚至达到了数百次。
由于生物医学领域的撤稿论文对人类造成的危害往往更直接、更严重,了解其内容的扩散情况也就显得更为重要和紧迫。而当前对于COVID-19撤稿论文的引文分析极少。本文旨在从全文引文分析的视角,探析COVID-19撤稿论文为研究者所感知的情况,揭示COVID-19撤稿论文在施引文献中的作用,分析其造成的学术影响及净化效果,并就重大公共事件中引证和撤稿机制的优化提出建议,以促进学术交流的良性发展。
1 研究现状综述
1.1 COVID-19撤稿论文研究
新冠疫情暴发以来,相关研究成果在快速增长的同时,也出现了惊人的撤稿率,这一现象引起了学者们的关注。当前,相关研究主要包括:①关于频繁撤稿现象的研究,主要从科研诚信、出版伦理、制度伦理等方面剖析撤稿事件并提出思考和建议[5]。A. J. London等[6]、E. Barroga等[7]将新冠疫情期间大规模的知识生产命名为“研究例外现象”(research exceptionalism),批判大量的研究只使用了较小的样本量、未经验证的方法和并不充分的证据,只经过粗略的或根本没有经过同行评审;P. Soltani、A. Dagliati等[8-10]均基于频繁撤稿的现状探讨了COVID-19撤稿论文造成的危害以及缺乏质量控制流程的学术乱象,提出了优化同行评审、遵循报告指南、关注数据共享和治理、克服社交媒体上的“信息疫情”等系列建议。②从文献计量学的角度入手,以 Web of Science(WoS) [11]、Scopus[12]、PubMed[4]、Retraction Watch等数据库为数据来源,讨论COVID-19撤稿论文的特征和撤稿率高的原因。如李国琪[4]基于191篇撤稿论文详细分析了撤稿原因、主体、时滞、文献类型及地区分布;L. Schonhaut等[13]将COVID-19论文的撤稿率与疫情中的其他相关主题进行对比,指出其撤稿率超过了4/10 000的基础水平;N. S. L. Yeo-teh等[14]调查发现COVID-19稿件的接受速度比其他主题快11.5倍,认为这可能是造成撤稿率高的原因之一。也有学者 [15-16]利用Almetrics计量指标分析了COVID-19撤稿论文。
1.2 撤稿论文引文分析
早在1990年,M. P. Pfeifer等 [17]就指出,人們对于撤稿文献的最终科学命运知之甚少,并表明撤稿仅可将引用减少约35%。后续对于撤稿论文的引文分析逐渐丰富起来,引文网络可视化、引用的影响因素是其中的重要话题。J. Schneider等 [18]通过双层引文网络的可视化分析揭示了错误信息在引文网络上继续传播的可能性;S. Y. Kim等[19]基于韩国医学引文索引调查发现,引用在撤稿后1—3年的时间范围内很常见,并不受撤稿标记可见性的影响;C. R. Madlock-Brown等 [20]探讨了自引和期刊影响因子对被引频次的影响、不同撤稿原因及撤稿主体论文被引趋势的差异。这些研究主要基于传统“量”的层面,并没有考虑到引文的差异性。深入引文内容层面的研究关注最多的是引用情感方面,如姚长青等[5]、杨珠[21]、J. Bar-Ilan等 [22]对一定学科和时间范围的撤稿论文进行了引文情感判别,袁子晗等 [23]分析了不同引用情感的时序变化特征和轨迹;也有一些关注引文是否提及撤稿,P. E. Van Der Vet等[24] 、D. G. Hamilton等[25]做出了一定的探索。然而,这些分析框架较简单,分析内容较为局部和片面,有待深入和优化。
1.3 全文引文分析研究
全文引文分析以施引文献的全文文本为研究对象,当前研究主要包括:①全文引文分析框架体系的构建,目前已提出引用强度、引用位置、引用情感、引用功能、引用动机及引用对象等多个分析维度。前三个维度的划分标准大体相似,其他维度的定义则见仁见智。引用功能与引用动机的相关研究较多,石泽顺等[26]、崔红[27]、S. Teufel等[28]都提出了各自的观点;引用对象的相关研究则较少,通常将其嵌入到引用功能和引用动机之中,如M. A. Garzone[29]在“使用”这一引用动机中提出了5种对象类型;而陆伟等[30]认为这样的嵌套使标注体系变得庞杂,将引用对象分离出来成为一个单独的分析维度。②应用全文引文的计量研究。张艺蔓等[31]、刘运梅等[32]、杨思洛等[33]分别研究了知识流动、三角引用和论文影响力评价等问题。张春博等[34]、X. Liu等[35]则将其引入了撤稿论文的引文分析。前者选取自然科学和社会科学领域的造假论文各一篇,构建了包括引用位置、引用情感和引用对象在内的引文分析框架;后者则重点关注心理学领域研究者对于撤稿的感知,重点分析了正确提及论文撤稿的引文片段分布特征,并指出首次提及撤稿后施引文献的增长速度明显放缓。
综上,在全球新冠疫情感染人数已超过6亿的背景之下,对于COVID-19撤稿论文的研究众多,但对其撤稿后持续被引现象的关注却很少;同时,当前全文引文分析方法的应用并不广泛,对于撤稿论文引文这一特殊的引文类型没有揭示出其深层次的语义内涵。本文试图构建更全面的引文文本分析框架,从内容层面更细粒度地揭示COVID-19论文撤稿后的被引情况。
2 数据来源和研究方法
对于概念“撤稿后引用”(post-retraction citation),当前学术界有诸多不同的看法:M. P. Pfeifer等[17]将撤稿一年后的施引文献视为“撤稿后引用”,因为一篇论文从提交到最终出版通常需要12个月及以上;D. G. Hamilton等[25]认为任何提交日期在撤稿日期之后的施引文献均可视为“撤稿后引用”,而X. Liu等[35]认为,论文发表之后引用与被引用的关系即正式建立,直接根据“出版日期”来定义“撤稿后”更加准确。结合新冠疫情期间的快速出版模式,本文将“撤稿后引用”定义为任何出版日期在撤稿声明出版日期之后的引用行为。在当今的数字化环境下,数据库是检索和获取期刊论文的主要途径[36],论文一经在线发布即开始传播,故在出版日期方面优先选择“在线出版日期”。
2.1 数据来源与筛选处理
2.1.1 撤稿论文检索及筛选
在WoS、PubMed和Scopus三大数据库中以“COVID-19”“Novel Coronavirus”“Corona Virus Disease 2019”“SARS-COV-2” “Severe Acute Respiratory Syndrome Coronavirus 2”为检索词进行检索,并在检索结果中选择文献类型为“撤稿出版物”或“撤稿通知”(Retracted Publication或Item Withdrawal或Withdrawn Publication或Retraction或Retraction of Publication),分别得到检索结果169条、245条和18条(检索时间:2022年9月17日)。去除三个数据库的重复文献和重复撤稿通知后,实际得到撤稿论文209篇。再根据在线发表日期确定论文的出版和撤稿时间,如果日期只精确到“月”,则统一记为该月的1号。
之后,按照以下标准进行人工筛选: ①以COVID-19为主题且属于生物医学领域;②是实证研究或基于实证研究的系统评价或元分析;③存在撤稿后被引用的现象(排除自引); ④在检索时间之前没有得到更正或更正后的版本再次被撤回。最终得到符合条件的撤稿论文52篇。按文献类型来分,有研究性论文48篇、系统评价和元分析4篇;按撤稿原因来分,有数据问题型6篇、错误/争议型21篇、伦理问题型18篇、抄袭型5篇、其他原因型2篇。撤稿原因的具体内涵如表1所示[37]:
2.1.2 施引文献获取及筛选
分别在WoS、Scopus和PubMed数据库中检索上述论文撤稿后的施引文献。除研究性论文和综述外,系统评价和元分析通过整合大量的临床研究增加了样本量、增强了全面性,是生物医学领域重要的文献类型。因此,本研究选择研究性论文、综述、系统评价和元分析这4类施引文献作为主要的研究对象。将每篇施引文献的出版日期与撤稿声明的发表日期一一比對,剔除撤稿前引用的、无法获取全文的、注而未引的、三个数据库中重复的以及其他不符合要求的施引文献,最终获取施引文献全文1 317篇。基于许多施引文献既是系统评价又是元分析的事实,同时为便于后续分析的需要,本文将叙述性综述归为一类,系统评价和元分析归为一类。经过人工抽取,共得到包含被引文献的语句1476条,其中898条源自研究性论文,458条源自综述,120条源自系统评价和元分析。
2.2 研究方法
2.2.1 撤稿标记情况
X. Liu等[35]将“撤稿状态感知”定义为是否在文中提及了撤稿或是否在参考文献列表中标注了特定论文已撤稿。但是笔者发现,同一篇施引文献在参考文献列表处的标注存在随数据库的变化而有所不同的现象,代表这一标记可能来自数据库平台而并不一定来自施引者本人。故本研究主要关注引文中是否直接指出被引文献已撤稿或是否有类似含义的表达,以了解施引者对于撤稿的感知情况。具体标准如表2所示:
2.2.2 引用对象
引用对象指的是撤稿论文被引的具体内容,直接关系到施引文献对撤稿论文的问题识别情况。综合陆伟等[30]、张春博等[34]的观点,结合文本标注实际,构建如下的引用对象分类体系(见表3):
2.2.3 引用位置
根据一般学术论文的结构划分[33],标注引文片段在施引文献中的位置,详见表4。值得注意的是,由于综述在章节上的安排比较特殊,故仅对研究性论文、系统评价和元分析中的引文进行位置标注和分析。部分研究性论文如病例报告,可能出于时间紧迫等原因,论文结构不甚严谨,将其引用位置标注为“Others”。
2.2.4 引用情感
情感分析是全文本分析的关键内容,改善了传统引文指标片面单一的缺陷,实现了更加深入准确的论文测度[33]。在撤稿论文的引文内容分析中,引用情感更是可以直观地反映出作者对于撤稿论文的态度,其分类体系见表5。
基于以上4个维度,笔者构建了完整的全文引文分析框架,根据该框架对前文得到的1 317篇施引文献中的1 476条引文进行人工标注。标注示例见表6。
3 结果与分析
3.1 撤稿标记情况分析
撤稿标记情况在不同施引文献类型中的分布见表7。在1 317篇施引文献的1 476次引用中,共有457次标记了被引文献已撤稿,约占总引用次数的30.96%;其中研究性论文、综述、系统评价和元分析三类施引文献中标记被引文献已撤稿的比例分别为30.62%、31.22%和32.50%,系统评价和元分析最高但总体相差不大。
撤稿论文的撤稿原因不同,其引文中的撤稿标记率则产生了明显差异,如表8所示。在数据问题型撤稿论文的1 100次被引中,有427次都标记了被引文献已撤稿,标记率达到了约38.82%的较高水平;而在错误/争议型论文的193次被引中,只有28次标记了撤稿,比例还不到数据问题型的一半;在后三类撤稿论文的引文中,这一比例则更低,伦理问题型约为1.9%,抄袭型和其他原因型均为0。总体来看,撤稿标记率虽然达到了30.96%,但在不同类型的撤稿论文间分布极不均衡。
3.2 引用对象分析
在457次标记被引文献已撤稿的引用中,往往没有特定的引用对象,即使有也大多是为了撤稿事件叙述的完整性;而未标记撤稿的引文则很有可能在不知情的情况下引用撤稿论文的问题部分。故笔者对1 019次未标记撤稿的引文引用对象进行了详细的统计分析。
如表9所示,由于有2次来自研究性论文和4次来自综述的引用中包含了两个引用对象,故1 019次未标记撤稿的引用中共包含了1 025个引用对象。不难发现,撤稿论文的结果结论被引次数最多,在1 025次引用中占到了711次,其中又以核心结果被引最多,达到了632次。研究性论文和综述中对实验数据的引用比例均在5%—7%左右,而在系统评价和元分析中这一比例却高达59.04%,这是因为这类文章需要将大量的研究数据合并计算,撤稿论文实际上在其中充当“数据”角色。对“其他”的引用仅次于结果结论,在总体中的占比约为17.56%;对概念术语和方法工具的引用则比较少,分别只有10次和14次。
结合撤稿原因来看。如图2所示,对核心结果的引用均占据了最大比例,对中间结果、实验数据和“其他”的引用数量也十分可观。数据问题型、错误/争议型、伦理问题型、抄袭型和其他原因型五类撤稿论文的结果分别被引用了500次、99次、58次、15次和39次,实验数据分别被引用了73次、17次、12次、6次和2次,“其他”分别被引用了101次、43次、27次、3次和6次;对方法工具的引用主要来自其他原因型、错误/争议型和伦理问题型撤稿论文。
3.3 引用位置和引用情感分析
论文的章节结构在确定引文的功能和重要性程度方面起着关键作用。由于综述没有统一明确的结构,故仅对研究论文、系统评价和元分析的1 017次引用进行位置分析。由表10可见,引文在施引文献中主要分布在Introduction和Discussion & Conclusion部分,在1 017次引用中分别占到了452次和385次,其中未标记撤稿的分别为 308次和288次;Results和Data & Methods部分的引用分别有111次和25次,其中未标记撤稿的分别为74次和17次;在所有的引用位置中,只有Others部分已标记撤稿的引文多于未标记的引文。
引用情感分布结果如表11所示,457次已标记撤稿的引用几乎全部为负面引用,只有极少数施引文献(6次)即使知道被引文献已撤稿,仍持中性态度,认为其存在一定的价值和意义;两次正面引用的对象都是“其他语句”,剩余的449次均持否定和批判态度。1 019次未标记撤稿的引用中,最多的引用情感为中性(787次),这符合我们对学术论文的一般认知,即措辞相对客观谨慎,较少出现极性情感;其次为正面引用,有210次;负面引用则很少,只有22次。
鉴于不知情状态下的非负面引用危害最大,对这997次引用的位置和对象进行详细分析:在787次未标记撤稿的中性引用中,有45次引用了撤稿论文的实验数据,有559次引用了结果结论,引用位置的分布特征和总体特征相似。在210次未标记撤稿的正面引用中,位于Discussion & Conclusion部分的最多(106次),施引者大多将撤稿论文的结果结论(98次)和实验数据(7次)与自身研究进行对比以增强论证效果。Results部分次之,共计58次,其中43次来自系统评价和元分析,用于确定将撤稿论文的实验数据纳入合并计算;在这43次中,有33次都引自数据问题型和错误/争议型撤稿论文,1篇施引文献还同时纳入了2篇撤稿论文,分别为错误/争议型和抄袭型。分布在Data & Methods部分的次数较少,但对施引文献产生的影响较大,有11篇研究性论文将撤稿论文的实验数据和结果结论作为方法设计的重要支撑,有1篇系统评价和元分析论文于此位置同时纳入了两篇撤稿论文;Introduction部分的次數也较少,共计17次,大多对撤稿论文的核心结果进行肯定并作为引入自身研究话题的理论背景。
3.4 引文的时间分布
引用行为发生在COVID-19论文撤稿后多久反映出研究者对撤稿的关注度、敏感度和反应的及时性,也可以看出论文撤稿后在引用链中存活的时间及其变化趋势。由于施引文献的具体引用时间无从知晓,本研究以出版时间代表引用时间,对施引文献出版日期和撤稿声明出版日期之间的差值,即撤稿后的引用时间窗口进行了统计,结果如图3所示:
由图3可见,已标记撤稿的引用在撤稿初期的前4个月内显示出较快的增长,至第四个月时已积累了127次。这其中间隔时间最短的来自于一篇综述,该文详细报道了Hydroxychloroquine and Covid-19: a cellular and molecular biology based update一文的撤稿原因和经过,此时距这篇论文撤稿仅过去了5天。但是随着时间的推移,这类引用并没有继续增长,而是呈现出了下降趋势。
未标记撤稿的引用大多发生在COVID-19论文撤稿后的两个月内,第一个月和第二个月内分别有114次和98次。鉴于COVID-19论文的出版周期平均在两个月左右[38],可以判断其中有部分是在撤稿前对其进行了引用而在撤稿后才得以发表。总体而言,未标记撤稿的引用次数随着时间的推移而逐渐减少;但很显然,截至本研究开展之际,对撤稿论文的正常引用从未停止。有一篇文章在“数据问题型”撤稿论文Cardiovascular disease, drug therapy, and mortality in Covid-19撤稿后26个月仍对其结果进行了正面引用,指出“Our results are consistent with other studies......”;撤稿后第27个月的一次引用也是对“数据问题型”论文实验结果的中性引用,并没有表达任何怀疑或否定。并且,从已标记撤稿与未标记撤稿的引文数量对比来看,前者一直明显低于后者,只有个别月份稍微持平或略有超过。
4 讨论
从撤稿标记情况来看,在1 476次引用中,共计457次标记了被引文献已撤稿,比例为30.96%,即有约三成的论文明确显示了对撤稿的意识;而其他生物医学领域的撤稿论文研究得到的撤稿标记率一般在5%左右[18,39],可见在全球疫情大流行的背景下,COVID-19论文备受关注,其撤稿事件被知晓和报道的概率也相对较高。当然,也不能忽视剩余近70%的引用均未标记撤稿和标记率在不同类型撤稿论文间分布极不均衡的事实,错误/争议型这类有明显重大缺陷的撤稿论文标记率不到2%,伦理问题型、抄袭型和其他原因型的撤稿论文更是几乎无人标记;综述、系统评价和元分析作为基于已有研究的二次研究,标记率也只是略高于研究性论文,大多数研究仍对参考文献的最新状态并不敏感。
已标记撤稿的引文通常不引用明确的对象,即使引用也是为了撤稿事件叙述的完整性,未标记的则不然。由表9可见,后者最主要的引用对象为结果结论,尤其是核心结果。在1 019次未标记撤稿的引用中,对核心结果的引用就达到了632次。这与张春博等[34]认为只有极少数文献表达对撤稿论文核心结果的支持不同,也让撤稿论文造成的危害加剧。其可能的原因是,施引者为了追求研究速度,并未阅读撤稿论文全文而是直接引用了其结论。结合撤稿原因来看,对撤稿论文数据、结果和方法工具的835次引用中有693次都引自数据问题型和错误/争议型论文,其中误导性信息的传播范围之广可见一斑。此外,对“其他”的引用也有180次。该引用对象在本研究的定义中包含“对文章内容的粗略引用”,如仅笼统地叙述“previous publications have reported retinal findings in COVID19 patients”。这类引用通常与施引文献本身的研究没有直接关系,但反映出作者仍将撤稿论文视为正常论文,并有可能推动撤稿论文的进一步扩散。
不同位置的引文在施引文献中起着不同的作用:Introduction部分的引文用于为新研究奠定基础;Data & Methods部分的引文用于支持方法设计;Results、Discussion& Conclusion部分的引文则用于对比结果结论、增强论证效果或突出自身研究的独特价值[40]。一般来说,后三者与施引文献内容的相关性更大,重要性程度也更高[41]。通过与其他非撤稿论文的对比发现,COVID-19撤稿论文在施引文献中的位置分布特征同他们基本一致[42,43],代表撤稿论文大多是出于与正常论文相似的目的而被引用[44]。尽管Introduction部分的引文略多(452次),但Discussion & Conclusion、Results和Data & Methods部分也分别达到了385次、111次和22次,这些引文超七成都没有标记撤稿,可以推测在施引文献中承担了较为重要的角色。
从引用情感来看,虽然总的负面引用次数达到了471次,但其中449次来自于已标记撤稿的引文;在1 019次未标记的引用中,对其表示怀疑或指出其存在争议的负面引用仅有22次,可见在不知情的情况下,大家对于撤稿论文的态度仍以承认甚至肯定为主。997次未标记撤稿的非负面引用基本都引用了撤稿论文的实验数据和结果结论,且大部分引自数据问题型和错误/争议型论文。其中210次未标记的正面引用有半数以上都位于Discussion & Conclusion 部分,Results和Data & Methods 部分也达到了70次,后者对施引文献的影响尤甚。
从引文的时间分布来看。一方面,已标记撤稿的引用在撤稿初期就出现了较快增长,有近20次发生在撤稿后仅一个月内,最早的一次出现于撤稿后5天,这一速度远超其他论文[35];未标记撤稿的引用次数总体上也随时间呈现出明显的下降趋势,可见撤稿机制确实起到了一定的学术净化作用。但另一方面,对COVID-19撤稿论文的正常引用从未停止。截至本文统计时间点,最长的一篇已经在撤稿后被持续引用了27个月之久,尽管这是一篇臭名昭著的从《柳叶刀》上撤稿的论文;虽然撤稿标记率有缓慢的波动上升,但大部分时候都处于較低水平;部分来源于撤稿前的引用对施引者而言也许是情有可原的,但其造成的危害却是客观的,尤其当这类引用以正面情感居多时。
5 研究结论与建议
5.1 研究结论
通过撤稿标记情况、引用对象、引用位置和引用情感4个维度以及引文的时间分布,本研究从引文内容层面对COVID-19论文撤稿后的传播和影响进行了全面的分析,总结出以下三点结论:
(1)COVID-19撤稿论文被识别的概率和速度明显高于生物医学领域的其他论文,撤稿机制确实起到了一定的学术净化效果。在全球疫情背景下,COVID-19成为了当仁不让的研究热点,相关知识流动的速度加快,受到的关注度更高,其撤稿被发现的概率和速度也更高;且随着撤稿后时间的推移,引文数量出现了明显的下降,可见撤稿作为学术界的自我纠错机制确实对阻断传播产生了一定的影响。
(2)COVID-19撤稿论文内容持续扩散造成了一定的危害,不可靠和错误信息正大量传播。本研究纳入的52篇论文在撤稿后共被引用1 476次,篇均被引28.38次,而近70%的引文没有标记撤稿,其中近九成引自数据问题型和错误/争议型撤稿论文;引用对象呈现出以核心结果为主的特征,作者不仅很少对撤稿论文提出质疑,还大多赋予其重要的地位和角色。这些结果意味着撤稿论文仍以正常论文的方式大量传播,误导着科研人员、卫生决策和社会认知。
(3)COVID-19撤稿论文影响深远,撤稿为研究者普遍知晓需要经过漫长的时间。尽管COVID-19撤稿论文的净化效果已经优于其他撤稿论文,但这只是暴露出了科学自我纠错机制一直以来的窘境,并不代表其净化效果绝对的良好。在未标记撤稿的引文中,有约半数发生在撤稿半年至一年内,有约四分之一发生在撤稿一年后;截至研究开展之际,撤稿论文被引的最长周期已经达到了两年零三个月且还未终止,而自疫情暴发至今也仅有三年。也就是说,可能在整个疫情期间都无法消除某些撤稿论文的负面影响,尽管这在公共卫生事件中非常重要。
由此观之,COVID-19论文撤稿后持续被引现象须引起学术界的重视。
5.2 思考与建议
新冠疫情暴发以来,学术界的快速出版模式为抗击疫情做出了应有的贡献,也留下了不可避免的“后遗症”。笔者就该事件及此类重大公共事件中的引证和撤稿机制提出以下建议,以期促进学术交流的良性发展:
(1)科研人员是引用和传播撤稿论文的主体,阻断撤稿论文的内容扩散首先要从科研人员这一源头抓起。①科研人员应该认识到,COVID-19及其他“热点”论文的快速出版和大量发表是以牺牲其他主题的论文为代价的,要树立起高度的社会责任感,摒弃“蹭热点”的错误心态,为自己的研究成果及引用的参考文献负责。②在新冠疫情这样的重大公共卫生事件中,论文的撤稿率远高于平常[14],尤其是在事件暴发的初期,信息往往瞬息万变,极不稳定,科研人员应该时刻保持警惕,及时跟进最新的调查结果,谨慎使用存在争议的尤其是发布了“expression of concern”(关注声明)的文章。③科研人员应该规范引用行为,避免不阅读原文而直接转引、使用本地文件而不检索其最新状态等不良习惯,善于使用CrossMark、Retraction Watch等辅助工具了解论文的“前世今生”;如果认为某些对撤稿论文的引用无法避免且确有必要,应在文中注明已撤稿或在附录中注明引用原因。④科研人员应恪守学术道德,在撰写和提交论文之前反复检查参考文献尤其是与自身研究高度相关的文献;如果发现与自身研究有直接关系的论文撤稿,应主动联系期刊编辑进行修改,减轻其回溯筛查的负担。
(2)作为学术质量的把关者和过滤器[45],期刊应在出版速度和科学严谨性之间努力寻找一个最佳平衡点。首先,发生撤稿的期刊应尽力提高读者对于撤稿的知情率。一方面,应在全平台发布撤稿通知,确保所有出版文献的地方都加注了“retracted”(撤稿);另一方面,鼓励设置“更正”“論文撤销”专栏[46],对存在问题的论文进行披露和公示。有关研究表明,有1/3的COVID-19撤稿论文是由同一组作者撰写的[12]。在本研究的34篇撤稿论文中,有4篇分别来自于两位相同的作者,还有2篇来源于同一机构、同一团队,然而施引者对于同根同源的撤稿论文反应却可能大不相同,故期刊应对连环撤稿事件做出特别标记,如在撤稿声明之间建立交互链接或将一系列撤稿论文放在同一篇声明之中。其次,期刊应仔细检查论文的参考文献,做好出版前的最后一轮把关。如果某篇施引文献正处于审稿或预出版阶段,需要求作者明确地解释引用的目的和动机,如无引用必要应将其彻底删除[47];对于建立在撤稿论文基础上或对其表达强烈认同和支持的研究,应高度重视并核实其真实性、有效性;某些负面引用可以接受,但须明确标记“已撤稿”,并鼓励引用撤稿声明作为直接引用撤稿论文的替代方法[47]。同时,应制定具体的引用规范,要求作者在提交稿件时证明他们已经检查过了参考文献[48]。最后,对于已经发表的施引文献,期刊应进行全面彻底的回溯和调查。在本研究纳入的52篇COVID-19撤稿论文的所有施引文献中,只有一篇文章[49]因为引用了撤稿论文而被撤稿,其他施引文献均没有受到任何的处理。对此,期刊编辑应第一时间联系施引文献作者,要求其尽快更正或撤回,尽量将撤稿论文的不良影响控制在最小范围内[21]。
(3)文献数据库是当今数字化环境下检索和获取论文的主要途径,对撤稿论文的后续传播有很大影响。例如撤稿论文Effectiveness of surgical and cotton masks in blocking SARS-CoV-2: a controlled comparison in 4 patients于2020年4月6日发表在影响因子51.598的期刊Annals of Internal Medicine上,不到两个月后因存在错误而被撤稿,但截至本研究开展之际,WoS数据库仍未收录其撤稿声明并将其类型更改为“retracted publication”,收录的PDF也没有“retracted”水印,该文仅在WoS中就被引用了103次。对此,管理和运营团队应该认识到自己的责任,了解撤稿论文对科学可靠性的危害,与期刊及出版商通力合作,及时更新论文撤稿状态、收录论文撤稿声明并建立醒目的链接和标记,以最快的速度将撤稿信息提供给研究者。
当然,以上提到的部分措施需要耗费巨大的时间和精力——某些撤稿论文的被引次数达上百次之多,一些投稿论文的参考文献数量也十分庞大,如果要求期刊编辑逐篇核查将是一个惊人的工程。在重大公共事件要求的快速出版模式之下,这样精细的筛查更是困难重重,因此,最好的解决方案还是尽快开发出能够自动检测引文的工具和能够自动追踪撤稿论文扩散路径的系统。
本文的贡献主要在于:有利于警示学术界重视起COVID-19撤稿论文的后续处理,为该事件及此类重大公共事件中引证和撤稿机制的优化提供一定的建议;构建了较为全面的适用于撤稿论文的全文引文分析框架。局限性主要在于:仅综合了三个数据库中的COVID-19撤稿论文及其施引文献而没有关注其他的数据库和预印本平台;没有对撤稿前发表的100余篇施引文献进行统计分析等。
参考文献:
[1] GIANOLA S, JESUS T S, BARGERI S, et al. Characteristics of academic publications, preprints, and registered clinical trials on the COVID-19 pandemic[J]. PloS one, 2020, 15(10): e0240123
[2] AVIV-REUVEN S, ROSENFELD A. Publication patterns changes due to the COVID-19 pandemic: a longitudinal and short-term scientometric analysis[J]. Scientometrics, 2021, 126(8): 6761-6784.
[3] PALAYEW A, NORGAARD O, SAFREED-HARMON K, et al. Pandemic publishing poses a new COVID-19 challenge[J]. Nature human behaviour, 2020, 4(7): 666-669.
[4] 李國琪. 基于COVID-19论文撤稿特征探析期刊应对突发公共卫生事件的策略[J]. 天津科技, 2022, 49(5): 90-95. (LI G Q. Analysis of reporting strategies of journals during public health emergencies based on characteristics of retracted COVID-19 papers[J]. Tianjin science & technology, 2022, 49(5): 90-95.)
[5] 姚长青, 田瑞强, 杨冬雨, 等. 撤销论文及其学术影响研究[J]. 中国科技期刊研究, 2014, 25(5): 595-604. (YAO C Q, TIAN R Q, YANG D Y, et al. Research of retracted paper and its academic impact[J]. Chinese journal of scientific and technical periodicals, 2014, 25(5): 595-604.)
[6] LONDON A J, KIMMELMAN J. Against pandemic research exceptionalism[J]. Science, 2020, 368(6490): 476-477.
[7] BARROGA E, MATANGUIHAN G J. Fundamental shifts in research, ethics and peer review in the era of the COVID-19 pandemic[J]. Journal of Korean medical science, 2020, 35(45): e395
[8] SOLTANI P, PATINI R. Retracted COVID-19 articles: a side-effect of the hot race to publication[J]. Scientometrics, 2020, 125(1): 819-822.
[9] DAGLIATI A, MALOVINI A, TIBOLLO V, et al. Health informatics and EHR to support clinical research in the COVID-19 pandemic: an overview[J]. Briefings in bioinformatics, 2021, 22(2): 812-822.
[10] MHEIDLY N, FARES J. Leveraging media and health communication strategies to overcome the COVID-19 infodemic[J]. Journal of public health policy, 2020, 41(4): 410-420.
[11] TEIXEIRA DA SILVA J A, TSIGARIS P, ERFANMANESH M. Publishing volumes in major databases related to Covid-19[J]. Scientometrics, 2021, 126(1): 831-842.
[12] FRAMPTON G, WOODS L, SCOTT D A. Inconsistent and incomplete retraction of published research: a cross-sectional study on Covid-19 retractions and recommendations to mitigate risks for research, policy and practice[J]. PloS one, 2021, 16(10): e0258935.
[13] SCHONHANT L, COSTA-ROLDAN I, OPPENHEIMER I, et al. Scientific publication speed and retractions of COVID-19 pandemic original articles[J]. Pan American journal of public health , 2022, 46: e25.
[14] YEO-TEH N S L, TANG B L. An alarming retraction rate for scientific publications on Coronavirus Disease 2019 (COVID-19)[J]. Accountability in research, 2021, 28(1): 47-53.
[15] SHAMSI A, LUND B D, SEYYEDHOSSEINI S. Sharing of retracted COVID-19 articles: an altmetric study[J]. Journal of the Medical Library Association, 2022, 110(1): 97.
[16] HAUNSCHILD R, BORNMANN L. Can tweets be used to detect problems early with scientific papers? A case study of three retracted COVID-19/SARS-CoV-2 papers[J]. Scientometrics, 2021, 126(6): 5181-5199
[17] PFEIFER M P, SNODGRASS G L. The continued use of retracted, invalid scientific literature[J]. Jama, 1990, 263(10): 1420-1423.
[18] SCHNEIDER J, YE D, HILL A M, et al. Continued post-retraction citation of a fraudulent clinical trial report, 11 years after it was retracted for falsifying data[J]. Scientometrics, 2020, 125(3): 2877-2913.
[19] KIM S Y, YI H J, CHO H M, et al. How many retracted articles indexed in KoreaMed were cited 1 year after retraction notification[J]. Science editing, 2019, 6(2): 122-127.
[20] MADLOCK-BROWN C R, EICHMANN D. The (lack of) impact of retraction on citation networks[J]. Science and engineering ethics, 2015, 21(1): 127-137.
[21] 楊珠. 造假论文被引分析——以国家自然科学基金委员会查处的造假论文为例[J]. 编辑学报, 2022, 34(3): 291-294. (YANG Z. Citation analysis of Chinese falsified papers from the perspective of citation content analysis: taking the falsified paper investigated by the National Natural Science Foundation of China as an example[J]. Acta editologica, 2022, 34(3): 291-294.)
[22] BAR-ILAN J, HALEVI G. Post retraction citations in context: a case study[J]. Scientometrics, 2017, 113(1): 547-565.
[23] 袁子晗, 张红伟. 学术不端撤销论文施引文献引用态度分析——以哈佛大学心脏干细胞撤稿事件为例[J]. 中国科技期刊研究, 2021, 32(4): 465-473. (YUAN Z H, ZHANG H W. Citation attitudes of articles to papers retracted due to academic misconducts: taking the retracted papers of cardiac stem cell from Harvard University as an example[J]. Chinese journal of scientific and technical periodicals, 2021, 32(4): 465-473.)
[24] VAN DER VET P E, NIJVEEN H. Propagation of errors in citation networks: a study involving the entire citation network of a widely cited paper published in, and later retracted from, the journal Nature[J]. Research integrity and peer review, 2016, 1(1): 1-10.
[25] HAMILTON D G. Continued citation of retracted radiation oncology literature—Do we have a problem?[J]. International journal of radiation oncology biology physics, 2019, 103(5): 1036-1042.
[26] 石泽顺, 肖明. 基于本体和关联数据的全文引文分析方法研究[J]. 图书馆杂志, 2021, 40(4): 100-108. (SHI Z S, XIAO M. Research on full-text citation analysis method based on ontology and linked data[J]. Library journal, 2021, 40(4): 100-108.)
[27] 崔红. 我国科技人员引文动机聚类分析[J]. 情报杂志, 1998(2): 68-70. (CUI H. Clustering analysis of citation motivation of Chinese science and technology personnel[J]. Journal of information, 1998(2): 68-70.)
[28] TEUFEL S, SIDDHARTHAN A, TIDHAR D. Automatic classification of citation function[C]//Proceedings of the 2006 conference on empirical methods in natural language processing. Sydney: Association for Computational Linguistics, 2006: 103-110.
[29] GARZONE M A. Automated classification of citations using linguistic semantic grammars[D]. Canada: The University of Western Ontario, 1997.
[30] 陆伟, 孟睿, 刘兴帮. 面向引用关系的引文内容标注框架研究[J]. 中國图书馆学报, 2014, 40(6): 93-104. (LU W, MENG R, LIU X B. A deep scientific literature mining-oriented framework for citation content annotation[J]. Journal of library science in China, 2014, 40(6): 93-104.)
[31] 张艺蔓, 马秀峰, 程结晶. 融合引文内容和全文本引文分析的知识流动研究[J]. 情报杂志, 2015, 34(11): 50-54, 49. (ZHANG Y M, MA X F, CHENG J J. Research of knowledge flows based on citation content analysis[J]. Journal of intelligence, 2015, 34(11): 50-54, 49.)
[32] 刘运梅, 马费成.面向全文本内容分析的文献三角引用现象研究[J]. 中国图书馆学报, 2021, 47(3): 84-99. (LIU Y M, MA F C. Research on the phenomenon of literature triangular citation facing full text content analysis[J]. Journal of library science in China, 2021, 47(3): 84-99.)
[33] 杨思洛, 聂颖. 结合全文本分析的论文影响力评价模型研究[J]. 现代情报, 2022, 42(3): 133-146. (YANG S L, NIE Y. Research on evaluation model of papers influence combined with full-text analysis[J]. Journal of modern information, 2022, 42(3): 133-146.)
[34] 张春博, 丁堃, 王贤文, 等. 全文引文分析视角下的造假论文学术影响研究[J]. 科学学研究, 2021, 39(4): 577-586. (ZHANG C B, DING K, WANG X W, et, al. Research on the impact of fraudulent paper to the academia from the view of citation analysis in full-text--case study of two highly cited retracted publications [J]. Studies in science of science, 2021, 39(4): 577-586.)
[35] LIU X, WANG C, CHEN D Z, et al. Exploring perception of retraction based on mentioned status in post-retraction citations[J]. Journal of informetrics, 2022, 16(3): 101304.
[36] 曾建勋.我国学术期刊数据库的转型发展路径思考[J]. 编辑学报, 2022, 34(3): 262-266. (ZENG J X. Thoughts on transformation and development path of Chinas academic journal database[J]. Acta editologica, 2022, 34(2): 262-266)
[37] 吳任力, 邓支青, 吴淑倩.多维视域下开放获取期刊撤稿原因分析——基于Retraction Watch Database数据[J]. 中国科技期刊研究, 2020, 31(3): 346-355. (WU R L, DENG Z Q, WU S Q. Analysis of the reasons for retraction of open access journals from multi-dimensional view: based on the data from Retraction Watch Database[J]. Chinese journal of scientific and technical periodicals, 2020, 31(3): 346-355.)
[38] HORBACH S P J M. Pandemic publishing: medical journals strongly speed up their publication process for COVID-19[J]. Quantitative science studies, 2020, 1(3): 1056-1067.
[39] BUDD J M, COBLE Z, ABRITIS A. An investigation of retracted articles in the biomedical literature[J]. Proceedings of the Association for Information Science and Technology, 2016, 53(1): 1-9.
[40] 尹莉, 邓红梅.自引的新评价——引用极性、引用位置和引用密度的视角[J]. 情报杂志, 2019, 38(9): 180-184, 179. (YIN L, DENG H M. New evaluation of self-citation: from the perspectives of reference polarity,reference position and reference density[J]. Journal of intelligence, 2019, 38(9): 180-184, 179.)
[41] SOMBATSOMPOP N, KOSITCHAIYONG A, MARKPIN T, et al. Scientific evaluations of citation quality of international research articles in the SCI database: Thailand case study[J]. Scientometrics, 2006, 66(3): 521-535.
[42] 吴宁, 王传清, 黄国彬. 基于被引位置的数据论文价值分析——以数据期刊Scientific Data为例[J]. 图书情报研究, 2022, 15(2): 41-49. (WU N, WANG C Q, HUANG G B. Value analysis of data papers based on cited location: taking scientific data as an example[J]. Library and information studies, 2022, 15(2): 41-49.)
[43] HU Z, CHEN C, LIU Z. Where are citations located in the body of scientific articles? a study of the distributions of citation locations[J]. Journal of informetrics, 2013, 7(4): 887-896.
[44] HSIAO T K, SCHNEIDER J. Continued use of retracted papers: temporal trends in citations and (lack of) awareness of retractions shown in citation contexts in biomedicine[J]. Quantitative science studies, 2022, 2(4): 1144-1169.
[45] 刘晶晶. 国外开放获取期刊的同行评议方式研究[J]. 编辑学报, 2017, 29(2): 200-203. (LIU J J. Study of peer review modes of abroad open access journals[J]. Acta editologica, 2017, 29(2): 200-203.)
[46] 朱大明. 关于科技学术期刊论文更正和撤销的讨论[J]. 编辑学报, 2013, 25(5): 484-485. (ZHU D M. Erratum and revocation of papers in sci-tech academic journals[J]. Acta editologica, 2013, 25(5): 484-485.)
[47] 王丽丽. 撤销论文被引用的原因探析及防范措施[J]. 出版发行研究, 2018(8): 74-76, 64. (WANG L L. Analysis on the reasons for citations of retracted papers and preventive measures [J]. Publishing research, 2018(8): 74-76, 64.)
[48] 刘燊, 徐飞. NSC杂志撤稿论文引用异常增加现象辨析与治理建议[J]. 中国科技期刊研究, 2022, 33(5): 545-553. (LIU S, XU F. Analysis of the abnormal increase in cited frequency of retracted papers in NSC and suggestions for governance[J]. Chinese journal of scientific and technical periodicals, 2022, 33(5): 545-553.)
[49] HILL A, GARRATT A, LEVI J, et al. Retracted: meta-analysis of randomized trials of ivermectin to treat SARS-CoV-2 infection[J]. Open forum infectious diseases, 2021, 8(11): ofab358.
作者貢献说明:
任檐雨:进行研究选题与设计,收集与分析数据,撰写论文;
杨思洛:提出研究方向,指导与修订论文。
Research on Post-retraction Citations of COVID-19 Articles Based on Full-text Citation
Ren Yanyu1 Yang Siluo1,2
1School of Information Management, Wuhan University, Wuhan 430072
2China Research Center for Science Evaluation, Wuhan University, Wuhan 430072
Abstract: [Purpose/Significance] During the COVID-19 pandemic, many papers on this topic were withdrawn. But it was found through authoritative databases or websites that these papers have been cited even after the retraction. This study aims to analyze the dissemination and impact of retraction at the level of citation content, and to put forward suggestions on the optimization of citation and retraction mechanisms in major public events, in order to promote the healthy development of academic exchanges. [Method/Process] Firstly, the full text of COVID-19 retraction papers and citation references were obtained from WOS, Scopus, and PubMed databases, and the citation context in the citation references was manually extracted. Then, manual annotation and content analysis were carried out through the full-text citation analysis framework consisting of four dimensions: retraction mark situation, citation object, citation position, and citation emotion. [Result/Conclusion] The probability and speed of recognition of COVID-19 retracted papers are much higher than other papers in the biomedical field, and the retracted mechanism plays a certain role in academic purification. But its content continues to spread, with unreliability and misinformation spreading widely. This phenomenon should be paid enough attention by researchers, journals and databases, and the mechanism of citation and retraction in important public events should be optimized urgently.
Keywords: COVID-19 retracted papers full-text citation analysis academic purification academic impact