期刊撤销影响因子的构建及其与期刊影响因子的关系
2014-05-31范少萍张志强
□范少萍 张志强
1 引言
近年来,国内外学术研究领域的不端行为日益增加,越来越引起学术界及公众的关注。由于现有的有关科研人员、科研机构的评价标准与体系多与科研人员的科研成果即发表论文、发明专利等科研产出相关联,势必导致有些科研工作者为了利益铤而走险,弃科学伦理于不顾。面对学术研究领域的不端现象,撤销稿件并发布公告成为国内外期刊界处理学术不端论文的一项措施。
与国内文献数据库相比,国外文献数据库如Web of Science、Pub Med等均对撤销论文的题目进行了标注,以方便论文查阅者及时获取撤销论文的信息(撤销时间、撤销原因等),以降低撤销论文对学术界的影响。国外已陆续开展基于各种文献数据库中撤销论文信息的定量研究,且获得了一些研究结论。其中,“TopJournals”TopRetractionRates一文指出,发表在顶级期刊上的很多热门论文最后以撤销告终(如表1所示)[1],即越是发表在高影响因子期刊上的论文,越容易发生撤销现象。
学术不端行为引起的论文撤销现象日渐突出,严重妨碍读者及研究者对期刊的搜索与阅读,破坏整体学术研究氛围,导致科研质量下滑。在医学领域,学术不端行为还会危及患者健康。除此之外,无论是期刊影响因子,或是其他期刊评价指标,如IF(JCR)、IF(Scopus)、H 指数及其变体、SJR(SCImago Journal Rankings)值、SNIP(Source Normalized Impact per Paper)值[3]、特征因子[4]等,都是基于对期刊的正向影响,即所引用指标的数值越大越好,往往忽略了学术不端等因素对期刊的负面影响。史庆华[5]在分析了我国学术期刊的四种评价模式的基础上指出,学术期刊评价应实行零被引率淘汰制和学术不端行为淘汰制。学术期刊是学术成果发布的平台,如果不能有效地遏制学术不端行为,纵容其发展,应将其从优秀期刊行列中淘汰出去。
表1 顶级期刊撤销论文数量与影响影子对应表[2]
本文以Web of Science文献数据库作为数据来源,尝试构建期刊撤销影响因子(Retracted Impact Factor,简称RIF),以此来评判期刊的负影响指数。并对期刊撤销影响因子与期刊影响因子之间的关系进行探析,寻找二者间存在的定量关系。一方面,对于期刊使用者而言,便于其今后根据期刊影响因子对其撤销论文情况进行大致预测,更全面地掌握期刊信息。同时,引起学术界及社会对于那些撤销论文的施引论文的关注。另一方面,敦促期刊出版商、编辑、审稿专家、投稿人等期刊创作者更加严谨、认真、负责地工作,还科学一片纯净的蓝天。
2 撤销论文研究现状
在Web of Science数据库中以标题=retracted article,时间跨度=所有年份,数据库=(SCI-EXPANDED and SSCI and CPCI-S and CCR-EXPANDED and IC)检索得出,出版年份中最早被撤销的一篇文章是1974年发表在《英国医学杂志》(British Medical Journal)上的Cello Scrotum。该文在2009年被撤销。
美国是少数几个拥有政府层面的科学欺骗指控评价系统的国家之一。由美国国立卫生研究院发起广泛宣传学术不端案例的研究,由此导致美国国会在1989年建立了科学诚信办公室(Office of Scientific Integrity,OSI),后期更名为科研诚信办公室(Office of Research Integrity,ORI)。ORI颁布条例处理科学研究中对学术不端行为的指控,得到了美国卫生部的支持。ORI已经制定了一整套的案例法,并调整了部分条例。每年都会收到30-40篇撤销论文的新案例,这也提醒我们科学研究领域的诚信问题是一个大量且持续的问题[6]。
奥兰斯基(Oransky)与马库斯(Marcus)[7]于2010年创办了名叫“Retraction Watch”的博客。他们创建这个博客是为了提高撤销进程的透明度。他们研究发现,不仅撤销论文一般没有撤销公告,而且撤销理由也没有及时公布,从而导致一些研究人员或者公众因为不知道撤销情况,采用被撤销论文的无效或错误结果得出错误的结论。同时该博客认为,撤销论文为科学界提供了一个自我校正的窗口,从而洞察科学欺骗案例。
目前,撤销论文的定量研究多是基于Pub Med数据库并得出相关结论[8]-[11],容易使研究人员误解为学术不端现象只在医学领域比较突出。于是,出现了并不局限于Pub Med数据库的研究,调研了42个大型专业学术引文数据库和出版网站用以识别撤销论文并对其进行定量分析[12]。作者检索到从1928到2011年的4449篇被撤销的学术论文,其中,Web of Science文献数据库中医学、生命科学和化学论文的撤销比例超过了其发表论文在WOS中所占的比例,15位高产作者因为学术不端撤销的论文数占总撤销论文数的一半。从2001到2010年,撤销论文数量以每年19.06倍的速度增长。与此同时,每年发表的论文数量却以11.36倍的速度减少。由此可以看出,论文撤销数量与发表数量之间并不成正比例关系。作者还分析了论文被撤销的原因,包括出版商错误、作者错误、未详细说明等。具有撤销论文权利的人或机构包括出版商、编辑、所有作者、部分作者、律师、科研诚信办公室、研究所等。
一些学者尝试构建一个可以预测论文从发表到撤销所需时间的函数,即“生存分析”[13]。通过分析高被引、高影响因子期刊上被撤销的论文发现,撤销论文的生存时间(从发表到撤销所需时间)的中位数为28个月。除此之外,资深研究者发表的论文较一般研究者的论文需要更长时间被撤销。资深研究者包括教授、实验室主任以及有着5年以上发表论文记录的研究者。
有学者在2007年构造了出版过程的四参数的随机模型,用以分析可能的信息[14]。这个模型将出版撤销过程分为两方面:期刊在接受论文时严格的审查(含两个参数α和θ)和部分科研社区在论文发表后对其的严格审查(含两个参数βandτ)。并利用这四个参数与IF的关系,评价期刊可能会被撤销的论文数,但与实际情况相比还有较大差距。
为了研究期刊撤销率和期刊影响因子之间的关系,有学者在2011年以Pub Med数据库中影响因子从2到53.484的17种期刊的撤销论文数量作为数据来源,为每种期刊计算了一个“撤销指数”[15]。“撤销指数”指某刊在2001年到2010年间被撤销的论文数,乘以1000,再除以该刊2001到2010年间发表的论文总数。随后,将期刊撤销指数与其影响因子进行斯皮尔曼(Spearman)相关性分析,揭示出二者之间有很强的相关性。虽然这种相关性不能预示因果关系,但这些初期的调研表明发表在高影响因子期刊上的论文比发表在低影响因子期刊上的论文更容易被撤销。
3 撤销影响因子的构建
3.1 相关研究基础
3.1.1 现有定量研究成果
陈超美[16]在2012年调研了Pub Med数据库2001-2011年发表的论文数量与撤销论文数量后发现,2001年时论文撤销率仅为0.00005(撤销率等于Pub Med每年发布撤销通知的文章数量除以当年Pub Med收录的新发表论文总数),但撤销率在2003年、2006年和2011年这三年分别以2倍的速度增长。在2011年撤销率达到0.00046。撤销论文数量在2006年达到高峰,但在随后几年有所降低。即便如此,他预测撤销论文的数量还会继续增长,因为识别新发表论文潜在的错误要在其发表之后
除此之外,陈超美根据对检索得到的 Web of Science文献数据库中从1980年到2012年3月的1721条撤销论文的记录,发现被撤销的论文平均在其发表后第30个月(约为2.57年)被撤销。虽然论文被撤销了,但对其的引用还存在,于是作者又分析了撤销论文的生存时间。发现论文撤销后被引的平均时间为4年(中值为2年),论文从发表到引用结束,平均时间为6年(中值为5年)。也就是说,一篇论文从发表到2年后被撤销,随后2年会发现对其引用明显减少,再经过2年才无引用发生。
3.1.2 期刊影响因子计算
期刊影响因子是加菲尔德在1972年提出的一个评价期刊的重要数量指标和整体性评价指标。该指标是一个相对数量指标,主要用以调整和修正大刊、老刊凭借发表论文绝对数量在期刊引用率上所占的优势,同时选择期刊被引数量达到最高峰时来计算其平均引文率,所以更能反映期刊被使用的真实客观情况[17]。然而,该指标仅是一个整体性指标,旨在评价某一期刊的整体性影响力,因而并不能将其评价值简单地用来指代某篇论文的影响力。
普赖斯曾提出,科学论文一般在其发表1-2年后,被人们所了解并达到被引用的峰值阶段。基于此,加菲尔德定义期刊影响因子的计算公式如下:
自2009年起,汤森路透集团为了降低因2年期期刊影响因子(IF)的统计期较短,缺乏依据,不能合理度量期刊影响力等问题,发布了新版JCR,增加了包括5年期影响因子(5-Year Impact Factor,IF5)在内的新评价指标[18]。IF5的计算方法如下:
3.2 撤销影响因子的构建
陈超美关于撤销论文的定量研究从一定程度上反映了学术界对撤销论文的研究现状,特别是基于Web of Science文献数据库的研究。为方便定量研究撤销论文对学术界的影响,我们利用上述研究结论:被撤销的科学论文从发表到引用结束的时间为6年,以这一研究成果作为后续研究的基础。同时,借鉴期刊影响因子的构建原理,尝试构建出期刊的撤销影响因子(Retracted Impact Factor,简称RIF)。
本文提出“被撤销论文生命周期”这一定义。被撤销论文生命周期,指被撤销的论文从发表之日起,到其引用结束终止所需要的时间。被撤销的论文从发表之日起,因其存在的学术不端问题已经开始对学术界和社会产生了影响。其撤销后,由于数据库数据更新不及时,或未标注撤销信息,或期刊使用者获取撤销信息不及时,导致部分研究者还在引用其中的错误结论、错误数据、错误观点等。即使有的研究者引用撤销论文的目的是用作反面例子以佐证自己的新观点,究其缘由,这种对撤销论文的引用,仍然是基于撤销论文的负面影响。因此,在本文中,将被撤销论文的生命周期整体计算为6年。
按严格意义上说,RIF中计算的撤销论文应该是指那些从发表之日起,2年后被撤销,4年后引用结束的被撤销的论文。但由于目前撤销论文数据有限,使得数据在年份及期刊分布等数据维度上表现为极为稀疏,不利于进行集中计算或处理。如果按照严格意义上的统计计算,会导致过多的“零”出现。为了避免“零”现象的发生,我们对此公式进行进一步说明。该公式中,分母为:以统计年为原点(a年),向前推到第六年(a-5年),某刊在a-5年发表的所有论文在这六年间被撤销的论文数量;分子为:上述被撤销的论文在a年的被引用次数。(注:RIF公式中的“统计年份”一般为已经过去的全年,如已经过去的2012年整年,这样方便统计全年的撤销论文数量以及全年被引频次,数据较全面)。例如,统计年份为2013年:
撤销影响因子越大,说明该刊该年刊载的论文对学术界的负影响越明显,越应该引起相关领域研究者的重视。同时,对于那些引用撤销论文的论文更要给予更多的关注,因为这些施引论文极有可能引用了撤销论文的错误观点、错误数据、错误结论等,容易导致错误的放大与传递。倘若对其置之不理,如此恶性循环下去,将会对相关学术领域产生破坏性的影响。因此,关注撤销论文及其施引论文,便于尽早发现其中存在的问题,降低其对学术界的恶性影响。
4 撤销影响因子的实证研究
4.1 数据来源及选择
为了验证上述所提因子的有效性,作者以Web of Science数据库(1900年至今的所有文献)中的撤销论文情况为数据来源。同时,检索到的最新的JCR(自然科学版)的数据为2011年,于是,将统计年份定为2011年。检索表达式为:标题=(Retracted article),时间跨度=1900-01-01—2011-12-31.数 据 库 = (SCI-EXPANDED and CCR-EXPANDED and IC),共检索到1980条记录。在这1980条记录中,除了规范数据记录如图1,还包括只有撤销记录但无具体撤销论文时间的记录如图2。于是,我们选择有摘要记录的1814条数据作为分析对象。
4.2 撤销影响因子计算及结果分析
4.2.1 撤销影响因子计算
经统计发现,这1814篇文章共发表在820种期刊上,且载有撤销论文10篇及10篇以上的期刊共18种,如表2所示。以这18种期刊为研究对象,计算撤销影响因子,结果如表2所示。
图1 被撤销论文的规范数据记录
图2 被撤销论文无撤销时间记录
图3 被撤销论文无摘要记录
4.2.2 结果分析
通过观察表中数据发现,所选取的18种期刊中,具有高影响因子的Nature(《自然》),Science(《科学》),Cell(《细胞》),ProceedingsofTheNationalAcademyofSciencesofTheUnitedStates OfAmerica(《美国国家科学院院刊》)等相应的撤销影响因子也比较大;撤销影响因子为0的5种期刊,其影响因子也都在10以下,主要是5以下。这种现象说明,高影响因子的期刊其被撤销论文的影响比较大,而低影响因子的期刊如果发生撤销论文现象,其对学术界的影响也较小。产生这种现象,主要有以下几种可能性。
第一种可能性是在高影响因子期刊发表论文的作者相对于那些在较低影响因子期刊发表论文的作者而言,往往被给予不成比例的利益。例如,作者如果在高影响因子期刊上发表论文,可以增加工作机会,获得同行的认可并获得奖励,是一种成功的标志,即便大家都知道影响因子这一科学评价标准还是存在缺陷的[19]。因此,高影响因子期刊上的学术欺骗和学术不端现象日渐增多。同时,发表在高影响因子期刊上所获得的较高利益又加剧了作者在研究设计、数据介绍、数据分析和解释上的冒险行为,从而导致论文被撤销。第二种可能性是高影响因子期刊的需求很明确,于是作者“控制”自己的数据来迎合期刊需求。因而,那些发表在高影响因子期刊的论文具有有序结果。与这种经不起推敲的论文相比,真实的科学研究往往充斥着不能复制的实验、异常数据点、无法解释的结果和无法迎合需求的观察结果。在这种情况下,绝望中的作者们就可能被迫寻找捷径、保留送审数据、过度夸张结果、操纵图片,其行为从有问题的实践直到最后的彻底欺骗[20]。第三种可能性是发表在高影响因子期刊的论文具有更高的关注度,因此更容易吸引读者进行进一步的审查,从而发现结果存在的问题导致其被撤销。以上这些可能性,都解释了影响因子和撤销影响因子之间的关系。
表2 撤销论文篇数10篇以上(含)的期刊统计数据表
4.3 期刊撤销影响因子的优势分析
期刊撤销影响因子的优势在于:首先,前人的研究往往针对期刊中某一时间段内撤销论文的数量进行分析,数据过于绝对化,不易均衡大刊、老刊和小刊、新刊在发文数量上的区别;其次,利用引用情况进行分析,可以发现被撤销论文对学术界的影响程度,更容易发现其严重性,从而引起学术界及公众的重视;再次,通过对国外各种大型学术数据库或搜索引擎的调研证明,获取相关被撤销论文的数据信息是可行的,为开展相关研究创造了数据基础;最后,通过分析被撤销论文的引用情况,还可以发现被撤销论文的施引论文,勾画被撤销论文的影响路线图,以方便对其影响深度与广度进行后续研究。
5 撤销影响因子与期刊影响因子的关系分析
分析本文构建的“期刊撤销影响因子”这一指标,可以发现撤销影响因子能较全面地考量被撤销论文对学术界的各种影响(正向影响与负向影响)。研究同时发现,影响因子越大的期刊,其被撤销的论文数量往往也较多,而这些高影响因子期刊中被撤销的论文大都具有较高引用量。这一结果与一些研究者的调研结果相吻合。因此,我们也不能单纯依靠撤销影响因子来断定某刊质量,而是要综合其影响因子与撤销影响因子。
基于上述研究成果,我们发现撤销影响因子与影响因子具有一定的相关性。为进一步研究二者之间的关系,我们假设撤销影响因子与期刊影响因子具有相关性。并通过SPSS对二者进行相关性分析,试图发现二者之间的关系,并尝试构建二者之间的线性回归方程,以便可以根据期刊影响因子对其撤销论文情况进行大致预测。
5.1 撤销影响因子与期刊影响因子的相关性分析
鉴于撤销影响因子数据的特点,本文选用SPSS相关分析的皮尔森(Pearson)系数进行分析,得到表3。
通过表3可以看出,二者具有显著相关性。从而证明期刊影响因子与撤销影响因子之间具有相关关系,即一般意义上来说,较高影响因子的期刊,其撤销论文的影响也较大。这与高期刊影响因子论文容易受到业界较高关注等因素有关系。
表3 期刊影响因子与撤销影响因子相关性分析表
5.2 撤销影响因子与期刊影响因子的回归分析
回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,可用于预报、控制等问题。回归分析研究的主要问题是:确定因变量与自变量间的定量关系表达式,这种表达式称为回归方程;对求得的回归方程的可信度进行检验;判断自变量对因变量有无影响;利用所求得的回归方程进行预测和控制[21]。本文利用回归分析,进一步分析撤销影响因子(因变量)与期刊影响因子(自变量)之间的线性关系。
利用SPSS继续对二者进行线性回归分析,由于只有一个自变量,因此,选择“Enter”方法。结果如表4。
表4 输入\移去变量表
表5 模型拟合情况汇总表
表6 回归模型拟合过程的方差分析结果表
表7 期刊影响因子的回归系数表
表8 期刊影响因子的回归系数表
5.3 结果分析
表5列出了模型的拟合情况。复相关系数(R)为0.795,决定系数R2为0.632,0≤R2≤1,R2代表了自变量能够解释因变量的百分比,其值越接近1,说明模型对数据的拟合程度越好。本实验结果为63.2%,表明撤销影响因子的63.2%可以由期刊影响因子的变化来解释,说明该回归方程数据拟合的程度一般。造成这种情况的原因是:第一,数据量比较小,仅18种期刊,且测量年份有限,仅选用一年的数据,难以揭示大规模数据集下的情况;第二,二者之间的关系可能还需要其他参数或因子的参与才会更加明显。不过,本实验的结果一定程度上也说明了,撤销影响因子与期刊影响因子之间具有较大的关系。
表6给出了回归模型拟合过程中每一步的方差分析结果。回归平方和为8596.48,残差平方和为4999.024,回归平方和大于残差平方和,说明线性模型解释了总平方和中约一半的个案,达到拟合效果。回归模型的F检验,F=27.514,P=0.000<0.01,按α=0.01水准,则认为所拟合的回归方程具有统计学意义,该结果是合理有效的。
表7、表8中期刊影响因子的回归系数B的t检验中,t=5.245(P=0.000<0.01),按α=0.01水准,则认为撤销影响因子与期刊影响因子有线性回归关系。回归系数大于0,说明期刊影响因子越大,撤销影响因子也随之增大。
综上数据分析,本实验的回归方程为:
其中,
y=撤销影响因子,x=期刊影响因子,
6 结语
本文依据现有的定量研究成果,同时借鉴期刊影响因子的思想,构建了期刊撤销影响因子(Retracted Impact Factor,简称RIF),以此来评判期刊的负影响指数。通过统计2011年Web of Science文献数据库中的撤销论文数据,分别对2011年18种期刊的撤销影响因子进行实证研究。结果表明,期刊撤销影响因子可以表征期刊撤销论文对学术界的影响。同时,撤销影响因子与期刊影响因子有显著相关性。进一步的研究证明,2011年,撤销影响因子与期刊影响因子的关系可以用RIF=0.781+1.912*IF,(P<0.01)近似衡量。从而可以对其他有撤销论文情况的期刊的撤销影响因子进行近似估算,判断该刊的学术影响力。
本文构建的撤销影响因子为单年度指标,即对某一年份某一期刊的撤销影响因子进行计算。本文只是对2011年的情况进行了分析。在后续研究中,还可以连续统计几年的撤销影响因子与期刊影响因子,并分析二者之间的回归关系。根据各回归关系及期刊发展趋势,构建撤销影响因子与期刊影响因子的动力学模型,以期更好地指导期刊的利用与评价研究。
参考资料
1 Liu S.V..Top Journals'Top Retraction Rates.Sci Ethics,2006,1:91-93
2 同1
3 王一华.基于IF(JCR)、IF(Scopus)、H 指数、SJR值、SNIP值的期刊评价研究.图书情报工作,2011,55(16):144-148
4 Bergstrom C T,West J D,Wiseman MA.The Eigenfactor Metrics.Journal of Neuroscience,2008,28(45):11433-11434
5 史庆华.现行学术期刊评价模式的利弊分析及新评价指标的介入.编辑之友,2012,(12):32-34
6 Sox H.C.,Rennie D..Research Misconduct,Retraction,and Cleansing the Medical Literature:Lessons from the Poehlman Case.Annals of Internal Medicine,2006,144(8):609-613
7 Retraction Watch.[2013-03-25].http://en.wikipedia.org/wiki/Retraction_Watch
8 Fang F.C.,Steen R.G.,Casadevall A.Misconduct Accounts for the Majority of Retracted Scientific Publications.Proceedings of the National Academy of Sciences,2012,109(42):17028-17033
9 Samp J.C.,Schumock G.T.,Pickard A S.Retracted Publications in the Drug Literature.The Journal of Human Pharmacology and Drug Therapy,2012,32(7):586-595
10 Steen R.G..Retractions in the Medical Literature:How Can Patients Be Protected from Risk?.Journal of Medical Ethics,2012,38(4):228-232
11 Foo J.Y.A..A Retrospective Analysis of the Trend of Retracted Publications in the Field of Biomedical and Life Sciences.Science and Engineering Ethics,2011,17(3):459-468.
12 Michael L.G.,Minghua Z.A..Comprehensive Survey of Retracted Articles from the Scholarly Literature.Plos One,2012,7(10):1-15
13 Trikalinos N.A.,Evangelou E.,Ioannidis J.P.A..Falsified Papers in High-impact Journals Were Slow to Retract and Indistinguishable from Non Fraudulent Papers.Journal of Clinical Epidemiology,2008,61:464–470
14 Murat C.,Ivan I,Raul R.E.,et al.How Many Scientific Papers Should Be Retracted?.European Molecular Biology Organization,2007,8(5):422-423
15 Fang F.C.,Casadevall A..Retracted Science and the Retraction Index.Infection and Immunity,2011,79(10):3855-3859
16 Chen C.M.,Hu Z.G.,Milbank J..et al.A Visual Analytic Study of Retracted Articles in Scientific Literature.Journal of American Society for Information Science and Technology,2013,64(2):234-253
17 庞景安.科学计量研究方法论.北京:科学技术文献出版社,1999:236
18 赵星.JCR五年期影响因子探析.中国图书馆学报,2010,36(187):120-126
19 Szklo M..Impact Factor:Good Reasons for Concern.Epidemiology,2008,19(3):369
20 Fanelli D..How Many Scientists Fabricate and Falsify Research?A Systematic Review and Meta-analysis of Survey Data.Plos One,2009,4(5):1-11
21 回归分析.[2013-03-27].http://baike.baidu.com/view/145440.htm