影响因子的局限性研究综述

2014-02-05耿艳辉

中国科技期刊研究 2014年8期

■耿艳辉

1 引言

2012年《旧金山研究评估宣言》（San Francisco Declaration on Research Assessment，DORA）发表，随后Science杂志的主编Alberts[1]针对此宣言在2013年发表了述评“扭曲的IF（Impact Factor Distortions）”，引起期刊界对于影响因子的再一次热议。事实上，影响因子（Impact Factor，IF）自从被提出后，一直是出版业和科研界备受关注的议题之一。

1972年，Garfield将引文的方法引入期刊评价中[2]，IF是指期刊近两年的平均被引率，即该期刊前两年发表的论文在评价当年被引用的平均次数，用公式表示为:影响因子=该刊前2年所发表的论文在第3年被引用的次数/该刊前2年发表的论文总数。IF数值和期刊某个时期发表论文的数量、引用次数以及统计的数据库包含的文献种类和数量有关。IF的推出为文献计量学的发展带来了一系列重大革新。尽管Garfield提出这一指标的初衷是为美国科学情报所遴选刊物SCI（科学引文索引），但是目前它广泛地被科技政策制定者和评定研究基金的组织用来评价期刊和科学家的工作[3]。国内外许多学术期刊都非常重视刊物的IF，把IF排名作为期刊质量的重要评价标准，有的还将其与编辑的业绩考核、职称评聘挂钩，学术期刊主管部门以及期刊协会等也将IF的大小作为评定期刊等级的重要指标[4]，大量的机构用IF评价个人、科研机构影响力与研究业绩[5]。

IF作为评价期刊影响大小的一种定量指标，有其科学性，但对IF的过度使用，使得IF受到越来越多的争议。本文首先对采用IF评价期刊的局限性进行总结分析，并在此基础上讨论目前争论较多的一个问题，即IF是否可以用来评价科研工作者，以期人们对IF有一个客观、正确的认识。

2 采用IF评价期刊的局限性

2.1 难以将不同主题的期刊进行直接比较

有研究者指出，不同主题领域的引用行为存在差异导致系统性的差异[6]。如果一个期刊覆盖了大量的基础研究，这些研究成果会很快扩散出去（不过生命力也比较短），相对应的，该期刊发表的文章会引用很多引文，同时这些文章也会被很多其他文章引用，那么该期刊容易获得高IF；而小的研究领域往往很难出现这样的现象，也就很难有高IF的期刊[7]。因此，对于不同主题领域甚至是同一主题领域的不同研究方向，由于各种差异性因素的影响，IF必然存在较大差异。如果简单地依据IF进行评价，对于那些由于主题领域特性而IF较低的期刊是不公平的。

Garfield也强调不同主题领域的学科特性会使其在比较中存在不公平性，使用引文数据进行评价研究，必须注重不同研究领域的差异性，一旦发现了这种差异性，就必须根据引用潜力的不同进行适当的补偿。于是，1979年Garfield[8]提出了“引用潜力（citation potential）”，即某一主题领域的篇均参考文献数，用这一均值来决定该领域文献被引用的可能性，这可以校正不同主题领域的引用行为差异，进而保证期刊质量评价的公正性。Zitt和Small将其称为“引用倾向（propensity to cite）”。[9]

不过Garfield也指出，大家都有一个普遍的认识，即一个期刊所服务的科学共同体的大小会显著的影响IF的大小，这种假设忽略了一个事实，那就是作者增加会导致引文增加，这些文章也会被更多的文章所引用，其中有些文章可能会被另一个交叉主题所引用[10]。也就是说，不同主题期刊的影响因子会互相影响。

2.2 统计时段问题

IF的统计时间最初设定为2年，之后将统计时间拓展为5年[11]，有研究显示，采用五年影响因子对诸如社会科学领域、与计算机有关的领域有利[12]。不过，虽然统计时间有所拓展，但是仍未考虑到很多学科领域到达引用峰值的规律[13]。许多重要的科研成果在最初并不受关注，许多年后才被广泛认可并得到大量引用，而这段时间远远超过在大多数科研评价过程中使用的计算统计引用次数的时间窗口[14]。因此IF不能真实的反映期刊的影响力，这种计算方法有利于那些论文发表后会有快速影响的学科领域。事实上，许多期刊在文章发表后的很多年呈现出持续的引用增长[15]。本文作者就曾经对《资源科学》期刊的被引频次进行分析，发现所刊载文章的引用高峰并不是出现在期刊发表的2年内，其中2000—2005年发表的文章的引用高峰是在5年之后[16]。

不过也有研究者持不同意见，认为文献的“延迟引用现象”并不代表文献引用行为在时间上的平移，文献首次引用年龄的滞后，只能降低文献被关注的几率；文献的“延迟引用现象”对文献后期的引用行为具有非常重要的影响，那些在发表后快速被引用的文献将更有可能得到持续的关注，而成为高被引文献[17]。也就是说尽管对于一些文章来说要经过几年的时间才能达到引用高峰，但是那些取得很高引用的论文也往往在出版后的一年内就能产生广泛的影响。Thomson Scientific就是基于此观点来提前寻找“热点论文”。当然，到底是不是高影响力文章，还要等到两年之后才能最后确定[10]。

2.3 文献引用存在人为干扰

（1）编辑部为了在短期内追求IF的提高，刻意要求作者引用本刊已发表的文献，有的期刊甚至要求其数量必须达到多少才能够被录用，这使论文中的许多参考文献纯粹是为了引用而引用。

（2）某些编辑部认为提高普赖斯指数将在很大程度上提高期刊的质量，因而将一些作者所引文献的时间加以修改，有的则让作者将所引用的稍旧一点的文献删去，换成最新的文献，并不在乎文献之间是否具有继承和论证关系，是否有引用的必要。

（3）几家同类期刊为了提高本刊的他引率，互相结成同盟，规定作者在投稿或对稿件做修改时必须引用同盟期刊的相关文献，以此来相互提高他引率。在此情况下，对论文的观点起支持性作用的许多论据引用标注的出处并非原址。

（4）重复发表。一稿多投的稿件一旦发表，不仅会造成出版资源的极大浪费[20]，而且直接影响到IF的正确计算。

（5）期刊刊发所发表文章的摘要信息，并在参考文献中列出这些文章（通常是类似这样的标题:“期刊去年出版了哪些文章”）。

（6）期刊刊发大量的综述性文章，并引用该刊以往刊发的很多文章；减少低引用文章（包括原创性研究，尤其是案例报告）比例。

（7）编辑部喜欢接收来自大型科学研究群体、作者数量比较多的论文。

（8）编辑部喜欢刊发知名科学家和领导者的文章，不管文章的质量如何。

（9）编辑部主要刊发大众化的科学文章，这些文章一般都紧跟当前的“热点”话题。

（10）刊发不会被算进IF计算公式中的分母的文章，即被一些文献检索机构视为“不可引用”的文章，如新闻报道、通信等，但是这些文章又会引用该刊已发表的一些文献，这些引用会被算进IF计算公式的分母中去。

（11）拒绝发表阴性结果的研究成果，因为这些研究不如阳性的研究成果更易获得关注和引用。但是这两类成果对于科学的进步都是必不可少的。

（12）其他干扰还包括:引用是为了用来指出一个概念的不足、作者炫耀知识资本、支持被引文章的作者等等。

2.4 文献引用存在随意性

有学者对文献引用行为进行了研究，文献引用的随意性主要表现为[21]:

（1）一些科研人员在列参考文献时，可能粗略阅读过大量文献，这些文献思想观点内容相似，作者选择只列外文文献和来源于知名期刊、知名机构或知名作者的文献。

（2）一些科研人员为了“示好”，因为“文献的作者是同事”或为其他特殊目的而“假引”。

（3）有的作者文章引用了文献，但没列出。

（4）一些作者并未阅读过自己所引用的文献，而是将别人论文中文献引用部分所对应的参考文献作为本人的引用文献。或发现了与自己所写论文部分内容非常相关或一致的论文时，直接引用该论文，将该论文的参考文献直接作为本人的引用文献。

2.5 检索系统数据库及语言对IF的影响

国内外有许多学术期刊的检索系统，国外主要检索系统有:美国《科学引文索引》（SCI）、美国《工程索引》（EI）、美国《化学文摘》（CA）、美国社会科学引文索引（SSCI）、美国《剑桥科学文摘》（CSA1），爱思唯尔二次文献系统等；国内重要检索系统主要有:同方知网、万方数据、重庆维普、《全国报刊索引》、《化学文摘》等。由于检索系统所收录的期刊群组成差异较大，因而所计算的IF值具有差异，同一刊物在不同检索系统中IF也不相同。

此外，语言也会影响到期刊IF。比如大多数科研工作者有较好的英语水平，会阅读大量的英文文章并在需要的时候进行引用，但是其中只有一部分人有较好的中文水平，所以中文期刊的阅读人群相对要少，中文文章被引用的机会也相应较少。而检索系统也有语言的偏见[7]，如美国《科学引文索引》（SCI）以英文期刊为主，中文期刊很少。

3 采用IF评价论文及科研人员的局限性

认为IF绝对等同于科学质量导致该指标脱离原始应用范围被错误地应用[22]。IF被过度地用来评价科研人员，决定了他们的升职、薪水、基金申请等很多方面，这曾经或正在使得欧洲、美国、加拿大、中国等许多国家的科学家都很困扰[23-32]。这一指标也正面对各界日益增加的批评。有大量的研究者报道了IF在评估研究论文、研究工作者以及研究机构的研究质量方面存在许多不足[33-34，5]。

Garfield在2006年曾发表文章指出:利用期刊影响来评价个人学术水平具有内在的危险性。在一个理想的状态中，评价者应该阅读每篇文章然后做出自己个人的判断。但是很多人并没有时间阅读所有的相关文章，即使是他们都阅读了，他们也会倾向于观察那些引用了该文章的作者的评论[10]。同时在文献引用中还存在前面所述的各种人为干扰和随意性。即使是在上述Garfield所提出的理想状态中，文章都统一以所发表期刊的IF来评判其科研影响力是否合适？比如对《资源科学》期刊的统计结果显示，80%的引用主要集中在20%的论文中（这种二八现象在期刊界也普遍存在），有32%的文章被引频次在0～5次[16]。被引频次高达418次的和被引频次为0次的文章的影响力显然是不一样的。因此，当影响因子被用来评价一个期刊的所有文章时，就会在评价单个科学家或者研究机构的时候出现问题。

有研究者对1902-2009年间的期刊IF和期刊所刊载文章引用率之间的关系进行分析，发现在20世纪文章的被引频次受所在期刊IF的影响较大，在1990年以后，随着数字化时代的到来，人们可以单篇下载电子版的文章，文章的被引频次和所在期刊的IF之间的关系在减弱。进一步的，高被引文章来自于高IF期刊的比例在下降，而来自于低IF期刊的比例在增长。如果这种形势继续的话，可能将来会终结用IF来评价期刊、文章和科技工作者[35]。由此还引发出另一个问题，那就是:发表在高IF期刊但被引频次很低的学术文章与发表在低IF期刊但被引频次很高的文章，哪个学术价值更高？文章的被引频次能不能用来代表一篇文章的影响力？有研究者指出，文章被引用有很多种原因，并通过一项向科学家的调查显示“引用”和“影响”并不完全一致。206位科学家投票选出的部分高影响论文并非高引用论文[36]。还有人分析了被财经领域期刊授予“最好文章”奖项的冠军文章、亚军文章和没有获奖的文章，发现:获得冠军的文章很少是引用率最高的文章，且只有一小部分的引用数高于获得亚军的文章，不过在大多数情况下，他们的引用都高于位于引用中位数的文章[37]。

2012年12月，一群编辑和发行学术期刊的出版商在旧金山讨论有关如何评估研究成果的质量及科学文献如何被引用，同时，也希望能找到方法来确保期刊质量与其发表论文的影响互相匹配。他们于会议上提出几点建议称为《旧金山研究评估宣言》，这些建议主要集中于如何处理发表在同行评议期刊的研究论文，并提高评价研究成果方式的质量。DORA关注的问题如下[38]:

1）考虑研究人员的基金申请、或在评估聘任和晋升时，必需废除使用与期刊相关的指标，如期刊影响因子；

2）评估研究时，必须考虑研究本身对科学的贡献，而非其发表的期刊；

3）必须更好的利用在线出版物所提供的机会（如放宽对论文字数、图表和引用数量等不必要的限制），并探索新的有意义和影响力指标。

对此，Science杂志的主编Alberts[1]在2013年发表了述评“扭曲的IF”。在社论中他指出:“期刊IF的错误应用具有很大的破坏性，这使得一些期刊不愿意出版一些领域的重要论文（如社会科学和生态学），因为这些领域比其他领域（如生物医学）的引用数要少很多。科学家们在过度下载高IF的期刊，如Science，这不仅浪费了大量时间，也使得研究者们的学术成果没有得到真实而恰当的评价。”他还指出:“但是，或许最具破坏性的是，通过这种通过自动计分的方式对研究者的科研水平进行评估，会鼓励‘我也是这样的科学观（me-too science）’。如果只是增加研究者出版物的数量就可以使研究者得分的话，那么这种评价系统会产生一种很强的抑制力，抑制科研人员追求有风险的、开创性的工作，因为在一个新的实验性的背景下开创新方案会花费很多年，这个过程中不会有文章发表出来。这种度量也会进一步阻碍创新，这表现在他们鼓励科学家进入本来科学家就很聚集的领域去开展研究，因为这些领域的文章出来后，无论研究成果是否显著，都会有一大批科学家们去引用。”

4 结论与讨论

本文总结了采用IF评价期刊的局限性:难以将不同主题的期刊进行直接比较；统计时段定为2年对一些研究领域不公平；文献引用中存在人为干扰；文献引用存在随意性；检索系统数据库及语言对IF的数值有较大影响。之后，进一步梳理了目前对采用IF评价科研人员的局限性，以及这样做产生的不良后果:引导科研人员涌入规模较大的研究领域，抑制科技创新。

需要看到的是，为了使评价更加公平，学者们提出很多对IF进行修正[3]或者替代的指标[13]，如:①h指数:国际上讨论较多的期刊评价指标[39-40]，主要是用来评价科学家个人的学术成果；②SNIP:该指标考虑到不同主题领域的特点，尤其是作者在参考文献中引用他人论文的频次，引文影响达到峰值的速度及来源数据库的主题领域文献覆盖面，这有助于校正在不同引用峰值领域中IF造成的偏差[6]；③NIF:标准化影响因子，可以克服不同科学领域之间的引用差异，对不同领域的期刊进行比较[41]。以上指标也存在不足，这里不一一赘述，但是可以从一些方面弥补IF的不足，或者在一些评价领域代替IF。④SJR指数，2008年提出的SJR指数得到了Nature的报道[42]，并被认为是对IF强有力的挑战，打破了IF的垄断地位，但是还没有被广泛的接受和认可。这些指标有些是对IF的延伸，包括一些潜在的技术上的提高或者是对IF的补充，有些是更独立于IF的方法，但是也都有各自的优缺点，无法完全取代IF，换句话说，期刊评价中没有一个单一的完美指标。而目前在学术界也越来越多的列出除IF之外的指标来做补充。

此外，还有学者提出建立一个基于科学共同体的期刊排序，就像是PLoSOne对每篇文章所做的那样，并且由其他的在线服务提供者提供给需要的客户[43]。不过有学者提出反对，指出这是建立在一种假设上的，即会有充足的专家力量对上千种科技期刊进行评级和监管，并且假设这种评级比期刊文章的平均引用数更有效。但是这种假设实现的可能性很小，此外还可能会产生一些恶性竞争，恶化同行评议中本来存在的一些问题[44]。

综上可以看出，IF并不是评价论文、期刊和科研人员的完美工具，完全依赖IF进行评价存在诸多问题。但是它的存在有其合理性。

为了避免IF的不足，让评判更加公平合理，提出以下建议:

（1）无论是评价单篇文章还是期刊或者科学家，都不能只看中IF一个指标，要根据评价对象选取上述或者其他更适合的指标，建立指标体系，进行综合评价。注重科技创新质量和实际贡献。

（2）重视同行评议。在绝大多数科学领域，同行评议都是质量控制的基本机制。在对期刊、科学家等的评价过程中，要加大同行评议的比重，特别要加强国际同行评价。科学和学术工作的每个方面都必须接受严格评议，只有那些经受了评议的才能真正站得住脚。同行评议的主要不足源于评议过程中具有一定的主观性，但是可以通过制定合适的制度来尽量规避这一不足。

1 Alberts B.Impact Factor Distortions.Science，2013，340（6134）:787

2 Garfield E.Citation as a tool in journal evaluation.Science，1972，178（4060）:471-479

3 Leydesdorff L，Opthof T.Normalization at the field level:Fractional counting of citations.JournalofInformetrics，2010，（4）:1-4

4 史庆华.影响因子评价专业学术期刊的科学性与局限性.现代情报，2006，（1）:35-36

5 刘润兰，李俊德.期刊影响因子在科研绩效评价中的客观性及局限性分析.世界中西医结合杂志，2009，4（12）:895-898

6 Leydesdorff L，Opthof T.Scopus′s source normalized impact per paper（SNIP）versus a journal impact factor based on fractional counting of citations.JournaloftheAmericanSocietyforInformation ScienceandTechnology，2010，61（11）:2365-2369

7 Seglen PO.Why the impact factor of journals should notbe used for evaluating research.BritishMedicalJournal，1997，314（7079）:498-502

8 Garfield E.Citation indexing-its theory and application in science，technology and humanities.NewYork:Wiley，1979:248

9 Zitt M，Small H.Modifying the journal impact factor by fractional citation weighting:The audience factor.JournalofTheAmerican SocietyforInformationScienceandTechnology，2008，59（11）:1856-1860

10 Eugene Garfield.The History and Meaning of the Journal Impact Factor.JAMA，2006，295（1）:90-93

11 赵星.JCR五年期影响因子探析.中国图书馆学报，2010，36（3）:120-126

12 Erjen van Nierop.The introduction of the 5-year impact factor:Does it benefit statistics journals？.StatisticaNeerlandica，2010，64（1）:71-76

13 邹新贝，程小娟.引文评价新指标SNIP与IF、h指数和SJR的理论比较研究.图书情报工作，2012，56（10）:14-16

14 Wolfgang Glänzel，Balázs Schlemmer，Bart Thijs.Better Late than Never？On the Chance to Become High ly Cited only Beyond the Standard Bibliometric Time Horizon.Scientometrics，2003，58（3）:571-586

15 Jerome K Vanclay.Bias in the Journal Impact Factor.Scientometrics，2009，78（1）:3-12

16 耿艳辉，李家永.2000-2011年《资源科学》载文被引分析.江汉大学学报（自然科学版），2013，41（4）:52-56

17 王名扬，于光，于达仁.文献的“延迟引用现象”分析.情报杂志，2011，30（5）:60-62

18 董建军.人为因素对科技期刊影响因子评价指标的影响.编辑学报，2008，20（4）:365-366

19 Falagas M E，Alexiou V G.The top-ten in journal impact factor manipulation.Archivumimmunologiaeettherapiaeexperimentalis，2008，56（4）:223-226

20 陈家骏.共同守法互相尊重——杜绝一稿多投:兼与黄传生先生商榷.编辑学报，2005，17（1）:70-71

21 马凤，武夷山.关于论文引用动机的问卷调查研究——以中国期刊研究界和情报学界为例.情报杂志，2009，28（6）:9-14

22 Garfield E.Journal impact factor:a brief review.CanadianMedicalAssociationJournal，1999，161（8）:979-980

23 Jimenez-Contreras E，Lopez-Co zar ED，Ruiz-Perez R，Fernandez VM.Impact-factor rewards affect Spanish research.Nature，2002，417（6）:898

24 Lowy C.Impact factor limits funding.Lancet，1997，350（9083）:1035

25 Russell-Edu W.The impact factor:your job may depend on it-but do you know what it is？.CancerFutures，2003，2（3-4）:171-175

26 Maunder R G.Using publication statistics for evaluation in academic psychiatry.Canadianjournalofpsychiatry，2007，52（12）:790-797

27 Wilcox，A.J.Rise and fall of the Thomson impact factor.Epidemiology，2008，19（3）:373-374

28 Kaltenborn K F，Kuhn K.The journal impact factor as a parameter for the evaluation of researchers and research.RevistaEspanolade EnfermedadesDigestivas，2004，96（7）:460-476

29 Weigel R J，Dracon G，Radhakrishnan R，et al.Incentive systems for academic productivity in a department of surgery.Journalofthe AmericanCollegeofSurgeons，2004，199（2）:300-307

30 Lawrence PA.Lost in publication:how measurement harms science.Ethicsinscienceandenvironmentalpolitics，2008，8（1），9-11

31 Tsikliras AC.Chasing after the high impact.EthicsSciEnviron Polit，2008，（8）:45-47

32 Brumback R A.Impact FactorWars:Episode V-The Empire Strikes Back.JournalofChildNeurology，2009，24（3）:260

33 乌家培.经济信息与信息经济.北京:中国经济出版社，1991

34 杨红.论文计数影响因子（AC IF）:期刊评价的新指数.情报杂志，2009，28（4）:76-78

35 Lozano G A，Larivière V，Gingras Y.The weakening relationship between the impact factor and papers′citations in the digital age.JournaloftheAmericanSocietyforInformationScienceand Technology，2012，63（11），2140-2145

36 Lewenstein B V.Editorial:A decade of public understanding.PublicUnderstandingofScience，2002，11（1）:1-4

37 CoupéT.Peer review versus citations-An analysis of best paper prizes.ResearchPolicy，2013，42（1）:295-301

38 Editage意得辑.影响因子的进展与没落[EB/OL].（2013-07-20）[2013-10-10].http://blog.sciencenet.cn/blog-769813-709746.html

39 Braun T，GlanzelW，Schubert A.A Hirsch-type index for journals.Scientometrics，2006，69（1）:169-173

40 Harzing AW，van der Wal R.A Google Scholar h-index for journals:An alternative metric to measure journal impact in economics and business.JournaloftheAmericanSocietyfor InformationScienceandTechnology，2009，60（1），41-46

41 Owlia P，Vasei M，Goliaei B，et al.Normalized impact factor（NIF）:an adjusted method for calculating the citation rate of biomedical journals.Journalofbiomedicalinformatics，2011，44（2）:216-220

42 Butler D.Free journal-ranking tool enters citation market.Nature，2008，451（7174）:6

43 Vanclay J K.Impact factor:outdated artefact or stepping-stone to journal certification？Scientometrics，2012，92（2），211-238.

44 Brody S.Impact factor:Imperfect but not yet replaceable.Scientometrics，2013，96（1）:255-257