中国科研成果评价的反思

2014-02-04刘钢

中国软科学 2014年10期

刘钢

(中国社会科学院哲学研究所，北京 100732)

一、引言

中国科学的进步与中国在世界上的崛起有着密不可分的关系，越来越多的中国科学家在国际主流科学杂志上发表科学论文。另一方面，SCI等影响因子在科技评估中广泛甚至过分地应用，成为毕业、招聘、晋升、资源分配及个人的主要依据。一些大学、研究单位也拼命追求高影响因子论文，而不顾论文本身的意义和对人类社会的贡献。于是，在科学论文上剽窃、做假的事件呈上升趋势。而科学论文的弄虚做假，越是在高影响因子杂志上，越是在有名望的单位发生，其破坏性就越大，影响越深远，甚至影响一个国家一个民族的声誉。因此，倡导科学道德教育是一项长期艰巨而重要的任务。

在当下中国对于人才的渴求非常大、需要大量博士的情况下，对他们进入高校的“门槛”也越来越高。这体现在几个方面，尤其与其科研能力有很大的关系，下面让我们看一下哈工大材料学院材料物理与化学教师科研方面的要求：

1)主要科研方向为纳米功能材料合成与表征。

2)博士期间作为第一和第二作者发表论文被SCI(Science Citation Index)收录文章数量>10篇，影响因子累加和>40，影响因子>3的文章数量不少于5篇，单篇SCI 他引次数>15次。

3)作为项目主持人或主要研究人员，参与过国家自然科学基金项目、国家863项目、国家973项目、科技部支撑计划项目等国家级项目一项以上。

4)有较好的学术报告演讲能力[1]。

我们不去评价哈工大这条招聘启事的其他方面，仅仅就其第二条关于SCI的要求发表一点看法。强调SCI有它的合理成分，因为国外的源期刊(相对于国内的核心期刊)均被SCI收录，因此一旦被SCI收录，研究人员的成就便会大大得到重视。可是，就是这套SCI系统在我国科研评价系统中被滥用了。可以说高校对SCI的要求已经到了一个极端的程度。这边出现了哈工大那种令人“匪夷所思”招聘要求。我认为这对我国科技发展是有相当的负面作用的。在此我们仅仅以SCI为例来讨论相应的负面影响，而对EI之类的则没有纳入考察的对象。

二、SCI的问世所引发的后果

其次，我们要弄清楚SCI究竟是什么东西，为什么让我国科研管理部门对此如此重视呢？目前科学引文索引(Science Citation Index)(简称SCI)，是国际媒体巨头Thomson-Reuters公司麾下非常有影响的文献检索系统。该系统向全世界各国图书馆和大学出售使用权限。这为Thomson-Reuters公司带来的巨额收入。那么SCI的前身是什么？它又是如何成为Thomson-Reuters公司的“摇钱树”呢？这个问题还要从SCI及其创始人加菲尔德(Eugene Garfield)的工作说起。加菲尔德毕业于美国哥伦比亚大学，1949年获图书馆学硕士，1954年获宾大结构语言学博士。1955年他在著名刊物《科学》(Science)上撰文，提出“引文索引”(citation index)的设想，希望能提供一种文献计量学的工具来帮助科学家识别感兴趣的文献[2]。

加菲尔德的设想由1958年诺贝尔医学奖得主莱德伯格(Joshua Lederberg)促成，美国国立卫生院(NIH，National Institute of Health)决定资助加菲尔德的《遗传学引文索引》(Genetics Citation Index)。但后来由于1961年版的《遗传学引文索引》还包括其他学科文献的索引，NIH和美国国家科学基金会(NSF)不愿意出版。所以SCI从一开始便存在着分类混乱等缺陷。与此同时，很有商业头脑的加菲尔德，于1960年创办了科学情报研究所(Institute for Scientific Information)，尽管叫做研究所(Institute)，其实是一家私人公司。它于1964年开始出版SCI。这就是最早的印刷版本的SCI。而加菲尔德也成为SCI之父。这便是《科学引文索引》(Science Citation Index或SCI)的前身。

SCI是一部世界著名的期刊文献检索工具。后来于1992年被世界上的最大传媒集团Thomason-Reuters收购，其出版形式包括印刷版期刊和光盘版及联机数据库，现在还发行了互联网上Web版数据库。Thomason-Reuters每年发布一个简称为JRC(Journal Rating Citation)的年度报告，对全世界各国的刊物进行评价，从而得出所收录刊物的影响因子(Impact Factor，简称IF)[3]。

加菲尔德想不到的是，从他的引文分析这一概念的问世到SCI的出版，在引文分析领域产生了始料未及的结果(unintended consequences)，其应用范围不断被扩大和延伸，不但被广泛用于评价科学研究的影响(impact)和质量(quality)，而且用于确立科学家的学术重要性(intellectual influence)或在学术界的声誉(academic reputation)。

众所周知，引文衡量的究竟是科学研究的影响还是质量？这是一个颇有争议的问题。加菲尔德和他的同事谢尔(Irving Sher)曾将那些公认的做出过高质量工作的科学家的论文的平均引文数，与那些尚未取得这种认可的科学家的论文的平均引文数做过比较，结果发现，1962 年和1963年的诺贝尔物理、化学、生理或医学奖得主在获奖之前的论文引文数大大超过其他科学家。这便是用引文分析预测诺贝尔科学奖得主之滥觞[4]。

SCI是因应引文分析(citation analysis)的需要而出现的。引文分析就是统计一篇论文发表后被多少其他论文引用。对一份期刊在某一年发表的全部论文的引用数，决定该期刊的影响因子。影响因子是一个统计值，所以，讨论个别论文的影响因子是没有意义的，也不能根据科学家发表论文的期刊的影响因子大小来决定科学家工作的重要与否。当然，影响因子高的期刊，在科学共同体内有影响，科学家都想法设法到那里去发表论文，从而不但提高自己的影响，也进一步推升期刊的影响因子。这就是IF能够提升刊物质量使之成为所谓的“核心期刊”，继而吸引科学家将优秀的工作在那些核心期刊上发表，以提升自己在学界的影响力。这就是SCI及其IF对科学界的正面影响。

既然引文分析和IF成为各类学术排行榜的一个重要指标，那么，美国国家研究理事会(National Research Council)在衡量美国大学博士专业质量或声誉时，就用它作为所在系的教授的研究质量指标之一。科学社会学家科尔(Jonathan R.Cole)曾任哥大教务长多年，审核过400多例终身教职的案例，据他回忆，其中三分之一案例提供了引文数。但他们其实并不清楚引文数究竟衡量的是什么。

不难看出，SCI系统不过就是一套“提供一种文献计量学的工具来帮助科学家识别感兴趣的文献”的工具而已。该系统于1992年以后由南京大学率先引入教师业绩评价，自此SCI便在中国各个大学甚至科研部门成为一种强大的“机器”。是我国科研管理部门衡量一个科研人员的尺度，进而成为“进入门槛”。

三、科学评价与引文分析的关系

尽管对如何使用SCI莫衷一是，引文分析的许多合理的方面也备受怀疑，不信由您，这个现在用来决定科学家和学术机构的命运的产品，最初是由科学社会学家、说得更确切是由科尔引入科学评价的。1981年，芝加哥大学出版社出版了他的专著《科学的社会分层》(Social Stratification in Science)，就是基于他们对美国物理学家的论文的引文分析之上的[5]。

事情要回溯到1957年，默顿(Robert K.Merton)以“科学发现的优先权”为题，在美国社会学会年会上作会长演讲[6]。默顿1938年以《17世纪英格兰的科学、技术与社会》[7]的论文从哈佛大学获得社会学博士，其后虽然也发表过“科学与社会次序”、“民主次序下的科学技术”等论文，但在其后的十多年间，他没有再作这个题目。此次演讲标志着他再次将科学作为一种社会体制来研究。

从1965年秋季开始的十多年间,NSF支持默顿在哥大社会学系开设科学社会学研究生课程。第一批学生包括后来以研究科学为主要对象的社会学家科尔兄弟。科尔兄弟的兴趣在于：科学家的知名度(visibility)是由什么决定的？在确定知名度方面，科学出版的数量和质量哪个更重要？

耶鲁大学的科学史家普莱斯(Derek J.de Price)的《小科学，大科学》在考察科学的发展时，选择了一系列指标来衡量科学的产出和各学科领域的知识增长率[8]。他假设，科学增长符合“逻辑增长曲线”；科学文献中的很大一部分是由一小部分科学家所贡献，从而引入了科学家群体的引文和大样本等指标。显然，普莱斯是将这些指标作为“因变量”来解释科学增长的。普莱斯在《小科学，大科学》曾有如下的论述:在同一主题中,半数的论文为一群高生产能力作者所撰,这一作者集合的数量上约等于全部作者总数的平方根，这便是著名的普莱斯定律。

而科尔则更对科学家的学术生涯、创造力和所受到的社会承认等社会学问题感兴趣，尤其想弄明白科学的创造力为什么会有差异，科学上的奖励是否主要由质量来确定的。也就是说，他们试图将科学产出看作“解释变量”。就在他寻找解释创造力差异的稳定指标时，他们了解到，加菲尔德已经编成了1961年和1964年两年的SCI。于是，他们把SCI拿来做重要的研究工具。尽管加菲尔德是哥大毕业生，而且哥大的科学社会学家们在SCI刚问世时使用SCI的数据，无形中是支持SCI、为SCI做广告，但是，他向科尔兄弟提供数据，却从来没有免费过。

科尔兄弟收集了在1959—1963年间授予2个博士学位以上的86个美国大学物理系的物理学家的名单，一共2079人，并从《美国科学名人录》收集这些物理学家的学术生平，从《科学索引》(ScienceAbstract，不是SCI)找出他们的文章数，从SCI收集他们的论文的引文数。随后，科尔兄弟根据这些物理学家的年龄、所在学校、产出和奖励等分层，随机挑选出120名物理学家。最后，科尔兄弟向2079名物理学家发问卷，向他们了解是否熟悉这120名物理学家的工作或者听说过他们的名字。

科尔试图用这些物理学家所在系的知名度、科学创造力的水平、研究的质量、是否获得过特殊荣誉、年龄和其他有可能导致科学家获得承认的变量之间的关系，来解释这120名物理学家得到承认的差异。他们指出，仅仅用论文数来衡量科学产出会产生误导，因为这么做忽视了论文“质量”这个关键变量，他们第一次提出用科学家论文的引文数来衡量其研究的质量和影响。所以，从科学社会学的角度看，科学评价与引文分析有关系。

四、SCI在中国的滥用

SCI本来是一个检索的工具，由于知识生产越来越多，对其检索也越来越繁琐，因而才出现了SCI这些检索工具。它们为文献、图书、期刊等二线工作人员创造了便利。这是他们的工作领域，从某种意义说，SCI与一线的科研人员没有过多的直接关系。这些检索工具都是后验的，其基础是建立在已有的知识生产的结果上的。如果它们本身脱离了原始论文，它们是没有价值的。换句话说，他属于一种二阶的知识体系。

可是，这套检索系统进入中国之后，其原来的功能却被扭曲了。这就不得不令人感到痛心。有人曾好心和以现实性的角度向青年学子提出建议，认为国内毕业或国外回来的博士有相当一部分还是选择高校、科研院所工作，例如进入高校(985)进人的标准一看论文，二看毕业学校。这虽然不合理，但也是没办法的办法。

天才毕竟是极少数，所以进人的标准只能根据你被SCI所检索的论文数量和你所毕业的学校。总结一下高校进人的分类标准基本上是这样的(仅对刚毕业的博士，成熟人才就另当别论了)：

第一类：SCI文章多且影响因子高，毕业学校为名校，比如本科到博士都是名校毕业，高校岂有不接收你的道理。

第二类：文章少但有高影响因子的SCI(如一区的杂志)，毕业学校也不错，高校基本上接收。

第三类：有几篇SCI文章，毕业学校也不错，高校一般会考虑要你。

第四类：有几篇SCI，但毕业学校一般，比如本科非985 或211毕业，高校基本不考虑。

那么青年教师以后提职称主要的衡量标准是什么？看看各大学人事处制定的评职称标准就知道，最重要的还是这几条：一是SCI文章，二是获奖级别，三是主持项目的级别。

最后结论：在目前的国情和评价标准下，在你成为某个领域的“权威”之前，SCI还是最重要的指标之一。年轻的博士还是要更加努力地去多发SCI文章，在多发的基础上尽量提高影响因子。

难道还看不出来，这种对SCI的误解和实际工作中的误用，还不是对我国科研的负面影响吗？无论是加菲尔德编撰SCI、还是科尔兄弟运用SCI来衡量科学家工作的质量和影响，他们关注的都是引文(citation)。而中国仅仅强调 SCI论文，即在SCI收入的期刊上发表的论文与SCI有关系。

根据SCI论文来奖励科学家、根据 SCI论文多少来为学术机构排名，都不是SCI的本意。

SCI的创新之处在于引文数，论文数只有在计算影响因子时才有用。而引文数又是一个统计值，即使用于科学工作的评价，它也不是无远弗届的，有其局限性。

在中国，是SCI论文、不是SCI成了“解释变量”，决定了科学家能否得到晋升和奖励、研究生能否获得学位等。因而，有的一线科研人员对自己工作不能静下心来，却往往想着如何在SCI收录的刊物上发表文章，从而形成本末倒置的关系。从事过科研工作的人都知道，一个人一生可以写许多文章，但真正有价值的却不多。我国在这方面所下的功夫太大了，也就难免出现偏差。尤其是对于科技管理部门，从管理的便捷性出发，看一个科研人员的水平就是看他有多少被SCI收录的论文数。从某种意义讲，这种片面的、不从整体上考察科研人员的做法也是对我国科研事业的一个负面的影响。

SCI论文在中国充其量类似于普赖斯研究中的“因变量”，而导致中国SCI论文数急剧增长的“解释变量”不仅包括研究开发经费的增长、研究生的扩招，还包括对SCI论文的“崇拜”，正是这最后一个因素，导致中国科学论文增长而研究质量并没有随之而水涨船高。尽管数量的扩张有可能最终带来质量的上升，但是，由于评价工作没有注重质量，质量是否会提高还是未知数。

笔者看来，中国科学界的当务之急，不仅在于重新认识SCI在科学评价中的作用，而且有必要进行仔细的经验研究，弄清楚中国科学的质量和影响，从而找准在世界科学界的真正地位。

五、一点反思

科尔兄弟选用每个物理学家引用最高的3篇论文的引文数，以此为质量指标。由于物理学的贡献往往不是由一篇论文所决定的，他们使用一年内发表的论文数。引文数经过加权才有意义，即给引用以前发表的论文的引文数以较大的权重。在比较不同时期的工作时，他们对引文数做标准化处理。他们还剔除了自引。

科尔兄弟特别提到，即使在同一个领域，引文数的多少也不见得能说明科学家工作的影响大小和质量高低。限于篇幅，我们这里援引基本都是美国的例子。这里虽然引述的是美国的例子，可是这种情况也正在改变。不久前，《自然》杂志就对过度依赖影响因子的现象作出了反思[9]。

可是，中美两国现行的科学创新评价体系有所不同，长期以来美国已形成了相对独立的两套科研创新评价子系统，一是学术界以论文同行评议为主的评价子体系，二是企业界以生产力转化为主的评价子体系。这两套子系统虽在界内相对独立，又在整体上相辅相成，一定程度弥补了相互的不足。所以，美国的科研创新评价体系，实际上是在企业界和学术界实行了互相补充的双轨制。这种双轨制，的确有其优越之处和合理之处。不难看出，美国之所以能够成为科技强国，其最终成果并非完全在理论上，更多的是落实在技术层面上，从而推动了整个科技体系的发展[10]。不可否认，我国科研创新的这种双轨评价体系目前还处于胚胎发育阶段，还很不成熟。在今后的一段时间内，我们的当务之急，是建立和完善这种能相互补充调节的双轨创新评价系统。

最后，我想从信息哲学角度谈一点思考。科学论文和引文索引是两套全然不同的体系，它们之间的关系是虚与实的关系；是对象语言和元语言之间的关系。科学论文是实质性的，而引文索引是描述性的，属于元语言(metalanguange)层面的数据。如果没有人为的赋值，这些“元数据”(meta data)没有任何意义。SCI就是些元数据的内容。如果这些虚的层面的元语言与对象语言不能形成一一对应关系，或者单靠元语言来分析某项成果是否具有价值本身就是错误的。根据研究，信息是在虚的层面运作的，而其本质就是以虚控实[11]。

所以我们认为，不要唯那些“虚”的东西用作我们的科技管理工作的指南。而是应该从现实需要对科研人员进行管理和招聘。

参考文献：

[1] 哈工大材料学院材料物理与化学教师招聘启事[OL].http://today.hit.edu.cn/articles/2010/06-21/0610101461.htm.

[2] Garfield E.Citation indexes for science:a new dimension in documentation through association of ideas[J].Science,(1955)122(3159):108-11.

[3] Chernyi A I.The ISI web knowledge,a modern system support for the scientific research:a review [J].Scientific and Technical Information Processing,2009,Vol.36,No.6,202.

[4] Garfield E.Recollections of Irving H.Sher 1924—1996:Polymath/information scientist extraordinaire [J].Journal of the American Society for Information Science and Technology,Volume 52 Issue 14.32.

[5] Cole,Jonathan R.Social stratification in science[M].Univ.of Chicago,March 1981,91.

[6] Merton,Robert K.Priorities in science discovery:a chapter in the sociology of science[J].American Sociological Review,Volume 22,Number 6,1957:26.

[7] 默顿.17世纪英格兰的科学、技术与社会[M].范岱年等译.北京:商务印书馆，2007:47.

[8] Price，Derek J.de.Little science,big science[M].New York:Columbia University Press，1963,72.

[9]《自然杂志》承诺增加广受诟病的影响因子的透明度[OL].http://www.nature.com/news/transparency-promised-for-vilified-impact-factor-1.15642.

[10] 郭磊.千人计划和集团式造假——“千人计划”成功实施的关键 [OL].http://www.sciencenet.cn/m/user_content.aspx?id=226976.

[11] 刘钢.信息哲学探源[M].北京:金城出版社，2007:141.

猜你喜欢