混合式评审及其学术效果评析<br/>——以《经济研究》杂志为例

混合式评审及其学术效果评析
——以《经济研究》杂志为例

2015-03-26聂致钢

中国科技期刊研究 2015年11期

■聂致钢

南京财经大学城市发展研究院，南京市仙林大学城文苑路3号 210046

1 引言

公开评审和匿名评审是学术期刊论文评审的两种主要方式。所谓公开评审，是一种双向互动式评审，即在评审过程中，评审员和作者彼此知悉对方身份信息，他们可以充分互动，整个过程完全透明，同时，公众也对评审过程、评审意见、以及评审结果享有知情权。王志娟等评论到，该方式“鼓励作者和读者的公开和直接的交流，以促进学术思想的交锋和修正”［1］。

而所谓匿名评审，顾名思义，是一种评审和作者一方（单盲）或者双方（双盲）都看不到对方身份信息的评审方式。最近几十年匿名评审开始成为欧美期刊论文评估的主流。在典型的双盲匿名评审下，作者投稿给杂志，杂志编辑隐去作者信息后将稿件发给评审，而评审在完全不知道作者身份的情况下给出评审意见并反馈给杂志编辑，之后编辑再隐去评审身份信息并将评审意见反馈给作者。在这个过程中，作者和评审彼此无法直接互动。最终是否发表或是先修改后发表，在很大程度上则主要依赖评审给出的意见。

除匿名评审和公开评审之外，还有一种介于二者之间的混合式评审。所谓混合式，是公开和匿名的组合，往往出现在公开评审制到匿名评审制转变的过渡期。具体来说，在从早期流行的公开评审到现今流行的匿名评审转变的过程中，一些杂志在名义上采用公开或者匿名的同时，部分的保留了匿名或者公开的评审方式。比如说，某杂志以前实行的是公开评审，在决定向全面匿名评审转变前，出于风险的考虑，可能会试点实行匿名评审，即对一部分稿件试点匿名评审，这样的评审方式就可以称之为混合式评审。同样，在该杂志社决定全面实行匿名评审之后的一定时期内，杂志编辑出于思维惯性，会对部分稿件采取特殊对待，即仍保留对这部分稿件采取公开评审的权力，而这也可称之为混合式评审。本文的内容主要是建立一套框架，用实证数据分析以上提到的三种评审方式对于特定期刊带来的不同效果。

2 理论综述

2.1 关于匿名评审和公开评审的理论探讨

在我国学术界和国际接轨的过程中，最近十几年，中文期刊普遍接受并推广了国外主流的双向匿名（双盲）评审方法来选择稿件，其理由主要是为了促进公平和提升总体论文质量。但比较公开和匿名评审，匿名评审的优势一直备受争议。国外学者比如 Mahoney［2］和 Horrobin［3］就认为匿名评审有维持学术现状和压制学术创新的倾向。另一些国外学者［4-6］则认为匿名评审扼杀经典，他们集中研究了诸多经典论文被匿名评审拒绝的案例。而国内学者比如彭凌［7］、徐立衡［8］、张世海和李霞［9］、霍丽［10］、郑良勤［11］、朱大明［12］、王立争［13］以及欧阳晓黎等［14］也都撰文表达了一定的看法。

支持者认为，和公开评审相比，匿名评审有极大功效。第一，匿名评审有助于维护公平，可在一定程度上减少人情稿和权威稿，实现一视同仁，有助于学术发展。第二，匿名评审有助于维护评审自由评审的权利。匿名评审一般不公布评审员的信息，评审员就可以畅所欲言，不必担心事后受到攻击。第三，匿名评审是一种学术分工制，可减少编辑的负担，提高审稿质量。同时，文稿可以发给专业同行评审，提高审稿专业性。

而另一方面，反对者则认为，匿名评审维护公平，但未必促进学术发展。第一，匿名评审放大编辑的权力，使编辑成为学术发表中不受监管的自由人。第二，即使过程公正，匿名评审的效果仍然存疑。历史经验表明，很多经典著作在发表之初往往备受争议，因此会被匿名评审轻易拒绝发表。如诺贝尔奖得主科斯颠覆传统的早期著作就是通过芝加哥大学几位著名经济学家集体辩论，公开评审发表的，因其在出现之初不受广泛认同，不易获得匿名评审的青睐。又如Granovertter［15］的讨论弱关系的大作，在其投稿时就因为其论点惊人而被匿名评审强烈否定并拒稿，但事后时间证明该文成为了社会学领域有史以来最有影响的作品之一。第三，和公开评审相比，匿名评审往往导致审稿周期过长。由于审稿人是义务审稿，所以审稿时间往往无法保障，这常使得作者等候时间过长，好作品长期得不到发表。第四，匿名下评审员无需担责任，所以评审在畅所欲言时，也可能不负责任随意审稿或者将审稿任务转包给不具备评审资格的人员。

关于评审制度的争论不休，但这不妨碍匿名评审在学界流行。可能的原因有二。第一，匿名评审强制性搁置争议，这可节省杂志编辑的时间。第二，匿名评审可能会受到青年学者欢迎。匿名制下青年学者有望卸下心理包袱参与评价其他学者，包括一些成名学者，这给他们带来成就感。但有利于特定集体未必有利于社会，用诺斯［16］的话说，从制度经济学的角度看，利益集体的存在，可能阻碍有利于社会发展的制度推行，而取而代之的另一套流行的制度（即便从某种意义而言这制度是当时各种约束下的必然）则很可能在事实上阻碍社会发展。

2.2 理论文献的不足之处

从以上分析可看到，关于不同评审方式孰优孰劣学界充满了争议，无法定论的原因可能是因为现存文献大多以提出观点和举简单个例说明为主，虽然提供理论分析，但面临证据不足的尴尬。而对问题进行系统性实证的文章可以说就目前来看国内外都非常寥寥。所谓系统性实证，指的是要对不同评审方式的实际效果进行一定规模的实证对比来得出结论。具体步骤是，需先获取一定规模的可有效分类的数据，然后设计一些指标进行分析，并结合理论提出假说并得出结论。这样得出的结论即便不具备完全普适性，也仍有一定说服力和启发意义。本文下面会具体讨论这些实证问题。

3 实证方法设计

3.1 现有实证研究

除理论分析外，一些杂志会采用实验法来检验不同评审方式的好坏。如张恬等［17］提到，顶级杂志NATURE曾在2006年进行过一项为期4个月的公开评审的实验。杂志为作者开辟了一个网上平台让作者将文章上载在该网站上接受公众评估，之后再通过公众评估结果来决定是否发表。但其得出的结果不甚令人满意，可能是因为虚拟实验规模一般较小，不够系统，而且无法维持长久，亦不代表真实情况，所以作者和评审员对其不甚热情，实验结果也就不能有效说明问题。值得一提的是，以上提及的强调公众参与的公开评论和本文之后将实际分析的《经济研究》杂志匿名评审实施之前的公开评审还是有区别。后者主要是由具备较高学术地位和水平的杂志主编或者特邀评审员对文章进行公开评审，这点区别需要注意。

多伦多大学的Siler团队［18］认识到对于制度评估而言，现实才是最好的实验，所以他们克服困难，采用了系统性实证方法来评估匿名评审。他们研究了一千多篇顶级医学期刊的投稿文章，比较了那些被送外审的和直接拒稿的稿件，结论是，尽管被送外审的稿件最后整体引用率要更高，但那些被直接拒稿后来发表在其他期刊的稿件中却包括那些最后引用率最高的突破性作品。他们的这篇文章发表在2015年的美国国家科学院院刊（PNAS）上。Siler团队的工作很有开拓意义，但也有缺陷。他们是对匿名评审淘汰和选中的不同文章的最终学术影响进行横向比较，突出的是匿名评审对不同类型文章带来的后果。其缺陷在于，他们并无系统性对比其他评审方式是否会带来类似效果。假如公开评审也会带来类似或更差效果，那么如何证明匿名评审不是最优？

3.2 改进和设计

受到Siler团队的启发，本文试图通过对特定期刊在实施匿名评审前后所发文章以及文章引用率进行系统性比较，来分析不同评审方式给学术发展带来的实际影响。本文的方法在Silber团队的基础上有所改进。为弥补Siler团队的研究的缺陷，本文采用的是纵向对比，比较的是不同时间段上实施的不同评审方式带来的差异，蕴含的基本假说是就一些主要指标而言，混合式评审因其既鼓励创新又兼顾公平，可能优于单纯匿名或者单纯公开评审。本文选择《经济研究》这一期刊作为分析对象。做出这一选择的原因有几个。第一，《经济研究》是国内顶级中文经济类期刊的代表，其审稿流程相对正规。第二，该刊从2002年开始全面实行匿名评审，而国内电子期刊数据库中的引用数据从1994年开始有比较完善的引用数据。《经济研究》期刊实施匿名评审的时间刚好将1994到2014这21年分成比较均匀的时间段落（匿名评审前，匿名评审过渡期，匿名评审全面实施），因此有助于更好的进行前后比较。第三，相对于自然科学类期刊，经济类文章的评判标准更主观，因而会将差异放大，从而数据显示效果会更明显。

具体来说，本文使用中国知网数据库（www.cnki.net）的引用数据，搜集了《经济研究》从1994年1月到2012年12月所发表的全部学术文章的截止到2015年1月的引用数据（由于引用数据有时间滞后效应，2013年和2014年发表的文章需要时间才能被引用，因此这两年的数据不在本文的分析范围内）。本文将该引用数据按月（每月一期）整理，计算两个主要指标来分析差异。指标1是每月所刊文章中引用最多的前30%文章的引用总数占该期总引用数的比例（该指标简称PT30）。如果该期每篇文章的影响都一样，那么前30%文章的PT30值必然为30%，如果前30%的文章的影响大于其他70%，那么PT30必然大于30%。把每期的PT30值连在一起，可以看到该指标在过去21年的变化趋势，如果PT30显著变大，则说明同一期中的文章的被引用的差异变大，如果PT30显著变小，则说明该差异变小。指标2是每期期刊总引用数的按月平均值（该指标简称为ACM）。ACM是这样计算的，首先算出每期期刊的总引用数，然后将该引用数值平均分摊到从该期期刊出版日期到2014年12月的每个月上。比如2014年10月的那一期的ACM值就等于该期总引用除以2个月（2014年12月减去2014年10月等于2个月）。

4 数据分析

4.1 基本指标计算

本文的数据包括总计227个样本，包括《经济研究》杂志从1994年第1期到2012年第12期的全部各期的引用数据。原本应该是228个样本，但因为中国知网数据库中1996年第8期的数据缺失，所以实际用于分析的样本为227个。该缺失对分析结果有微小影响，但不影响对大趋势的分析。

在这227期中，每期最少有7篇学术文章（1997年第11期），最多有19篇（1998年第11期）。文章数多于13篇的一共有12期（占比5.3%），文章数少于9篇的有6期（占比2.6%），文章数介于9到13篇的占绝大多数，总计有209期，占比92.1%。总引用数最低的一期只有74个引用（2007年第10期），而引用数最多的一期则有8725个引用（2001年第1期），差别较大。这227期的总引用数为31780个，平均每期总引用为140个。

首先计算每期引用最高的前30%。由于每期文章数目不一，计算前30%的时候需要设定一定规则。这里设定的规则是，如果该期文章数为7到8篇，则前30%为该期引用最高的两篇，如果该期文章数为9到12篇，则前30%为为该期引用最高的3篇，如果该期文章数为13到15篇，则前30%为为该期引用最高的4篇，如果该期文章数为16到17篇，则前30%为为该期引用最高的5篇，如果该期文章数为19篇（没有18篇一期的），则前30%为为该期引用最高的6篇。这种方法会导致一定的高估或者低估，比如该期文章有12篇，而这里只选取引用最高的前3篇作为前30%，就会对PT30值产生低估，因为前30%应该是3.6篇，所以就需要进行修正。为防止溢出，即修正后的PT30有可能大于1，本文采用了小均值修正，即用该期平均每篇文章引用数作为修正基准值。具体来说，如果该期有11篇文章，而分析中采用引用最高的前3篇作为前30%，因为3/11=0.27＜30%，所以就需要加入一个修正值0.3篇文章，具体计算为（0.3-3/11）*11=0.3）。用0.3乘以该期每篇文章的平均引用（我们也可以用引用最高的前3篇文章的平均引用乘以0.3来计算，但这样会造成大量溢出，表现出修正过度）则是需要增加到前30%文章的引用数，再用该引用数除以该期总引用数则是修正后的PT30。这样虽然修正较小，但溢出概率也较小，不会造成修正过度，总计只有两个样本（1994年第12期和1996年第6期）的PT30值溢出到超过1。

修正后每期前30%文章其引用所占比例最低为42%，最高为104%，而225个样本（占比99%）的PT30值在42%到98.3%之间，比较适合用作分析。同时由于观察到的样本PT30值波动较大，为便于图形分析，设定采用了6个月移动平均的方法来使得曲线更为平滑。图1为平滑后的PT30变化趋势图，纵坐标表示为平滑后的PT30值，横坐标为样本编号，编号按期刊先后递增。可以看到PT30从1994到2012年一直是稳定下降的趋势。

图1 平滑后的PT30变化趋势

在计算完PT30之后，需要进一步计算ACM。ACM的计算比较简单，直接用该期总引用除以自出版当月到2014年12月的遍历月数即可。同样分析采用了6个月移动平均的方法来使得曲线更为平滑。图2为平滑后的ACM变化趋势图，纵坐标为平滑的的ACM值，横坐标为样本编号，从图中可以看到从1994到2012年，平滑后的ACM是先增加后下降的趋势，在第110和第132个样本处分别达到峰值和次峰值，这两个样本对应的分别是2003年第3期和2005年第1期。

图2 平滑后的ACM变化趋势图

4.2 综合分析

为便于观察，可以将ACM平滑曲线除以2放入PT30图中，这样两幅图可以同时容纳在同一个尺度内（图3）图中纵坐标为平滑后的PT30值，同时也表示平滑后的ACM/2，横坐标为样本编号。之后将样本划分为三段，第一段为完全公开评审期（1994年1月到1999年6月，样本1到样本65，共65个样本），第二段为混合评审期（1999年7月到2005年6月，样本66到样本137，共72个样本），第三段为完全匿名评审期（2005年7月到2012年12月，样本138到样本227，共90个样本）。之所以这样划分是因为《经济研究》在2002年6月开始全面实行双向匿名评审，考虑到规则实施之前的尝试期和之后的过渡期，这里将2002年6月之前和之后的三年都列为缓冲期，即认为该期刊在该时间段很有可能事实上实行的是前文提及的部分匿名部分主编定稿的混合式评审。

从图3中可以明确看到，在公开评审期，PT30值很高（未平滑的原始均值为78%，最低49%，最高104%），而 ACM值很低（未平滑的原始均值为0.53，最低0.05，最高1.8）。在混合评审期，PT30值中等（未平滑的原始均值为69%，最低50%，最高95%），而ACM值达到峰值（未平滑的原始均值为1.74，最低0.43，最高5.34）。在完全匿名评审期，PT30进一步下降（未平滑的原始均值为60%，最低42%，最高77%），而ACM也同时下降（未平滑的原始均值为1.31，最低0.07，最高3.2）。

对于图3的分析说明，在完全公开评审期，同一期的文章差异较大，而总体平均引用也较低，这说明完全公开评审虽然可能提炼出影响较大的文章，但其代价是容易造成文章差异过大。而在混合评审期，影响较大的文章在一定程度上得到了保留，同时文章差异也在缩小。而在完全匿名评审期，文章差异进一步减小，但ACM也进一步减小，这也提醒我们说很有可能有一部分影响很大的文章在该期间被评审拒绝，而这部分文章可能恰恰是学术的精华所在，可以显著提高ACM。

图3 不同时期的PT30和ACM/2变化趋势图

5 结论与启示

5.1 结论

以上分析得出的基本认识是，从制度经济学角度看，匿名评审的主流化可能是学界发展的必然结果，因为这种方式给予杂志编辑便利，也使青年学者感受到公平，因此推行起来毫无阻力。但这一制度虽然给予特定团体利益，其对科学发展的作用却有待商榷，因其很有可能误伤佳作，并使质量平平的作品不断获得发表。正如Bloom［19］所说，过分关注公平在提高整体学术水平的同时也可能会造成学术平庸化。本文的目的在于通过实证分析评估不同评审制度的效果差异，文章对于《经济研究》多年引用数据的分析则证实了从月平均引用量ACM和前30%高引用文章占总引用比例两个指标来看，介于匿名评审和公开评审之间的混合式评审既能保证一定程度上的公平，又能对于论文择优起到促进作用，至少对于《经济研究》杂志而言，是一种值得提倡的评审方式。

5.2 局限性

当然，本文也有一些局限。比如，由于数据限制，本文无法对比分析除文中提及的三种评审方式之外的其他评审制度的好坏，比如期刊PLoSOne所倡导的发表后再评审的方式，再如前文提到的NATURE实验的强调公众参与的公开评审。但毋庸置疑的是，三选一得到确认已是可喜进展，而进一步选优则可留待今后数据允许时再行补充。

再如，ACM的下降也可能是别的因素所导致，比如学术文章的引用往往会滞后几年，所以ACM的自然峰值可能原本就应该是从计算引用之日起向前推几年。但这个因素起决定性作用的可能性较小，因为图3中的峰值出现在2005年，可以预计的是，ACM的自然峰值即使要推前，也不太可能会需要向前推9年之久。当然，要进一步确认这一点，我们需要在等待几年之后再重复本文的分析，在确认ACM的峰值是否会随时间移动之后才能得出准确的结论。从这个意义上而言本文的结论只是一个阶段性成果，本文提出的混合式评审制较优的假说有待进一步证实。也欢迎其他学者在本文的基础上进行进一步验证。

除此之外，本文只分析了《经济研究》这一特定期刊的引用数据，所以严格来说目前能确认的只是混合式评审适合《经济研究》杂志。而要得出适用于整个学术界的普适结论，则实证规模需要更大，比如充分对比各种期刊，甚至跨学科和跨国际进行比较，这并非是单一论文所能完成的任务，而需要一组论文进行对比，所以会是将来的研究方向。但换言之，科学成果的价值在于可证伪而未被证伪，本文创造了一个很好的开始，因其可能会是开启一系列后续研究的钥匙和前奏，具有较强的后续讨论和参考价值。另外，本文分析的虽然是经济类期刊，但本文得出的结论呼应了Siler团队对英文医学期刊分析得出的结论，所以有理由相信，在一定条件下，本文的结论在一些科技期刊中也可普遍适用。最后，本文不仅提出假说，也建立了一个分析框架，文中提出的纵向对比的分析方法和评估评审方式的两个主要分析指标对分析各类型学术期刊均有启发。

5.3 建议

混合式评审有一定优势，但却只是特定过渡期的产物，源于期刊编辑对于匿名评审的尝试和适应的时滞，是昙花一现的。不过事在人为，通过设计，一个好的制度往往可以在一定意义上得到继承，建议如下。第一，在不改变匿名评审大框架的情况下，可采用事实上的混合评审，即对于一些特定稿件，要预估其学术潜力，一旦预计到学术潜力巨大，要勇于打破现有的匿名模式，不拘一格择优录用。第二，如可行，可实行选择制，即面向作者给出匿名和公开评审（甚至先匿名后公开评审）的不同路径，作者可任选其一进行投稿，而期刊则可按一定比例从不同路径提取稿件发表。当然，这些方法的实际稳定性和效果有待评估，也欢迎学术同仁测试或提出更好的建议，本文仅提供概念参考。

［1］王志娟，法志强，郭洪波.科技期刊同行评议形式的不足与完善［J］.中国科技期刊研究，2013，23（2）：300-302.

［2］ Mahoney M.Publication Prejudices：An Experimental Study of Confirmatory Bias in the Peer Review System［J］.Cognitive Therapy and Research，1977，1（2）：161-175.

［3］ Horrobin D.The Philosophical Basis of Peer Review and the Suppression of Innovation［J］.JAMA，1990，263（10）：1438-1441.

［4］ Yalow R.Nobel Lecture：Radioimmunoassay：A probe for Fine Structure of Biologic Systems［EB/OL］.［2015-08-25］.http：//www.nobelprize.org/nobel_prizes/medicine/laureates/1977/yalow-lecture.html.

［5］ Gans J，Stepherd G.1994，How are the Mighty Fallen：Rejected Classic Articles by Leading Economists［J］.Journal of Economic Perspective，1994，8（1）：165-179.

［6］ Nature.Coping with Peer Rejection［ J］.Nature，2003，425（6959）：645.

［7］彭凌.双向匿名审稿制度在医学期刊审稿中的缺陷和对策［J］.中国科技期刊研究，2012，23（1）：143-145.

［8］徐丽衡.学术期刊双向匿名评审制度若干问题探讨［J］.中国出版，2010（19）：62-65.

［9］张世海，李霞.对匿名审稿制的两点反思［J］.出版发行研究，2010（2）：61-63.

［10］霍丽.试论匿名审稿制度的缺陷与完善——基于经济学视角的分析［J］.山西师大学报：社会科学版，2008，35（6）：109-111.

［11］郑良勤.社科学术期刊匿名审稿问题综论［J］.中国出版，2003（8）：34-35.

［12］朱大明.论双向匿名审稿制的合理性及其心理作用［J］.中国出版，2007 （10）：34-35.

［13］王立争.完善学术期刊双向匿名审稿制度的几点思考［J］.编辑之友，2014（11）：76-79.

［14］欧阳晓黎，赵蔚婷，牛燕平等.专家审稿实名制与匿名制之对比分析［J］.编辑学报，2001，13（S1）：37-38.

［15］ Granovertter M.The Strength of Weak Ties［J］.American Journal of Sociology，1973，78（6）：1360-1380.

［16］ North D.Institution，Institutional Change and Economic Performance［ M］.New York：Cambridge University Press，1990：7.

［17］张恬，张宏翔.同行评议形式的争论及发展现状［J］.中国科技期刊研究，2009，20（1）：152-154.

［18］ Siler K，Lee K，Bero L.2015，Measuring the Effectiveness of Scientific Gatekeeping［J］.Proceedings of the National Academy of Sciences of the United States of America，2015，112（2）：360-365.

［19］ Bloom A.The Closing of the American Mind［M］.New York：Simon and Schuster，1987：42.