精英同行评价与大众同行评价的结果是否一致？*<br/>——以人大《复印报刊资料》转载论文为例

精英同行评价与大众同行评价的结果是否一致？*
——以人大《复印报刊资料》转载论文为例

2022-10-19郭毓晗张光耀田文灿王贤文

情报杂志 2022年10期

耿屿郭毓晗方燕张光耀田文灿王贤文

(1.大连理工大学人文与社会科学学部WISE实验室大连 116024；2.大连理工大学经济管理学院大连 116024)

0 引言

在学术评价中，评审意见分歧是一个由来已久的话题。例如，英国的科研质量评价体系RAE (Research Assessment Exercise)和研究卓越框架REF (Research Excellence Framework)就是一个典型的案例，作为全球最悠久的科研评价体系之一，其以代表作为核心的评价制度，在促进一流院校和优势学科获取科研项目及鼓励科研人员发表高质量成果方面都有着明显的效果，但其精英评价思想，即由同行专家挑选文章的主观性也一直饱受争议，导致评审往往倾向于著名机构，过于关注传统研究领域，也有看重知名学者而轻视年轻学者的缺点[1]。这也导致了其向REF的过渡[2]，在评价单元和评价内容等方面都有了大幅度的改变。在人文领域，美国国家艺术基金会(NEA)即使有着民主、公平、专业的专家评审体系，在决定何为“卓越”艺术的奖助实践上，也曾饱受质疑，促使NEA试图采用兼顾“精英主义”与“大众主义”的立场以求明哲保身[3]。

在我国的人文社科中，精英与大众的“意见”是否存在分歧？本研究聚焦于精英与大众在评价中的分歧的探讨，同时无意讨论两种评价方式究竟孰优孰劣。在如何定义“精英遴选”与“大众投票”这一点上，本研究以《复印报刊资料》转载论文作为评价中“精英遴选”的代表，以转载论文原发刊中未被转载的论文作为对照组；与“精英”相对，此处的“大众”指的是除了人大复印资料的评议专家之外的学术界所有研究者、学者、读者和用户[4]，因此以两种论文的下载频次和被引频次作为检验的量化指标，是为“大众投票”。

1 文献综述

在学术研究领域，学术评价是对科研成果的学术价值进行评估和判断的活动，在扩大优秀成果的传播和影响力度，促进学术交流，维护学术系统的健康运行方面有着重要作用，其结果也会对学者的职业考核、学术影响力产生重要影响[5-7]。学术评价分为主观评价和客观评价两种形式，主观评价包括期刊论文评审、项目评审、人才评价、机构评估等，客观评价以可量化的文献计量指标为主，例如论文的下载次数、被引次数、Altmetrics指标等。学术评价在不同的层面中有不同的表现形式，包括期刊论文评审、项目评审、优秀论文遴选、人才评价、代表作制度等。在我国，评价社科类学术研究成果的评价方式有两类，分为直接评价和间接评价。相比于自然科学，人文社会科学的评价更为复杂[8]。包括同行评价、科研成果评奖、文献计量指标评奖等直接评价方式，以及根据期刊级别和被权威社科文献机构收录或转载的间接评价方式[6]，更能体现出精英同行评价与大众同行评价的分野。前者以同行评议为代表，后者则以学术界广泛的被引和下载为代表。

精英评价即传统意义上的同行评议，指具有相同或相近学术背景或能力的研究人员对研究或学术交流进行评估和审核，旨在保证科研活动的质量、绩效以及可信度[9-10]，自1731年问世以来，距今已有将近300年的历史[11-12]。现行国际科研评价体系仍是以精英同行评审为主导，该制度已发展成为目前最为成熟的科研评价机制，肩负着科学“看门人”的职责[13-15]。精英同行评价典型应用就是论文投稿后的同行评审。此外，论文发表后的二次评价更能体现出评价中的“精英倾向”，例如国外的F1000 Prime推荐，以及在我国人文社会科学领域被广泛采用的“四大学术文摘”：《新华文摘》《中国社会科学文摘》《高等学校文科学术文摘》和人大《复印报刊资料》[16-17]。文摘编辑根据论文的主题和内容特征进行初步评选，再由各个领域的精英同行和专家进一步甄选，二次筛选的过程有效保证学术文章的权威性，并使文摘具备学术评价的功能[18]。大众同行评价意味着以文献计量指标为标准的学术评价，计量指标种类繁多，包括被访频次、被引频次、下载频次、被转载频次、引文数量等[19]，其中以被引频次是最常被使用的一项指标[20-21]。引用行为在科学社会学上有着重要意义，科学社会学奠基人默顿[22]和科学知识社会学家吉尔伯特[23]分别从规范性理论和建构主义理论的角度对引用行为的动机进行了阐释，默顿认为引用意味着对前人研究的肯定，是一种信誉加分，体现了一种所有权；而吉尔伯特则认为引用是为了支持作者自己的结论，体现了说服力。虽然两种理论一直在相互竞争，但在后人的引用体现了对前人的“投票”这一点上，二者是有共通之处的。此外，下载阅读作为使用数据的一部分，是引用行为的必经之路，对弥补引用数据的滞后性与片面性有着重要意义，更能体现出学术界中的“大众倾向性”[24]。

就作为研究对象的《复印报刊资料》来看，有两个重要的事实背景与本文密切相关。首先，《复印报刊资料》由中国人民大学书报资料中心于20世纪60年代创立，中心设立专业机构，聘请专家选取论文，以“内容有较高的学术价值、应用价值，能反映学术研究或实际工作部门的现状、成就及其新发展”作为筛选原则，以“精选千家报刊，荟萃中华学术”为转载理念，来甄选论文[18]。被转载的论文以科学性、学术性和创新性而著称，因此这些优质文献能够体现出精英专家心目中该研究领域较高的学术水平[25]。其次，尽管《复印报刊资料》以严格的学术标准和高学术品味成为人文社会科学领域的学术评价权威，但是随着时代的发展，《复印报刊资料》也开始面临诸多挑战，并且局限性日益凸显[6]。《复印报刊资料》是非网络环境下的产物，从创刊至今已将近60年。在20世纪末期，期刊数量和论文总数量较少，因此能够通过人工来实现甄选优秀论文。进入20世纪以来，互联网期刊全文数据库开始构建，并得到飞速发展。社科学术期刊已有4 000余种，期刊发表周期变短，每年学术论文数量呈指数级增长。面对海量文献数据，期刊编辑与同行专家人数、时间和精力有限，因此甄选工作也变得相对困难。加之转载数量有限，无法容纳所有学术精品，遗漏和不当转载的情况时有发生[6,17]。《复印报刊资料》的施引期刊主要集中于专业核心期刊，虽能受到一些专业人士关注，但是总体对于同行影响力较弱[26]。另外其评价标准具有模糊性的特点，甄选结果反映出的是正向的定性评价，甄选过程受到编辑和精英同行、评审专家的个人偏好、认知水平、学术鉴别能力、理论功底、学术积累等因素的影响，因此评价结果并不是绝对的。有时“晕轮效应”——高学术影响力的作者带有学术光环——也会对学术论文的遴选造成干扰，这对文摘期刊的学术评价结果造成了负面影响[6,16]。

2 数据收集和处理

2.1 精英同行评价(人大复印转载论文)数据的收集

在本研究中，我们以中国人民大学《复印报刊资料》作为精英同行评价的数据来源，在中国人民大学复印报刊资料数据库(http://ipub.exuezhe.com/index.html)中选择经济学与经济管理类的《企业管理研究》和文化信息传播类的《图书馆学情报学》作为研究对象学科。《企业管理研究》是经济管理领域刊登高水平企业管理理论研究的专业期刊，《图书馆学情报学》是图情领域精选图书馆学、信息资源建设和情报工作的重要期刊。在社会科学中，图书情报学与管理科学在学科间互相渗透，不仅具有一定的关联性，还具有一定的代表性[27]，选择两类不同学科的期刊有助于更全面的分析和比较，并且研究结论具有更高的可信度。选取2010—2015年时间段作为研究窗口进行检索，收集数据。共获取72期、1 325篇研究性论文的元数据，数据字段包括论文标题、发表年份、发表期号、作者、原发期刊、原发年份和原发期号等。

2.2 大众同行评价与对照论文数据的收集

根据已获取的人大《复印报刊资料》论文的元数据，追溯转载论文所在原期刊，收集原发期刊发表的所有论文数据作为对照数据。具体是利用中国知网(https://www.cnki.net/)的高级检索功能，按照原发期刊和发表时间进行检索。检索结果可以分为两类：一类是被人大《复印报刊资料》转载的论文，另一类是同一期未被转载的论文，即对照组论文。得到检索结果后进行元数据和文献计量指标数据的收集。元数据字段包括论文标题、作者、期刊名称、发表年份期号、论文类型(只选择期刊类型，忽略其他类型)，计量数据包括下载频次和被引频次，作为大众同行评价结果。

去除无效、不可检索数据和异常数据，最终获取到文献数据共计18 609篇。其中人大复印《企业管理研究》涉及的原发期刊总共有97种(每种期刊每年发行12期，少数期刊会额外发表合刊增刊、特刊或专刊)，被人大复印资料转载的期刊总计143期(包括可被CNKI检索到的人大《复印报刊资料》转载文献1 151篇，转载文献同期文献数据13 811篇)；《图书馆学情报学》涉及的原发期刊总共有17种，被人大复印资料转载的期刊总计137期(包括可被CNKI检索到的人大《复印报刊资料》转载文献174篇，转载文献同期文献数据3 473篇)。

在数据集中，转载论文原发年份最早为2004年第9期，最晚为2015年第11期。2004—2008年期间的转载期刊和同期期刊仅有194篇，远少于2009—2015年的文献数量。为了便于观察与分析，选取时间窗口2009—2015年的18 415篇文献数据进行分析，占全部收集到的18 609篇论文的98.96%。并且，2015年的论文至今已经发表4年，超过了论文发表后2～3年的被引高峰，有足够的时间窗口可以比较论文的被引情况。

3 结果

3.1 精英同行评价与大众同行评价的差异分析

图1以散点图的形式，展示了整个数据集的分布。横轴是论文的下载次数，纵轴是论文的被引次数。黑色点代表被人大复印转载的论文，灰色点代表人大复印转载论文的同期论文(即与转载论文在同一期刊的同一期发表但未被转载的论文)。从图1(a)和图1(c)中观察到，黑色点和灰色点多数集中在靠近原点的范围内，但是黑色点相比灰色点更靠近原点。从数据集的整体分布来看，黑色点代表的转载论文在下载次数与被引次数方面并不占优势。在图1(b)和图1(d)中，在双对数坐标系中，黑色点分布较为集中，灰色点分布在黑色点四周。这反映出黑色点的分布在所有数据中大致居于平均水平，表明精英同行的评价过程确实起到了甄别出较差成果的作用，即转载论文中没有大众同行评价结果表现很差的论文。

图1 论文数据分布

为了更好地比较同一期中转载与未转载论文的下载和被引次数的差异，我们以气泡图的形式，按年份对论文数据分布进行可视化呈现，如图2所示。图2按照发表学科和发表年份从2009到2015年共分为14个子图，每一个子图下面标有该子图所代表的年份。横轴代表期刊发表的期号，纵轴代表论文的下载数量，气泡的大小代表论文的被引次数，实心深色气泡代表转载论文，空心气泡代表同期发表论文。

从图2中观察到，在《企业管理研究》期刊中，图2(a)(e)(g)中有一些深色气泡的位置较高，直径也较大，较为明显与突出。图2(b)(c)(d)中的深色气泡位置位于中等偏上，直径也较大。这些数据分别位于2009年第10期和第12期、2010年第1期、2011年第4期、2012年第5期、2013年第1期和第5期、2015年第3期；在《图书馆学情报学》期刊中，图2(h)(i)(k)(l)中有一些深色气泡也较为明显突出，分别位于2009年第6期和第9期、2010年第15期、2012年第5期和第14期、2013年第7期。虽然少数深色气泡处于中上的位置，但是更多的深色气泡是处于底层位置，这些气泡的直径也非常小，无法与其他气泡进行有效的区分。这一现象说明了大多数转载论文与同期论文相比，并不具备明显的计量指标优势。

进一步，为了统计转载论文的下载排名与被引排名，我们按照不同期刊和期号对数据进行分类，并定义了排名指数P，目的是计算转载论文位于原期刊该期发表所有论文中的百分比排名。PiD代表转载论文下载排名百分比，定义如下：

(1)

PiC代表转载论文被引排名，定义如下：

(2)

在式中，对于转载论文i，其下载数量在同一期论文的下载数量中排名为RD，被引数量在同一期论文的被引数量中排名为RC，同一期论文的总数量为N。

图2 人大复印转载论文与同期论文的下载次数与被引次数：分年分期不分期刊的比较

图3 人大复印资料转载论文的排名指数

我们计算出每一篇转载论文的排名指数，如图3所示，该图按照学科分成两组以及4个子图，图3(a)和(c)按照每5%的步长，统计对应范围内的论文数量，以直方图的形式呈现，并拟合出正态分布曲线。从图3(a)和(c)中观察到，在正态分布曲线顶峰大致位于0.4左右位置。图3(b)和(d)以箱式图的形式展示排名指数分布的分散程度。下载和被引的排名指数范围是0%～100%，《企业管理研究》期刊的下载排名指数平均值为42.56%，中位数为38.64%。被引排名指数平均值为45.34%，中位数为42.86%。《图书馆学情报学》期刊的下载排名指数平均值为38.57%，中位数为33.91%。被引排名指数平均值为37.46%，中位数为33.33%。两个学科的下载和被引的排名指数较低，且均值低于50%，结果表明与同期论文相比，转载论文的下载和被引情况表现并不具备优势，甚至略低于平均水平。

3.2 单因素方差分析：验证差异显著性

单因素方差分析用来研究一个控制变量的不同水平对于观测变量是否造成显著差异和变动[28]。为了研究人大《复印报刊资料》转载的论文与同期论文是否有显著差异，我们采用单因素方差分析方法进行检验。

首先，将论文数据分为A、B两组，A组代表人大《复印报刊资料》转载的论文，B组代表同期论文。将组别作为控制变量，论文的下载次数和被引次数作为因变量。研究发现，如表1所示，对于《企业管理研究》期刊的下载，F(1, 14962)= 116.34，p=0.00；对于被引，F(1,14962)=77.43，p=0.00；对于《图书馆学情报学》期刊的下载，F(1,3647)=31.41，p=0.00；对于被引，F(1,3467)=38.68，p=0.00。研究结果表明，在数据集的整体层面，AB两组的下载次数和被引次数在《企业管理研究》和《图书馆学情报学》的差异均显著。

表1 One-way Anova分析结果

为了避免不同时间对论文的下载次数和被引次数造成的差异影响，按照年份对数据集分层，研究2009—2015年间每一年的AB两组论文数据是否具有显著差异。研究发现：《企业管理研究》在2009—2013年间以及2015年，AB两组的下载次数和被引次数差异显著，表明AB两组论文数据不属于同一群体，并且A组论文数据的下载和被引水平较低，B组论文数据的表现更好。在2014年，AB两组的下载次数和被引次数无显著差异，AB两组论文数据的下载和被引属于同一水平；《图书馆学情报学》在2009—2010年间、2012—2013年间AB两组的下载次数和被引次数差异显著。在2011年及2014—2015年间AB两组的下载次数和被引次数无显著差异。

4 结论与讨论

在本研究中，为了验证精英同行评价与大众同行评价是否一致，我们将人大复印转载论文与原发期刊的同期其他论文进行计量指标的比较分析与统计检验。研究结果发现，相比未被转载的论文，人大复印转载论文在论文下载和被引这两方面都不具备更好的表现。精英同行遴选出的优秀论文在计量指标上的表现并不比普通论文更优秀。

具体来说，不论是从整体表现还是分年表现，人大复印转载论文的下载和被引在全部数据集中都不具备优势。从分年表现来看，虽然每年都有少数人大复印转载论文具有较高的下载和被引表现，但是属于个例情况，更多的人大复印转载论文依然处于一般水平，甚至还有一些转载论文在同期论文中处于较低的下载和被引水平。为了量化人大复印转载论文在同一期论文中的排名，基于排名指数P进行统计，发现人大复印转载论文的下载平均排名与被引平均排名均低于50%水平，进一步证明人大复印转载论文的下载和被引表现低于平均水平。通过单因素方差分析，证明人大复印转载论文与同期论文在下载和被引上具有显著差距。精英同行专家评价的体系虽然在一定程度上保障学术评价的质量，能够甄别出质量较差的研究，但是却无法保证筛选出最优秀的学术成果。

精英同行评价与大众同行评价结果差异较大，精英同行遴选的优秀论文无论是下载还是被引，均略低于同期论文的平均水平。这种现象可能由以下原因造成：

a.同行评价存在很大的主观性。同行评价很容易受到论文作者知名度、选题的影响，也会受到评审专家的学术水平及研究领域的影响。评价内容所覆盖的主题往往非常多样，但是精英专家可能只选择自己熟悉领域的研究成为优秀论文，而忽视其他领域的优秀论文。

b.同行评价的异质性。不同专家的评价标准多样，评价认识可能存在很大差别，尤其对于社会科学的论文。

c.评价结果的鲁棒性。由于实行精英同行评价的成本较高，因此评价人数往往不多，造成评价结果的鲁棒性不高，不同评审专家的意见很难达成一致。

d.评价结果的准确性。选择评审专家时往往过于注重专家的职称、资历，甚至行政职务，但是这些专家因为事务繁忙，或者可能已经脱离科研一线，无法对成果作出准确判断，尤其是那些具有较大创新性的研究成果。

近年来，《复印报刊资料》的品牌影响力不断得到学术界认可，也逐渐被应用于人文社会科学评价中，在教育部和科技部破除“唯SCI”不良导向，优化生态环境的决心之下，代表作制在人文社会科学领域的重要性不断提高，而《复印报刊资料》因其专家背书的特征，或将在评价体制中占据更受瞩目的优良位置。在这一大环境下，那么应当如何看待精英同行专家在学术评价中的功能和作用？如何保证“精英遴选”的公正？将是我们不得不面对的问题。为了完善精英同行专家评价体系，我们认为在以下几点或许有改进之处。

①建立完善的文献推荐平台。目前各机构已推出丰富的文献索引数据库，利用协同过滤推荐算法，结合PageRank等算法，建立能够有效衡量论文质量的推荐指标，构建文献自动推荐平台[29]，结合评审专家的兴趣、研究领域和研究方向等特征，将质量好、权威性高的文献推荐给同领域的精英同行专家进行评审。

②适当增加评审专家人数。邀请近年一直活跃在科研第一线的学者，利用文献推荐平台将潜在的优秀学术成果推介给精英专家们来进行评阅，精英专家结合自身的认知水平、学术鉴别能力、对学术前沿把握情况等因素，遵循相关科研伦理和学术道德，进行负责任的同行评价。

③倡导负责任评审。负责人评审制在于激发和提升评审专家的责任心，通过长期记录评审专家的评审工作，从公正性、科学性和建设性等方面进行考察，并且将评审专家的评审工作记入其学术贡献，鼓励评审专家积累长期信誉[30]。

④提升评审透明度与公信力，实行开放评价制度。包括公开身份、公开评价流程、公开评价意见、公众参与评价过程等[31]，通过外界监督，使评审专家更加负责。

⑤认可评审专家的贡献。期刊论文数量每年都在大幅增长，而审稿人数量有限，审稿工作需要评审专家付出较多的时间和精力，因此已不可避免地产生审稿质量下降的现象。在当前环境下，审稿人的贡献并未受到充分认可，审稿人往往出于学术理想担任审稿人，缺乏充足的正向激励。认可审稿人的学术贡献，也许是解决该问题的有效措施。可以通过公开论文同行评议审稿记录、使学术共同体认可审稿人学术贡献等手段，缓解当前的同行评议危机[32]。

⑥文献计量指标和同行评价结果相结合，基于文献计量指标进行大规模筛选的基础上，精英同行专家再进行精细化的评价。

本研究也存在局限之处：首先，本研究的研究对象为人大复印资料，人大复印资料期刊的同行评审机制是专家从已发表的论文中挑选出最有价值的进行二次发表，比较对象是被转载的论文与原发期刊的其他同期论文，这与普通学术期刊从大量投稿中评审出值得发表的评审机制是不一样的，因此本文研究结论仅局限于人大复印资料的精英同行遴选机制，如果进行结论外推时需谨慎对待。其次，本研究将论文被引次数作为判断论文价值的唯一指标，可能会忽视成果在学术之外。但是要测度及证明人大复印资料转载的论文在经济、社会、政策方面具有更高的价值很难用指标测度。