APP下载

意大利科研评价制度的变革

2015-03-15李晓轩杨国梁

中国科技论坛 2015年2期
关键词:评议计量成果

陈 琨,李晓轩,杨国梁

(1. 中国科学院科技政策与管理科学研究所,北京 100190;2. 中国科学院大学,北京 100049)

近年来,对于欧洲而言,国家科研评价制度正处于剧烈变革之中:意大利刚完成 VQR(Valutazione della Qualità della Ricerca)制度的首次评价工作,英国取代RAE (Research Assessment Exercise)的REF (Research Excellence Framework)制度正准备实施,法国撤销AERES (Agence d'évaluation de la recherche et de l'enseignement supérieur)成立了新的科研评价负责机构HCERES(Haut Conseil de l'Evaluation de la Recherche et de le l'Enseignement Supérieur),德国科学委员会科研评价体系正由原来四个学科的试点向多个学科扩张。这些变化旨在回应公众对大学与科研机构越来越强的关注,不仅为减少知识生产者与消费者之间的信息不对称,促进更好的研究质量,同时也是展示科研为经济社会做出的贡献[1]。

然而科研评价制度的常态化以及注重科研对经济贡献的展示带来了普遍的难题:一方面传统同行评议方法耗资耗时,不适应全国性科研评价制度越来越要求在较短周期内对大量成果展开评估[1];另一方面如何设计新的指标回应公众对大学与科研机构“第三使命”的关注,展示大学与科研机构在经济发展、社会福利上的贡献。

针对上述问题,各国纷纷推出新的方法,对本国科研评价制度进行改革。由于问题较为相似,在变革中出现了一些共同趋势,如许多国家不约而同地选择了同行评议与文献计量相结合作为评价方法;然而也出现了一些争议情况,如评价结果是否应该与拨款挂钩,大学如何平衡教育、研究以及为社会服务的使命等。鉴于英、法、德三国科研评价制度仍处于改革或实施之中,本文以意大利2013 年完成的VQR 评价为例,结合其他国家情况,探讨国家科研评价制度的未来发展趋势及变革中的争议。

1 意大利VQR 科研评价制度

VQR 的前身为三年研究评估VTR (Valutazione triennale della ricerca),2003 年,意大利大学与研究部成立了下属评价机构,对公共大学与科研机构2001—2003 年的科研成果展开评估。VTR 完成于2005年,主要基于同行评议方法,评估对象数量较少,是一项实验性质的评估工作,因此其评价结果使用频率并不高,仅能决定较少的拨款:2006—2012 七年平均不到大学与科研机构固定经费的2%[2]。

为应对形势变化,规范科研评价,2011 年,意大利专门成立了国家大学及科研机构评估署ANVUR (Agenzia nazionale di valutazione del sistema universitario e della ricerca),该机构从评估标准与方法的选择到报告的起草与发布都完全自主,不受意大利相关政府部门的操控[3]。同年底,ANVUR 建立了新的科研评价制度VQR,开始对大学与科研机构开展新一轮的评估。

1.1 评价对象、原则与基本流程

VQR 评价时间段为2004—2010 年的产出,对象包括:①公立大学;②能授予学位的私立大学;③大学与研究部下属的科研机构;④申请参与评估并愿意为此付费的其他研究机构。此外,考虑到院系是大学的职能组织模式,评价还以大学各院系或研究机构的类似部门开展,但是并不组织个人层面的评价。

VQR 原则上要求每一科研人员都提交成果,对于大学科研人员,提交数为3 项,如果在2006年后入职,提交数可相应降低;而对于研究机构科研人员,则要求上报6 项成果,同样可随入职年限递减。可提交的研究成果包括:①期刊论文;②专著及其中章节、带ISBN 号的会议论文;③译作与科学评论;④专利;⑤其他以出版物的方式提交的产出:包括作品、图纸与设计;演出;展览与博览会及其项目;数据库与软件。

VQR 评价的开展基于以下原则:①相关性:对该领域知识进步或科学增值有益,为社会福利带来一致、有效、迅速、长久的影响;②原创性/创新性:对该领域的知识进步做出贡献或有新的发现;③国际化和/或国际地位:定位于国际形势,从重要性、竞争力、舆论影响、学界赞誉方面予以评价,同时考察与他国研究人员或研究团体的合作情况;④与专利相关:评价技术转移与发展工作,即便是潜在的经济社会影响。

VQR 流程以如下步骤进行。准备阶段:ANVUR 组建各领域专家评估小组(GEV),使其按指引公布该领域评估标准,并与参评机构(STRUCTURE)确认参评分支部门、人员情况。评估阶段:GEV 对提交成果展开评估,出台分领域报告。同时参评机构准备自评报告。ANVUR 汇总各领域评估结果,编制总报告。同时通过文献计量方法,出台意大利科研系统在国际上的定位报告,相关流程见图1。

1.2 评价领域与专家构成

根据意大利全国大学理事会的定义,分为14个学科领域,GEV 也依此设立(见表1)。ANVUR直接任命各GEV 组长,并根据专业知识水平以及是否具有评估经验来选择专家,其中也包括一部分国外专家。如果某一领域学科之间具有较大差异,或需要评估的数量较多,则可在同一GEV 之下设分支专家小组。例如,领域14 分为两组,一组负责政治学、哲学与历史,另一组负责其他社会科学。此外,评审还包括数千名外部专家,当GEV 专家认为成果应使用同行评议进行评估时,便交由外部匿名专家评审。

图1 VQR 评价流程图

表1 14 个学科领域及对应专家人数

1.3 评估方法

VQR 评价具体由各GEV 来开展,对每一STRUCTURE 及其部门在14 个领域中排序。具体评估方法,GEV 可在下述方法中任选一种或两种:

(1)文献计量:由GEV 专家直接基于ANVUR 挑选的数据库,根据被引用数与期刊影响因子确定文章等级;具体步骤为:①确定文章所属学科领域,通过Web of Science 或Scopus 数据库中相应学科类别归类;如果论文从属多个学科,根据提交领域确定或由GEV 专家挑选合适领域,文章也可能发送至多个领域进行评审;②分别计算被引用数与期刊影响因子累计概率分布,分别取排名前20%、20% ~40%、40% ~50%、后50%分成A、B、C、D 四个等级;③根据两项分布及其等级绘制4 ×4 文章等级判断矩阵,以领域3 化学为例,一篇2006 被引用数与期刊影响因子等级分别为B 与A 的论文,需使用图2 左边矩阵进行判断,第二行第一列即为其文章等级“B”;若该论文发表于2009 年,则需使用图2 右边矩阵判断,文章等级为“B”。不同领域之间除矩阵对角线文章等级相同外,其余视各自领域情况而定, “IR”表示文章将采取同行评议判断等级。

图2 文章等级判断矩阵(领域3:化学)

(2)同行评议:交由外部独立专家评审,通常每一成果须由两位专家评审,如果专家评审结论不一致,则交由第三位专家或由GEV 专家进行裁定。专家的选择遵循严格的利益冲突原则,即不能评审同一大学科研人员或自身参与创作的成果。

研究成果的等级与VTR 同样分为4 个级别,考虑到VTR 中出现的问题,本次评估还对不符合标准的研究成果以及虚假行为给予罚分 (见表2)。

表2 VQR 科研评价等级标准

1.4 对研究及第三使命的指标设计

VQR 对研究的评价不仅主要考虑研究成果的质量,同时还涉及对研究经费的争取情况,与外界的沟通交流情况,研究人员的培养情况,自身对研究的投入情况以及是否相对上次评估有所进步,相关指标与权重见表3;VQR 不仅评价对研究进行评价,而且还评估机构对社会的影响,这方面的指标并不局限于专利、衍生企业等传统技术转移方面的指标,考虑到人文与社会科学的特点,增加了考古遗迹、博物馆等评判标准,同时通过设置“其他活动”这一开放性的指标保证了评价的灵活性。第三使命的指标与权重见表4。

表3 与研究相关指标

表4 “第三使命”相关指标

续表4

2 VQR 对VTR 的变革

为适应新的形势变化,VQR 相对VTR 在许多方面进行了大幅度的变革,主要表现在以下三个方面。

2.1 评价对象的改变

在国家科研评价制度的实践中,考虑到操作性问题,几乎所有的制度都放弃了对全部科研成果进行评价,而是选择对机构最好成果或其子集展开评估。然而此处同样存在选择:机构最好的成果还是每一研究人员最好的成果。前者主要为以往科研评价制度如VTR、RAE 所采取,VTR 甚至并不规定各学科领域所提交的成果比例,仅要求机构提交一定数量的质量最好的成果即可。这种方式的优点在于能够集中精力关注机构的亮点,并控制所评估成果的数量。然而在运行中出现了一些问题:由于规模较大机构同样有较高产出的高质量研究成果,可以灵活选择评议成果,无疑容易在评价中获得更好的结果;此外,也在科研人员中产生了普遍的焦虑[5],一旦被排除在提交评价成果的队伍之外,就必须承担起更多的教学与管理任务[6],不利于研究队伍整体水平的提升以及青年科研人员的成长。

为呼应公众对研究质量越来越关注的要求,全面反映机构研究质量,VQR 从机构、院系部门等方面比较研究质量,要求每一研究人员都必须提交其研究成果。但ANVUR 也强调评价并非基于个人层面展开,研究成果将集合到各机构、院系部门进行评价。此外,英国即将实施的REF 科研评价制度同样对评价对象进行了变革,要求全体科研人员都需上交一定数量的研究成果;而澳大利亚的科研评价更是从一开始,就采取了这一做法[7]。然而评价对象的变革也带来了需要评价成果数量的大幅度上升,从VTR 的17329 项上升到VQR 的近200000 份。

2.2 评价方法的变革

传统上国家科研评价制度大多以同行评议为主,VTR 参考ERA 完全采取了同行评议作为评价方法,尽管Chubin 和Hackett 曾指出[8]:同行评议不仅是科学功能的一个常规组成部分,而且是科学建制的基本原则。但是这一原则越来越受到挑战:由于时间以及预算的限制使得评议仅能关注机构少部分科研成果[9],不适应全国性科研评价制度越来越要求在较短周期内对大量成果展开评估的要求,特别是VQR 评议成果数上升了10 倍以上;无论是评议人的偏见,还是评议中的利益冲突与“马太效应”,带来了同行评议是否公正的讨论[10]。

为此,VQR 采取结合同行评议与文献计量的复合方法,由GEV 酌情选择,但仍然规定同行评议数应占50%以上。从结果来看,自然科学更多地采取的是文献计量方法,而人文社科则更多的是同行评议方法。而从其他国家来看,无论是英国取代REA 的REF 还是澳大利亚取代RQF (Research Quality Framework)的ERA (Excellence in Research for Australia),同样采取了同行评议和文献计量相结合的评价方法。

2.3 评价指标的变化

评级指标的主要变化在于引入对大学与科研机构“第三使命”的评价,自《拜杜法案》实施后美国大学在技术转移上的成功使世界各国认识到大学与科研机构在知识经济时代的作用,因而越来越要求其展示为经济社会所做贡献。VQR 为适应这种需求单独对“第三使命”设置了一组指标,不仅包括评价技术转移的专利、衍生企业、孵化器等指标,也考虑到人文学科的特点,设置了考古遗迹、博物馆等指标,也允许机构提交其他与知识、技术转移相关的活动进行评价。

由于VQR 对“第三使命”指标的单独设置,尽管VQR 要求在评价研究成果时考虑经济社会影响,但在这方面并没有设置详细指标,而是单独列举传统上评价知识、技术转移相关指标,这种做法与澳大利亚ERA 较为类似,与英国REF 有显著不同,后者对研究成果的评价制定了一整套的操作方案:包括个案研究与完整影响模板、资格准则、评价标准与等级定义,但对影响的评价仅适用于高质量研究中[11]。

3 变革中的争议

国家科研评价制度在根据形势进行改变,但不同国家对评价结果的应用存在分歧,而新的评价方法、指标体系的应用也产生了广泛的讨论和争议。

3.1 评价结果与经费拨款

许多国家将国家科研评价制度扩大化、常态化的一项重要原因是希望以研究表现来决定对机构的拨款金额,增强对大学与研究机构的管理。VQR 的评价目的在于加强研究表现与获得资助之间的联系,有望提高评价结果决定拨款金额的比重。采取类似做法的还有英国RAE、REF,澳大利亚ERA 等科研评价制度[7]。

然而德国科学委员会的科研评价体系对此有不同选择,其评价结果与资助无关,仅供大学与科研机构在战略决策时参考。该委员会研究部主管瑞纳·兰格认为:“某些时候,绩效突出部门很有可能已经处在边际报酬的最优水平上,将资金投入到绩效稍弱的部门或许会有更大的收益。”[12]

3.2 同行评议还是文献计量

文献计量对同行评议这一科学建制基本原则的挑战引发了较大的争议,2012 年底,意大利国内对文献计量方法提出了质疑,认为其对于出版物和引文索引数据的评价标准过于粗糙和形式化。迫于压力,意大利教育、大学和科研部部长弗朗西斯科·普罗夫莫表示,在未来的科研评价工作中,文献计量数据将不再作为评价的必须指标[12]。

而从一些研究对同行评议与文献计量的实证来看,也存在矛盾。Bertocchi 等[13]对VQR 经济学、商业与统计学领域抽样比较发现同行评议与文献计量评价结果相似;Franceschet 等[14]同样认为文献计量的使用对意大利科研评价有益;但Abramo 等[15]将VQR 的文献计量方法运用至VTR评价中,却发现与同行评议结果有较大不同。从对其他国家的研究来看,大多认为同行评议与文献计量有正向关系,例如,Oppenheim 等[16-18]的一系列研究发现被引数等文献计量指标与RAE 排序显著相关;Van Raan[19]对147 个荷兰大学化学研究团队、Aksnes 等[20]对挪威大学的研究、Rinia等[21]对荷兰凝聚态物理评价的研究均表明文献计量指标与同行评议有一定相关。说明文献计量在一定程度上可以支持、替代同行评议,但具体的方法选择、开展形式上需要严密论证。

3.3 大学使命的平衡

国家科研评价的常态化以及与拨款的挂钩,使得大学的精力集中于研究之上,教育实际上陷入边缘境地,在VTR、RAE 的实践中,教育的任务实际上更多的属于在科研上并不成功的人员[6],而在VQR、REF 要求每一科研人员都必须上交研究成果后,意味着即便主要从事教育任务人员也必须将大量时间投入科研之中;特别是在第三使命也纳入评价指标之后,科研人员也被鼓励开展知识、技术转移,科研人员投入教育的时间将被进一步压缩,可能引发教育质量下滑的恶果。因此,大学能否在适应新的评价体系的同时,保证教育质量的稳定,存在一定疑问。

4 结语

意大利科研评价制度经历了对象、方法与指标三方面的深刻变化,而这些应对手段也为许多国家所采用:在评价对象上趋向于扩大评议范围与成果数量,在评价方法上选择同行评议与文献计量相结合的方法,在评价指标上要求大学与科研机构展示对经济社会的影响。但是,并非所有国家都对评价结果有一致的应用取向,英国、意大利等国将评价结果与拨款相挂钩,而德国则主要作为决策时的参考;同样,尽管文献计量方法在科研评价中的应用已不可阻挡,但它对同行评议的挑战也引发了较大的争议,但目前大部分实证文献结论表明,二者存在相关关系,前者对后者可以起到部分替代作用;此外,研究对象的扩大、指标体系的变化则可能将进一步挤压科研人员从事教育的时间,大学如何平衡教育、科研与技术转移三者之间的关系,将受到严重挑战。

[1]Abramo G,D'Angelo CA. Evaluating Research:from Informed Peer Review to Bibliometrics[J].Scientometrics,2011,87(3):499 -514.

[2]Rebora G,Turri M. The UK and Italian Research Assessment Exercises Face to Face[J]. Research Policy,2013,42(9):1657 -1666.

[3]教育部高等教育评估中心. 评估中心代表团访问欧洲三国质量保障机构[EB/OL]. http://www. pgzx. edu. cn/modules/jiaoliuyuhezuo_d. jsp?id=10525.

[4]ANVUR. Bando DI partecipazione[EB/OL].[2011 -11 -7]. http://www. anvur. org/attachments/article/122/bando _vqr_def_07_11. pdf.

[5]Martin BR,Whitley R. The UK Research Assessment Exercise:a Case of Regulatory Capture?In:Reconfiguring Knowledge Production:Changing Authority Relationships in the Sciences and Their Consequences for Intellectual Innovation.[M].Oxford:Oxford University Press;2010.

[6]Henkel M. The Modernisation of Research Evaluation:the Case of the UK[J].High Educ,1999,38(1):105 -122.

[7]Hicks D. Evolving Regimes of Multi-university Research Evaluation[J].High Educ,2009,57(4):393 -404.

[8]Chubin DE,Hackett EJ. Peerless Science:Peer Review and U. S. Science Policy[M].Albany:SUNY Press,1990.

[9]Abramo G,D'Angelo C,Di Costa F. National Research Assessment Exercises:a Comparison of Peer Review and Bibliometrics Rankings[J].Scientometrics,2011,89(3):929 -941.

[10]龚旭. 同行评议公正性的影响因素分析[J].科学学研究,2004,22(6):613 -618.

[11]刘莉. 英国大学科研评价改革:从RAE 到REF[J].科学学与科学技术管理,2014,35(2):39 -45.

[12]张哲. 评价体系应切实反映学术机构优劣——访德国科学委员会研究部主管瑞纳·兰格[EB/OL]. http://www. csstoday. net/Item/50535. aspx.

[13]Bertocchi G,Jappelli T,Peracchi F. Bibliometric Evaluation vs. Informed Peer Review:Evidence from Italy[R].Napoli:University of Naples,2013.

[14]Franceschet M,Costantini A. The First Italian Research Assessment Exercise:a Bibliometric Perspective[J]. J Informetr,2011,5(2):275 -291.

[15]Abramo G,D'Angelo CA,Di Costa F. National Research Assessment Exercises:a Comparison of Peer Review and Bibliometrics Rankings[J].Scientometrics,2011,89(3):929 -941.

[16]Norris M,Oppenheim C. Citation Counts and the Research Assessment Exercise V-Archaeology and the 2001 RAE[J]. J Doc,2003,59(6):709 -730.

[17]Oppenheim C. The Correlation Between Citation Counts and the 1992 Research Assessment Exercise Ratings for British Research in Genetics,Anatomy and Archaeology[J].J Doc,1997,53(5):477 -487.

[18]Oppenheim C,Summers MAC. Citation Counts and the Research Assessment Exercise,Part VI:Unit of Assessment 67(music)[J].Inf Res,2008,13(2):342 -342.

[19]Van Raan AFJ. Comparison of the Hirsch-index with Standard Bibliometric Indicators and with Peer Judgment for 147 Chemistry Research Groups[J].Scientometrics,2006,67(3):491 -502.

[20]Aksnes DW,Taxt RE. Peer Reviews and Bibliometric Indicators:a Comparative Study at a Norwegian University[J].Res Evaluat,2004,13(1):33 -41.

[21]Rinia EJ,van Leeuwen TN,van Vuren HG,van Raan AFJ. Comparative Analysis of a Set of Bibliometric Indicators and Central Peer Review Criteria-Evaluation of Condensed Matter Physics in the Netherlands[J].Research Policy,1998,27(1):95 -107.

猜你喜欢

评议计量成果
强化述职评议 落实主体责任
CPMF-I 取样式多相流分离计量装置
验收成果
工大成果
计量自动化在线损异常中的应用
“健康照明”成果聚焦
创新评议形式 提高评议实效
计量与测试
对“自度曲”本原义与演化义的追溯与评议
“三医联动”扩大医改成果