APP下载

基于DEA 超效率验证的项目同行评议结果有效性研究

2022-03-23张福俊吕千千

农业图书情报学刊 2022年2期
关键词:评议资助决策

万 昊,张福俊,吕千千

(1.山东科技大学图书馆,青岛 266590;2.山东科技大学发展规划处,青岛 266590;3.中国科学院文献情报中心,北京 100190)

1 引言

现代同行评审制度起源于18 世纪,当时英国皇家协会(科学共同体)在全球刚成立,传统的书信交流模式被期刊交流模式取代,同时以共同体内部成员同行评议的方式对学术质量监督开始确立[1]。目前,同行评议机制在学界广受赞誉,其应用领域扩展到:①科学家智力劳动成果(论文手稿)发表的评审;②科学家岗位雇佣和职业晋升(由副教授晋升为教授);③科学家颁奖(如诺贝尔奖、菲尔兹奖、图灵奖)评审;④项目经费资助的审批;⑤学科发展态势评估及研发评 价 实 践(Research Assessment Exercise,RAE);⑥F1000 等专家的论文推荐打分[2]。发展至今,同行评议为基础的共同体内部成员间的学术质量监督机制正逐渐发展成为一项系统性工程,来维护科学交流的高水平和高质量。

长久以来,科学共同体成员坚持科学内部有其内在的客观标准,科学家坚持这一标准开展同行评议。该无形标准实际上为科学社会内部成员一致认可并且普遍遵守的自律法则,规范科学家群体的研究行为,使得同行评议的结果收敛并达成一致性共识。这也是莫顿(MERTON)科学社会学中指出的科学内在的民主有序性的根本原因[3]。

但是,同行评议在评价实践中的广泛使用同时,其可能的不完备一面正受到越来越多的关注(主观性偏差)。荷兰国家研究委员会经费资助、澳大利亚研究委员会经费资助、美国国家科学院报告对同行评议有偏源都有报道[2]。为了避免主观有偏对评审结果产生的影响,PLosOne、F1000 和Publons 平台相继推出开放的同行评议,避免双盲评审可能的偏差[4,5]。

目前来看,任何量度工具都有自身的局限。同行评议由于专家主观性,会导致评审结果的嵌入式有偏[6]。研究人员不禁要问:同行评议遴选结果在多大程度上是有效的或有价值的?同行评议在多大比例上实现其历史使命来遴选出最有前景和应用价值最好的项目来实现资源高效配置?同行评议在多大比例上能够保证稀缺的经费资源或版面资源分配给高质量的研究?本文以项目资助评审为实证探究。

2 文献综述

2.1 国内外相关研究

WESSELY 和WOOD[7]指出同行评议方法它不仅是一种学术性的探索,更是一种政策性的诉求,致力于通过客观、公正的评价来维护科学系统的健康运转并提升科学研究的质量。而对科技项目资助评审领域的调研结果给出3 类“异质性”答案。

2.1.1 适度的正相关

MAVIS 和KATZ[8]统计美国畸形儿基金会、BORNMANN[9]统计了德国勃林格·殷格翰基金会(BIF)、BORNMANN 等[10]调研欧洲分子生物机构(EMBO)、NEUFELD 和VON INS[11]调研德国研究基金会(DFG)、LI 和AGHA[12]调研美国国立卫生研究院(NIH),结果发现:资助与未资助的科研项目的论文产出数量、引用量和篇均被引量,前者分别是后者的1.8~3.1 倍。受资助项目的文献计量表现显然更佳,进而佐证了评审委员会的专家评审结果与文献计量结果之间存在显著的正相关性。

2.1.2 不相关

MELIN 和DANELL[13]对瑞典战略研究基金会(SFSR)、HORNBOSTEL 等[14]汇 总 德 国 研 究 基 金 会(DFG)埃米·诺特计划(ENP)年轻科学家的奖学金资助申请对比发现:成功和失败的申请者在经费资助审批前n 年与后n 年的年均出版量、篇均引文量和发文期刊的影响因子等文献计量指标差不多。

2.1.3 正相关与负相关的混合结论

VAN DEN BESSELAAR 和LEYDESDORFF[15]统计了荷兰国家科学研究委员会(NRC)中经济和社会行为科学两个学部、BORNMANN 等[16]对荷兰经济和社会科学研究委员会(MaGW)项目资助的申请者调研,结果发现:某些被拒绝的研究人员也会比接受基金资助的研究人员有更好的科研绩效表现(出版和引用量),学术声誉低的申请者可能提出更高价值的科学研究,而学术声誉高的申请者也可能从事并不具有创新价值的研究,二者量度结果不一致。

2.2 本文切入点

得出异质性的结果,受很多因素的影响。首先,科研产出的成果数量与学术影响力可能受到科学家年龄的影响,对于一些青年研究资助项目或博士后项目资助,受资助成功者与失败者的科研表现差距并不明显。其次,没有共通一致认可研究标准、测度指标(时间窗)、变化指标、实验步骤、流程设计,不便于不同研究者结果对比。

目前,同行评议项目资助评审的有效性验证标准普遍采用引用为基础的测度指标(如被引量、期刊影响因子JIF、Citescore 值、SNIP 指数、SJR 指数、H 指数、皇冠指数)作为同行评议决策(学术水平)的验证标准。引用测度仅仅适合于基础研究以及哲学人文社科类的研究,而对于应用性比较强的项目进行量度评价就不再适用了。因为基础研究的成果仅仅是论文,应用研究项目的产出成果还涉及专利与标准等。英国1975—1992 年在心血管和中风疾病研究发现,平均每£1(US$1.43)投入将会带来在经济和社会健康领域£1.39 的 回 报[17]。2010 年,美 国 国 立 卫 生 研 究 院(NIH)现任院长COLLINS 在健康宣传报告中指出:美国国立卫生研究院支出的每$1 都会在12 个月内转化成为$2.21 的额外经济产出[18]。

考虑基础研究投入的多样性回报,为了在更广的维度上考虑项目的多样性产出,本文选择数据包络分析(DEA)方法,许多研究将DEA 方法应用到科研投入/ 产出的计量分析中,尤其科技管理与科技政策领域,它有诸多优点:①对数据源没有要求,不需要服从一定的假设分布;②无需假定生产函数来估计生产前沿面;③可解决多投入/多产出的效率计算;④非参数模型,不需要考虑投入/产出指标的权重;⑤不需要考虑指标量纲。本文通过更加先进的DEA 模型(指标)来测度项目的科研生产率(表征学术价值),并将其作为同行评议决策有效性的验证标准,而非引用量度(表征学术影响力),以求通过更加精准模型来印证定性同行评议价值判断与定量评价模型的量度结果是否相一致?同行评议决策过程中犯Ⅰ类与II 类错误及其比例?

3 理论分析与实验设计

3.1 原理:DEA 模型

数据包络分析(Data Envelopment Analysis,DEA)是运筹学和经济学中用于估计生产前沿面的非参数方法。它在实证研究中用于测量被评价单元或决策单元(Decision Making Unit,DMU)的生产效率,DMU 指将投入转化为产出的创新主体。

3.1.1 传统DEA 模型

数据包络分析法作为非参数法,借助线性规划思想,应用实证方式估计生产技术的前沿面,并测量“决策单元的效率”,该模型被命名为CCR 模型[19]。本文评价模型也是选择投入角度(Input-oriented)的CCR 模型,即将线性规划在产出不变的条件下既定的生产要素生产一定量产品所需要花费的最小成本占实际成本的比率,如果该比率为1,则称DMU 技术有效。

3.1.2 超效率(SE)-DEA 模型

DEA 超效率模型作为DEA 方法的一种改进。传统DEA 模型依据决策单元是否位于“生产前沿面”上判断决策单元是否有效,但却无法判断有效决策单元的优劣。为了弥补这一缺陷,ANDERSEN 和PETERSEN提出了超效率(Super Efficiency,SE)模型,超效率SE-DEA 模型能够对有效前沿面上的决策单元进行再排序。其基本思想是:在评估决策单元(DMU)时,将该决策单元本身排除在单元集合之外。为了更直观地说明以图1 来阐述超效率模型的原理。

图1 传统DEA 模型与超效率SE-DEA 模型对比(投入角度)Fig.1 Comparison between traditional DEA model and super-efficiency SE-DEA model(input-oriented)

传统CCR 模型计算的效率值是将DMU 与包络面上的有效DMU 相比,因此可以区分有效与无效DMU,而对于有效的DMU 进一步区分需要超效率SE-DEA 模型。DEA 模型中,C 点由于位于生产前沿面ABCDE 上,C 点技术有效,效率值θC=1;超效率SE-DEA 模型中,计算C 点技术效率要将该点排除在集合外,生产前沿面变成ABDE 上,C 点技术效率θCsuper=OC'/OC>1。

超效率DEA 评价模型与传统DEA 模型的数学形式基本相似,对于线性规划DICCR有如下定义:设有n个决策单元(DMU),每个DMU 的有m 种类型输入,有s 种类型输出。对于DMUj(j∈[1,…,n]),有:

Xj和Yj分别表示第j 个决策单元的输入向量和输出向量;

Xij=第j 个决策单元的第i 种输入的投入量,xij>0(1

Yrj=第j 个决策单元的第r 种输出的产出量,yrj>0(1

在线性规划模型中,θsuper为决策单元DMU 的超效率值;si-与sr+为松弛变量,分别表示投入冗余与产出不足,ε 为非阿基米德无穷小量。模型中,当θsuper>1时,决策单元的科研效率为DEA 有效,达到了最优解;当θsuper=1,决策单元为(弱)DEA 有效;当θsuper<1时,决策单元不是DEA 有效,经济活动不是技术效率最佳。

3.2 评价指标设计

而针对科研项目评价后验性有效性分析的指标体系设计,本文借鉴欧盟委员会[20]对科学研究项目(尤其是应用性研究)评价,突破传统的仅基于基础性学术论文产出的量度模式,进一步拓展到整个研发活动的全产业链。

详细地说,一方面,项目投入评价,其指标涵盖研发经费I1、研发人员I2、研发设备I3、研发周期I4、技术培训I5 共5 项指标。另一方面,项目产出评价。根据OECD 对项目类型的划分(基础研究、应用研究、试验开发类研究),科研产出成果不仅涵盖:①哲学、人文社科类的基础研究普遍的学术著作O1、期刊论文O2、研究报告O3 等学术交流出版物;也包括②自然、理工类学科由于知识的转移所带来的技术性产出,由专利O4、标准O5、计算机软件、加工工艺等其它保密性成果O6 表征;③甚至随着技术逐渐成熟,从实验室阶段过渡到中试线与实验基地O7 流程化生产阶段;④随着技术成熟度的进一步提高,技术成果进一步向下游转移、转化,由实验室样品到产业化生产的商品,所带来的商业利润等直接与间接回报O8;⑤同时,技术产出在国内外的先进水平由O9 表征;⑥而且,该知识创造、技术转移、科技成果转化过程密切了大学与企业之间的交流与合作,因此在产出评价指标之中也必须考虑科研合作频次O10[21];⑦人才在联系“大学与企业”技术转移转化过程中的关键性纽带作用,根据SALTER 和MARTIN 的研究:拥有科学理论武装的优秀大学毕业生和技能熟练的工程师进入产业部门工作来解决复杂的科学与技术问题,是基础研究转化成为经济获益的主要途径[22]。换句话说,培养训练有素的问题解决者(Trained Problem-Solvers)是联系大学与企业之间的桥梁,培养有资格的科学家和工程师作为知识储备的可靠资源池,本文用人才产出O11 该指标表征(表1)。

表1 DEA 模型的“投入-产出”指标设计Table 1 Design of"input-output"indicators of DEA model

3.3 案例数据:“948 计划”

“948 计划”是中国唯一对国际先进的农、林、水先进技术引进的专项计划。经国务院批准,该计划自1996 年5 月开始实施,以项目合同制的形式承包给大学和科研机构。948 计划作为技术引进类项目,以应用为导向,其成果既包括论文学术产出,还包括专利技术产出,甚至技术转移、转化与推广应用获得的经济利益,涉及整个研发产业价值链所有环节可能的成果产出类型,本研究将其作为项目的数据源(表2)。

表2 “十五”期间批准实施的948 林产技术项目的评价指标信息Table 2 Evaluation indicators of"948 project"forest products technologies approved during the"Tenth Five-Year Plan"period

3.4 实验过程

本文实验过程技术路线,如图2 所示。

图2 本文实证研究的实验过程Fig.2 Experimental research process in this paper

步骤(1):数据获取。由于“948 计划”项目的申请、资助、评审与验收文档资料属于不公开的灰色文献,国家行政部门内部资料。本文数据选取国家林业局承担实施的“948 计划”项目,借助于承担项目便利提取1996 年以来存放于国家林业局科技司的纸质版948 项目《合同书》 与《验收证书》。

步骤(2):数字化加工处理。将纸质版的948 项目 《合同书》 和 《验收证书》 文档进行数字化处理,获取电子版PDF 原文。进一步开展二次化深加工,从项目的实施内容、考核指标和成果产出等信息项中提取相应的元数据(论文、专利、标准、认定成果、示范点等),采用统一的资源描述框架规范将非结构化的文本信息转换成结构化的项目信息并录入到“948 林业项目信息库”中,进而发布在中国林业信息网(http://www.lknet.ac.cn)林业成果栏下以方便用户对项目信息检索。

步骤(3):实验数据的提取与融合。由于2000 年以前国家林业局实施的948 计划项目规模较少,在2001—2011 年间批准实施948 计划项目共764 项,涵盖生态建设类项目402 项与林业产业技术类项目362项。考虑到项目的实施周期,本文仅提取2001—2005年(也就是在“十五”期间)批准实施的126 项林业产业技术类项目(简称“林产项目”),在此期间的项目全都实施完毕并通过了结题验收。输入数据的预处理。按照本文确立的评价指标体系,将提取的126 项948 项目的投入与产出信息。这其中涉及到合同信息与验收信息的异构数据融合。

步骤(4):效率值计算。本文采用EMS 1.3 经济计量软件,按照软件的要求进行规范化的整理,模型选择投入导向的CCR 模型,计算决策单元的DEA 超效率(SE)值。

步骤(5):数据分析与绘图。借助SPSS 20.0 对项目的同行评议打分与DEA 超效率(SE)开展正态分布检验与相关性分析,以及两指标与典型投入/产出指标的相关性分析。绘制以上两指标的散点分布图并计算Ⅰ类误差(纳伪)和II 类误差(弃真)的比重。

4 研究结果

4.1 超效率(SE)-DEA 模型测度结果分析

本文将计算的项目DEA 超效率值按照降序排列(表3)。结果发现:①研发效率高Top 10 项目,主要分布在“木材加工”“林产化工”领域,这些项目实施涉及研发全产业链,不仅有论文还有技术产出,甚至技术成熟到中试阶段,并有一定的市场获益。如林科院前院长江泽慧、林科院木材所前所长费本华主持的项目,其项目依托单位是科研院所,有丰富的师资、教育、国际合作等研发创新的条件与基础,所以项目实施有很高的研发效率。②而依托单位为国家林业局由于没有事业单位的条件基础,又缺乏团队与研究生支撑,脱离了教学与科研一线,所以项目的研发效率值偏低,如周建仁处长、王琦处长从林科院调到林业局工作属于该情况。③还有一些项目更贴近上游基础性实验,新颖性高但实用性低、成本高但技术成熟度低,这导致市场推广前景不大,同时没有论文与专利成果,最终导致项目的研发效率值较低,如卢孟柱教授、张宗和教授承担项目皆属于该情况。

表3 “十五”期间实施完毕的126 项948 林产项目的量化(含DEA 超效率)结果Table 3 Quantification results (including DEA super-efficiency) of 126 "948 forestry projects" completed during the "Tenth Five-Year Plan" period

4.2 同行评议决策的有效性

在同行评议决策有效性的界定上,我们借鉴经典论述[14]:以同行评审打分与研发效率(DEA 超效率)的中位数为分割点,将整个二维联合分布划分为4 象限。其中,同行评审打分高于平均水平而其科研效率低于平均水平的项目,为同行评审的I 类误差;而同行评审打分低于平均水平而其科研效率高于平均水平的项目,为同行评审的II 类误差(表4)。

表4 项目评审中的Ⅰ类与II 类误差的界定Table 4 Definition of Type I and Type II errors in project evaluation

我们将计算的项目同行评审值与DEA 超效率值汇总到XY 直角坐标系中,并借助SPSS 绘制X 轴与Y轴上的频次分布图。以DEA 超效率的中位数点所在轴线为X 轴,以同行评议得分的中位数点所在轴线为Y轴,将整个XY 直角坐标系划分为4 个象限,其中左上象限点为被高估的Ⅰ类误差(“纳伪”)分布点,右下象限点为被低估的Ⅱ类误差(“弃真”)分布点(图3)。

图3 项目的验收评分与DEA 超效率值的散点分布Fig.3 Scattered distribution of scores and DEA super-efficiency value in projects

本研究发现:同行评议正确决策的比重64.3%,Ⅰ类误差的比重为17.5%,Ⅱ类误差的比重为18.2%(表5)。

表5 项目同行评审犯Ⅰ类与II 类错误的比重Table 5 Proportion of Type I and Type II errors in the peer review of projects

而在已有的项目经费资助评审的有效性研究中,如BORNMANN 对德国勃林格·殷格翰基金会的博士后奖学金资助[9]以及对欧洲分子生物学组织的奖学金和青年研究者计划项目资助[10],结果皆发现:II 型误差的比重远大于I 型误差。本文948 资助计划的结果不同:I类和II 类误差的比重大致相当。该差异原因:欧洲、美国的项目资助评审更为严格,有盲评、会评等流程,而且评审专家组成员也有严格的遴选机制、打分有严格的标准,评审质量也更高,所以专家打分更倾向于犯II 类错误(弃真)而非I 类错误(纳伪),即为实现高水平项目的有效遴选“宁可错杀一千也不放过一个”。而国内项目基金会的运作环境较为宽松。启示:更应像西方一样加强“过程质量监管”,严格层层把关,扭转中国当前“重立项轻验收”的局面。

正态分布检验,在消除样本量和异常值因素对统计分析方法选择造成影响与干扰基础上,无论Kolmogorov-Smimov 检验和Shapiro-Wilk 检验两种方法的结果一致:同行评议得分(Scores)的伴随概率分别为PK-S=0.200 与PS-W=0.067,皆大于显著性水平0.05,接受零假设,服从正态分布;DEA 超效率(SE)的伴随概率分别为PK-S=0.003 与PS-W=0.000,皆小于显著性水平0.05,拒绝零假设,不服从正态分布(表6)。

表6 项目的验收评分与DEA 超效率(SE)频次的正态分布检验Table 6 Normal distribution test of the score and DEA super-efficiency(SE)frequency in projects

4.3 统计结果的相关性检验

根据正态检验结果(表7),DEA 超效率(SE)的分布并不是正态分布,所以相关性分析,我们不能采用Pearson 相关性检验而应采用Spearman 相关性检验。

表7 项目的验收评分与项目典型投入/ 产出指标Spearman 相关性检验Table 7 Spearman correlation test between the score and typical input/output indicators in projects

4.3.1 同行评议打分与项目投入/产出指标相关性

根据散点分布(图4)判断与相关性检验(表7)结果发现:948 林产技术项目验收评分(Scores)与研发经费投入I1 并不存在明显的相关性,但与期刊论文数量O2、专利数量O4 之间存在显著的统计正相关性,Spearman 相关系数分别为ρ=0.250(Sig.<0.01)与ρ=0.377(Sig.<0.01)。这说明:产出越多,同行评分也越高。

图4 项目的验收评分与项目典型投入/ 产出指标的散点分布Fig.4 Scatter distribution of the score and typical input/output indicators in projects

同时,科研产出期刊论文数量O2 与专利数量O4之间也呈现适度的统计正相关性,Spearman 相关系数ρ=0.277(Sig.<0.01)。这与之前一系列研究结论相一致:科研活动学术论文的产出强度与技术专利的产出强度之间存在一致性。

4.3.2 超效率(SE)-DEA 模型指标与项目投入/ 产出指标相关性

根据散点分布(图5)判断与相关性检验(表8)结果发现:948 林产项目的研发效率(DEA 超效率表征)与研发经费I1 投入之间并不存在明显的相关关系,但它与期刊论文数量O2、专利数量O4 之间存在适度的统计正相关性,Spearman 相关系数ρ=0.376(Sig.<0.01)与ρ=0.523(Sig.<0.01)。这说明:产出越多,项目生产效率也越高。

图5 项目DEA 超效率(SE)与项目典型投入/ 产出指标的散点分布Fig.5 Scatter distribution of the DEA super efficiency(SE)and typical input/output indicators in projects

表8 项目的DEA 超效率(SE)与项目典型投入/ 产出指标Spearman 相关性检验Table 8 Spearman correlation test of the DEA super efficiency(SE)and typical input/output indicators in projects

3.3.3 同行评议结果与超效率(SE)-DEA 模型指标相关性

根据散点分布(图6)与相关性检验(表9)结果发现:林业948 产业技术项目验收评分与研发(R&D)主体的科研效率(DEA 超效率表征)之间呈现统计正相关性,Spearman 相关系数ρ=0.250(Sig.<0.01)。这说明:同行评议得分与项目的研发效率测度结果之间存在一致性。

表9 项目的验收评分与DEA 超效率的Spearman 相关性检验Table 9 Spearman correlation test between the score and DEA super-efficiency in projects

图6 项目的验收评分与DEA 超效率的散点分布Fig.6 Scattered distribution of the score and DEA super-efficiency in projects

5 结论与讨论

5.1 结论

本文借助于DEA 方法评价决策单元(或DMU)的研发生产率(效率),并将该科研生产率(效率)指标作为同行评议决策有效性的验证标准,以求通过后验性地核查方式了解整个同行评议决策的质量。实验数据选择国家林业局在“十五”期间批准实施的126项“948 计划”林业产业技术项目,实验模型为超效率SE-CCR 模型,研发投入9 项,研发产出4 项,测度研发效率。

与以往以引用为基础的量度指标作为同行评议决策有效性的验证标准相比较,本文的实验研究结果得出的结论相似,即专家组的同行评议质量判断与实际研发(R&D)效率(DEA 超效率)二者之间呈现适度的统计正相关性,Spearman 相关系数ρ=0.250(Sig.<0.01)。同时,犯Ⅰ类错误(高估)与Ⅱ类错误(低估)的比例分别为17.5%与18.2%,有效同行评议决策比重仅占64.3%。该结果证实:同行专家组的学术质量价值判断的确存在系统误差但规模有限,实际的项目资金分配并没有我们想象地那样高效。该比例与西欧发达经济体项目资助委员会大型基础研究项目资助评审的有效性验证结果有一定差异,主要在于西欧的项目资助评审更倾向于犯II 类错误(弃真)而非I 类错误(纳伪),即为实现高水平项目的有效遴选“宁可错杀一千也不放过一个”,欧美的项目资助评审更为严格也更为完备、系统。这对国内基金委的项目运作的建议:加强项目“过程质量监管”,严格层层把关,扭转中国当前“重立项轻验收”的局面,就如习总书记指出的由“高速发展”向“高质量发展”转型。

5.2 讨论

我们并不认为该评价结论普遍适用且一成不变,但是本文的确以准确数字来阐释同行评议质量到底好到“何种程度”。未来研究可能会以更全局、更大规模、更长周期的统计样本数据源开展实证分析,论证同行评议的质量在长周期是否不断完善?或者通过多种客观量度方法对同行评议的有效性获得科学性地深入理解,又或者进一步更为直观地对比多种量度工具的具体价值。

猜你喜欢

评议资助决策
强化述职评议 落实主体责任
为可持续决策提供依据
高校资助育人成效的提升路径分析
“隐形资助”低调又暖心
决策为什么失误了
创新评议形式 提高评议实效
对“自度曲”本原义与演化义的追溯与评议
同行评议过程中专家的回报模式分析
2600多名贫困学生得到资助
遭车祸仍信守资助承诺