人文社科成果评价的元评价体系建构

2021-08-02马永霞仇笳熙

高教探索 2021年6期

马永霞仇笳熙

摘要：科研成果评价是高校人文社科教师评价的重要内容，是完善科研评价机制，实现科研育人的重要保障。成果评价的科学性、合理性、准确性决定人文社科的发展方向，但由于现有绩效评价模式固有的弱弹性弊端，不可避免地产生评价偏差与评价风险。实施元评价有利于纠正人文社科成果评价进程中出现的“难评、错评、漏评”等问题，是绩效评价的重要环节和必要补充。文章选取在高校人文社科教师中覆盖面最广的国家社科基金年度项目（以下简称“国社科”）的成果评价为案例。首先，界定了国社科成果评价的全生命周期概念，系统梳理了国社科全生命周期成果评价的实施现状及潜在风险;其次，设计了 “一个闭环、两个周期、三个主体”的国社科成果评价全生命周期闭环式元评价框架;最后，在元评价理论及方法指导下，构建了基于全生命周期的国社科成果元评价模型及量表，并通过了信效度检验。文章拟通过对典型案例的研究分析，构建一套全生命周期视域下人文社科成果评价的元评价体系，以期从个案研究推导至人文社科成果元评价的一般规律，实现对我国人文社科成果评价模式的提升。

关键词：人文社科;成果评价;元评价;全生命周期

一、问题的提出

科学研究是高校教师的重要职责之一，科研成果评价是高校教师评价的重要内容。科研成果的产出质量不仅反映了高校教师的学术水平，同时也会影响到教师的教学质量。2018年7月，中共中央办公厅、国务院办公厅印发《关于深化项目评审、人才评价、机构评估改革的意见》，提出要发挥好评价的风向标和指挥棒作用。在对科技人才开展评价时，要将代表成果的质量和影响作为评价的重要指标。2020年12月，教育部印发了《关于破除高校哲学社会科学研究评价中“唯论文”不良导向的若干意见》，指出人文社科教师的科研成果是“知识传承的载体”，要求高校人文社科教师要将教书育人的首要职责贯穿于科研活动与成果产出的全过程中，要努力做到“强化科研育人”“改进科研评价方式”。因此，建立有利于教师潜心研究和创新创造的人文社科科研成果评价制度，能够引导教师潜心开展教学工作及学生培养工作，不断提升成果产出质量，形成科研反哺教学科研育人的旨趣。

人文社科成果评价的合理性、科学性、准确性事关人文社科的价值取向及发展方向。然而，现阶段我国高校人文社科成果评价中存在的现实问题日益凸显，主要体现在三方面。一是由于人文社科成果的特殊属性导致“评价困难”。人文社科成果大多具有隐形特质，成果产出周期较长，更具复杂性和社会性。二是由于人文社科成果评价缺乏监控机制产生“评价偏差”。人文社科成果评价属于科研评价的子领域，存在科研评价领域固有的评价偏差，由于监控机制的缺失，使得既有评价偏差难以被及时发现和纠正。三是由于人文社科成果评价方式不尽合理引起“评价缺陷”。当前评价中存在的问题及改革诉求凸显，各方利益主体对成果评价存在争议，引发了各部委及各高校对既有评价体系自身局限性和科学性的思考及再审视，相继颁布了“清四唯”、破除论文“SCI至上”等文件和措施。“破”的根本目的是要打破“唯”的痼疾。通过审视既有评价体制的现实境遇，建立评价反馈与过程监控体系，是突破旧有评价桎梏，切實推进成果评价改革的重要手段。

元评价作为对已有评价开展再评价的经典方法，广泛应用于各类评价领域中，能在一定范围内纠正因决策失误导致的评价偏差，控制评价负效应，提高评价准确性。元评价的理论及方法最初用于教育评价，随着研究的深入及发展，应用范围扩展至科研评价、管理评价等多个领域。但是，针对人文社科成果评价的元评价研究较少，现有研究多为质性探讨，缺乏元评价的体系构建及整体流程设计。其主要原因在于：元评价在人文社科成果评价中的研究尚处于初级阶段，未形成系统的评价体系;整体设计上缺乏元评价理论及方法的规范性;现有研究仅针对指标体系而展开，缺乏全生命周期监管的理念等等。然而，现实中对人文社科成果评价的“问责”事件时有发生。“问责”的目的并不是为了“追责”，而是要通过提升各方主体职能来实现评价的“改进”。因此，亟需建立科学有效的元评价体系实现对人文社科成果评价的改革与提升。

有鉴于此，本文基于人文社科成果评价中存在的“难评、错评、漏评”等现实问题，以评价全生命周期为视角切入点，选取在高校人文社科领域覆盖面最广、影响力最大的国家社会科学基金年度项目的成果评价（以下简称国社科成果评价）为案例，通过构建以成果评价监控与纠偏为目标的元评价体系，提升既有成果评价体系的科学性及准确性。研究具体包含以下几个问题：一是通过梳理国社科成果既有评价的发展与历史沿革，归纳演绎国社科成果评价全生命周期环节及流程;二是详细剖析国社科成果评价全生命周期六要素的现状及特点，分析现存问题及潜在风险，为模型构建提供基础和依据;三是通过界定国社科成果评价全生命周期的元评价对象，设计元评价框架，实现国社科成果评价全生命周期的元评价体系构建，并对构建的体系进行信效度检验。

二、全生命周期元评价意涵

全生命周期视域下科研评价的元评价是按照确定的标准和原则，采用合理的方法和程序，以建立模型或评价量表的形式，对原有的科研评价本身进行的再评价活动。元评价作为一种科学的系统评价方法，在多年来的研究与理论演进过程中，形成了一套完整的方法论。

·高教管理·人文社科成果评价的元评价体系建构

（一）元评价的内涵与目的

元评价（Meta-evaluation）是指按照一定的理论框架和评价标准对原有评价体系本身进行的再评价。这一理论概念是由美国学者斯克里文（Michael Scriven）在1969年时首次提出，最早应用于对教育质量评价项目开展再次评价[1]。20世纪80年代，元评价理论被引入我国。田腾飞等探析了专业化教育评估的内涵及方法[2];朱少强提出对学术评价的元评价应包含评价活动的全部要素[3];张荣娟通过分析美国高等教育元评估制度，提出将元评估法制化的重要性[4]。

开展元评价的目的是为了纠正既有评价中存在的偏差。评价偏差不仅存在于评价本身的内部要素中，同时也存在于评价活动的外部要素中。沃森（Worthen）认为对评价活动的全过程开展元评价，有利于提高评价质量并实现评价经验的累积。[5]克莱嫩（Klejinen）等以元视角反观绩效评价存在的弊端[6]，对内外部要素的划分体现了全生命周期的理念。

（二）元评价的方法与程序

评价方法和评价程序的建立是科研元评价理论由模糊走向清晰的标志。元评价包含三个步骤：确定元评价框架、设计元评价量表、遴选元评价方法。

1.确定元评价框架

元评价框架的构建思路为通过反思既有评价的缺陷和劣势，形成反馈与监控机制，构建更具适用性的新评价体系。框架包括：确定目的对象、设计分析指标、元分析评价、结果处理与反馈，并逐渐加入风险管理及全生命周期的视角。俊宏北（Jun H B）提出通过对产品全生命周期进行闭环管理，优化管理策略，提升管理效率。[7]克里斯特（Kiritsis D）以智能市场一体化为案例，提出闭环式全生命周期管理在信息网络时代运用于智能产业产品生产管理的必要性。[8]王晓刚提出基于全生命周期的科研评价风险管理模式，按照风险产生于发展的不同阶段分为风险识别、风险评价、风险应对、风险管理。[9]

2.设计元评价量表

1981年美国教育评估标准联合委员会（以下简称JCSEE）集中组织了美国12家教育科研机构共200多位专家进行调查研究，制定并公布了《教育项目、计划、材料评价的专业标准》，并经过1994年版、2010年版两次修订，形成现行通用的元评估量表——项目评估标准（表1）[10]，包含“实用性、可行性、适当性、准确性”四个一级维度。多轮修订的历程与多个实际案例的检验保证了该标准优良的信效度。学界对元评价研究的思路基本都是参照该量表的一级指标，根据特定案例制定相应的二三级指标来构建元评价体系。严芳等选用经典的JCSEE四维度模型提出一套适合我国国情的教育元评估指标体系[11];蒋悦构建了基于绩效评估政府评价的四维度元评价模型[12];周碧华参照JCSEE标准，构建基层政府绩效考核活动元评价体系[13]。

3.遴选元评价方法

元评价方法是运用系统科学的理论和方法，从整体到局部对各因素逐一检验，包括问卷、统计、访谈等定性与定量方法的结合。冯晖借鉴软件工程的方法和原理提出了黑白盒测试的元评价方法[14]。贺祖斌提出，内容分析法是元评价的重要方法论。内容分析法是根据评价目的和要求对评价材料的内容及有效性进行逐一对标[15]。戚湧等通过计算肯德尔和谐系数（w值）检验参评专家意见的一致性[16]。

综上，基于全生命周期的科研绩效成果评价的元评价体系构建的实现途径为：通过架构合理的评价框架，设计恰当的评价量表，选取科学的评价方法，实现对既有评价体系的检验纠偏与风险监管。全生命周期理念要求完整的元评价体系应包括对评价体系（即内部视角）和评价活动（即外部视角）的审查，二者共同构成了全生命周期元评价体系的评价对象。

三、基于国社科成果评价全生命周期的评价现状及潜在风险

按照罗伯特·K·殷（R.K.Yin）的观点，元评价研究应优先选用案例研究法，通过选取具有代表性的既有评价作为研究对象，提高对“确定问题及其相关数据”的针对性和准确性[17]。据此，本文选取人文社科成果评价领域极具代表性和示范性的国社科成果评价为案例，并选取其中覆盖面最广、影响力最大的年度项目作为样本。案例选取依据为：首先，国社科基金是人文社科领域最重要的项目资助形式，其研究成果在一定程度上反映了高校人文社科教师的科研能力;其次，国社科基金为学生参与教师科研项目提供了实训平台，有利于锻炼高校学生的科研实践能力，提升高等教育的人才培养质量，实现“科研育人”目标;最后，国社科的众多研究成果陆续被教师引入到课堂教学，使得科研成果转化成为教学资源，实现了“科研反哺教学”的目的。本课题组于2017年10月至2020年1月间，走访多所在京高校的人文社科科研管理部门及有关国家社科基金管理部门，对不同学科教师代表及科研管理人员开展调研，收集获取2013-2019年间年度项目成果评价管理规范及制度7项，评价指标体系量表3套，评价数据样本1008份（2013-2019年），采用内容分析法开展数据清洗及访谈整理，提取了各类材料中的有效内容进行分析。

（一）评价背景及历史沿革

国社科成果评价在不同发展时期呈现出不同特点，按照其“里程碑”式的变革历程分为三个阶段。第一阶段，确立同行评议制度（2004-2010年）。国社科基金项目最早設立于1991年，同行评议在早期仅是一种约定俗成的模式，并未形成制度化的规范。2004年2月20日，全国哲学社会科学规划办（以下简称规划办）发布《关于加强和改进国家社会科学基金项目成果鉴定结项工作的意见》，首次明确了同行评议的主体地位，标志着同行评议制度的正式确立。第二阶段，加强成果质量管理（2011-2018年）。2011年教育部出台了《高等学校哲学社会科学繁荣计划（2011-2020年）》，提出在这一阶段内要大力推进人文社科建设，努力打造学术精品、促进科研成果转化、积极发展智库建设，使得这一时期成为国社科基金项目获得大力繁荣与发展的阶段。国家投入力度逐渐增加，规模不断扩张，涌现出不少优秀研究成果，同时也存在着部分质量问题。为扭转“重立项、轻结项”的现象，规划办出台了一揽子政策，如建立清理制度、确立学术规范、审查阶段成果等。第三阶段，探索评价机制改革（2019年至今）。2019年4月，规划办出台《关于进一步完善国家社会科学基金项目管理的有关规定》，提出要注重代表作成果的评价，标志着国社科成果评价改革进入了新的探索阶段。针对人文社科成果评价体系的改革与发展等议题成为了时代的新诉求，研究热点集中在探索如何构建全方位、全要素的人文社科成果评价新体系。该理念虽然未提到“全生命周期”一词，但是本质上体现了成果评价全生命周期理念的核心要义。

（二）评价程序及实施步骤

本文采用政策文本分析法与实地调研相结合，绘制了国社科成果评价全生命周期流程图（如图1）。规划办负责全面领导国社科项目成果评价工作，其职责范围涵盖委派责任主体、组织成果评价、监管主体职责，形成了自上而下的组织架构模式及自下而上的信息反馈机制。国社科成果评价“从始至终”的全生命周期流程为：第一步，项目负责人在结项期满30日内提交结项申请，按照规定需要提交的材料为基金项目研究的最终成果报告。第二步，项目负责人所在单位的科研管理部门初审材料真实性及有效性，确认无误后报送各地规划办或在京委托管理机构（以下简称“管理机构”）。本案例中的管理机构为教育部社科司下属“高校社科管理中心”。第三步，管理机构遴选鉴定评审专家，并组织双向匿名制的同行評议。第四步，管理机构审核同行评议结果，汇总鉴定意见，报送全国规划办。第五步，全国规划办审核鉴定结果及鉴定意见，决定提呈的项目成果是否通过评审以及是否允许结项。第六步，通过结项鉴定评审的项目可按照相应评分体系确定其成果鉴定等级并下发结项证书，未通过结项的项目则纳入“暂缓结项”管理。根据成果质量及同行评议意见，又将暂缓结项项目分为两类：修改后复审及修改后重新鉴定。其中，修改后复审的成果，由负责人根据评议意见修改后再次提交全国规划办审查;修改后重新鉴定的成果则需退回至管理机构，有待修改后重新组织专家评议。以上两类成果通过复议后可按结项处理，如再次评审未通过则做终止或撤项处理。

（三）评价特点及潜在风险

根据全生命周期评价理论的内涵要求，研究范围应包括某项活动“从始至终”的全部要素。因此，将国社科成果评价的全生命周期定义为六大核心要素的合集，即在评价中所涉及的各个环节和内容包括评价对象、评价方式、评价体系、评价目标、评价活动、评价监管，涵盖了成果评价的“全过程、全方位、全要素”。以下对国社科成果评价中六大核心要素的实施现状进行逐一解析，归纳各自特点并找出可能存在的风险源。

1.评价对象界定：以最终成果报告为主

最终成果报告是国社科成果评价的主要对象。按照产出阶段不同，国社科项目成果可分为阶段性成果及最终成果两类。阶段性成果是指在研究过程中取得的中期成果;最终成果是指研究的结项报告。目前国社科成果评价以最终成果报告为评价对象，缺乏对阶段性成果的评价考核，仅对其做形式审查，虽然节约了评价成本，提高了评价效率，但也增加了由于片面评价引起的风险。阶段性成果作为研究过程中的重要产出，是成果评价中不可缺少的过程性评价指标，在一定程度上能辅助最终成果的考核评判。尤其是在应用型学科中，由于成果时效性显著，阶段性成果评价可能发挥不容忽视的重要作用。根据国家提出的“破唯”及“多元评价”等理念，采用多维度、多对象、多方式的评价体系更有利于提高评价结果的准确度，而如何实现这一理念在国社科成果评价中的实践运用，需要进一步探索。

2.评价方式选取：以同行专家评议为主

双向匿名的同行评议制度是国社科成果评价的主要方式。国社科项目成果评价是从专家库中遴选5位同行专家对项目进行评审。专家库是国社科管理工作的亮点，其优势体现在四方面：其一，准确性。专家遴选充分考虑了大同行、小同行的学科匹配度。其二，公平性。为避免人情因素，规定外省市专家等不少于3人，且项目负责人所在单位及课题组成员务必规避。其三，科学性。在参评的最终成果报告里隐去负责人信息，严格实行双向匿名评审制度。其四，合理性。为保护主体利益，项目负责人可提出少于3位的回避专家名单。同行评议是国社科成果评价的经典模式，具有不可替代的作用。但是，由于学术共同体及学术圈层的存在，有可能导致同行评议的双向匿名制度成为表面文章，影响评价的公平公正。调研时了解到，国社科成果评价建立了专家信誉档案制度，但目前该制度处于试行期，有待进一步完善。另外，国社科管理中心X老师提到“基于阶段性成果的计量评价或可成为弥补这一风险（即同行评议主观性）的有效手段”。因此，在未来成果评价的改革中，或可通过改进既有评价方式，即采取以同行评议为主、计量评价为辅的综合评价方式，提升评价公平性与准确性。

3.评价体系设计：采用分级分类指标体系

国社科成果评价采用分级分类的指标体系。分级是指多级多层的指标体系设置，每级指标是对上一级指标的诠释;分类是指根据不同成果形式分为三类：专著类、论文集类、研究报告类。分级分类的指标体系体现了国社科成果评价的规范性和学理性。同行评议的测评方式包括量表打分及主观评议两部分。第一部分为量表打分：管理机构根据成果类型将不同量表发放给专家进行打分（见表2）;第二部分为主观评议：要求评议专家撰写成果鉴定意见，并对所评成果给出质量等级判定，包含优秀、良好、合格、不合格四档。这种定性定量相结合的评价体系设计在一定程度上体现了国社科成果评价的科学性，但对量表指标及权重设定的合理性仍有待商榷。此外，由专家自行判断确定成果等级的做法具有较强的主观性，是否能保证评价信效度达标仍有待检验。

4.评价目标达成：导向提升成果质量

国社科成果评价的目标定位旨在提升成果产出质量的同时，提高基金项目成果的使用效益，发挥示范引导、传承文明、理论创新、咨政育人、服务社会等重要作用，以此创造有利于人才成长的科研环境。[18]从表2可见，三类成果形式的评价量表均设置了成果价值、学术价值、社会价值等维度。国内外通过科研评价促进成果质量提升的手段通常有两种：一种是英美日推行与项目经费申请相挂钩的绩效评定模式;另一种是不与科研经费的分配相关联，单独核定的成果绩效评价模式。国社科成果评价属于第二种模式，缺乏一定的约束考核机制，造成国内学界“重立项，轻结项”的问题。此外，由于国社科成果评价的最终目标是服务社会，对成果后期推广与跟踪具有更高要求，既往产出的成果是否会在项目结题后即“束之高阁”，是否能纳入到精品成果的范畴，是否通过项目研究实现了人才培养的耦合效应，诸如此类问题及对标达成情况均有待探讨。

5. 评价活动组织：多部门耦合联动机制

国社科成果评价主体自上而下包括：全国规划办、各级管理机构、各单位科研管理部门、项目负责人（见图1）。评价活动的开展有赖于全部评价主体的协作配合，任何一个环节的失误即可导致评价误差的产生，进而影响评价结果。本研究根据调研情况分析了可能存在的误差点如下：第一，总体设计缺乏元评价监管。规划办负责评价活动的总体设计和流程管控，目前评价执行情况较好，但仍需牢固树立事先发现问题的主人翁意识，对评价中出现的问题进行及时纠偏。第二，管理部门可能存在渎职风险。管理部门负责评价的核心环节，目前在规章与制度建设方面对管理部门任职人员的监管不足，存在一定的“人情因素”“主观因素”的可能性。如专家遴选是否严格执行双向匿名原则，评审意见汇总是否客观准确等此类因素均会对评价结果造成影响。第三，主客体双方对评价支持度各异。评价主体方是否能实现多部门的耦合联动，评价客体方是否能积极参与成果评价，双方对评价的接纳程度如何都会影响成果评价活动的推进。第四，延期结项现象严重。国社科项目存在较为普遍的延期结项情况，影响成果时效性及科研效率，缺乏后期原因追踪与分析，极不利于整体成果绩效的提升。

6.评价风险监管：风险监督与管控机制

国社科成果评价活动包括评价设计、评价实施、评价反馈三个阶段。首先，在评价设计阶段，设立了国家哲学社会科学研究专家咨询委员会，主要发挥为评价规划提供咨询建议的智库作用。但由于目前的咨委会成员组成较为单一，缺乏元评价机制的监管，难以回应被评价者对于评价偏差引起的“问责”。其次，在评价实施阶段，多方主体参与其中，流程环节繁复，存在评价风险。总体设计上元评价制度的缺失，导致目前主体职能部门的注意力仍然集中在评价本身，反思评价的意识薄弱，缺乏良好的风险预警机制及风险监管策略。最后，在评价反馈阶段，既有成果评价虽然建立了鉴定意见反馈、鉴定结果复议、鉴定登记公示等制度，但在调研时收到部分二级单位的项目负责人反映，评价后期的反馈渠道不够畅通，缺乏相应的约束政策及详细的复议流程。总体来说，目前国社科成果评价活动组织运行较为有序，稍有不足体现在顶层设计上，没有对评价结果的再次核验及对评价活动的监管机制，由此可能会存在一定程度的评价偏差及评价风险。

四、基于国社科成果评价全生命周期的元评价模型及分析框架

根据上文定义的国社科成果评价全生命周期概念，以及国社科成果评价全生命周期流程解析和风险预估，本研究采用元评价理论及方法，构建了基于全生命周期的国社科成果元评价模型及分析框架。

（一）界定元评价对象

根据元评价理论，要求既有评价中所有环节均需被界定为元评价的研究对象，接受元评价的再审视，最终实现评价体系的调试及改进。[19]因此，基于全生命周期的国社科成果元评价对象的界定务必要包含既有评价的全体要素及环节，即内部要素和外部要素。内部要素为评价对象、评价方式、评价体系;外部要素为评价目标、评价活动、评价监管。

（二）设计元评价框架

本文在梳理国社科全生命周期各要素及环节的基础上，构建了以国社科为案例的人文社科成果评价全生命周期的元评价框架（如图2）。该框架特点为“一个闭环、两个周期、三个主体”。“一个闭环”是指既有评价、元评价、风险监管三者之间形成闭环反馈系统。其一，通过元评价发现既有评价存在的问题，对其开展纠偏控制;其二，元评价的结果指导风险监管策略的构建，实现在下一轮的评价中开展适时监控，有效规避评价风险;其三，在新一轮评价开展过程中暴露的问题亦可传递给元评价体系形成同期反馈。“两个周期”是指该框架包含了两个全生命周期循环体系。其一为成果评价的全生命周期，即六大核心要素的合集;其二为风险管理的全生命周期，涵盖了风险管理全过程的四个阶段。“三个主体”指既有评价、元评价、风险监管三者之间形成耦合联动机制。首先，既有评价全过程、全方面、全要素的架构设置决定了实施元评价对象和方法的选取;其次，元评价的结论指导既有评价进行纠偏和构建风险监管体系;最后，风险监管可对下一轮的评价开展实时监督，并将预警风险反馈给元评价体系。可见，三位一体可持续提升的闭环架构能在一定程度上弥补国社科成果评价缺乏元评价及风险监管的现状，提升评价结果的合理性及评价过程的稳定性，减少由于评价不确定性产生的偏差，为成果评价的改革提供依据。

（三）构建元评价体系

构建科学合理的元评价体系是保证元评价规范开展的首要前提及核心任务。元评价体系包含评价内容和评价方法两部分。已有研究基本均是选取JCSEE项目元评价量表为模板，多采用定量定性相结合的方式构建元评价体系。JCSEE量表是经过大量元评价的实践案例检验的成熟量表，具有较高的信效度及可操作性。

首先，在评价内容设计上，借鉴了JCSEE量表的四个一级指标作为拟建体系的一级评价维度。并以全生命周期六要素为对象，综合调研访谈及文本内容分析，结合文献对国社科成果评价进行案例适用性调整，以此设计提取了二级指标。

其次，在评价方法设计上，根据元评价的两种类型将该体系评价方法按照视角不同分为内部元评价和外部元评价。内部元评价，是从内部审查的视角出发，综合采用定性法及定量法对既有评价全生命周期六要素进行分析;外部元评价，是从外部专家的视角出发，采用不同形式的访谈，对内部元评价分析所得结果进行论证和阐释。

最后，整合各要素得出全生命周期视域下国社科成果评价的元评价体系。该体系由4个一级维度、12个二级维度组成，并界定了各维度的指标内涵、评价方法。每一指标均对应了全生命周期六大要素之一，是对六要素的测评与考察（见表3）。该体系是在全生命周期理论及元评价理論指导下设计形成的，在目的、方法、评价、监管等方面形成闭环反馈及监管嵌入，目标是通过发现既有评价存在的问题，提升评价效率，降低评价风险。

1.实用性分析框架

实用性分析是指通过评价使管理者了解被评者情况，确保评价为实际需求服务。国社科成果评价的实用性研究分为三个维度：U1范围选择合理性、U2评价结果可靠性、U3评价结果有效性。U1指标考察点为既有评价全生命周期六要素中的“评价对象”，主要考核评价对象选取界定的合理性，检验目前仅以同行评议为对象的考评方式是否科学。可采用二次测量法，对特定成果样本同时开展两种不同的评价方案，即方案一仅针对最终成果的评价方案，方案二针对最终成果及阶段性成果的评价方案。比较两种方案评价结果的一致性与差异性，分析差异显著的学科分布特点及原因。U2指标考察点为六要素中的“评价体系”，考察既有评价结果的合理性，包括评价得分计算体系设计是否科学，评价得分分布是否合理。可通过测量评价各等级分布，验证得分计算体系的科学性。合理的得分计算体系应该体现出各等级的区分度，如果出现大规模的非正态分布，说明既有体系设置不能很好地区分各样本的研究成果质量，有待调试完善。U3指标考察点为六要素中的“评价方式”。由于同行评议时常因主观意见、认知程度、理解能力的差异影响评价结果，因此，该指标是通过肯德尔和谐系数法检验同行评议的一致性，探索影响机制及风险规避方式。

2.可行性分析框架

可行性分析是考察评价能否在自然状态下开展，程序设置是否具有可操作性，能否获取各方利益主体支持，从而实现评价的稳健运行。其分为三个维度：F1项目可行性、F2政治可行性、F3经济可行性。F1指标考察点为六要素中的“评价活动”。考察评价活动设置的可行性，包括评价程序设置是否合理，评价的各阶段环节是否存在障碍。对该指标的评测可通过对各方利益主体开展访谈，了解评价推行过程中存在的障碍及困难、评价风险预警机制是否健全。F2指标考察点为六要素中的“评价活动”。政治环境关系到评价的顶层设计，是保证评价稳定持续开展的关键。通过实地调研及访谈分析政府参与度、被评价方支持度、主客体双方互动性等实际情况。F3指标考察点为六要素中的“评价目标”。经济指标主要指资源制约，考核既有评价是否实现预定的效益及效率目标。可通过访谈管理部门人员及二级单位人员，探寻是否存在经费制约，是否存在因内部联动低效而造成 “中层拥堵”现象[20]。

3.适当性分析框架

适当性分析是为了保护被评价方的权益，反对评价方采用不合理的方式、不恰当的行为损害被评方利益，确保评价合理、合法、合乎道德地实施。它分为三个维度：P1评价方法适切性、P2公开性与合法性、P3利益冲突协调度。P1指标考察点为六要素中的“评价方式”，考核国社科目前采用单一的定性方式（即同行评议）是否合理。运用数据包络分析法（DEA）与计量法，分析不同评价方式引起的评价差异性。即对同一样本分别采用定量评价及定性评价，比较两种评价方法在同一样本中的差异性，改进单一评价方式引起的偏差。P2指标考察点为六要素中的“评价监督”。可通过访谈评价主客体双方，寻找冲突点。公开性与合法性是评价获得支持的必要条件，访谈重点应包含专家名单公布是否全面、评价结果公开是否准确、评审意见反馈是否及时等。P3指标同样对应六要素中的“评价监督”，考核在评价双方利益发生冲突时，协调机制是否健全，评价风险的应对处理是否得当。该指标同时也是对参与评价的各级管理部门人员专业素质进行的考核。国社科成果评价报告是由各级管理部门专职人员汇总5位评审专家意见而形成，因此专职人员的职业素养及学科知晓度情况是评价报告清晰度和准确性的主要影响因素。由于我国不具备类似日本“评价士”制度，对专职管理人员的选拔和职业培训缺乏专业性，可能会出现评价报告受管理人员认知局限而造成的制约性影响，进而引发评价主客体双方意见的冲突。

4.准确性分析框架

准确性分析考察评价结果对客观实际反映的契合度，即评价结果反映被评价方客观情况的程度越高，则评价的准确性越高。其分为三个维度：A1评价信息真实性、A2评价目标适配性、A3评价指标科学性。A1指标考察点为六要素中的“评价对象”，考察提交的参评材料是否真实有效。可通过典型案例检验成果报告中是否存在学术抄袭，是否存在大量滥竽充數的自引（如博士论文），是否有抄袭剽窃的情况，是否存在“一果多用”现象等等。A2指标考察点为六要素中的“评价目标”，考察评价是否实现了既定目标。国社科成果评价是质量导向型评价。理论上，假如评价实施达到既定目标，则会在特定闭合时间段内表现出成果质量的提升，实现“以评促建”。可通过“证据审查”的方法，寻找目标实现程度的证据支持。A3指标考察点为六要素中的“评价体系”，考察评价指标设置是否科学合理。可通过因素分析法对既有评价指标效度及关联度进行检验，如果指标间关联度为高相关，说明指标设置重复，评价效率低。只有在各指标具有较弱关联度的前提下，才能体现测评指标的维度区分。

（四）信度与效度分析

本文构建的元评价体系及量表在一级维度的设计上借鉴了JCSEE的四个一级指标。JCSEE量表的评价效度已被大量研究所证实，是元评价领域的经典量表。而对二三级指标的设计，则是在JCSEE量表基础上，针对案例特点进行了调整，并且经过了多轮实地调研与焦点团体访谈，集中了领域专家对国社科成果元评价的建议，因此，可以保证该元评价量表的效度。信度方面，本文采用肯德尔和谐系数法，选取6位领域专家对已构建的元评价量表进行打分，运用肯德尔和谐系数的计算公式进行一致性分析。公式如下：

w=s112 m2（ n3-n），其中s=∑ n j=1 R2 j-1n（∑ n j=1 R j2。

其中，m为专家人数，n为元评价指标个数，Rj为第j个评价指标的得分数，s为第j个评价指标得分数与所有指标得分数的平均数之差的平方和。根据公式得出，6位专家打分的Rj总和471，其平方和21591。s=3104.25，w=0.603。根据肯德尔和谐系数法的要求，w≥0.5即可认为专家之间的评价意见显著一致。由此可以得出，本文构建的元评价量表具有较高的评价信度。

五、结语

开展全生命周期视域下元评价是人文社科成果评价的必要环节。首先，元评价是人文社科成果绩效评价的核验与再审视。通过元评价可以实现人文社科成果绩效评价角色的转变，使其由评价行为的发出主体变为被评价的对象客体，从而实现对原有体系的检验及纠偏。其次，元评价体系的构建是实施与开展元评价的基石。体系构建是元评价的灵魂，是开展元评价的依据，是元评价理论发展与完善的必经之路。

本文选取人文社科领域具有示范效应的国社科成果评价活动作为载体，通过构建具有良好信效度的元评价体系，实现对既有评价在全生命周期视域下的再评价，归正人文社科成果绩效评价固有的弱弹性弊端，及时纠正评价误差，并形成风险控制策略指导下一轮评价的实施，以此保证评价预期目标的实现及评价的顺利开展。

参考文献：

[1]SCRIVEN M.An Introduction to Metaevaluation[J].Educational Product Report，1969（2）：36-38.

[2]田腾飞，刘任露.元评估：教育评估专业化发展之必需[J].外国教育研究，2014，41（6）：111-119.

[3]朱少强，唐林，柯青.学术评价的元评价机制[J].重庆大学学报（社会科学版），2010，16（3）：81-85.

[4]张荣娟，徐魁鸿.美国高等教育元评估制度探析：以高等教育认证委员会为例[J].高教探索，2018（2）：65-69.

[5]WORTHEN B R.Whither Evaluation？ That All Depends[J].American Journal of Evaluation，2001，22（3）：409.

[6]KLEJINEN S.Performance Metrics in Supply Chain Management [J].Journal of the Operational Research Society，2003，54（5）：507-514.

[7]JUN H B，SHIN J H ，KIRITSIS D，et al .System Architecture for Closed-loop PLM[J].International Journalof Computer Integrated Manufacturing，2007，20（7）：684-698.

[8]KIRITSIS D.Closed-loop PLM for Intelligent Products in the Era of the Internet of Things[J].Computer Aided Design，2011，43（5）：479-501.

[9]王曉刚. 基于全生命周期的高铁技术知识产权风险管理研究[D].中国铁道科学研究院，2019.

[10] Program Evaluation Standards[EB/OL].（2010-07-01）[2020-12-20].https：//www.cdc.gov/eval/standards/2010.

[11]严芳，汪建华.我国教育元评估指标体系构建[J].上海教育评估研究，2020，9（2）：75-80.

[12]蒋悦，卞曰瑭，钱钢.基于元评价的政府绩效评估模型研究[J].情报杂志，2008，27（12）：26-30.

[13]周碧华，方建云，杨婉贞.基层政府绩效考核的元评估分析：以福建某县级市为例[J].新视野，2015（4）：71-78.

[14]冯晖.基于测试的元评价技术[J].上海师范大学学报（哲学社会科学版），2007（5）：128 -132.

[15]贺祖斌.高等教育评价的元评价及其量化分析模型[J].教育科学，2001（3）：56-58.

[16]戚湧，李千目.科学研究绩效评价的理论与方法[M].北京：科学出版社，1999：270.

[17]罗伯特·K·殷.案例研究：设计与方法[M].重庆：重庆大学出版社，2004：19.

[18]全国哲学社会科学工作办公室.关于加强和改进国家社会科学基金项目成果鉴定结项工作的意见[EB/OL].（2007-12-24）[2020-12-20].http：//www.sss.net.cn/111001/32686.aspx.

[19]孙贺群.基于有效性验证经验的美国早期教育质量评价的元评价研究[J].四川师范大学学报（社会科学版），2018，45（3）：69-77.