新时代我国基础教育质量评价政策工具使用现状与优化建议

2023-10-24刘伟豪阳荣威

基础教育 2023年2期

刘伟豪，吴蔚，阳荣威，2，程昆

(1.湖南大学教育科学研究院，湖南长沙 410082；2.湖南省教育质量与评价研究基地，湖南长沙 410082)

教育评价是关乎教育发展的重要事权，科学的教育评价导向是教育健康有序发展的前提。为扭转长期以来不科学的教育评价导向，2020年10月，中共中央、国务院印发《深化新时代教育评价改革总体方案》(以下简称《总体方案》)，这是新中国成立以来首份以教育评价改革为核心指向的纲领性文件，为我国教育评价和教育事业发展提供了重要的理论指导和实践引领价值，开启了教育评价系统性改革和高质量发展的新时代。基础教育质量评价是指根据党和国家有关方针、政策、法令和法规，定期对基础教育质量进行测量与判断，利用评价结果改进基础教育的活动[1]，是教育评价的重要组成部分。在构建高质量教育体系的背景下，教育质量评价为基础教育质量提升描绘了发展基点，是促进基础教育高质量发展的有效抓手。《总体方案》颁布后，基础教育质量评价领域相继出台了4份贯彻落实教育评价改革精神的文件，基本上形成了新时代基础教育质量评价政策体系。但政策出台并不意味着政策目标能够快速达成，面对教育评价这一历史性、世界性和实践性的难题，基础教育质量评价改革的长效落实任重道远。《总体方案》实施后，一些地方政府与学校在全面评价学生发展、综合评估学校质量和有效评估区域教育发展的制度体系等方面取得积极进展，但也存在制度性改革成效不大、改革面临着许多瓶颈等问题，这与改革的系统推进思路不足和关系协同思维的缺失有紧密联系[2]。政策工具是政府为实现政策目标而采用的方法和手段，是联结政策目标、政策执行和政策效果的纽带。政策工具的选择和使用在政策价值目标实现过程中起到至关重要的作用[3]。因此，从政策工具视角反思基础教育质量评价政策不失为一种政策改进的新思路。然而，目前对我国新时代基础教育质量评价的研究主要集中在评价改革路径与建议[4]、政策解读[5]、域外经验借鉴[6]等方面，未有研究运用规范的政策工具理论对其政策设计进行探讨。鉴于此，本研究基于政策工具理论视角，运用内容分析法对我国新时代基础教育质量评价政策进行审视，剖析政策工具使用的现状及存在的问题，并提出优化建议，以期为完善基础教育质量评价政策、改进基础教育评价实践提供参考。

一、分析框架与研究设计

(一)分析框架

政策工具分类是政策工具研究的核心议题与分析基础。施耐德和英格拉姆(Schneider &Ingram)讨论“公共政策的研究假设”后将政策工具分类为权威工具、能力工具、激励工具、象征与劝诫工具、学习工具[7]。这类工具分类的依据在于利用不同因素对个体或集体行为施加影响而使目标群体按照政策意图实施行动，这与我国基础教育质量评价现状的内在维度具有耦合性。当前基础教育质量评价的利益相关者众多，政策落实受多重因素牵绊，政策相关群体的行为动机和具体执行面临复杂深刻的影响因素。基础教育质量评价政策的有效推进需要相关群体的认同、响应和支持，需要我们从“行动主体考察”和“全局群体关照”的视角出发廓清政策理想目标和实际执行之间的规律，从而更好地驱动政策行动者完成政策目标。同时，施耐德和英格拉姆将政策目标和政策行动者的行为动机联系在一起，从行为规律的原理出发提出了政策行动者的行为假设，提供了一个较为具象化的分析空间，该分类涵盖了制度深层结构、微观行动者等多维元素，层次较为丰富，有助于从政策执行者行为规律的视角来理解基础教育质量评价政策。此外，通过比较可发现，该类政策工具框架中包含的学习工具是其他政策工具分类理论所未涉及的，学习工具对落实基础教育质量评价改革具有重要意义。当前教育评价场域缺乏对评价对象的主体性关照，如何落实多元主体评价格局(如建立第三方评价机制)成为迫切议题，这些问题都指向了学习型工具所具有的学习探索、自我评价的元素属性。因此，运用该理论框架来分析基础教育质量评价政策工具体系具有适用性。这五类政策工具的特点如下：

(1)权威工具指政府在合法权力框架下支配和规范个人或机构行为的强制性规则，表现形式包括要求、规定、许可、禁止等。权威工具假设政策行动者能遵守权威和管制，即使没有切实的回报，也应按照政策期望和规则来行动。其优点在于收益面广、约束力强、成本较低、见效快、适用于危机紧急情况，缺点则是灵活性弱、易被功利主义趋附以及易压抑政策行动者的积极性。

(2)能力工具强调提供资金保障、基础设施与组织建设、教育、培训和信息等资源给政策行动者，以提升其识别机会、做出决策和解决问题的能力，表现形式有信息、教育培训、组织制度建设、其他资源(例如技术支持、资金保障和营造环境氛围等)。能力工具假设行动者不在意激励，而需要通过信息、培训和资源供给来提升执行能力。其优点在于关注可持续发展，缺点在于见效慢、成本高和不确定较强。与激励工具企图投入资金产生直接、短期可见的效果相比，能力建设工具更倾向于培养行动者可持续的执行能力，是一种长期投资。

(3)激励工具指通过正向的回报或者负向的惩罚来诱导政策行动者的工具，表现形式包括正向激励和负向激励两类子工具。其中，正向激励包括财政补贴、税收减免、授权和表彰等物质或精神奖励，负向激励则是收费、制裁或问责等惩罚措施。需要区分的是，激励工具中的资金物质奖励目的是激发政策行动者的动力，这种资金奖励针对性强但不稳定，而能力建设工具中的资金保障更侧重于通过经济手段培养政策行动者的执行能力，立足于长远的考虑，具有稳定性和公共利益偏好。该工具假设个体追求效用的最大化，会对正向回报做出反应和选择，并试图回避负向的惩罚。其优点在于灵活性强、较高的政治可行性以及易激发政策行动者的积极性，缺点则是可替代性强、试错成本高、易滋生资金腐败问题。

(4)象征与劝诫工具指通过价值观和信念的劝告与引导，使政策行动者做出符合政策目标行为的一种工具，表现形式有象征声明、基本原理、贴标签、劝诫等。其中，象征声明是发出声明以试图使人们相信政府提出的行动和目标是重要优先的；基本原理即运用积极的象征(例如自由、平等、价值、效率、秩序等)来阐释政策的基本内容和原理；贴标签是使用比喻、象征和标签来强调正向的政策理念[8]328-330；劝诫即采用说理方式劝服行动者。象征与劝诫工具假设个体的信念与要求一致时，倾向于采取符合政策价值观的行动。其优点在于适用面广、成本低、易实施，缺点在于具有自愿性和不稳定性，不适用于危机紧急情况。

(5)学习工具系当目标群体要实际解决问题时遇到不知道或者不确定的情况下使用的工具，表现形式有自我评价、研究探索、协商研讨等。学习工具假定政策行动者能够进行学习，可以从其他有效的工具中进行选择[9]，并能通过探索和协商解决问题[10]。其优点在于集思广益、益于经验推广和制度反思，缺点则是实施难度大和见效较慢。

(二)研究设计

1.研究方法

本研究主要采用内容分析法和数据统计法来分析新时代基础教育质量评价政策文件。首先，确定相关政策的分析单元，借助Nvivo11软件对分析单元进行编码。其次，依据施耐德和英格拉姆政策工具的分析框架，对不同类别的政策工具使用情况进行归类统计。最后，在量化分析的基础上剖析新时代基础教育质量评价政策工具的使用现状与特征，进而提出优化建议。

2.文本选择

为保障政策文本分析的代表性和可靠性，本研究选择政策文件时遵循以下原则：第一，以2020年10月《总体方案》的颁布时间为政策选择的起点，原因是《总体方案》的颁布开启了教育评价改革的新时代，“破旧立新”成为教育评价改革的显著特点，以此为时间节点进行搜索才能准确找到贯彻新时代教育评价改革要求和精神内涵的文件；第二，发文单位为中央机关，包括国务院、教育部等，以确保文件是国家层面的文件；第三，政策文件主题必须是指向基础教育质量评价的总体文件或是针对学前教育质量评价、义务教育质量评价、高中教育质量评价的专项文件。基于上述原则，本研究共收集了4份基础教育质量评价领域贯彻落实《总体方案》的政策文本，分别是《幼儿园保育教育质量评估指南》(教基〔2022〕1号)、《义务教育质量评价指南》(教基〔2021〕3号)、《国家义务教育质量监测方案(2021年修订版)》(教督〔2021〕2号)、《普通高中学校办学质量评价指南》(教基〔2021〕9号)。这4份文件涵盖了基础教育全阶段，且均明确表述了贯彻教育评价改革精神的要求，可为研究提供可靠的样本支撑。

二、政策文本编码与内容分析

(一)文本编码

基于政策文本的反复研读，结合专家意见，本研究确定以句子为基本单位，结合上下文内容的意群关系，按照“文本编号—章节—条款/句子”的原则进行编码。为保证研究信度和编码效度，本研究运用独立评判法进行对比验证和集中研讨。首先，三名独立研究者在充分理解政策工具理论与编码要求后，分别独立对4份政策文本进行类目编入，得到初步编码表；并对三份编码表进行肯德尔检验，结果显示肯德尔和谐系数为0.902，P<0.001，说明三份编码表具有较高的一致性。其次，对比初步编码表，查验编码不一致的分析单元，共同研讨论证达成一致结果后，再次编码归类，最终得到政策文本内容编码表(见表1)。限于篇幅，仅举部分样例。

表1 政策文本内容编码表(部分样例)

(二)内容分析

根据政策工具理论对4份政策文件的137个编码分析单元进行归类统计，得到政策工具使用情况表(见表2)。总体而言，五种政策工具都有涉及但使用不均衡。

表2 政策工具使用情况表

表2显示，权威工具使用比例最高(39.41%)，但内部结构不均衡，其中大部分为规定工具(30.65%)，要求(6.57%)、禁止(1.46%)和许可(0.73%)也均有少量使用。规定是对政策行动者的行为方式做出约束性的规则，如《普通高中学校办学质量评价指南》中规定“评价周期内要实现对学校办学质量评价全覆盖”。这类对教育质量评价做出明确性和指示性规定的表述在4份文件中最为常见。“要求”是对政策行动者提出明确性的强烈期望，如《幼儿园保育教育质量评估指南》中要求“切实扭转‘重结果轻过程、重硬件轻内涵、重他评轻自评’等倾向”。“禁止”明确提出了不被准许和认可的行为，如《幼儿园保育教育质量评估指南》中“严禁用直接测查幼儿能力和发展水平的方式评估幼儿园保育教育质量”，它对直接测查的片面方式给予了强烈坚决反对，划出了基础教育质量评价的底线范围。“许可”在4份文件中仅出现一次，即《义务教育质量评价指南》中提出“各地可结合本地实际，制定义务教育质量评价实施细则”，这实际上是授予了地方政府制定义务教育质量评价具体细则的权力，为提升质量评价的适配度和灵活性提供了空间。

象征与劝诫工具使用比例(28.47%)仅次于权威工具，但子工具的使用呈现失衡样态，其中以劝诫(15.33%)和象征声明(10.95%)居多，含有少量的贴标签工具(2.19%)，基本原理工具未得到使用。劝诫工具试图劝服行动者采取政策行动，它在4份政策文件中的使用比例仅次于规定工具，说明政府试图通过引导、呼吁和号召来推动基础教育质量评价的顺利执行。宣告声明即明确地表达政府优先重要的行动和目标，如《国家义务教育质量监测方案》直接声明要“落实《深化新时代教育评价改革总体方案》等文件要求，进一步完善国家义务教育质量监测制度，推动落实立德树人根本任务，促进义务教育质量提升”，开宗明义地指出开展基础教育质量评价要落实教育评价改革和立德树人目标的重要事项，以此向公众渗透政府期望的评价理念及政策意蕴，彰显出政策制定者对决策启发法的偏好。贴标签在政策文件中表现为使用具有比喻性或象征性的词语或短句，简明扼要而又意味深长，力求达到规劝和引导的作用，如《普通高中学校办学质量评价指南》中规劝政策行动者要防止用“一把尺子”衡量不同学校的做法。基本原理工具是借助积极的象征来阐释政策基本内容和原理，但在4份政策文件中均未有体现。

能力工具的使用比例(22.63%)稍低于象征与权威工具，四种子工具均有使用，其中组织制度建设(9.49%)、信息(5.11%)、教育培训(5.11%)三种占比较高，其他资源(2.92%)占比最低。组织制度建设意在通过提供组织设施或建立制度体系，培养行动者的政策执行能力，如《国家义务教育质量监测方案》提出“搭建监测学习交流平台”。信息工具在政策文本中体现为经验推广和信息公布，如《普通高中学校办学质量评价指南》提出“对在评价工作中发现的办学质量显著提高的先进典型经验，要大力宣传推广”。教育培训强调对政策行动者的长期性投资，目的在于加强教育质量评价的人力资源建设，如《幼儿园保育教育质量评估指南》中提到“切实加强评估队伍建设，建立一支专业化评估队伍”。其他资源在4份政策文件中各出现一次，主要措施表现为研制评价工具、资金保障和营造政策环境，如《国家义务教育质量监测方案》指出要“组织专家研制测试工具”；但资金保障仅出现在《幼儿园保育教育质量评估指南》和《普通高中学校办学质量评价指南》中，义务教育质量评价的两份文件并未提及资金保障。

学习工具的使用处于低频化，仅为5.11%。自我评价工具意在使目标群体更好地认识自我和自主学习，除《国家义务教育质量监测方案》外，其他三份文件均有使用一次自我评价工具以鼓励建立自我评价机制，例如《普通高中学校办学质量评价指南》中明确了“普通高中学校每年要对本校办学质量进行自评”。我国基础教育质量评价多以研究探索工具来完善评价方法和评价方式，如《义务教育质量评价指南》要求“积极探索采取政府购买服务方式，培育和委托第三方专业机构开展义务教育质量评价工作”。协商探讨主要在政策执行者信息缺乏或观点不一致时用于讨论和协调，以集聚广开言路、集思广益带来的政策势能，但在文件中未有体现。

激励工具(4.38%)在4份政策文件中使用最少。除《国家义务教育质量监测方案》未涉及外，激励工具的两类子工具在其余三份文件中均有使用。其中，三条正向激励工具将教育质量评价结果作为奖惩表彰、资源配置、政策支持和校长考核的重要依据，意图用正向回报激励行动者积极参与评价活动。三条负向激励工具要求对履职不到位以及教育质量持续下降等情况进行问责，意图对落实不力、违规的行为给予惩罚，以此反向倒逼行动者服从政策安排。例如，负向激励工具出现在《普通高中学校办学质量评价指南》中，体现为“对履职不到位、违反有关政策规定、学校办学质量持续下滑的，要及时督促整改，并视情况依法依规追究责任”。

三、研究结论与优化建议

基础教育质量评价的推进需要完善的政策体系来保障，政策体系建设是不同政策工具交叉协同运用、共同发挥作用的系统工程。不同的政策工具在政策体系建构中发挥着不同的作用，因而需要充分考虑到各种政策工具使用的合理性，任何过度依赖或缺少某些政策工具的使用，均有可能在不同层面和程度上影响政策实施的效果。为了有效推进我国基础教育质量评价政策体系建设，有必要对其政策工具使用现状进行审思，并在此基础上提出优化建议。

(一)我国基础教育质量评价政策工具使用现状审思

通过对4份政策文件的内容分析，可发现政策工具使用的组合结构呈现失衡化的样态。一方面，这种失衡体现在五类政策工具使用频率有较大差异，权威工具使用次数较多，占比高达39.41%。与此形成鲜明对比的是，激励工具、学习工具使用不足，占比略高于或低于5%。另一方面，同一类政策工具内部子工具的使用具有失衡偏向，如权威工具的内部结构中，规定子工具约占权威工具总数的77.77%；又如在象征与劝诫工具的内部结构中，劝诫子工具约占象征与劝诫工具总数的53.85%，而基本原理工具未被使用。综合运用政策工具以取得政策效果的最大化，取决于多种政策工具的协商一致程度[11]。虽然政策工具的理想选择和最优组合不一定是平均分配，但是理想的政策效果和长效的政策收益需要政策工具之间的相互补充和制衡[12]，过度依赖或过少使用都可能影响政策效能的有效发挥。因此，我们有必要对基础教育质量评价政策工具组合的失衡化样态进行深入探讨。

1.权威工具使用比例较高，难以发挥工具本原效能

权威工具具有收益面广、约束力强、成本较低、见效快、适用于危机紧急情况等优势，是政府最偏好也最常用的政策工具类型。基础教育质量评价作为一种诊断方式和改进手段，政府推进其实施不可或缺地会用到权威工具，这能够保障评价政策贯彻执行，降低政策成本，提高评价改革效率。但对权威工具的使用却有过度依赖倾向，这将导致权威工具难担其责，难以发挥本原效能。其因有四：第一，缺乏充足性条件。规模化的权威工具发挥效用需要充分的条件，包括政策目标认识清晰、手段明确，政府各层级、各部门之间目标较一致，且执行机构拥有充分资源[13]。但就当前状况而言，各地对教育质量监测与评价的认识不清晰、不一致，常出现以“监测”之名行“统考”之实的现象[14]，各级政府关于教育评价事权与责任的划分尚不十分明晰，不同地区教育评价资源的拥有量和开展基础教育质量保障的能力和水平也具有较大差异[15]，基层政府系统开展质量评价的能力还有较大的提升空间，这些条件弱势的问题易造成政策行动者选择性执行政策，引起政策失真[16]。第二，弱化政策实施的灵活性。权威工具有灵活性较差的弱势，过度依赖这一工具造成的劣势则更为明显。多样性是教育的基本特性，教育意涵着教育目标的多重性、短期与长期教育目标的矛盾、天赋和后天努力的交互冲突[17]，尊重教育的多样性内核、实施教育质量多元评价是当前教育评价改革的要务。中央政府下发的基础教育质量评价文件面向全国，侧重于统一标准、总体要求和宏观目标，难以兼顾到不同地区、不同类型的学校。权威工具的灵活性较弱，针对性相对欠缺，过溢使用易造成对教育特殊性和多样性的忽视，在评价过程中出现较严重的“标准化”“一刀切”问题，导致教育的同质化或趋同化现象[18]。第三，易被功利主义趋附。《总体方案》指出“唯分数”“唯升学”是教育评价的顽瘴痼疾，实际上一些地方的基础教育评价中时常出现“状元榜”和“内部排名单”等现象，质量评价成为“唯分数”“唯升学”的“遮羞布”，甚至评价结果变相地成为地方教育行政部门的政绩工具，这些都表明评价被功利主义趋附的现象依旧明显地存在。长期以来，功利主义的文化取向联结磐互在人们的社会心理意识里，深深嵌入至评价相关者的行为实践中[19]，通过评价为自己谋利更是成为了某些利益主体所追求的目标，当权威工具使用比例过高，质量评价难免被功利主义的顽瘴趋附，不利于深入推进基础教育质量评价改革。第四，易压抑政策行动者的积极性。教育组织行为学认为，当高度控制策略被不断使用，组织成员常常会失去兴趣[20]325。这个现象在基础教育质量评价领域显而易见。基础教育质量评价政策深深内嵌于我国自上而下的行政管理思维中，政府责令政策行动者直接执行评价任务和服从评价要求，评价执行者和评价对象均处于被动地位，这使评价具有强烈的外部属性。此时重视的是政府、公众对教育质量问责的立场和态度，而非评价的质量改进功能。在这种情况下，如若过溢依赖权威工具，易忽视地区教育发展的不平衡性，导致评价执行部门落入程序固化和目标僵化的窠臼中，引发造假、应付式参与评价和考核积极性不高等问题。如在浙江调研座谈会中，某市教育部门负责人坦言：“很多学校的综合素质评价都在造假，这是不争的事实”[21]。

2.激励工具使用不足，掣肘评价体系内部动力

激励工具虽然具有可替代性强、试错成本高等缺点，但灵活度高、政治可行性强以及易激发政策行动者的积极性等优点也使其在“政策工具箱”中的地位举足轻重。正向激励工具主要利用物质奖励、名誉表彰等手段在短期内激发政策执行者的积极性和主动性，负向激励工具则主要利用制裁、问责等手段反向倒逼政策行动者遵守政策安排并规范实践行为，两者有机结合更有利于提升激励措施的执行效力。审视现实情况可发现，缺乏内生动力和积极性的现象在教育评价领域长期存在且显而易见。早在1994年召开的“国家教育评价制度国际研讨会”上，有专家就指出“我国教育评价过程中被评价者缺乏评价需要，特别当质量测评或督导往往带有自上而下、外部强加的行政命令性质，被评价者积极性不高的问题比较常见”[22]。时至今日，整个基础教育评价制度的内部动力不足、被评价者的主动性和积极性不高的问题依旧难除[23]。例如在现实中，不少中小学校已经适应了长期以来的被动式评价模式，加之缺乏激励，他们习惯被上级管理部门“推着走”，习惯于自上而下的检查督导和评价方式。事实上，此类现象与教育评价的激励机制缺乏有着直接密切的关系。但反观质量评价政策设计，却存在激励工具使用不足的特点，特别是正向激励工具的低频化使用，这在不同程度和层面上掣肘着质量评价政策的有效推进和评价体系内部动力的激发，与解决基础教育质量评价内部活力不足的真问题不匹配。

3.学习工具使用低频化，制约多重工具效能发挥

学习工具的优点包括集思广益、益于经验推广和制度反思，有利于政策执行者和目标群体加深政策理解。它突破了传统政策制定“自上而下”的单向模式，为个人和机构建言献策以及政策相关者进行“互动”提供了机会[24]52，易创设出开放协商、包容共治和改革反思的政策氛围。但学习工具使用的低频化，却使评价政策陷入了以下三方面的困境，制约着学习工具多重效能的发挥。其一，减弱相关群体与政策的联结度[24]53。学习工具通过研究探索、协商探讨等子工具的施行，能够帮助政策制定者、执行者、目标群体三者之间开展互动对话和沟通协商，有利于增进相关群体对基础教育质量评价政策内容的学习和认同，促进政策制定者广泛听取各方意见，凝聚制度共识。然而使用学习工具的整体频次较低，将难以使政策相关群体保持积极关注并持久聚焦于政策内容，有碍于政策的深度联结和多方共识的凝聚，从而进一步降低政策的关涉度和认同度。其二，削弱政策工具组合的平衡性。不同于权威工具的“自上而下”的实施逻辑，学习工具是“自下而上”的实施逻辑[25]50，两者具有性能上的互补性。长期以来，我国评价权根源于政府的行政权力，加之基础教育质量评价依赖于使用较多的权威工具来推进评价活动的组织与实施，这导致评价常常缺乏对被评价者的关照和学校等利益相关者的主动参与，难以提升学校认可评价、利用评价的积极性，甚至一些地区还用变相手段将以评价结果向学校教师施压[26]。在这种依赖权威工具的政策语境中，基础教育质量评价内部活力不足和评价者积极性不高是一道治理难题。学习工具却能在不同层面上弥补权威工具在此方面的内源性弱势和消极影响。一方面，学习工具通过设置自我评价的形式，下放一定的评价权限至评价执行者或评价对象，有利于激发政策相关者群体的教育评价自主性、诊断教育质量的自为性和改进教育质量的内部动因；另一方面，学习工具还能通过研究探索和协商研讨等方式，广泛吸收多方意见和社会关切，这都是对评价执行者和评价对象主体性、能动性的肯定。但学习工具使用甚少，与权威工具之间比例悬殊，两者难以协同发力，势必会在不同程度和层面上降低政策工具组合的平衡性。其三，降低自我评价的可能性。当前，我国整个基础教育评价领域深受以标准化思维、分析式思维和技术化思维为主导的影响，评价与教育相脱节的窘况难以消弭，教育评价对教育性的关注不足，解决这些问题需要在评价标准上重视标准的动态生成，在评价样态上注重个体的自我评价[27]。然而在学习工具低频化使用的情况下，政策行动者将难以通过协调、研究探索的方式建立和拓展自我评价的内容范畴和操作路径，在一定程度上降低了评价标准动态自然生成的阀限，限制了自我评价实现的可能性。

4.政策工具内部结构失衡，消解政策体系的协同性

理想的政策设计应加强政策工具内部结构的协调，在功能上实现互补和配合，形成政策协同效应。若政策工具内部结构出现失衡的情况，将导致政策体系的整体功能受到削弱，难以全面协同地发力。然而，基础教育质量评价政策却存在政策工具内部结构失衡的问题，主要体现在以下三个方面：其一，权威工具主要使用了规定工具，却对许可和禁止这对属性相反但性能互补的工具使用较少。由于基础教育质量评价涉及的相关群体较为复杂庞大，其利益诉求广度和需求深度往往会超越政策制定者的设计预想，现实中易出现诉求溢出和需求异化的现象。基于资源有限性和理性经济人的假设，政策制定者常常会缩小政策相关者的需求范围，甚至对代价大、成本高的政策决策采取规避倾向。许可与某些禁止或要求特定活动的标准或规则相联系，旨在通过提高某些远远超出行动本身收益的成本去消灭那些行为[28]66。许可和禁止均具有成本低、见效快的特点，这对于限定评价者和被评价者诉求和责任的范围，以及完善评价标准和建立制度准入机制(例如引入和审批第三方教育评价机构)是一种较好的政策工具选择。例如，在学生综合素质评价推进中，不少省市已经投入大量人力、财力建立了综合素质评价系统平台，却出现投入与产出严重的“倒挂”现象，陷入效益困境，致使不少地方政府对其有效性产生怀疑，甚至动摇了持续推进综合素质评价结果使用的信心[29]。在这种情况下，若未划定综合素质评价主体的权责范围，规避责任和刻意降低成本的行为将缺乏强意义上的“禁止”，综合素质评价难以得到全面长效落实。其二，象征与劝诫工具使用了较多的劝诫工具、象征声明工具，基本原理工具严重缺位。基本原理工具系运用积极的象征来精心阐释政策的基本内容和原理机制，引导人们正确理解政策，其特点在于并不必然让一个政策偏好的选择客观上与另外的选择相冲突，进而减少政策的负面性[8]328。当前我国基础教育质量监测与评价中存在价值不明确、理论基础不扎实、具体要求不系统、教育方针落实陷入判断困境等问题[30]，人们对基础教育质量的内涵理解不统一，纷繁复杂甚至错误的教育质量观短时期难以消除，对质量监测评价的理解与实施缺乏理论模型的指导[31]；同时，教育评价改革面临“破五唯”(即破除“唯分数、唯升学、唯文凭、唯论文、唯帽子”现象)“立四新”(即建立“改进结果评价、强化过程评价、探索增值评价、健全综合评价”四项新举措)[32]的逻辑转向，向基础教育质量评价提出了新要求、新诉求和新关切。旧问题与新挑战的并存交互对于刚步入深水区的基础教育质量评价改革来说，亟需基本原理工具的引入和有效应用，以落实《总体方案》“加大对科学教育理念和改革政策的宣传解读力度”的要求，进一步增进政策相关群体的理解和认同。其三，能力工具中的其他资源工具使用比例较低，资金保障工具的使用具有片面性。基础教育质量评价政策执行需要人力、技术、财力作为保障和支持，在没有充足的资源保障与条件供给的情况下，执行主体很难持续、全面有效地推进评价的落实。当前我国基础教育质量评价还面临着一系列问题：在评价机构和队伍建设上，基础教育质量评价专业性机构较少、评价人才总体较为匮乏[33]；在评价技术方法层面，评价方法科学性有待提升，教育质量评价深度融合大数据、云计算等现代技术是实现系统化蜕变的关键，需要引入先进的评价技术和科学的评价方法。解决这些问题需要依靠政府和社会提供充足的支持条件，但当前资金保障工具的使用缺乏全面指向性，义务教育质量评价政策文件中未涉及资金保障的说明，这使现实中真正用于质量评价实施的经费难以得到坚实稳定的保障，容易在不同层面上阻滞质量评价的全面落实。

(二)我国基础教育质量评价政策工具使用的优化建议

新时代推进基础教育质量教育评价改革深化，应当注重政策工具结构的系统性。在这方面，系统论为我们提供了参考：“结构决定功能，要改变系统，实现不同的功能，必须调整其结构，基本做法是‘稳步推进’，‘稳’住系统平衡，‘推’动结构演进，分层、有序、平衡地进行”[34]。要使政策工具在执行中取得预期成效，需对政策工具不断进行优化和组合，提升其执行效力。当前，我国教育评价改革步入深水区、攻坚期、克难关，“大破大立、破立并举”成为基础教育评价改革的关键议题。回应这一议题，既需要利用政府主导的权威工具为改革落实铺路架桥，为“破”保驾护航；也需要利用激励工具、学习工具等其他类型政策工具形成多维施政效力，为“立”开辟战场。有鉴于此，基础教育质量评价政策完善需把握好政策工具组合结构的全局性、协同性和平衡性，充实、优化“政策工具箱”。

1.适时适当减少权威工具的使用，合理释放权威工具的正向效能

为更好地发挥权威工具的本原效能，避免其过溢使用带来的消极影响，我们既要适当减少权威工具的使用，也要重视权威工具的全面指向性，合理释放其正向效能，从而实现政策工具优化配置的目标。其一，适时适当地减少权威工具的使用，结构调整不应过于迅猛。政策工具选择的变量模型认为政府能力(实现政策目标的能力)、社会能力(社会组织或个人的自组织能力和主动参与能力)、社会异质性特性(各方利益诉求的分化程度)是政策工具配置的结构性变量。当政府能力高而社会能力弱时则适合直接型工具，当政府能力高而社会异质性特性强时则适合自愿性工具[35]。基于此，分析可知，一方面，我国当前政府能力较强，已经建立了国家基础教育监测评价体系，但社会、个体层面的非政府评价主体的执行能力较差，且参与度较低，适宜使用直接型工具，也即权威工具；另一方面，当前我国教育评价活动具有较强的行政主导性，政策行动者的利益诉求多元分化，适宜使用自愿型工具，即内发自愿执行政策和解决问题的工具。综上所述，就我国目前基础教育评价现状而言，在配置权威工具时，不宜短期内大幅度减少权威工具的使用，否则与评价改革的现况不符，而应根据政府能力、社会能力、社会异质性的现实特性与结构变化，适时适当以梯度式稳步减少，保证一定的政策缓冲时间，避免权威工具的结构调整过于迅猛。其二，重视权威工具的全面指向性，合理释放权威工具的正向效能。需要注意的是，减少权威工具的使用并不意味着对权威工具的轻视，更不意味着对权威工具正向效能的忽视与遮蔽。在具备相应充足性条件的情况下，权威工具所具有的高效率等正向效能是其他类型政策工具难以达到的。为更好地发挥权威工具的正向效能，一方面，我们需要夯实权威工具使用的条件基础。即需要强化评价有关部门的沟通互信和协商决策，不断增强基础教育质量评价的社会认可度和认同感，凝聚多方共识，并着力培养和提升评价者的评价素养和评价能力，为执行者提供充足的教育培训、信息指导、技术支持等支持。另一方面，我们需要构建权威工具与其他各类工具的有效衔接机制，提升权威工具的有效性和执行力，削弱权威工具灵活性较弱带给政策实施的消极影响。以权威工具与激励工具进行衔接为例，《幼儿园保育教育质量评估指南》提出“将评价结果作为对幼儿园资源配置的重要依据；对违反有关政策规定的幼儿园，要及时督促整改，并视情况依法依规追究责任”。然而，政策文件对奖惩标准的设定较为模糊，且缺乏完善的落实和监督机制，这难以保障激励成效。在这种情况下，我们可利用权威工具架构激励措施的奖惩范围和权限空间，建立激励措施执行的监督管理体系，评估其是否达到预期的激励成效，并做出相应的督促或指导，切实形成以评促“建、管、改、强”的效果。

2.提升激励工具的使用频次，激发评价体系内部动力

面对如何解决评价体系内部动力和积极性不足的问题，我们可以通过加强激励工具的使用来予以化解。具体而言，一是要在整个“政策工具箱”中提升激励工具的使用比例。在施耐德和英格拉姆的政策工具类型中，正向激励包括财政补贴、授权、税收减免和表彰等物质或精神奖励，负向激励包括收费、制裁或问责等惩罚措施，其中适合我国教育评价现状的是财政补贴、授权、表彰、制裁、问责。我们要以基础教育质量评价的具体问题为指向，有针对性地重视对财政补贴、授权、表彰、制裁、问责等子工具的选用。二是要提升激励工具使用的全面性，促进正向激励工具和负向激励工具的协同发力。激励的双因素理论指出“满意的对立面是没有满意，没有满意并不意味着不满意；不满意的对立面是没有不满意，没有不满意并不意味着满意”[36]156。这启示我们，面对负向激励工具，政策行动者会尽量做到防止违规、防止被问责和被制裁、不落实不力，但防止违规、防止被问责和被制裁、不落实不力并不意味着落实得力，更不意味着能很好地甚至是超越性地完成政策任务。负向激励可以使政策行动者遵守底线要求，避免政策执行效果过差，正向激励则可以鼓励政策行动者做得更好，两者结合使用有利于全面发挥激励工具的效力。例如在实践中，我们可对表现优异的第三方评价机构给予一定的财政补贴；评选出在自我评价当中表现优异的学校，给予合理的经济奖励或表彰宣传；对政策落实不力、违规等行为予以问责或处罚。需要说明的是，正向激励工具不是对教师教学品质和水平的激励，也不是对学校教育质量的奖励，而是对教育质量评价本身的激励。

3.增强学习工具的使用力度，充分发挥多重工具效能

其一，强化自我评价工具的使用，充分关照评价对象的主体性。基础教育质量评价政策与相关群体的联结度低，说到底还是缺乏评价对象的深度参与，缺乏对其主体性的观照，解决这一问题需要增强自我评价工具的使用力度。开展自我评价是当前教育评价改革的重要面向，当前政府已经注意到自我评价工具的运用。如《义务教育质量评价指南》中明确“义务教育质量评价实行县(市、区)和学校自评；义务教育学校对本校办学质量进行自评；县级党委政府对本县域义务教育质量和党委政府履职情况进行自评”。然而，审视政策内容可发现自我评价的详细标准、制度框架和落实监督等方面尚不完善，这易使自我评价流于形式，实践中难以得到准确全面的落实。因此，我们需完善自我评价的细则和实施程序，建立相应的配套监督措施，畅通自我评价的信息传导渠道，保障自我评价结果的准确反馈和有效运用。国际上不乏自我评价的范例。新西兰教育部颁布《学前教育自我评估指南》，以明确的制度框架指导各级学前教育学校开展自我评价活动，在评价前期，学前教育学校还需向评估机构提交《学前教育机构保证陈述和自我检查清单》《教育理念和自我评估陈述》，以提前了解自我评价的过程和程序，明确评估重点[37]67。该举措既给评价对象创设了自我评价的缓冲改进空间，关照了评价对象的主体性，有利于调动参与者的积极性；同时也为外部评价提供了信息资源，使自我评价结果和信息得到充分利用。类似做法值得借鉴。

其二，提升研究探索、协商探讨工具的使用，凝聚政策多元共识。教育评价是一项世界性和历史性的难题，基础教育质量评价的背后裹挟着理论层面复杂多元的认识论挑战和实践操作层面暂付阙如的方法论困难。例如基础教育质量评价如何广泛听取有益意见，凝聚政策共识？基础教育质量评价改革如何全面落实立德树人的根本任务？如何实现教育质量的增值评价、过程评价？怎么推进学生的综合素质评价？如何测量学生的核心素养？如何减少标准化思维、技术化思维对评价的消极影响？如何化解评价与教育相脱节的窘况以及人的主体性被遮蔽的问题？当和这些问题相关的政策用权威工具、象征与劝诫工具简单地呈现给政策行动者时，政策行动者在缺乏正确认识和有效的方法技术手段的情况下，难以深入开展与教育评价活动本质要求相符合的评价活动。解决上述问题的关键一招是增强研究探索、协商探讨工具的运用，培养政策行动者的学习能力，增强他们对问题的深入理解以及提出高质量解决方案的能力。具体而言，一是建立政策学习机制。公共政策制定的合理性取决于增进各种公共议事的学习能力[38]32，学习机制建设需要政策制定者根据以往政策结果和信息适当调整政策目的或改进技术[39]。就基础教育质量评价政策而言，一方面要在政策修订过程前深入开展调查研究，推行试点工作，总结和积累实践中涌现的优秀评价经验和案例，形成“资料库”；另一方面，要根据前期的总结和积累，在政策文件中罗列需研究探索和学习的事项，适当要求学校呈现评价过程中学习和研究探索的事项、过程与结果，进而增强政策行动者的学习能力和探索意识，促进政策学习实现制度化和长效化。二是研究探索建立第三方评价机制。教育质量评价是一项专业性、科学性的活动，需要专业评价机构的参与。“积极探索政府购买服务方式，培育和委托第三方评价机构开展评价”亟需通过研究探索和学习机制来深化拓展第三方评价的理论与实践研究，建立第三方评价制度框架，提供法律法规的认同和赋权，营造良好的制度环境。国际上不乏优秀案例，芬兰建立了独立于政府部门的“芬兰教育评估中心”，该中心不仅是非官方的教育评价机构，还是评价研发部门，芬兰政府对教育评价从直接干预转换为间接、宏观上的规划与协调，使评价活动保持了一定的价值中立。此外，芬兰政府充分利用“芬兰教育研究所”等市场化层面的第三方机构，使得基础教育质量评价主体广泛多元，发挥了重要的沟通、平衡作用。这些第三方评价机构成为芬兰教育评估的核心抓手，提升了芬兰基础教育质量评价的专业化水平和效率[40]26+43。此类经验值得深入研究和试点探索。三是构建协商探讨的评价模式。教育评价不是外在于人的、纯客观的过程，而是参与评价的所有人通过不断的协商、对话、协调教育价值观，缩短意见分歧后整合而成的共同看法[41]。我国教育评价政策往往关注政策制定前的广泛调研和听取各方意见，却忽视了政策实施过程中的协商探讨。为此，应将协商探讨纳入到评价政策的全过程中，构建基于评价过程的，包含政策制定者、执行者、评价对象等多元相关者参与的多向探讨和互动沟通模式，为他们设置对话和反馈渠道(如座谈会、报告会、电话热线等)，进而增进政策联结度，凝聚多方共识。国际上不乏这样的做法。新西兰“教育评估办公室”每年都会以研讨会、座谈会等方式，围绕学前教育评估与教育部、学前教育机构、高等教育机构、社会公众等进行交流探讨，为每一类群体都提供一个共同协调对话的空间，增强了政策信息共享与公众理解，促进了学前教育评估的专业化交流及结果运用[37]51。类似做法值得借鉴。

4.完善政策工具内部结构，提升政策工具的协同性

调整权威工具、象征与劝诫工具、能力工具的内部结构，优化政策工具的组合，才能更好地提升政策工具的协同效力，促进基础教育质量评价取得良好的政策效果。为此，可从以下三个方面着手：其一，以因事制宜为导向合理运用许可、禁止工具，完善权威工具内部结构。例如，为了避免评价者失责、僭越权限、多头重复评价等行为的发生，可恰当运用禁止工具建立权力清单、责任清单、权益清单等，从而限定评价者的权责范围和被评价者的利益诉求范围。又如，探索建立第三方评价机制时，可运用许可工具设置第三方评价机构的准入标准与条件、审批程序、市场竞争规则等内容，这既引入了市场机制，有利于促进第三方评价机构市场化竞争与发展，又以较低成本建立了准入门槛，节约了政策成本。其二，加强基本原理工具的使用，增进政策理解度和认同度。一方面可在政策设计中设立清单制度，明确需要宣传、解读、阐释、引导的事项和评价观念，进一步使政策实施者及社会公众明白评价的优先重要事项。另一方面，细化基本原理工具的落实机制，在政策制定和实施过程中，充分发挥基本原理的阐释性功能，运用积极的象征和正面的元素(如学生综合素质评价具有的优势和意义)来说明教育质量评价的价值作用，加强评价结果的公开公示和宣传解读，引导公众正确理解评价结果，为政策落实争取更多的社会支持和舆论氛围，推动社会大众形成科学的教育质量观[42]。其三，推动资金保障工具全方位、精准化运用。具体而言，一是针对基础教育质量评价特别是义务教育质量评价中的匮乏性条件要素，例如建设评价机构和队伍、引入先进评价技术方法、研发测评工具等亟需资金支持的方面，提供全方位的精准资金支持。二是进一步明确财政资金的使用程序、范围，提升资金支持的精准性和稳定性，并建立配套的监督措施，防止资金腐败问题的滋生。三是要厘清激励工具的财政物质激励与能力工具中的资金保障两者的边界，促使资金保障工具的精准发力。激励工具中的财政物质激励强调短期内对政策行动者的奖励，针对性强但不稳定；能力建设工具中的资金保障更侧重于通过经济手段培养政策行动者的执行能力，立足于长远的考虑，具有稳定性和公共利益偏好。在政策制定和实施过程中，应当注重两者的区别。

四、结语

《总体方案》的颁布开启了基础教育质量评价改革的新征程，标志着一场“大仗、硬仗、持久仗”的开始，以基础教育质量评价为政策抓手驱动教育质量的提升、引导教育质量及其评价观的改善成为一项重要议题，需要我们以坚定的改革信念、反思性的改革思维、务实的改革精神、稳重的改革步伐，拿出“真招、实招、妙招”，推进基础教育质量评价政策落实落细，实现基础教育发展的“再出发”。本研究强调了一种政策工具的视角，一种基于政策工具的关注政策行动者行为规律的视角，为思考基础教育质量评价政策改进提供了一条进路。虽然对于全口径的基础教育质量评价政策系统而言，这种政策工具的分析或许尚不全面和深入，但从这一视角可以窥见基础教育质量评价政策中一些重要的问题与特征，亦为后续的研究提供了一些思考方向和研究空间。