传统教育评价方法的革新与突破<br/>——评《智库与教育评价大师课：基于标准的评价与回应式评价》

传统教育评价方法的革新与突破
——评《智库与教育评价大师课：基于标准的评价与回应式评价》

2022-12-30韦芷晴李刚

智库理论与实践 2022年6期

■韦芷晴李刚

1 南京大学信息管理学院南京 210023

2 东莞松山湖未来学校东莞 523000

1 前言

20 世纪30 年代，在卡内基基金会（Carnegie Foundation）的资助下，俄亥俄州立大学教授拉尔夫·泰勒（Ralph Tyler）启动了“八年研究”[1]，形成了《史密斯·泰勒报告》，并提出了最早的、较为完备的评价理论模式——行为目标评价模式，对评价理论和实践产生了深远影响[2]。此后，有些评价学专家在理论研究和实践操作中发现泰勒模式存在弊端，在不断研究和反思的基础上，提出了许多新的评价理论和方法，罗伯特·斯塔克（Robert Stake）就是其中之一。1967 年，斯塔克进一步充实和发展了泰勒模式，发表《教育评价的全貌》（The Countenance of Educational Evaluation），提出教育评价的全貌模式（countenance model）[3]，并于1975 年提出回应式评价模式（responsive evaluation model）[4]。1981 年，库巴（Guba）和林肯（Lincoln）发表了《有效的评价》（Effective Evaluation），提出评价的出发点应该是回应评价利益相关者的要求，并提出“建构性评价方法”，进一步发展了回应式评价理论[5]。自此，回应式评价理论被广泛地应用于教育评估、政策评估、医疗服务评估等领域。

斯塔克将几十年来理论研究、教学工作和评价实践中的经验和心得整理成Standards-Based and Responsive Evaluation，并于2004 年由SAGE 出版。目前国内主流的智库评价方法基本受传统指标性评价理论的影响，缺乏对回应式评价理论的了解，因此，“南大智库文丛”的主编单位南京大学智库研究与评价中心（以下简称“中心”）决心引进这本经典教科书，并将其翻译为《智库与教育评价大师课：基于标准的评价与回应式评价》（以下简称《基于标准的评价与回应式评价》）①《智库与教育评价大师课：基于标准的评价与回应式评价》于2021 年8 月出版，由南京大学智库研究与评价中心基于SAGE 出版的2004 版Standards-Based and Responsive Evaluation 翻译而成，译著书名由南京大学出版社根据原书书名调整翻译而来。，从而为智库界创新智库评价思路与方法提供理论参考。

2 《基于标准的评价与回应式评价》的主要内容

《基于标准的评价与回应式评价》主要介绍了两种评价方式：以测量为导向的评价方法和以经验为导向的评价方法，即基于标准的评价方法和回应式评价方法。除此之外，该著作对相关术语（如标准、评价者、评价对象等）进行了解释，对评价的工作环节（如数据收集、分析、综合推理、元评价等）内容做出说明。基于标准的评价和回应式评价理论、评价方法的选择与应用，对评价工作进行质量控制，是著作的核心内容。

2.1 基于标准的评价和回应式评价的区别

《基于标准的评价与回应式评价》围绕基于标准的评价及回应式评价展开，这两种评价模式在评价导向、评价流程、评价方法、报告呈现等方面存在区别。

2.1.1 评价导向基于标准的评价以目标为导向，需要紧紧围绕既定目标展开，提出的研究问题、收集的数据需要聚焦于评价对象的目标，通过一系列严密科学的数据收集、评价分析以衡量目标是否达成。然而，斯塔克认为，评价对象的部分价值是隐性的，具有延时性，仅通过指标并不能完整地呈现其成效与价值。而回应式评价更关注的是实践而不是结果，通过发现、解释委托人、利益相关者所关注的关键议题（issues），完成对评价对象成效与价值的理解和判断，从而发现其中所存在的问题、不足。回应式评价可以牺牲测量的准确性以换取对委托人、利益相关者的有用性。

2.1.2 评价流程基于标准的评价是一个线性过程，分为计划阶段、数据收集阶段、分析阶段和解释阶段，如图1 所示。基于标准的评价强调科学性，若评价者在评价过程中产生新的想法，则应作为一个新的研究开展，而不是更改正在进行中的研究问题、标准制定和数据收集。而回应式评价的步骤可以描述为“回应时钟”（the responsive clock），如图2 所示。了解项目运作、收集定性和定量的数据、分析质量水平、报道评价结果等工作，均在“回应时钟”当中。“回应时钟”的方向并不固定，可以顺时针、逆时针甚至可以跳跃，时钟当中的事件完成之后可以接入其他的任何事件，事件与事件也可以同时发生。例如，评价者可能会在分析数据资料过程中不断提高对评价对象及其背景的了解程度，进一步明确评价目的，调整原先的数据收集方式，并开展新一轮的数据收集。

图1 基于标准的评价流程Figure 1 Process of standards-based evaluation

图2 回应式评价流程：回应时钟Figure 2 Process of responsive evaluation:the responsive clock

2.1.3 评价方法基于标准的评价是一种高度理性的方式。其要求评价者围绕评价对象所要实现的目标，选择评价指标和标准。其后基于拟定的评价指标收集可测量的数据，并将所收集的数据聚合、统计分析，通过数据与标准的比较，衡量目标是否达成。所有明确指标和标准、数据收集整理、数据分析、综合推理工作均不允许带入过多评价者的个人偏向和个人观点。

回应式评价认为释义比标准测量更重要。因此，在开展评价的过程中，一方面，回应式评价者主动与委托人及利益相关者沟通、协商和讨论，掌握其需求与关注的议题；另一方面，评价者对评价对象进行观察、感知、描述，了解评价对象的具体情况，对议题进行分析解释与反馈，并最终得到对评价对象成效与价值的总结陈述。与基于标准的评价不同，回应式评价更依赖评价者个人的诠释与判断，因此，回应式评价更需要评价者将自己的个人观点融入评价工作当中，不断地对自身的观点进行扩充、质疑、修正、精炼。

2.1.4 报告呈现撰写评价报告的目的在于指明评价对象成效和价值，并完整地描述评价对象情况及评价方法。这两种评价方式在报告内容与报告风格上存在差别：基于标准的评价重视科学性，其评价报告是以描述项目绩效为主要内容，更多地呈现详细的数据获取途径、获取来源、评价标准，章节标题可能更倾向于说明所收集到的数据或所探究的问题；回应式评价的报告注重呈现样本或个案，利用叙事和情节描绘评价对象特性，评价者在报告中基于个人经验及专业基础得出对评价对象成效及价值的判断。

从总体上看，基于标准的评价方法是一种高度理性的方法，客观性更强，在明确目标的基础上开展评价，具有更强的可操作性。但是，基于标准的评价过分专注结果与目标，忽视了目标以外的现象及其价值。而回应式评价强调对评价对象进行更全面的理解和描述，更关心利益相关者的需求，强调沟通、解释与回应。回应式评价并不排斥量化的方法，提倡质性研究与量化研究的结合。然而，回应式评价存在时间成本高、对评价者能力素质要求高等局限。

2.2 基于标准的评价和回应式评价的选择与应用

关于如何选择评价方法的问题，斯塔克认为，评价具有情境性，评价方法的应用不可能放之四海而皆准。斯塔克指出，评价工作应符合实践需要，故评价方法的选择很大程度上取决于现场的情况。为了做出反应迅速、适配度高的评价，评价方法需要在“此时此地”使用，从而满足当下利益相关方的评价需求。以项目评价为例，对于规模较小、复杂性较高、相互之间差异度较低的项目，评价者主要想获得项目运行的亲身认知从而评判其成效及价值，其可能更倾向于选择回应式评价方法；如果评价对象可以用操作术语或指标变量表达，如任务时间、成果数量、绩效等级等，那么评价者可能更倾向于依赖基于标准的评价方法。

基于标准的评价与回应式评价并无孰优孰劣之分，斯塔克一直提倡将两种评价方法结合起来。例如，通过回应式评价方法了解相关人员对评价对象绩效的观点和看法，有助于形成和完善基于标准的评价策略；而通过基于标准的评价方法收集、分析数据，可以帮助回应式评价者更好地描述和判断评价对象的相关情况。然而，斯塔克指出在实际运用过程中，由于思维方式与侧重点不同，两种方法并不能完全平衡和完美融合，只能将其中一个方法作为评价的主要方式，而另一个发挥补充和完善的作用。

2.3 控制评价工作质量

《基于标准的评价与回应式评价》中多次提到了评价者的个人偏向（bias）问题。评价者的主张和倾向均是评价者的个人偏向，有时候个人偏向会削弱证据的效力，影响评价结果的准确性和有效性。为了防止个人偏向对评价产生负面影响，斯塔克认为，关键在于控制个人偏向，而不是消除个人偏向。因此，其提出要坚持怀疑主义，不断地对评价活动进行修正和完善以保证评价工作质量，其中包括评价者的自我怀疑与外部的元评价（meta-evaluation）。

斯塔克一直强调评价者需要有持续自我质疑的伦理观，其指出，“一项没有自我质疑的评价工作就像是缺少了新娘的婚礼”。自我怀疑精神应贯穿于评价工作的各个流程，评价者需要不断地对评价对象每个方面保持怀疑以及对自己所进行工作保持怀疑态度，同时通过广泛征询他人意见，不断检查反思评价工作，保证自己的思维不被固化。斯塔克甚至认为评价者可以建立一套机制，形成对评价工作各方面内容的自觉怀疑，包括对评价的目标意义、员工贡献度、证据可信度以及推断有效性、评价工作整体性等进行审视。

外部的元评价是指由外部人员或第三方人员执行的、以正式或非正式形式对评价工作质量进行的评价。元评价并非对评价工作“成功”或“失败”的简单评判。一方面，其可以指出评价过程和结果所存在的问题并提供改进建议；另一方面，其为评价的全面性、完整性补充新的观点、新的视角。因此，斯塔克建议邀请外部评价者评判评价计划、选择的研究工具以及撰写报告所采取的策略，或者邀请信息提供者进行人员检查（member check），检查评价者的访谈记录、编码等是否与其所提供的内容一致。

3 《基于标准的评价与回应式评价》的写作特点与学术价值

3.1 写作特点

斯塔克运用丰富的案例、图片和诗歌阐释评价理论，利用非虚构对话反映书评价思想，让读者仿佛身处于生动有趣的课堂当中，享受实实在在的“大师课”。

第一，运用丰富的案例、图片和诗歌阐释理论。斯塔克为了避免书中仅有乏味的理论说教，运用了丰富的案例、图片、诗歌等来阐释评价相关的理论问题。例如，运用罗切斯特理工学院失聪学生的教师培训项目说明创建评价项目调查表的注意事项，采用漫画《清晨镜像》解释“评价对象”这一概念，采用漫画《规格的转变》解释了何为目标陈述中潜在的错误表达等。读者可通过实际的案例、生动的漫画和诗歌领会作者阐释的概念。

第二，利用虚构对话反映作者的评价思想。伽利略有时会利用虚构对话的形式发表理论。斯塔克借鉴伽利略的做法，虚构了老板萨格雷多先生及评价者菲利斯两个人物，在每一章节最后的“小故事”部分呈现两者的对话，以此反映这一章节中陈述的理论和想法。读完整本著作后再重新回顾两个人物的对话，则可以进一步了解著作探讨的问题。

3.2 学术价值

《基于标准的评价与回应式评价》除了对传统的基于标准的评价理论与方法进行总结外，更重要的是详细地阐释了回应式评价理论。例如，此书译者李刚教授认为，回应式评价理论颠覆了评价就是话语权的概念，这是对传统的定量、指标化和结构化评价理论与方法的一次革命。

第一，拓宽了评价的视野。传统的定量、指标化和结构化评价理论与方法，主要是目标导向、结果导向的，评价所提出的指标和标准局限于既定目标，注重通过严密科学的测量方式衡量既定目标的达成程度。而回应式评价意识到评价对象的复杂性，其突破了仅聚焦于目标与结果的局限，期望通过全面、深入的案例研究，对评价对象的背景、运行情况以及取得的结果做出描述和判断，为委托人及利益相关者提供有用信息，从而促进效果的改善与问题的解决。

第二，将多元价值观引入评价工作。回应式评价理论不再严格划分评价的主体与客体，其认为项目参与者、利益相关者均具备评判成效与价值的资格和能力，鼓励多元主体参与到评价工作当中。甚至，认为切实参与到项目当中、参与到机构发展与建设当中的人更能够对项目与机构做出准确的评价。回应式评价理论认为，评价的有效性应体现为对委托方、评价对象及其他利益相关者的有用性。

第三，提出了动态灵活的评价运作方式。评价不再是单向的、线性的过程，评价的每一个环节均在评价时钟当中，各个环节的顺序并不是固定的，可以顺时针、逆时针甚至是跳跃进行。在回应时钟当中，评价者不断与相关参与者、利益相关者沟通与交流，不断地明确评价议题、调整评价计划，为评价委托人解答其所关心的问题，提供有用服务。

4 回应式评价理论对智库评价工作的启示

目前，智库评价指标更多的是以基于标准的评价为指导，以结果导向的、通用的评价指标体系评价不同类型的智库，容易忽视智库的个性与发展潜力。回应式评价理论超越评价主客体两分法，关注评价者与委托人、评价对象、利益相关者之间的互动，强调评价工作的情境性与评价对象的复杂性，可以为解决智库评价工作存在的问题提供新思路、新视角。

4.1 发挥智库的自我评价作用

在智库评价中，作为评价者的智库主管部门或者是第三方评价机构，常常是按照其研究的一套标准来评价智库发展水平，作为评价对象的智库被客体化、简单化，评价结果有时并不能完整地、全面地呈现智库的发展水平，智库所具备的主体性和独特性容易被忽视。在回应式评价理论当中，评价对象不仅是评价客体，更是信息提供者。评价对象中的主要参与者不仅可以作为合作者帮助评价者对评价的关键问题做出决策，也可以成为评价活动的共同主导者。目前，国内外智库评价逐渐呈现出评价主体多元化趋势，包括政府部门、第三方机构、高校科研机构、地方社科院、主流媒体等[6]。除这些机构外，智库评价还要发挥智库自身的评价作用。智库评价者通过加强与参与智库工作的相关人员进行沟通、交流、互动，促使其对本智库发展水平做出理解性评价，从智库自身的视角补充智库评价工作的内容。

除此之外，还可以进一步增强智库自我评价的主体作用，构建智库自评机制。例如，日本智库专门建设内部评价机构，聘请外部专家评估智库成果；美国兰德公司通过制定研究成果质量标准以加强智库成果的质量控制等[7]。智库可以通过设置专门部门、设立评价标准与制度、加强与外部评价专家合作等方式，加强智库自评体系建设。

4.2 关注智库利益相关者的期望与价值取向

回应式评价理论要求评价工作要充分考虑利益相关者的诉求，这种关注贯穿于评价设计、实施、分析、结果宣传等各个环节。智库的建设发展涉及多个利益群体，包括政府部门、企事业单位、新闻媒体、公众等。不同的智库利益相关者对智库有不同的利益诉求与互动方式。政府不仅是智库的主要服务对象，还是智库的引导者；企事业单位、新闻媒体、公众等则主要是智库产品的需求方。智库利益相关者是智库评价结果的关注者与利用者。为了提高不同利益群体对智库评价的认同度与信任感，可以将回应式评价理论融入智库评价当中，让智库评价者不断回应利益相关者的关切，以保证智库评价内容的全面性。在评价设计阶段，让政府部门、企事业单位、新闻媒体、公众等利益相关者了解智库评价的目的与意图，深入调研、了解其想法与关注的焦点问题，在此基础上不断修正智库评价方案与评价标准。在评价实施阶段，尤其注意基于不同利益群体的视角收集、处理、解读评价所需的信息。在评价分析环节，注重分析不同利益群体的诉求，使其价值取向及期望成为智库评价分析的基础。在评价结果宣传阶段，除了向评价委托方提交评价报告与解读外，在评价委托方等允许的条件下，向相关利益群体公布评价结果。通过对利益相关者期望及价值取向的关注与回应，不断提升各个利益相关者对智库评价的认同感。

4.3 关注智库及其成果的复杂性

目前，智库评价遵循量化思维，大部分指标是按照绩效导向的评价方法，通过批示的数量级别、论文发表的数量及刊物的层次区别成果产出能力，这种量化倾向往往容易忽视智库思想产品的特点，将智库评价简单化、片面化，掩盖了智库的差异与个性。公共政策制定从酝酿到发布需要经历漫长过程，智库所发挥的作用也需要一定的时间才能反映[7]，而且智库在公共政策中发挥的作用难以测定[8]。回应式评价理论认为评价对象具有复杂性，难以通过一个通用的指标、单一的方法就能测量。因此，斯塔克认为评价应该持续与利益相关者进行沟通，从而发现关键问题、全面收集数据资料、综合利用多种工具。智库评价也应当转变评价理念，意识到智库及其成果的复杂性。一方面，提升评价资料收集的全面性，不仅聚焦于结果因素，还加强对智库及其成果的背景信息、研究过程、运营过程等信息资料的收集与分析，更加全面地理解智库及其成果的成效与价值；另一方面，将智库评价理解为沟通与交流、解释与理解、建议与改进的过程，除了呈现智库绩效高低之外，更应通过与利益相关者的持续沟通，发现问题及其成因，并提出有针对性的建议，真正达到“以评促建”的目的。此外，可以不断细化、完善智库分类评价，加强对不同智库发展特点、发展优势、专业价值的研究，在评价中尊重智库个性特征。

4.4 在智库评价中引入元评价工作内容

我国智库评价实践主要有两种类型：一是智库主管单位以绩效考评为目的，自主开展或委托第三方机构开展的智库绩效评价；二是智库评价机构基于本机构建立的智库评价指标体系连续开展的智库测评。然而，我国智库评价实践尚处于探索阶段，评价指标体系构建、评价工作开展等仍然有待进一步优化、完善的空间。为进一步评判智库评价实践是否科学、准确、合理，可以在智库评价实践中引入元评价工作内容。

元评价有多种类型。按照评价介入节点的不同，可以分为总结性元评价（summative meta-evaluation）与形成性元评价（formative meta-evaluation）。前者是在评价结束后对评价过程及结果进行的“事后”梳理和评判，后者是在评价实施开展甚至是筹备阶段就已经介入的“事中”和“事前”指引[9]。按照评价者的不同，可以分为内部元评价及外部元评价，前者源于评价体系的自身审视，后者由相关外部专家以中立角度开展[10]。可以从以下三方面将元评价工作引入智库评价中。其一，鼓励智库评价研究者对相关研究机构开展的智库评价工作进行总结性元评价研究，例如，已有研究从独立性、功能性、相关性、效度、信度和功能性5 个维度对《中国智库报告》等5 组国内智库评价报告进行了比较研究[11]。其二，在主管单位单独开展或委托的智库绩效评价中，可以邀请评价专家介入智库绩效评价活动的事前或事中，以发现评价方案、评价标准、评价方法和工具中的问题，并提出修正建议。其三，专业智库评价机构可以建立内部元评价机制，形成内部元评价指标体系，及时对评价设计、实施、数据信息采集、评价分析与报告撰写等工作进行反思与纠偏。

5 结语

《基于标准的评价与回应式评价》是评价理论的经典著作，该书作者斯塔克是深入评价理论研究、教学工作以及评价实践多年的资深专家，其更多地从概念上说明了评价工作的主要任务与注意事项，具有指导性和启发性。该书所提出的回应式评价理论，是对传统教育评价概念框架的革新与突破，更具有弹性和应变性，更适合多元的、动态的、复杂的客观世界。虽然智库评价研究与实践在我国已经得到了重视和发展，但是仍然存在某些问题，希望智库界能够从《基于标准的评价与回应式评价》中获得新启发，得到优化完善智库评价理论和方法的新灵感。