打开教育政策研究的“黑盒子” ＊<br/>——基于理论的影响评估在随机干预实验研究中的应用

打开教育政策研究的“黑盒子” ＊
——基于理论的影响评估在随机干预实验研究中的应用

2020-08-28马成俊

华东师范大学学报（教育科学版） 2020年8期

汤蕾马静刘涵岳爱白钰孟春马成俊

（1. 陕西师范大学教育实验经济研究所，西安， 710119；2. 国务院发展研究中心宏观经济研究部，北京， 100010；3. 青海民族大学法学院，西宁， 810007）

一、引言

影响评估旨在了解政策对参与者福利的影响，其关键在于建立两者之间的因果关系，了解政策的作用机制。在各类影响评估方法中，随机干预实验方法（Randomized Controlled Trials，RCTs）通过将满足一定样本要求的参与者随机分配到实验组和控制组，构建严格的“事实”和“反事实”，保证实验组和控制组在末期评估时目标指标之间的统计学差异为政策或干预的净影响，因而被称为影响评估的“黄金准则”（Jones & Podolsky，2015）。一般认为，RCTs 方法在识别因果关系系数大小、精确估计政策平均影响（Average Treatment Effect，ATE）方面具有其他任何方法都难以企及的优势（Banerjee & Duflo，2009）。然而，该方法自进入社会政策研究的视野之初便饱受争议（Heckman & Smith，1995）。争议的焦点在于：随机干预实验相当于一个“黑箱”，使用这种方法的研究只能回答 “什么有效”，无法回答“为什么有效”。这就意味着人们既无法从中进一步了解人类行为的一般规律，也不确定这种政策能否推广到其他样本中（即外部有效性问题①），因而极大地削弱了随机干预实验研究的价值。

最近十余年来，严谨的影响评估领域的研究回应了这一问题。研究者们不仅寻求识别政策是否有效、效果大小，也越来越重视对政策作用机制的探索，了解政策有效或无效的原因。人们普遍认为，基于理论的影响评估（Theory-Based Impact Evaluation，TBIE）有助于回答“为什么有效”这一问题（White，2009）。基于理论的影响评估通过建立从投入到产出再到影响的因果链，使用实证数据检验在因果链中可能起作用的理论和潜在假设是否成立，来达到厘清干预项目作用机理的目的。

本文旨在回顾和总结基于理论的影响评估的核心概念和原理，并结合RCTs 方法和具体实例，阐述在开展RCTs 时，如何基于理论探索干预项目的作用机制②。本文的第二部分是概念界定和理论阐述，提出了实施机制分析的四个阶段以及其中包含的六个步骤（问题-目标-方法-因果链-过程评估-结果），作为应用基于理论的影响评估的核心工具。第三部分以一个儿童早期发展项目的分析为例，介绍研究团队是如何分析其影响机理的。第四部分总结回顾基于理论的影响评估的要点，并进一步讨论该方法目前在学术界的争议，以引起研究者的思考。

二、概念、理论和步骤

（一）概念界定和理论阐述

自上世纪八九十年代以来，基于理论的影响评估（TBIE）在影响评估领域受到越来越多的关注和认可，并逐渐成为指导项目执行者和研究者开展项目、进行影响评估的主要准则（Chen，1990；Chen &Rossi，1992；Weiss，1995a；Weiss，1998；Carvalho & White，2004；White，2009）。该方法在不同的文献中叫法不一，理论驱动的评估（Theory-Driven Evaluation）、项目理论评估（Program Theory Evaluation）、现实主义评估（Realist/Realistic Evaluation）、逻辑框架（Logical Framework）等都是经常被引用的术语（Coryn et al.，2011）。本文沿用国际影响评估基金（3ie）的用法（White，2009），统一称该方法为基于理论的影响评估。

Weiss（1995a）清晰地说明了TBIE 得名的原因和它的核心原则：“社会项目理当基于能够解释该项目如何起作用以及为什么会起作用的显性或隐性的理论，这是基于理论的影响评估的基础。”他进一步指出，影响评估的基本步骤是尽可能详细地罗列出所有可能的理论，识别项目起作用所必须的假设，然后收集尽可能多的中间环节的数据，用实证的证据验证影响背后的可能的理论机制是否成立以及在多大程度上成立。这个过程需要清晰地展示出该项目不同环节所依据的假设哪些成立、哪些不成立，最终确定项目起作用的详细机制。该领域内的其他研究者也表达了大同小异的观点。如Pawson 和Tilley（1997）提出使用背景-机制-结果（Context Mechanism Outcome，CMO）结构来梳理项目中存在的因果关系。其中，背景与Weiss 理论中的假设类似，不同背景有可能触发不同的作用机制；评估的关键是了解背景与作用机制如何有差异地相互作用以产生最终的结果。Gertler（2016）认为，基于理论的影响评估（TBIE）的核心是构建变化理论（Theory of Change），详细描述导致结果的一系列事件，探索背后的条件和假设，在此基础上明确因果逻辑，再沿着逻辑路径规划干预项目；变化理论要搞清干预措施的投入、产出、受益人预期的行为改变以及所产生的结果。

虽然研究者们对于TBIE 方法已基本达成共识，但由于不同项目的背景不同、进行影响评估的目标不同，研究者会根据项目侧重点选择性地重视TBIE 方法的不同要素，因而TBIE 方法目前还没有形成一个放之四海而皆准的框架（Rogers，2008；Coryn et al.，2011）。基于此，我们将研究视角聚焦于使用RCTs 进行的影响评估项目，介绍如何在这些项目中使用TBIE 方法进行作用机制的分析。

需要特别明确的是，RCTs 通过提出干预方法，实施干预项目，评估项目“是否有效”和“为什么有效”，提出科学的解决社会问题的方法。也就是说，RCTs 本身就包含了“影响评估”这个环节；在RCTs中使用TBIE 方法只是进一步明确了“为什么有效”。因此，不同于其他一些由中立的第三方进行的影响评估，RCTs 的评估者往往就是项目的设计者或者会深度参与其他机构的项目设计；影响评估的工作也不是在项目结束之后才开始的，而是在干预项目开始之前，项目团队就需要通盘考虑项目的作用机制和有可能影响项目有效性的因素，通过理顺因果逻辑关系，确定可能有效的干预方案③。从这个意义上说，实践基于理论的影响评估方法，不仅是打开“黑盒子”的要求，也是帮助干预项目成功的必要保障。因此，本文提出的基于RCTs 的机制分析方法，在某种程度上也是站在实验设计的角度进行思考，本文也会用相当的篇幅介绍项目设计中与机制分析相关的要素。

基于RCTs 的作用机制分析可以分为四个阶段（见表1）。第一个阶段需要对文献和已有研究进行梳理，与利益相关方讨论并初步开展个案访谈，以识别目标对象面临的真实困难和问题，提出研究的问题，探寻问题的成因，并基于此确定干预的目标和方案。第二个阶段需要初步建立变化理论，勾画项目的因果链，明确项目从投入到产生结果变化会经历哪些环节，以及各环节之间的因果关联（即假设）。第三个阶段需要通过定性研究检测项目是否按照计划开展，是否符合第二阶段的变化理论假设。这一过程通常被称为过程评估。过程评估的结果可以帮助我们在进行定量数据收集前，进一步完善变化理论。第四个阶段是定量数据的收集，并基于数据进行作用机制的分析。下面，我们将按照这个流程依次介绍影响评估的核心要素。

表1 项目设计与作用机制分析的不同阶段

（二）四个阶段

1. 提出问题，界定目标，确定干预方法

提出问题

我们对项目的思考首先从明确问题（Problems）开始：项目或社会政策的目标通常是为了解决目标对象所面对的实际困难和真实的问题。社会问题的复杂性决定了梳理问题并找到解决问题的切入口，比“项目内容是什么”“怎么做这个项目”重要得多。

一个有清晰定义的问题应该梳理四个方面的内容（李志艳，2015；Gertler，2016）。首先是问题的现状和背景。项目所关心的是谁的问题？在回答这个问题时，需要将主观认为的问题与目标对象真实的问题分开；需要具体而不是笼统地描述目标对象，比如，“留守儿童”是一个笼统的对象，因为不同年龄段或父母外出类型不同的留守儿童面临不同挑战（高玉娟等，2018；Bai et al.，2019；Yue et al.，2020）；需要区别过程对象与最终目标对象，比如在儿童早期发展项目中，过程对象可以是父母，而最终目标对象是孩子。除了明确问题的对象，项目还需要明确所关心的问题是什么？即目标对象究竟存在哪些有待改善的问题。首先要区分期望和问题。比如，乡村医生的医学知识有待提高是一个期望，而不是他们的具体困难。经过深入调研会发现，乡村医生群体培训机会少，知识更新和积累不够，从而造成诊断率低（史耀疆等，2016），这才是真正的问题。其次，在描述问题的现状与背景时，需要回答有多少目标对象正在面对这个问题，项目的经济和政策背景是什么，等等。以上这些都需要调研和数据的支持。

其次是问题的重要性，即如果我们不解决这个问题会给个人和社会带来严重不良后果，那么这个问题就是 “真问题”。比如研究证明农村儿童学业表现不佳会降低他们最终的受教育水平和人力资本积累，影响未来收入，因此儿童在校的学业表现不佳是一个重要的需要被解决的问题（张林秀等，2014）。

再次是问题产生的原因/干预机会。解决问题的前提是清楚了解问题产生的根源/原因。比如同样是学业表现不佳，有的学生是因为近视未得到矫正，有的学生是因为营养不良造成了注意力不集中、缺乏能量，有的学生是因为非认知能力发展不足，因此针对不同群体的实际情况需要解决不同的问题（张林秀等，2009；Ma et al.，2014；白钰等，2020）。此外，问题的成因可以归类为直接原因（特定时间、特定地区、特定组织以及特定人群层面存在的原因）和根本原因（体制、政策、制度及文化等深层次的原因）。一般而言，项目通常无法解决“根本原因”，只能针对“直接原因”进行干预。比如贫困可能是导致农村儿童营养不良问题的根本原因，但贫困问题的解决需要各方力量的积极参与，不是一个项目所能解决的。因此，项目通常以直接原因为切入点，如维生素摄入不足等，设计干预项目，改善儿童的营养健康状况（Lin et al.，2007；史耀疆等，2013）。

最后是梳理其他机构/组织对该问题的解决办法以及利益相关方。很多时候研究不需要从零开始。在研究开始之前，我们需要梳理如下内容：是否已经有其他机构/组织在尝试解决这个问题？他们是从哪些方面来解决这个问题的？解决方法能够达成什么样的目标，是否有效，为什么有效或者无效，成本收益如何等? 哪些利益相关方会关心这个问题的解决？这些问题的答案能够帮助项目设计者确定可能的干预方法。我们需要利益相关方参与讨论问题，以达成共识，这对于问题识别、项目目标确定、项目干预设计和顺利实施都是必要的。

界定目标

当问题明确后，需要界定项目的目标。项目目标应该是目标对象的某些指标的改善。目标不是想做的事情（即活动），而是期望推动的变化（即影响）。通常一个好的项目要尽可能地聚焦项目期望带来的改变，而不应有过多的目标，过多的目标意味着项目实施常常会同时进行多种干预，这不仅无法准确评估每种干预方案的效果，在项目无效的情况下也无法准确识别项目可优化的环节进而改进项目。合理选择预期的结果变量是保证项目效果可量化的关键。结果变量的选择应满足“SMART”原则（Gertler，2016）。具体来讲，结果变量需要具体化（Specific），尽可能的测量所需的信息；需要可测量（Measurable），确保信息容易获得，具有可操作性和可观测性；需要可归因（Attributable），确保每一个指标都能够关联项目因果链（在下一个阶段中介绍）上的每个环节，即能够跟踪观察到的任何项目结果的因果逻辑；需要具有可行性（Realistic），确保以合理的频率及合理的成本及时获取数据；需要有针对性（Targeted），即瞄准目标人群。在选择指标时，重要的是要顺着因果链确定所有的指标，以便能够跟踪观察项目结果的因果逻辑。

确定干预方法

当问题和目标清晰之后，项目组需要选择一种合适的干预方式来推动目标群体产生项目所希望的改变。一般来说，干预方式的选取可以遵循如下几个原则：首先，了解相关领域已经进行过的干预和影响评估，分析之前干预有效/无效的原因，这将会为我们从多种干预手段中选取最合适的干预手段提供参考。比如，如果已经有大量研究证明，基于培训的信息干预完全无效，则应当尽量排除信息干预或者改进信息干预的手段，如使用手机短信提高干预频率、将信息干预与有奖问答等激励手段结合起来等（Mo et al.，2014a；Zhou et al.，2016；Guan et al.，2018）。其次，依据问题产生的原因，选择有理论基础的干预手段。如果干预手段背后没有理论支持，那么可以预见项目难以产生期望的效果，不仅无法为解决科学问题作出新贡献，也是巨大的资源浪费。比如，想要解决儿童贫血问题，最佳的干预手段是补充早已有了大量科学证据支持的铁元素，而不是其他宏量元素如碳水化合物和蛋白质等（Stanley et al.，2003；Luo et al.，2017a）。再次，针对多个同样重要的问题、多个可能有效的干预方法，究竟选择哪个方法需要研究者权衡取舍。此时可以结合研究者对学术问题的把握（如哪个理论是最迫切需要得到验证的）、自身的立场、学术团队的比较优势、政策环境、预算、成本效益分析等进行综合考虑。

2. 初步建立因果链

如果研究者只想知道项目的平均效果（是否有效），那么只需要实施RCTs 项目，并在干预前后收集关于实验组和控制组目标对象的结果变量的信息，就可以准确地获得对于项目效果的估计（具备内部有效性）。

然而，影响评估不仅要知道项目的平均影响是什么，更需要了解项目为什么有效或无效，即项目干预的作用机制。因此，本文引入变化理论（Theory of Change）的观点来理解项目的影响。变化理论认为，必须将从投入到产出的过程分解为微小的步骤，并且找出干预项目在各步骤之间传导所需要满足的假设，才能理解干预项目的作用机制（Weiss，1995b；Rogers，2014；Gertler，2016）。具体而言，影响评估需要将干预分解成若干个可以用简单理论所阐释的环节，列出每个环节成立的假设，找到足够的可监测的中间变量，并用这些变量的具体数据对作用机制进行验证，才能弄清楚整个过程当中的因果关系。此外，从确保干预有效性的角度来看，虽然干预方法往往可以用一句话来简单概括（比如“实施计算机辅助学习项目改善学生成绩”），但具体的实施过程需要经过很多个环节（如确保充足的硬件设备、设计合理的辅助学习软件、与校长老师沟通保证每周一定的项目时长等），这中间任意一个环节出现问题都会导致整个干预过程无法顺利产生预想的结果，从而干扰我们对理论机制的正确判断（如项目没有效果可能是由于在现有的环境下教师不愿意让学生进行计算机辅助学习，而不是计算机辅助学习这种方法本身无效）（Lai et al.，2013；Mo et al.，2014b）。

变化理论要求在项目正式实施之前构建详细的基于干预方式的从投入到产出的因果链。因果链通过一系列的方盒子或是表格形式来呈现项目变化的各个环节（Khandker et al.，2010；Gertler et al.，2016）。因果链分析的第一步是列出项目从投入到产出的一系列环节（见图1），主要包括：

图1 因果链的基本要素和逻辑关联

（1）项目投入环节，通常包含项目预算、资金、人力、物资、政策等的投入；

（2）项目活动环节，也就是项目针对问题的成因所设计的项目干预方案的开展阶段，即项目供给方做了什么；

（3）项目产出环节，通常包含项目活动产生的直接服务或商品（Supply-Side Outputs），例如多少人参与了项目开展的活动，项目的受益人数是多少，等等；

（4）项目结果环节，通常包含项目的短期、中期和长期结果的改变，也就是项目的过程对象和最终对象产生的改变（Demand-Side Outcomes）。

在构建因果链各环节的过程中，第3 步的项目产出和第4 步的项目结果的划分经常不能泾渭分明。我们一般按照项目供给方和需求方谁有更多影响来区别。项目产出通常是项目供给方可以直接控制和影响的，例如多少人实际参与了项目开展的活动、项目的受益人数是多少等。而项目结果通常是需求方（项目受益方）的变化，主要取决于项目受益人的观念、知识和行为的改变，通常是项目供给方无法直接控制和影响的。

在构建因果链的各个环节时，我们还会发现，长期结果通常比为达成长期结果的先前环节更容易确定。这是因为，一旦我们明确了目标对象所面临的困难和现状，长期结果就是推动目标对象现状的改变（即项目总目标）。而对于推动这种改变的过程（或先前环节），通常可以在初次建立因果链时，使用倒推法来确定（李志艳，2015）。倒推法是从长期结果开始，依据理论建立从投入到结果各个环节间的逻辑关系，使用“如果，那么”的句式来进行逻辑推演。比如，如果要改善儿童的早期发展状况，那么我们需要先达成什么样的中期结果（即前提条件）。

在构建因果链的各环节后，好的因果链还应该帮助我们清晰了解作用机制中隐含的前提假设，可能导致预期结果无法实现的外部环境（即因果链断裂的可能原因），以及使项目效果产生异质性的背景信息。因此，构建因果链的第二个重要步骤是建立各个环节之间的逻辑关联，即明确前一个环节能够保证下一个环节实现的假设条件，这包含一切能够保证项目成功的条件和资源。例如，持续稳定的资金，培训和项目活动内容通俗易懂，社区资源的可及性，等等。假设同样与影响项目预期结果的外部环境，如当地的语言、文化、经济和政策环境等息息相关。例如，少数民族地区儿童的普通话水平较低，同一培训项目在汉族地区和民族地区就会有很大差异。这些外部因素通常不能被一个实验项目所左右，但是实验项目应当充分考虑这些因素的影响，并尽可能调整项目方案，以保证实施方案对外部环境的适配性。

假设条件在因果链分析中具有十分重要的地位。如果想要确认因果链中的每一环在什么样的情境下成立，必须清楚明白地说明每一环的假设是什么（Weiss，1995b）。充分地思考假设条件可以使我们更好地理解异质性问题：项目之所以对不同群体产生差异性的影响，可以被分解为不同群体满足因果链上各个假设的程度不同。假设对解决外部有效性的问题也十分关键：在干预项目成功、因果链明确的情况下，如果新样本也满足这些假设，那么该项目应该也可以对新样本产生类似的作用。假设条件的检验指标也应满足SMART 原则，以有效用于数据分析过程中的检验（见四个阶段第1 点）。

3.过程评估

对个体行为、外部环境的假设和对前提假设的分析，都要以事实为基础，也要接受事实的检验。如果与事实不符，因果链从根子上就是错的。最理想的是我们提前掌握关于这些假设的数据，但现实中我们往往需要在项目实施过程中了解这些信息。

过程评估是在大规模收集定量数据之前，为完善前一阶段初步搭建的因果链而进行的定性研究。这个阶段通常可以在项目试运行阶段进行，收集关于干预实施情况、家庭接受度、可持续性以及作用机制和背景的数据。在传统的试验中，过程评估被用来检查干预的保真度（Fidelity，即执行符合干预方案设计的程度），用以确定影响项目有效性的因素是项目方案的设计问题还是项目方案的执行问题。然而，在作用机制分析中，过程评估将超越这一步，用来探索干预作用机制以及这些机制如何与环境相互作用以产生结果（或未能产生结果）。定性研究更能深入把握研究参与者自身的能动性，以及这种能动性如何与干预背景的社会结构相联系。因此，使用定性研究方法可以提出并验证一系列关于我们的干预可能起作用的复杂机制的假设，包括我们在前一阶段没有预料到的问题（例如，参与者的性别、项目是否是政府的项目等）。这一阶段收集数据的方法通常包含项目利益相关方的一对一访谈、焦点小组访谈或观察、监测因果链设定的项目执行的核心指标、个案研究等。

4. 数据收集和作用机制分析

数据信息的收集应涵盖从干预实施前到到干预实施结束的全过程。研究团队应当依据因果链设定的关键指标，在不同阶段收集定量数据，以便进行作用机制的分析。在这个过程中，重要的是数据的收集和分析一定要紧扣因果链的环节和假设。

基于过程和结果变量的定量数据的收集，不仅可用于评估项目的平均效果，更重要的是可以建立中间过程理论（Merton，1967；Bonell et al.，2012）。在数据收集后，有很多不同的方法来进行机制分析。RCTs 中较为常用的分析方法是调节效应分析（Moderator Analysis，环境和背景的异质性分析）和中介效应分析（Mediation Analysis，检测作用机制）（Shah et al.，2015）。当然，也有研究通过建模和模拟的方法进行机制分析（Attanasio et al.，2018）。使用何种方法进行分析可以作为一个单独的话题来讨论，本文仅对前两种常用方法进行简单阐述。

中介效应分析

因果中介分析（Causal Mediation Analysis）需要列出干预方案和结果之间因果路径中的过程或中介变量（Baron & Kenny，1986；Frazier et al.，2004；Bauer et al.，2006），分析干预方案对于结果的改变究竟是由哪些过程和中间变化导致的（如图2）。中介变量（Mediators）是在基线调研之后测量的，是干预影响最终结果的途径（Lee et al.，2019）。例如在教师激励项目中，中介分析将评估教师激励方案对学生成绩的影响是否可以由以下中间效应来解释：教师投入的时间、使用材料的难易、教学方法的变化、学校本身的激励方案可能存在的挤出效应等。在给定的社会背景下，中介分析测量了潜在的变化机制，帮助我们理解哪些机制对结果的影响是至关重要的。这些信息可以帮助评估人员明确因果路径，完善变化理论，从而将重点放在干预措施的有效路径上，消除无效成分和无关紧要的机制。

图2 中介和调节效应分析

调节效应分析

如果说对中介变量（Mediators）的分析是尝试建立干预“如何”以及“为什么”能影响结果变化，那么对调节变量（Moderators）进行分析则是关注干预措施会在“何时”以及对“哪些人群”的结果有不同的影响（Frazier et al.，2004）（如图2）。调节变量通常是基线调研时收集的变量，这些变量可能会改变干预对结果变量的影响方向或大小（Frazier et al.，2004）。因此，该分析可以使研究者跨越总体的平均效果分析，以进一步探索干预对结果影响的异质性，理解干预方案究竟对哪些人、在什么环境下是最有效果的。

在RCTs 中，调节效应可以通过在多元回归中添加干预变量与背景变量的交互项来进行分析（Glennerster & Takavarasha，2013）。因为RCTs 的干预组和对照组是随机分配的，如果我们用于分析的调节变量与分配变量不相关，那么交互项的结果是具有因果推断性的。

三、TBIE 方法应用：以“养育未来整县覆盖随机干预实验项目”在中国的实践为例

我们将以秦巴山区一个国家级贫困县的0—3 岁儿童早期发展整县覆盖项目④为例，按照表1 中的几个关键环节来呈现TBIE 方法的应用过程。

1. 提出问题

为什么关注中国农村贫困地区0—3 岁婴幼儿的早期综合发展？根据《柳叶刀》（The Lancet）上发表的发展中国家儿童发展系列报告，个体生命最初的1000 天经历大脑的快速发育、突触修剪和髓鞘形成等过程，是大脑可塑性最强的时期，也是多数能力（听觉、视觉、语言、认知等）的最佳发展期（Grantham-McGregor et al.，2007）。已有研究指出，遗传因素决定着儿童的发展潜能，而儿童发展的家庭及社会环境则决定儿童自身发展潜能的实现程度（Walker et al.，2007；Black et al.，2013）。如果在这个关键期缺乏营养和有效刺激儿童发展的家庭及社会环境等要素，将对儿童未来的学业表现、人力资本的形成和积累以及成年后的收入水平产生很大的负面影响（Campbell et al.，2001；Engle et al.，2007；Horton，2008；Currie & Almond，2011）。

那么中国农村贫困地区儿童早期发展状况如何？如果其发展存在问题，那么导致这个问题的直接原因又是什么？近年来国内研究者开展了一系列关注儿童早期发展的研究，并且尤其关注中国农村贫困地区0—3 岁婴幼儿的早期发展。有研究指出我国农村贫困地区儿童存在早期发展滞后风险的比例较高，且问题形成的直接原因与照养人缺乏科学的养育知识和技能进而缺少有效亲子互动密切相关，如不给孩子讲故事、不给孩子唱歌、不与孩子玩耍等（Luo et al.，2017a；Luo et al.，2017b；Yue et al.，2017；Yue et al.，2019；李英等，2019；岳爱等，2019）。基于此，改变儿童发展问题现状的一个干预机会是对照养人的养育知识和行为进行干预。

过去15 年中，中低收入国家开展的大规模的入户和中心模式的婴幼儿早期发展干预项目已经证明，通过指导照养人进行科学养育能够有效提高儿童早期的认知和语言发展能力（Reynolds et al.，2010；Walker et al.，2011；Gertler et al.，2011；Attanasio et al.，2014；Britto et al，2016；Sylvia et al.，2018）。政策制定者在早期干预项目的有效性上已不再争论，但是高质量的儿童早期干预项目如何能够实现规模化推广和复制，尤其是在国家层面的推广，仍是一个有待探索的问题。

对于农村贫困家庭而言，一方面因为社会化/市场化的儿童照护服务不足，另一方面由于经济原因，大多数家庭无法依靠购买优质的市场化服务来解决儿童照护问题，此时由政府提供普惠性服务是照养人能够接受科学育儿指导的重要途径，也是体现社会公平的途径。然而由政府在贫困地区提供婴幼儿早期发展的公共服务，将面临服务数量庞大、提供服务的工作人员数量不足、组织和管理难度大等挑战。一些发展中国家已经开展了早期儿童发展方面的普惠性项目，例如古巴的Educa a tu Hijo 项目（Verch，2017）、巴西于2016 年启动的面向400 万儿童的大型全国性项目—快乐儿童项目（英文名称为Happy Child Programme）（Verch，2017）。这些项目给开展儿童早期发展的公共政策制定提供了许多有价值的参考，然而这些项目目前还没有经过系统的影响评估，因此在项目效果、项目的作用机制以及其外部有效性方面还没有形成经过验证的结论。因此，政府主导和执行的普惠性的婴幼儿干预项目还有待进一步的研究。

研究团队针对如何规模化地进行婴幼儿早期干预项目，联合政府和公益机构实施了“养育未来儿童早期发展整县覆盖项目试点”的探索研究（以下简称养育未来整县项目）。研究团队选择了秦巴山区的一个贫困县作为试点地区，探索通过政府属地管理免费为全县所有6—36 月龄儿童及家庭提供服务的新模式（ISRCTN16736104，https://doi.org/10.1186/ISRCTN16736104）。在项目设计和实施阶段，项目组与各利益相关方（包括政府管理人员、一线工作人员、公益机构参与者、婴幼儿照养人）进行多次探讨，以期明确主要问题、确定干预目标、细化干预方法，并理解项目可能的作用机制。

2. 界定目标并确定测量指标

在厘清研究问题后，项目组对项目目标及衡量目标的指标进行了梳理。

首先，项目的最终目标是改变0—3 岁婴幼儿（最终目标对象）早期能力的发展水平，从而改变儿童的成长发展轨迹，阻断贫困的代际传递，并最终提高我国人力资本的质量。这是项目希望推动的变化。那么项目的短期目标是什么呢?将已有研究结论作为理论基础，运用倒推法可初步建立影响儿童发展的中间途径。研究表明，在农村地区的现实情况是0—3 岁儿童主要由家庭照养为主⑤，照养人的养育知识和技能以及家庭养育环境是影响婴幼儿发展最直接和最重要的环节（Luo et al.，2017a；Luo et al.，2017b；Yue et al.，2017；Yue et al.，2019）。因此，项目的短期目标是改善照养人（过程对象）的养育知识、态度、行为和家庭的养育环境，希望通过推动过程对象的改变影响最终目标对象的发展。

为衡量项目是否达成目标，目标还需要被转化为可量化的指标。指标的选择遵循SMART 原则，需要瞄准目标对象，反映项目目标，紧扣因果链，可量化且容易采集。项目组通过文献梳理，确定了项目最终目标（儿童早期发展水平）的测量指标为婴幼儿的运动、认知、语言、社会情感和适应性能力的发展，并选取被广泛使用的、具有较高信效度的测评工具进行测量。项目组最终使用了多种量表进行婴幼儿早期发展能力测评，包含：贝利婴儿发展量表（Bayley Scales of Infant Development，BSID），年龄和阶段问卷（Age and Stages Questionnaires，ASQ），年龄与阶段问卷—社会情感（Age and Stages Questionnaires，ASQ-Social Emotion，ASQ-SE）和照养人报告儿童早期发展量表（The Caregiver Reported Early Development Instrument，CREDI）（Fernald et al.，2017）。项目选取多种量表对儿童发展能力进行测评，目标是进行稳健性检验，并对不同量表的有效性进行对比。

项目的短期目标为改善照养人的养育知识和技能。项目主要通过四项指标对其进行量化：养育知识、态度、行为以及家庭养育环境。基于信效度以及在中国实用性的考虑，项目组最终选取了婴幼儿发展量表（Knowledge of Infant Development Inventory-Portuguese，KIDI-P）测量养育知识（Nobre-Lima et al.，2014）；选取父母控制源量表（The Parental Locus of Control Scale）测量照养人的养育态度（Campis et al.，1986），选取家庭照护指标量表（Family Care Indicators，FCI）测量家庭养育环境和养育行为（Hamadani et al.，2010；Frongillo et al.，2014）。此外，主要照养人的心理健康水平是影响儿童早期发展水平的关键因素，干预也可能通过影响照养人的心理健康进而影响儿童早期发展（Cogill et al., 1986; Lovejoy et al., 2000; Yue et al., 2017; Zhang et al., 2018）。因此通常还会使用抑郁-焦虑-压力量表（Depression Anxiety Stress Scale，DASS）等测量照养人的抑郁、焦虑、压力倾向（甘雨等，2019）。

3. 确定干预方案

针对贫困地区儿童早期发展问题，为实现政府主导和实现为全县所有适龄儿童及其家庭提供普惠性服务的目标，干预方案具体包含两个方面。

第一，以政府为主体负责项目的管理和执行。县委、县政府成立儿童早期发展工作领导小组，并在教育体育和科技局下设项目管理中心，进行社区动员以及日常管理，为项目实施提供保障，推动项目有序高效运行。

第二，试点地区地处秦岭中段南麓腹地、地广人稀、高山低谷地貌为主的特点为覆盖全县所有适龄儿童及其家庭带来挑战。为实现全覆盖，结合当地人文地理实际情况，研究团队因地制宜，采取了多种模式为家庭提供服务。首先，基于前期项目经验，招聘本地人提供服务是因果链中一个重要的环节。其优势在于，一方面为当地解决了就业问题，另一方面，由于他们熟悉当地的语言、文化和地理环境，有助于提高沟通交流的效率，以落实全覆盖的目标。政府和项目组共同在当地常住人口中进行招聘，并对笔面试合格的人员进行培训，在培训合格后他们成为一线养育师为家庭提供儿童早期发展相关的课程和活动的服务（包含一对一亲子课程和集体活动）。其次，由于51%的人口居住在城关镇，其他人口分散居住于其他乡镇和村里，因此需要因地制宜地确定服务提供的模式以实现全覆盖。基于前期项目的探索经验以及与当地政府和家庭的探讨（史耀疆等，2020），最终确定采用两种服务模式。一种是在人口较密集地区采用养育中心与入户家访相结合的模式为家庭提供服务。以中心模式提供服务能够提高服务家庭的数量，同时通过入户走访为这些地区自主参与有困难的家庭提供服务，以解决最后一公里的问题。二是在人口分散地区采用家访与家庭小组活动相结合的方式。由于人口分散，这些地区的家庭很难聚集到养育中心参与课程和活动，因此养育师通过入户为家庭提供一对一亲子课程和阅读课程的服务，并定期组织家庭共同开展集体活动，以解决人口分散地区的服务覆盖面问题。

4. 初步构建项目干预的变化理论（因果链分析，White，2009；Gertler，2016）

那么，项目的干预方案如何以及为什么能够影响照养人（过程对象）的养育能力和婴幼儿（目标对象）的能力发展？项目通过文献梳理和前期研究结果初步搭建了项目干预的变化理论。表2 以表格的形式勾画了项目因果链各环节的内容、各环节因果关联的假设、各环节的测量指标、影响项目效果的外部环境以及可能导致项目效果产生异质性的背景信息。

表2 养育未来整县项目因果链

典型的因果链像一个漏斗，任何一个环节的假设部分成立或不成立，都会导致下一个环节的断裂和渗漏。因此项目组在文献梳理和与相关利益方访谈的基础上，对影响各环节逻辑关联的假设条件进行了研究。从项目经验来看，活动是最容易发生渗漏和断裂的环节，因为这个环节最难以监控和度量。养育未来整县项目的核心活动是由养育师为照养人和儿童提供一对一课程和集体活动的服务。国内外研究显示，儿童早期发展干预项目的服务质量会显著影响照养人和儿童参与项目活动的频率，并最终影响儿童的发展。

在测量项目质量的维度上，干预强度（Dosage）、内容（Content）和关系（Relationship）三者被认为是影响儿童发展结果的重要方面（Paulsell et al.，2010）。其中，干预强度（D）表现为项目干预的频次、时长等；内容（C）表现为养育师是否准确无误、通俗易懂地讲解和示范了干预的材料内容等；关系（R）表现为照养人、婴幼儿与儿童早期发展服务提供者三者之间的相互关系。有关干预强度（D）的研究发现，减少干预强度对儿童发展结果存在不利影响。例如，Brown 和 Liao（1999）的研究发现，那些不定期或提前退出（减少干预强度）的家庭受项目的影响较小。Wallander 等人（2014）研究了印度、巴基斯坦和赞比亚的儿童在三岁前接受两周家访时照养人在指定活动上花费的时间与儿童发展结果之间的关系，结果发现照养人更频繁地执行所分配的活动的那些儿童通常有更好的表现（Riley et al.，2008；Paulsell et al.，2010）。有关关系（R）的研究发现，儿童早期发展干预项目服务提供者与照养人之间稳定的、尊重的、温暖的、诚实的、开放的和回应性的关系是项目有效的核心，这种关系能为照养人赋能（Riley et al.，2008；Paulsell et al.，2010），能够更成功地改变照养人的行为及更积极地影响儿童的发展（Peterson et al.，2007；Paulsell et al.，2010）。研究还发现，如果在儿童早期发展干预服务提供期间的关系质量不高，干预强度和内容对孩子的结果影响则并不大（Roggman et al.，2008）。

因此，项目变化理论将项目服务质量（包含干预强度、内容以及关系指标）设定为项目是否成功的重要前提假设。项目服务质量低下将直接影响家庭和儿童参与项目活动的情况，从而影响照养人的养育知识和技能，进而影响儿童的发展。

在影响婴幼儿能力发展的因素中，家庭因素及生物学方面的因素也被广泛研究。家庭是儿童社会化的初始坏境，是儿童获得早期生活经验，建立人际关系，获得最初的社会规范并形成行为习惯的主要场所。研究发现家庭环境因素在婴幼儿期的影响力较遗传因素更为重要（Neiss & Rowe，2000）。生物学因素方面，儿童气质是影响其心理发展的不容忽视的因素。研究发现，儿童气质对社会性行为及人格的发展有着至关重要的作用（Sanson et al.，2002）。Stanhope 和 Parker-Cohen（1987）的研究表明，儿童气质与利他行为显著相关，爱交际的儿童表现出更多的利他行为。还有研究结果表明儿童气质与攻击行为之间存在密切的联系（Sanson et al.，2002）。因此，项目将家庭特征和儿童特征（包含儿童基本特征和儿童气质类型）作为影响项目大小的重要调节变量。

基于前期项目经验和访谈，养育师作为项目质量的保证，其能力素养也可能改变项目影响的方向和大小。社区外部环境也可能影响项目的执行效果。因此，项目将养育师特征和社区特征设定为影响项目效果大小的重要背景信息。

5. 过程评估（Process Evaluation）：完善变化理论

为验证初步建立的因果链内容和因果关联的假设是否符合养育未来整县项目初步建立的因果链，需要对因果链中最容易产生渗漏的活动环节开展过程评估。项目组通过与利益相关方（如一线工作人员、项目管理中心工作人员、项目执行合作伙伴和政府机构相关人员等）进行一对一和焦点小组访谈，形成质性研究结论。研究结论细化了项目执行过程中项目质量模块包含的内容、能够更好地衡量项目服务质量的具体指标以及这些内容可能会对项目产生重要影响的原因。衡量项目干预内容（Content）是否被准确传递的指标包含一线养育师是否按照要求准确讲解了活动目标、是否按照流程进行亲子课程讲授等。衡量项目干预强度（Dosage）的指标包含课程和活动参加频次和时长、借绘本玩具回家的频次、课后在家练习的频次和时长等；衡量关系（Relationship）的指标包含家长与养育师的关系、儿童与养育师的关系、家长与家长之间的关系等。研究结论同时也发现，项目干预可能存在溢出效应，即县城地区由于人口密集，控制组在干预阶段也可能受到了项目的影响。这些结论帮助项目组进一步细化了定量数据收集的内容以及初步的分析计划。

6. 数据收集和作用机制分析

以养育未来整县项目为例，项目组在基线调研、项目执行和追踪调研阶段，基于完善后的因果链所确定的不同环节的变量指标进行了定量数据收集。项目组在基线调研时通过问卷调查收集了家庭基本信息，家庭养育知识、观念、环境和行为，儿童个人的基本特征和气质类型，社区特征和养育师特征等信息。在追踪调研和项目执行过程中，也收集了有关项目质量的数据，如家庭课程和活动参与时长（Dosage）、养育师服务内容的质量（Content）以及养育师与家庭的关系（Relationship）。这些变量是调节效应分析（即异质性分析）的重要调节变量（moderators），能够帮助我们理解干预措施会在“何时”以及对“哪些人群”的结果有不同的影响（Frazier et al.，2004）。这些调节变量可能会改变干预对结果变量的影响方向或大小（Frazier et al.，2004）。因此，该分析使研究者跨越总体的平均效果分析，进一步探索干预对结果影响的异质性。

在养育未来整县项目中，根据因果链阶段梳理的调节变量，我们通过在回归分析中添加交互项进行调节效应分析。交互项为干预变量与基线收集的家庭特征（家庭收入水平、照养人的年龄和教育水平、照养人是否为母亲等）、儿童特征（性别、气质类型等）、社区（农村或县城地区）或养育师特征（入职笔试和面试成绩、教育水平、是否有过幼儿相关工作经历等）等变量之间的交互。

在项目实施和追踪调研阶段，项目组收集了因果链中有关中介变量的数据。项目组通过信息管理系统（包含基于面部识别的签到设备），在项目实施阶段持续收集了家庭参与项目课程和活动的频次这一核心指标的数据。通过面部识别收集这些数据在一定程度上降低了数据测量的误差，保证了数据的真实性。在追踪调研时，项目组通过问卷调查收集了有关家庭和照养人的相关数据，如照养人的养育知识（Knowledge）、态度（Attitude）和行为（Practice），以及家庭养育环境等核心指标的数据。这些变量是中介分析的重要中介变量（mediators），将用于项目的中介分析，帮助我们厘清项目的作用机制，回答以下问题：项目对儿童发展的影响是否主要通过改变照养人的知识、态度、行为或者养育环境的某一单一因素而实现?照养人的知识、态度、行为以及养育环境之间是否存在逻辑关联？

中介效应和调节效应分析的结果将是帮助我们确定项目干预有效和项目干预应该如何在不同人群中适配的关键因素。这些结论将帮助项目组完善项目实施手册，为农村贫困地区的婴幼儿干预项目提供经过实证分析验证的、更加精准的、宜推广的政策建议。当然，项目仅在一个贫困县开展了研究，因此项目干预对于不同地区的影响仍是一个有待研究的问题。

四、总结

本文概述了基于理论的影响评估（TBIE）作为一种方法框架，在随机干预实验（RCTs）作用机制分析中的应用。需要明确的是，TBIE 的目标不是为了提供更好的反事实对照组（Counterfactuals）以提高分析的内部有效性，也不是为了提高统计分析的功效，TBIE 的目标是理解一个项目或者一个政策的作用机制（Mechanisms），干预方案究竟是如何以及为什么会影响目标对象结果的变化，干预方案究竟对哪些人群、在何时何地会有不同的影响。其核心是以目标对象面临的实际问题为导向、以变化理论为基础来进行作用机制的分析和探讨。本文对随机干预实验机制分析框架进行了概述，结果发现，以问题为导向是社会项目和政策的初心，基于问题的成因建立的目标使得项目和政策的方向更加精准，变化理论则引导项目的实施，数据的收集和机制分析，最终产出的结果是对一个项目和政策的作用机制的理解，以便更好为政策和项目提出建议。在这个过程中，我们强调变化理论的建立需要基于经过验证的理论，而非未经检验的假设。

在基于理论的作用机制分析框架中，我们强调以变化理论为基础开展数据收集和分析。一种对变化理论的质疑是，如果我们过多关注于已经建立的变化理论，认为这就是所有应该关注的内容，那么我们可能会忽视一些预期外的影响。有两种方法可以弥补这一缺陷（White，2009）。首先，变化理论的搭建是不断修正的过程，关注项目的执行过程，通常能够发现预期外的影响，比如环境方面的影响；其次，前期的实地调查工作，包括与利益相关方的访谈和案例分析，是评估设计的重要环节，它也可以发现预期外的结果，进而将其纳入到评估框架中。预期外影响的问题也与采用谁的理论相关。一个好的以理论为基础的影响评估设计在评价一个项目如何发挥作用时会考虑各种竞争性的理论。因此，评估自然就要同时考虑官方的变化理论和反对者的理论（Carvalho et al.，2002；Carvalho et al.，2004；Carvalho &White，2004）。

还有一种质疑是变化理论偏于静态分析，而项目通常存在变通和发展的情况（White，2009）。项目文件里描述的系统可能与实际执行脱节，可能是因为设计方案重新修改，也可能是因为一线的操作人员随意解读项目设计方案。针对前者，因果链应当反映新的设计方案，评估要记录下方案设计的修改过程。针对后者，需要注意的是，计划实施与实际执行之间的差异便是评估的关键问题：为什么会出现这些差异，对项目会产生怎样的影响？因此，变化理论只是一种“理论”，它有待在实践中检验。即使在某一时刻被验证可行的变化理论，也会因为社会问题、外部环境、行业趋势以及目标对象都在不断变化之中，而需要接受定期的回顾和调整。因此，建立变化理论的最佳时间是在项目实施前或者是对已有的项目进行更改前，并且变化理论也需要不断被修正。项目设计者应当进行文献综述，对类似项目的经验、变化理论背后的假设、项目实施背景和特殊环境等进行梳理。同时，利益相关者（项目执行者、政策制定者、项目资助者、项目设计者等）可以共同参与讨论和论证。这样的过程对于一个希望最终能改变目标对象的行为的项目尤其重要。这样的过程不仅能够优化项目设计，还能够使项目各方形成一致的愿景和目标，并充分理解如何才能达成预期的目标、各环节的假设是否符合真实情况等。当利益相关者在项目实施过程中有一个全局观和对项目的共同理解时，项目的执行才能不偏离目标，各个环节才能环环相扣，以保证目标的实现。此外，在项目执行前建立变化理论，能够给与研究者更多的时间去验证和修正变化理论，使最终的作用机制分析建立在更为符合实际的假设和理论之上。

基于中间变量进行作用机制分析还可能存在统计功效不足的问题。RCTs 在进行统计功效计算时一般是基于对主要结果的整体干预效果的预测，因此，基于中间变量的中介和调节分析可能会有统计功效不足的问题。然而，试验已经普遍包括中介和调节分析，我们只是建议这样的分析应更侧重于测试关于干预机制如何与环境相互作用以产生结果的假设，并建议这样的假设应更多地通过干预理论和过程评估数据的初步分析来进行完善和修正（Jamal et al.，2015）。

最后值得讨论的一点是学术界对于基于理论的影响评估及其所使用的因果链分析方法是否真的可以揭示“因果机制”的质疑。质疑的焦点在于，构成RCTs 干预的因素十分复杂，将因果机制简化为假设、中介效应和调节效应太过简单化（Marchal et al.，2013；Van Belle et al.，2016）。但是这些研究也并不否认以变化理论为基础的随机干预实验确实也是作用机制分析的一个进步。我们可以基于Mahoney（2001）提出的对于“因果机制”的三个层次的定义来理解。第一个层次的机制是变量层次。这种机制分析注重一个（一组）中间的变量与因变量之间存在相关性（Correlation），而非因果性的分析。第二个层次为变化理论（即因果链）层次，将因果机制视为可以用来解释一系列（中间或最终）结果的中层理论或变量。因果机制被定义为一种在某些特定情形下被激发的重复发生的规律（Elster et al.，1989）。但是这种依据变化理论的分析实质上是将因果关系浓缩于因果链上的若干元素，并没有提出更具体的分析方法以揭示作用机制。前两种层次的关注重点是确定前因与结果的规律性联系，只留意时间上的先后性（Succesionist）。第三个层次是科学现实主义层次（Scientific realism），认为因果机制是“一个未被观察到的实体，当它被激活时，会产生一个我们所关注的结果”。这是一种生成性的观点（Generative，与Succesionist 相对），认为机制是主体（Agents）和结构（Structure）所固有的性质，个体的选择蕴含着个体的理性推断（Reasoning）过程以及对干预所导致的资源变化的反应（Van Belle et al.，2016）。

基于上述分析，Van Belle 等人（2016）认为，将机制（以及“背景”）简化为变量在因果推断的第一个层次；加入“中介”和“调节”作用使基于理论的影响评估发展到了第二个层次，但仍然没有满足科学现实主义（Scientific Realism）所提出的采用复杂因果关系的配置的要求，因而还无法实现因果推断的第三个层次。因此，这种批评承认基于理论的影响评估是一种从第一层次到第二层次的进步，但是认为要达到第三个层次，作用机制的解释应提出一套方案理论（Programme Theory），说明如何使用适当的数据和分析方法，通过干预、行动者、环境和机制的整套配置来解释结果。然而，Van Belle 等人（2016）也没有提出实现第三个层次的具体方法。总结相关文献，本文认为，目前关于第三个层次的因果机制的探索仍然停留在理论层面，在实践层面还没有好的解决办法（Pearl & MacKenzie，2018），因此，基于因果链的因果机制分析仍然是目前最好的解决方案。

基于因果链的TBIE 框架能够帮助我们理解干预如何导致政策结论以增强项目影响的。要做到这一点，变化理论需要以灵活的方式进行阐述，以适应该领域不断变化的环境，并考虑相互竞争的理论和意料之外的结果，也需要使用多种方法进行分析，将事实分析和反事实分析结合起来。