基于元分析的助推效果研究：“认知路径”与“透明性”的二维视角*

2023-12-14陈文进张书维

心理科学进展 2023年12期

李燕陈文进张书维

(1 中国海洋大学国际事务与公共管理学院, 山东青岛 266100)(2 中山大学中国公共管理研究中心/中山大学政治与公共事务管理学院, 广州 510275)

1 引言

作为行为公共政策的“旗舰行动”, “助推”一经提出便迅速风靡全球, 英国、美国、德国、澳大利亚、新加坡等国家纷纷成立专门的研究机构探索如何运用行为科学知识实现政策目标。虽然助推政策工具在节能减排、教育和扶贫等领域收效良好, 但众多经验证据表明, 助推并非矫治个体“行为偏差”的“万灵药”: 助推的公众接受度呈现出明显的跨文化差异; 助推干预具有“短视效应”, 难以对个体行为产生永久性的形塑效果; 反复使用相同的干预措施将导致效用递减, 出现重复暴露效应。因此, 不加思考地盲目运用助推不仅无法有效引导公民行为, 甚至会适得其反(Gigerenzer, 2015; 李燕等, 2021; Thaler, 2015)。助推在实践中面临的挑战促使学者开始反思助推的有效性及其适用条件, 较为常见的做法是针对助推行为干预实验结果进行元分析。相关研究或是聚焦于评价某种助推工具(如默认效应, 信息干预等)在不同政策领域的行为效果(Jachimowicz et al., 2019; Nemati & Penn, 2020; 张书维等, 2022;赵宁等, 2022), 或是关注分析与比较某一特定行为领域中(如饮食习惯、疫苗接种等)不同助推措施的相对优势(Arno & Thomas, 2016; Reñosa et al.,2021; Vasas, 2023)。

然而, 一方面, 由于效应量指标选取的差异,不同元分析结果之间缺乏可比性, 致使我们无法综合审视不同助推工具在各常见行为领域中的整体效果。另一方面, 科学而全面的助推分类是对不同助推工具有效性进行综合评价的前提, 现有文献大多将构建决策情境(包括决策信息和外界环境)的干预技巧或认知过程作为助推类型的划分标准, 但这种分类方法无法涵盖所有助推措施;多种认知路径及干预技巧常常交织在一起共同发挥作用, 这使得根据决策情境进行助推类型划分无法对不同助推干预措施的真实效果给予客观准确的评估, 也无助于回应学界关于不同认知路径与不同透明性之下助推有效性的争议。

针对以上局限性, 本文借鉴Hansen 和Jespersen(2013)的分析思路, 从助推方式是否依赖直觉式反思和是否透明两个维度构建助推分类框架。基于该框架, 首先对行为公共政策专业期刊Behavioural PublicPolicy(2017～2022)与BehavioralScience&Policy(2015～2022)中40 篇助推研究的108 个实证结果进行元分析, 整合分析不同助推工具在各常见行为领域的效应量及其差异, 探索助推效果异质性的根源。其次, 分析与比较不同认知路径和透明程度助推措施的相对优势。最后, 探索助推认知路径、透明性与助推效果异质性影响因素的交互效应。

作为行为公共政策领域最具影响力的两本专业期刊,BehaviouralPublicPolicy与Behavioral Science&Policy由行为经济学、行为公共政策领域顶尖学者担任编委会成员。自创刊以来1注：截至2023 年4 月, Behavioural Public Policy 共出版7卷19 期(2017 年创刊), 期刊网址: https://www.cambridge.org/core/journals/behavioural-public-policy. Behavioral Science& Policy 共出版8 卷14 期(2015 年创刊), 期刊网址:https://behavioralpolicy.org/, 该两本期刊持续聚焦以助推为代表的行为公共政策理论与实践, 汇聚高质量研究成果, 在国际行为公共政策领域享有极高的学术声誉与学术影响力。此外, 相比心理学、经济学类期刊中的助推实验研究, 行为公共政策专业期刊更加关注助推在实际政策领域的效果, 以公民在真实政策情境中的行为来衡量助推干预效应(大多为实地实验), 可以克服传统实验室实验的“外部效度困境”, 研究结果更能体现出助推的实践价值。因此, 本文聚焦“行为公共政策”领域的助推研究, 选取BehaviouralPublicPolicy与BehavioralScience&Policy中的助推研究成果作为元分析文献来源,能够更加有针对性地系统评价不同助推工具在各常见行为领域中的整体效果。

本文学术贡献主要体现在: (1)基于“认知路径”与“透明性”二元视角对助推行为效果研究进行元分析, 能将多种心理认知过程以及干预技巧的实际效果相互剥离开来, 有助于形成对不同类型助推真实效果的客观认知。(2)对不同类型助推效果及其差异性的评价, 不仅回应了关于助推设计是否应该透明的学术争议, 比较了两条认知路径改变行为的效果差异, 还为后续政策实践中助推工具的选择提供了实证依据。(3)本研究对助推效果异质性根源的分析, 丰富了相关文献对助推有效性影响因素与适用条件的阐释, 促进了行为公共政策科学的知识积累。

2 理论基础与分析框架

科学而全面的分类是对不同助推工具有效性进行综合评价的前提, 现有助推效果元分析大多沿用经典的“MINDSPACE”框架(Nisa et al.,2019)。该框架以个体行为背后的心理过程作为分类标准, 但却无法将所有驱动行为改变的心理因素全部涵括其中。例如, Keppeler 等(2022)尝试通过激发公民对物品的心理所有权(psychological ownership)来引导个体接种新冠疫苗, 该措施背后的心理机制就超出了“MINDSPACE”框架所能解释的范畴。进一步地, “MINDSPACE”框架所提供的心理驱动因素更侧重于激发个体的直觉式思维(automatic system), 忽略反思性思维(reflective system), 导致许多常见的教育性助推(educative nudge)也无法在此框架中进行归类(Michie et al.,2011)。例如, 医院给病人提供包含不同诊疗方案的具体信息(涉及医疗风险、金钱成本等), 病人可以根据偏好选择更加适合自己的诊疗方案, 但该行为干预措施却无法在“MINDSPACE”框架中找到相应位置。

由此可知, “MINDSPACE”框架依据助推措施所对应的认知偏误和心理特征识别出常见的助推类型, 却无法涵盖所有可能的助推干预工具, 也无助于回应学界关于不同认知路径与不同透明性之下助推有效性的争议。Hansen 和 Jespersen(2013)以助推方式是否依赖直觉式反思和是否透明两个维度构建助推分类框架, 由于助推措施的认知路径只涉及系统1 或系统2, 透明性也可以明确划分为透明型或非透明型。因此, 任何助推措施都能在“认知路径−透明性”的二维分类框架内进行明确区分。基于此, 本研究借鉴Hansen 和Jespersen (2013)的分析思路, 从认知路径−透明性二元视角建立分析框架, 将实践中常见助推干预手段涵括其中。借鉴该分类框架进行元分析, 比较不同助推类别效果的差异, 对不同认知路径和透明性助推措施的真实效果给予全面客观的评价。

2.1 助推作用的认知路径: 直觉捷思与深思熟虑

根据Kahneman (2011)的认知双系统理论, 人类大脑运行着两种行为决策模式: 一种是凭借直觉、不受控制、无意识的快思考, 即系统1; 另一种是深思熟虑的、有意识的、理性的慢思考, 即系统2。多数情况下, 人们并没有足够的时间、资源、动机来进行充分的理性思考, 大部分行为都是无意识的经验决策, 因此早期观点认为助推应作用于系统1 的自动过程, 无需启用系统2(Marchiori et al., 2017; Thaler & Sunstein, 2003, 2008)。正如Thaler 和Sunstein (2008)在Nudge一书中写道的:“辛普森忘记了自己的理性思维系统……而我们写作本书的目的之一就是去探索现实生活中的辛普森们如何去更好地生活(pp. 26−27)”, 助推最初就是为了巧妙利用个体“非理性”行为特征的局限性来帮助人们做出正确决策。

然而, 随着助推措施应用的不断深入, 学界对助推作用机理的认识也开始发生分歧。部分学者坚持认为助推仅通过系统1 的“捷思”来改变行为(Hertwig & Grüne-Yanoff, 2017; Marchiori et al.,2017), 声称助推是利用个体认知缺陷来引导行为改变, 核心在于构造环境以适应个体的启发式思维与认知偏误, 从而激发出理想的行为结果(de Ridder et al., 2022), 并通过阻止个体对替代方案的利弊进行思考的方式来影响其行为(Mols et al.,2015)。也有研究人员将“助推”与“思考”视为改变行为的两种不同途径, 前者针对那些存在认知障碍、依赖经验、缺少理性思维的个体, 后者则适用于擅长理性思考、渴望知识、具有自我反思能力的个体(John et al., 2013)。另一部分学者则开始关注系统2 对于提升助推干预效果的潜在价值。英国行为洞察力小组(Dolan et al., 2010)扩展了助推的认知作用路径, 认为系统1 和系统2 都是引导行为改变的有效方式, 就常见的9 种助推措施而言, 规范、默认选项、显著性、启动效应、情感与系统1 相关, 报信者、激励、承诺、自尊则更多涉及系统2。Sunstein (2016)区分了教育性助推与非教育性助推, 教育性助推通过增加目标群体的知识与能力来强化系统2; 非教育性助推则旨在唤起或激活系统1 的自动决策机制, 并不寻求增强个体能力。John 和Stoker (2019)提出“助推+”(nudge plus), 认为在助推过程中应尝试激发公众的自主反思, 使个体决策免受专家或精英主导的“家长式”干预, 以尽可能避免对个体自主性的侵犯。如果在助推设计中能够融入激发个体自主思考的元素, 则有助于强化助推效果(Banerjee &John, 2021)。

实证分析表明, 系统1 助推以其低成本、易实施等特点而在改变个体行为的效率方面略胜一筹(de Ridder et al., 2022), 但系统2 助推更尊重个体自主选择权, 它通过强化个体能动性来改变其行为, 因而更容易被目标群体所接受, 干预效果也更加持久(Banerjee & John, 2021; Jung & Mellers,2016; Sunstein, 2016, 2017)。事实上, 两种认知过程并非独立作用, 任何助推干预都会触发系统1的自动模式, 而系统2 的反思性思维需要在系统1的自动模式所构建的环境中运行。一项关于环保设施选择的实验研究也显示, 默认选项这一助推干预措施可同时通过系统1 与系统2 发挥作用,不同认知路径的助推措施均能有效引导行为改变(van Gestel et al., 2021)。因此, 本研究认为, 根据认知路径对助推进行分类的关键在于识别具体干预措施是否涉及反思性思维的运用, 如果干预措施发挥效用以个体深思熟虑为前提, 那么可归类为系统2 助推, 反之, 则为系统1 助推(Hansen &Jespersen, 2013)。

2.2 助推干预的透明程度: 默默引导与公之于众

根据助推实施过程中是否明确告知目标群体干预目的、方式及其背后的心理机制, 可将助推干预分为透明型助推与不透明型助推(Bovens,2009; Hansen & Jespersen, 2013)。不透明型助推主张“润物无声”, 通过隐蔽的方式悄然改变目标群体的选择架构, 默默引导其行为。透明型助推则强调干预信息的公开性, 即通过各种方式让人们知晓干预的存在与目的, 让他们知道助推如何影响行为(Loewenstein et al., 2014)。

虽然不透明型助推常常因其违背公开性原则和涉嫌操纵个体行为而饱受争议与质疑(付春野等, 2022), 但正如Sunstein (2017)所言, 助推在多数情况下需要以人们察觉不到的方式来引导其行为。之所以选择默默地施加干预, 是因为如果公开宣称助推政策的意图和形式, 干预将很可能归于失败(Bovens, 2009), 人们是否能意识到自己的选择受到了影响(Hansen & Jespersen, 2013; Steffel et al., 2016), 这是助推有效性的关键。早期的元分析结果也证实, 政策目标群体的充分知情确实会导致其产生心理防御机制来强化原来的态度和行为(Wood & Quinn, 2003), 这不仅将使助推干预变得低效甚至无效, 更有可能引发公众的逆反心理(Krijnen et al., 2017)。

以上研究似乎表明, 助推的透明性和有效性无法兼顾, 这引发了学界对于透明型助推效果的普遍担忧(Paunov et al., 2019a)。然而, Sunstein(2015)却指出, 理论上, 透明型助推并非必然失败, 其有效性取决于人们所感知到的自主选择权被限制的程度。若人们认为公之于众的助推措施并不会对自己的自由选择权构成威胁(如提供信息、提醒、警告), 那么透明性不会对助推效果产生负面影响; 反之, 如果公开的助推干预使个体明显感受到自身决策受到了操纵(如默认选项、社会规范), 则会引发人们的排斥。此外, 公民对选择架构师(政策制定者)的信任、个体“叛逆性”程度等都会影响透明型助推的效果。此后, 越来越多的实证分析也支持了透明型助推的有效性, 例如,Loewenstein 等(2015)和Steffel 等(2016)关于透明与不透明默认选项效果的实验分析显示, 透明的默认选项同样有效, 是否隐瞒干预信息不会影响干预有效性, 即使被试知晓干预是不道德的, 默认选项仍能够引导行为改变。Kroese 等(2016)操控货架物品摆放(在视线明显的地方摆放健康食品)的研究亦表明, 公众在知晓自身被引导消费的情况下, 也依然会选择购买健康食品。

需要指出的是, 现有文献依据公开干预信息的内容(干预手段、干预目的、预期结果)对透明型助推进一步细分并比较其相对效果 (Kroese et al.,2016; Marchiori et al., 2017), 本文并未采取这一做法, 其原因在于: 目前关于透明型与不透明型助推效果的比较研究大多以默认选项这一助推措施为分析对象(de Ridder et al., 2022), 缺乏对其他干预措施的考察, 加之助推行为领域也会影响透明性效果, 但已有研究多聚焦于消费决策, 缺乏对其他行为领域的关注。因此, 为了尽可能分析与比较更加广泛的行为领域中多种常见助推手段透明型与不透明型的干预效果, 并考虑到元分析的方法可行性和变量可操作性, 本文不对透明型助推的具体类型进行过于细致的分析, 仅根据助推实施过程中是否以目标群体能充分察觉的方式公开干预信息(任何一种均可)来区分透明型助推与不透明型助推, 综合考量两者的有效性及其差异。

2.3 助推效果的差异及其成因

助推措施在不同决策情境中效果的异质性已得到众多经验证据的支持(DellaVigna & Linos,2022; Mertens et al., 2022; Nisa et al., 2019), 对于其差异成因的探讨主要形成了两种思路: 一是选取特定要素作为基准(如行为领域, 实验设计等)进行元分析, 对比助推措施在不同情境中的效果差异(Hummel & Maedche, 2019; Mertens et al.,2022); 二是综合各潜在影响要素进行回归分析,比较各因素对助推效果的影响效应(Cadario &Chandon, 2019; DellaVigna & Linos, 2022; Jachimowicz et al., 2019; 赵宁等, 2022)。本研究依循第二条分析进路, 探究助推效应异质性的根源。整体而言, 除了助推类别的差异, 可将影响助推效果的因素归结为研究设计, 行为特征与行为领域三类。

(1)研究设计

研究设计中的实验类型、被试样本量、变量的数据类型均可能对助推有效性产生影响。就助推干预的实验类型来看, 由于不同实验类型对于实验条件的控制程度存在差异, 实验室实验被认为能够最大程度避免外界干扰, 因此会产生更好的效果(Cooper, 1981), 其研究结论也更具普遍性(Lunn & Choisdealbha, 2018)。有学者发现实地实验的效果更好, 这可能是由于进行实地实验之前一般都会先进行预实验, 研究者会选择产生较大效应量的研究结果来进行实验, 而实验室实验大多处于探究阶段, 更难发现实际效果(Peterson et al.,1985)。但新近实证分析结果却并未发现不同实验类型效应量的差异, 因此哪种实验类型更适合探索行为干预效果还需更多的经验分析(Jachimowicz et al., 2019; Mertens et al., 2022)。

根据被试数量, 随机对照实验可分为大规模实验(样本量 ≥ 1000)和小规模实验(样本量＜1000)两类(Lelorier et al., 1997)。现有文献在研究样本量(单个实验中控制组与对照组合计被试数量)对效应量的影响作用时, 通常以此作为分类标准来比较不同样本量实验研究之间效应量的差异(Kjaergard et al., 2001)。在医疗、教育等学科领域的元分析研究已经得出一致的结论, 即小规模实验效应量通常高于大规模实验(Slavin & Smith,2009), 但在行为公共政策领域, 学者关于样本量对效应量的影响作用尚未达成共识。例如Nisa 等(2019)对环保领域行为干预实验的元分析结果显示, 小规模实验效应量高于大规模实验, 但Jachimowicz 等(2019)对默认选项效应量的元分析却表明, 大规模实验与小规模实验的效应量并无显著差异, 这说明样本量在助推实验研究中的影响效应仍需继续探究。

元分析效应量的计算方式依赖于不同实验研究所选取的变量类型, 连续变量(如“捐献或投资的金额”)与二分类变量(如“是或否”)分别代表着被试人员不同的回应方式, 不同回应方式下被试面临的决策情境也存在差异。虽然通过统计学方法可将根据不同变量类型所计算的效应量化归到同一维度进行比较(Sánchez-Meca et al., 2003;Tang et al., 2013), 但不同决策情境是否会影响行为干预效果还有待实证探索(赵宁等, 2022;Jachimowicz et al., 2019)。

(2)行为特征

根据行为科学相关知识, 行为动机与行为是否涉及金钱变动等行为特征变量将影响助推措施的实际效果。理论上, 当人们意识到其亲社会行为是被引导而非自发做出的时候, 助推干预的效果就会大打折扣(Arad & Rubinstein, 2018;Sunstein, 2017), 但实验研究结果却并未发现利用助推引导利己或利他性行为时的效果存在差异(Jachimowicz et al., 2019; Mertens et al., 2022)。因此, 有学者指出, 行为动机对干预效果的影响可能与助推的透明性及行为的公开性有关(Gråd et al., 2021)。进一步地, 理性个体的决策行为遵循效用最大化原则, 实际金钱变动较易于感知与计算, 更能激发系统2 的反思性思维进行决策。但是, 对于诸如默认选项等助推措施而言, 其有效性的发挥更多是通过改变选择架构而依赖系统1的自动思维做出决策, 因此, 当助推措施所调整的行为涉及金钱变动时, 依赖系统1 认知路径的助推干预可能无法达到预期效果(Thaler &Sunstein, 2008)。此外, 根据动机拥挤理论, 金钱激励会增加个体外在行为动机, 但同时也可能降低其内在行为动机(Frey & Oberholzer-Gee, 1997;Gråd et al., 2021)。因此, 涉及金钱变动的行为是否会影响干预效果, 其背后的作用机理是通过认知路径还是内外动机仍有待进一步实证分析。

(3)行为领域

助推效果在不同行为领域的异质性是行为公共管理研究的热点议题, 相关成果大多聚焦于对健康、消费、金融及公共利益领域的助推有效性予以比较分析(Mertens et al., 2022)。例如, Jachimowicz等(2019)的研究发现, 默认选项在消费领域的干预效应较高, 在环境领域的有效性较低, 但并未发现健康与其他领域的影响效果存在差异。然而,DellaVigna 和Linos (2022)的分析则表明, 助推干预措施在健康和公共利益领域的干预效应较高,在消费领域的干预效果较差。这一差异可能源于分析对象的不同, 前者仅以默认选项为分析对象,而后者的研究涵盖了多种助推类型。再如,Hummel 和Maedche (2019)的元分析结果显示, 助推在金融领域的干预效果要高于健康领域, 但Mertens 等(2022)的元分析结论却完全相反, 造成这种差异的原因可能是不同研究文献筛选标准各异(如健康领域可进一步区分为医疗健康、饮食健康等, 而对医疗健康与健康饮食的干预效果可能不同)。这表明已有研究虽验证了助推在不同行为领域效果的差异, 但对于助推在不同领域效果的比较分析尚未形成一致结论。

2.4 认知路径、透明性与异质性要素的交互作用

一直以来, 学界对于系统1 与系统2 助推、透明型与不透明型助推效果的相对优势存在较大争议 (de Ridder et al., 2022), 出现这种争议的原因可能是由于现有大部分研究都仅基于单一维度进行比较, 未充分考虑不同认知路径或透明性助推在不同情境中的适用性存在差异, 而这种差异会通过认知路径、透明性与异质性影响因素间交互作用表现出来。

已有文献从理论分析和实证研究两个角度探索了不同认知路径助推适用情境。理论上, 人们利用系统2 做决策时需要付出努力进行自我控制,那些无法进行自我控制的个体在面临复杂的认知任务时, 更容易放弃。而系统1 的决策过程无需公民付出努力, 对于自我控制能力弱的公民, 利用系统1 助推的效果会更好。另外, 根据认知负荷理论(Cognitive Load Theory), 人们在处理信息时受到自身记忆能力的限制, 当认知任务超过自身记忆能力的极限时, 会增加公民做出错误决策的几率。由于系统1 决策利用人的直觉思维, 对认知能力要求较低。因此, 有学者认为人们在高认知负荷的情况下, 系统1 助推效果会优于系统2助推(Weijers et al., 2021)。实证研究也印证了系统1 助推与系统2 助推在不同情境中干预效应的差异性。例如, 当助推行为与公民利益相关时(引导公民购买洪灾保险、残疾保险等), 激发公民的反思性思维(系统 2 助推)的效果更好(Banerjee &John, 2021); 当目标群体的个人偏好与助推引导的预期行为方向相反时, 这种情况下系统1 助推更加适用(de Ridder et al., 2022)。

不同条件下透明性对助推效果的影响亦存在差异。学者普遍认为, 不同干预措施对个人自主权的威胁程度, 是影响透明型助推效果的关键。Sunstein (2015)提出, 透明型助推的有效性取决于人们所感知到的自主选择权被限制的程度, 当公民认为助推措施对其自主选择权构成威胁时, 隐蔽的进行干预效果更好。实证研究结果也表明,对公民自主权侵入性强的干预(如自助餐厅减少盘子尺寸)应保持其隐蔽性; 对公民自主权侵入性低的干预(如默认选项), 政府主动公开干预信息会强化公民信任, 增强干预效果(Paunov et al.,2019b)。另外, 透明型助推在不同行为领域的效果也表现出明显的异质性。如Kroese 等(2016)操控货架物品摆放(在视线明显的地方摆放健康食品)的研究发现, 公开干预信息同样能够有效引导公民购买健康食品。Gråd 等(2021)研究默认选项对捐款行为的影响效果时发现, 透明默认选项效果明显低于不透明默认选项。因此, 有学者推断, 当助推所引导的预期行为对公民自身有益时, 透明型助推的效果更佳(Marchiori et al., 2017)。

以上研究表明, 不同认知路径或透明性助推在具体情境中的效果是存在差异的, 不能脱离具体的干预情境来比较不同认知路径或透明性助推效果。因此, 分析认知路径、透明性与异质性影响因素可能存在的交互作用, 有助于回应学界关于不同认知路径与不同透明性之下助推有效性的争议。

3 研究方法与数据来源

3.1 研究方法

元分析(Meta Analysis), 也称荟萃分析, 是一种对已有实证研究结果进行系统评价的统计方法。元分析中效应量指标的选择非常重要, 其大小表示不同研究中助推行为干预效果的强度。根据行为干预实验研究的特点, 标准化均值差能更好地体现行为科学领域控制组与对照组的差异(Jachimowicz et al., 2019)。当所有数据转化为组间标准差等于1 的尺度时, 标准化均值差在不同研究间也具备较高可比性, 因此本文选择以标准化均值差作为效应量估计值, 通常称为Cohen’sd系数, 该系数值越大, 表明干预效果越好(Borenstein et al., 2009), 本文运用 Comprehensive Meta Analysis 2.0 软件计算效应量。

3.2 数据来源

本文选择行为公共政策权威期刊Behavioural PublicPolicy(2017～2022)与BehavioralScience&Policy(2015～2022)发表的助推干预实验研究进行元分析, 共筛选出40 篇文章, 得到108 个研究结果。文献搜索过程中将两本期刊发表的所有文章全部纳入检索范围(合计330 篇), 再采用阅读全文的方式对文献进行逐一筛选, 元分析文献搜索及筛选流程如图1 所示。

图1 文献搜索及筛选流程

40 篇样本文献中, 关注行为多数集中于健康、消费、公共利益等领域; 其中, 实验类型以实地实验(25 篇)和在线实验(11 篇)为主; 39 篇文章采用随机对照, 仅1 篇采用前后对照的实验设计;大多数文章更关注规范(Norm)、凸显(Salience)、报信者(Messenger)等干预方式的实际效果; 样本来源以西方国家为主, 以英国、美国、德国、荷兰被试为样本的文献居多; 文献中的样本量最低为88, 最多高至11157069, 不同研究样本量存在较大差异(见表1)。

续表

4 实证分析

4.1 助推效应量估计

考虑到不同研究样本量的差异, 固定效应模型以样本量作为赋权标准将会产生较大误差, 故采用随机效应模型来综合效应量。根据 Cohen(1988)的判断标准, 以d= 0.2,d= 0.5,d= 0.8 为分界值, 分别表示小、中、大效应量。研究结果显示, 助推干预效果的综合效应量d= 0.21, 95%CI = [0.19, 0.23], 表明本次研究观测到的效应较小。有6 个研究效应量小于0, 47 个研究效应量在0 到0.2 之间, 55 个研究效应量大于或等于0.2, 不同研究效应量存在明显差异。

异质性检验结果显示,I2= 99.5%,I2统计量代表有多少变异是由真实差异值导致的,I2为0 说明所有观察到变异都是由随机误差导致, 大于75%说明效应量存在高异质性, 需要进一步探究影响效应值的其他因素。下文将从助推类型、研究设计、行为特征与行为领域来分析异质性的根源,进一步从认知路径和透明性维度来区分不同助推类别的真实效果。

4.2 透明性与认知路径的效应量分析

借鉴Hansen 和Jespersen (2013)的分析框架,本文根据助推是否依赖直觉式反思和是否透明两个维度, 将108 个研究结果涉及的所有助推方式在“认知路径−透明性”的二维坐标轴中进行分类(图2)。认知路径的分类取决于具体干预措施是否涉及反思性思维的运用, 如果干预措施发挥效用以个体深思熟虑为前提, 那么可归类为系统2 助推, 反之, 则为系统1 助推。根据助推实施过程中是否以目标群体能充分察觉的方式公开干预信息来区分透明型助推与不透明型助推, 如果被试能够感知到干预手段、干预目的、或预期结果(任何一种均可)则为透明型助推, 反之为不透明型助推。另外, 编码仅对干预方式划分类型, 不对透明性程度或者反思性程度进行打分。分类编码过程由两位研究人员独立完成, 编码一致性系数Cohen’sKappa值为0.92, 表明编码具备较高可靠性。其中, 40 个研究采用不透明型系统1 助推, 12个研究采用不透明型系统2 助推, 16 个研究采用透明型系统1 助推, 40 个研究采用透明型系统2助推, 说明不透明型系统1 与透明型系统2 助推是目前学术界关注的重点。

图2 元分析样本文献助推措施的类型划分

需要说明的是, 按照 Hansen 和 Jespersen(2013)的分类方式, 默认选项应属于不透明型系统1 助推, 社会规范应属于透明型系统2 助推。但由于实验情境的不同和存在人为操纵的原因,导致在对样本文献分类时, 默认选项与社会规范两种助推方式重复出现在不同类别之中。例如, Paunov等(2019b)关于课程选择行为的分析与Boruchowicz等(2023)关于行踪app 安装的研究均人为操纵了默认选项的透明性, Kantorowicz-Reznichenko 等(2022)关于新冠疫苗接种意愿的实验研究操纵了社会规范的透明性。但整体而言, 以上特例的存在并不影响该分类框架的合理性和可行性。

四类助推干预研究的元分析结果显示(表2),不透明型系统1 助推与透明型系统2 助推更加高效, 而透明型系统1 与不透明型系统2 助推的效应量则明显较小。就单一维度而言, 系统1 助推的不透明效果优于透明型, 而系统2 助推的透明效果优于不透明型; 透明型助推激发主动思考的效果优于直觉式思考, 不透明型助推通过直觉式思考干预效果更好。

表2 透明性与认知路径的效应量研究

4.3 助推干预效果的异质性分析

4.3.1 助推效果异质性影响因素分析

以样本文献的Cohen’sd值为因变量, 从助推类型、研究设计、行为特征和行为领域四个维度来探索效应量的影响因素, 各变量的操作化与赋值情况见表3。其中, 9 篇文献中24 个研究结果的决策行为涉及多个领域。两位编码员对每项研究的行为领域单独编码, 编码一致性系数Cohen’sKappa值为0.95, 表明编码具备较高可靠性。另外, 为避免虚拟变量陷阱(多重共线性), 在模型设置中, 本文以不透明型系统2 助推作为基准组,在表3 中只对另外三种助推类型进行变量定义。

表3 变量解释与说明

模型1 至模型6 中(表4), 模型4 的F统计量与调整后R2最大, 表明该模型估计效果最佳。由模型4 分析结果可知。就研究设计而言, 样本量对效应量存在显著负向影响(β = −0.52,p< 0.001),表明被试人员大于等于1000 的实验研究行为干预效果显著低于被试人员小于1000 的实验; 实验类型与数据类型都不会影响助推干预效果。行为特征变量中, 行为特征与金钱变动对效应量均无显著影响, 表明决策行为利己或利他、是否涉及实际金钱变动, 都不会影响助推干预效果。就行为领域来看, 健康领域(β = 0.23,p< 0.1)与金融领域(β = 0.26,p< 0.1)对效应量存在显著正向影响,说明助推在健康领域与金融领域效果更好。以上结果表明, 助推效果受研究设计及行为领域的影响, 其异质性可以由实验样本量规模的差异、助推行为是否涉及健康、金融领域进行解释。

表4 不同类别助推的异质性分析

4.3.2 不同类型助推与异质性因素的交互效应分析

(1)模型设定

为分析透明性、认知路径与研究设计、行为特征及行为领域的交互作用, 进一步探究已有文献中从单一维度分类比较助推干预效果的结论存在冲突的原因, 本研究构建如下交互效应模型:

模型中,yi表示每个研究的效应量; 研究认知路径交互作用时,Di1为每个实验研究中助推的认知路径(系统1 = 1, 系统2 = 0); 研究透明性交互作用时,Di1为每个实验研究中助推透明性(透明 = 1,不透明 = 0),Di2代表研究设计、行为特征与行为领域的具体类别(样本量、实地实验、数据类型、行为动机、金钱变动、健康、消费、金融、公共利益),Di1Di2为交互项。

(2)结果分析

调整后R2过低说明自变量解释能力不足, 若为负值说明模型相对自由度的拟合优度很差(Wooldridge, 2016)。由于因变量个数的限制, 对所有变量同时构造交互效应模型进行回归分析会造成较大偏差, 因此本文分别对每个变量单独进行交互效应研究, 这也导致自变量解释能力有限, 下文仅对F统计量且回归系数显著的模型进行探讨。

助推认知路径的交互效应回归分析结果显示(表 5), 由交互项为样本量的模型估计结果可知(模型1) (β1= −0.27,p< 0.01; β2= −0.56,p< 0.001;β3= 0.29,p< 0.1), 当单个实验中控制组与对照组合计被试人数大于等于1000 时, 系统1 助推效果与系统2 助推效果无显著差异; 当单个实验中控制组与对照组合计被试人数小于1000 时, 系统2助推效果大于系统1 助推效果(β1< 0) (见图3a)。

图3 交互效应分析

助推透明性的交互效应回归分析结果如表6所示, 由交互项为行为动机的模型估计结果可知(模型4) (β3= 0.38,p< 0.1), 当助推干预行为出于自利动机时, 透明型助推效果大于不透明型助推(β1+ β3> 0), 出于利他动机时不透明型助推与透明型助推效果无显著差异(见图3b); 由交互项为健康的模型估计结果可知(模型6) (β3= 0.42,p<0.1), 当助推干预行为属于健康领域时, 透明型助推效果大于不透明型助推(β1+ β3> 0), 不属于健康领域时不透明型助推与透明型助推效果无显著差异(见图3c); 由交互项为公共利益的模型估计结果可知(模型9) (β1= 0.36,p< 0.01; β3= −0.4,p<0.1), 当助推干预行为涉及公共利益时, 透明型助推效果小于不透明型助推(β1+ β3< 0), 不涉及公共利益时透明型助推效果大于不透明型助推效果(β1> 0) (见图3d)。

表5 认知路径与异质性要素的交互效应分析

表6 透明性与异质性要素的交互效应分析

5 结果与讨论

5.1 研究结论

本文基于“认知路径”与“透明性”的二元视角,对行为公共政策专业期刊BehaviouralPublic Policy(2017～2022) 与BehavioralScience&Policy(2015～2022)中40 篇助推研究的108 个实证结果进行元分析, 比较不同认知路径和透明程度助推措施的相对优势, 并探索了助推认知路径、透明性与助推效果异质性因素的交互效应。研究发现:

(1)行为公共政策领域的助推研究总体效应较小, 且在实践中面临失败的风险。与已有大部分助推干预元分析结果相比(Cadario & Chandon,2019; Jachimowicz et al., 2019; Mertens et al., 2022;赵宁等, 2022), 本研究观测到的总体效应相对较小; 由效应量森林图分布可知, 部分助推研究结果的效应量甚至为负。这可能是由于相对于其他元分析研究中更多以公民在实验情境中做出的选择估计效应量, 聚焦行为公共政策领域的研究大多以公民在真实政策情境下的行为决策来衡量助推干预效果, 而人们在实验情境中的选择不一定会转化为实际生活中的行为(Kalkstein et al.,2022), 这导致了本文统计的助推总体效应量偏小。Nisa 等(2019)的元分析研究也表明, 助推在真实政策情境的行为效果会低于预期, 对于这种情况, 有学者认为即使总体效应较小, 但在目标群体规模较大时, 助推仍然能够产生巨大效果(van der Linden & Goldberg, 2020)。

进一步地, 虽然默认选项等少数措施在促进或改善个体行为方面具有较强的助推效果(赵宁等, 2022), 但作为行为公共政策一揽子工具筐的助推在解决“行为失灵”的过程中并非总能达到“四两拨千斤”的效果, 实践中也面临着失败的风险。Sunstein (2017)综合分析了助推低效或低于预期的原因, 认为目标群体强烈的前因偏好、助推主体的利益动机皆可能造成助推失效, 如果人们无法理解助推措施相关信息或对政策措施存在误解, 抑或公民对官方的政策引导十分抗拒, 助推干预效果也将大打折扣。Tor (2020)识别出三类失败的助推: 一是有技术缺陷的助推, 助推设计上需要进行优化; 二是不充分助推, 即不能有效促进行为改变, 需要强制性的干预措施; 三是不适合助推, 不应针对该目标群体或某行为领域进行助推干预。另外, 有学者认为对助推效果的衡量也不能只满足于研究本身的统计显著性(statistical significance), 还要兼顾解决问题的充分性(sufficiency)、干预人群的可扩展性(scalability)和干预措施的主观性(subjectivity) (Mills &Whittle, 2023)。未来研究应该对助推失败的原因继续进行深入分析, 为助推工具的优化提供更多实证依据。

(2)助推能同时兼顾透明性与有效性, 不同认知路径与透明性对助推有效性的影响存在交互效应。本文研究结果表明, 不透明型系统1 与透明型系统2 助推更加高效, 透明型系统1 助推与不透明型系统2 助推效应量则明显偏小。本文的结论再次证明助推的透明性与有效性可以兼顾(Bruns et al., 2018; Kroese et al., 2016; Loewenstein et al.,2015; Paunov et al., 2019a; Steffel et al., 2016), 并非只有隐蔽的干预才能发挥作用。因此, 如果政策制定者利用助推工具时能够合理公开干预信息,满足Thaler 和Sunstein (2008)提出的“公开性原则”, 将有助于化解长期以来助推涉嫌操纵公民行为的争议。

另外, 本研究还发现认知路径与透明性对助推有效性的影响存在交互效应, 表现为不透明型系统1 助推效果优于透明型系统1, 透明型系统2助推效果优于不透明型系统2。这一结果可以根据认知路径的作用机制从两个角度进行解释。一是为何系统1 助推更适合隐秘的干预。由于系统1 助推利用人的直觉思维引导公民做出预期行为,这种助推手段大多会对公民自主选择权构成威胁,公开干预信息会引发人们的反对(Sunstein, 2015)。二是公开干预信息为何能强化系统2 助推效果。因为系统2 的决策过程依赖公民的反思性思维,公开干预信息能够为公民思考提供更多决策依据,减少不必要的认知负担, 降低人们主动思考过程中所要付出的努力, 人们在低认知负荷的情况下,系统2 助推效果会优于系统1 助推(Weijers et al.,2021)。认知路径与透明性的交互作用是本文的一个探索性发现, 可以为不同透明性或认知路径干预效果的争议提供一种新的解释路径。

(3)助推干预效果受研究设计影响、且在不同行为领域的效果存在差异。首先, 就研究设计来看, 样本量过大会降低助推干预效果。这表明在医学、教育等领域的实验研究中普遍存在的“小样本−大效应”现象(Slavin & Smith, 2009), 在行为公共政策领域同样存在; 另一方面, 也说明与小样本实验结果的变异性相比, 大样本实验结果更加可靠(Kjaergard et al., 2001; Nisa et al., 2019)。

其次, 助推在不同行为领域的效果存在差异,在健康、金融领域的助推干预效果较好。这一研究发现与已有分析结果存在较大差异, 例如,Jachimowicz 等(2019)和赵宁等(2022)未发现默认选项助推在健康领域的效果更好, Mertens 等(2022)也并未发现助推在金融领域的效果显著高于其他领域。事实上, 现有针对不同行为领域助推效果的元分析文献也经常得出相互冲突的结论(例如, Hummel 和Maedche (2019)与Mertens 等(2022)对助推在金融和健康领域效果的比较, 其结论完全相反), 研究结论的差异可能缘于: 一是元分析所针对的助推措施不同。Jachimowicz 等(2019)和赵宁等(2022)仅针对默认选项进行研究,本文关注多种助推措施的综合效果, 元分析对象的差异降低了研究结果之间的可比性。二是元分析纳入行为领域的细分类别不同(如金融行为可以细分为储蓄、借贷等)。本研究中所涉及的金融行为大多是储蓄和购买保险, 但我们无法知晓Mertens 等(2022)的研究对金融行为领域的细分类别, 也不能确定助推在不同细分类别之下(如金融领域中的储蓄和借贷)的效果是相同的, 特别是赵宁等(2022)已经证明了助推在环境领域细分类别(利己型或利他型)中的效果存在显著差异。这表明未来对于助推在健康、金融等行为领域的研究应该进一步细化类别, 增加各研究之间的可比较性。

(4)助推发挥作用的认知路径、助推设计的透明性与效应量异质性影响因素间呈现出复杂的互动作用。研究结果表明, 认知路径与样本量, 透明性与行为动机、健康、公共利益存在明显交互作用, 这种交互效应反映出不同认知路径或透明性助推在不同情境中适用性的差异。

就系统1 助推与系统2 助推的适用性差异而言, 已有研究认为不同认知路径助推适用性的影响因素包含三个方面: 公民认知能力、行为偏好及助推行为领域(de Ridder et al., 2022; Kahneman,2011)。首先, 本文研究结果并未发现助推认知路径与行为领域存在交互效应, 对于 Banerjee 和John (2021)提出的观点——系统2 助推对涉及公民自我利益的行为更加有效, 也还需要更多实证检验。其次, 本研究发现, 系统2 助推在小规模实验中效果更好, 这说明不同样本量实验设计的差异性会导致系统1 与系统2 助推干预效果的差别。这可以从实验类型的差异上进行解释, 本文研究样本中的小规模实验70%属于在线实验, 大规模实验82%属于实地实验, 相比现实决策情境的复杂性, 在线实验通过虚拟实验情境让公民进行决策, 更有利于人们集中精力, 启动系统2 进行深思熟虑, 使得在小规模实验中系统2 助推比系统1助推更加适用。但本文交互效应模型的局限使我们无法进一步探讨公民认知能力或行为偏好在其中可能发挥的作用, 这为未来研究提供了新方向。

针对透明型与不透明型助推的适用性差异,已有研究从助推行为领域、公民感知自主权入侵程度两个角度探讨了透明型助推的适用情境。本研究结论表明, 助推行为与公民自身利益密切相关时(自利行为动机、属于健康领域、不涉及公共利益), 公开干预信息能够强化助推效果, 这与已有研究发现保持了高度一致(Gråd et al., 2021;Kroese et al., 2016; Marchiori et al., 2017)。另外,现有研究表明, 人们所感知到的自主选择权被限制的程度也是影响透明性是否能够发挥作用的关键(Sunstein, 2015), 但是由于对公民感知自主权入侵程度的测量难度较大, 致使我们无法在本研究中评估透明性对此因素的实际影响。综合而言,本文分析认知路径、透明性与异质性因素存在的交互作用, 证明了助推的认知路径、透明性在不同情境中适用性的差异。

5.2 政策启示

以上研究发现, 不仅回应了学界关于不同认知路径与不同透明性之下助推有效性的争议, 对不同助推干预措施的真实效果给予了客观准确的评估, 更为提升助推工具有效性提供了如下政策启示。

第一, 政策部门应充分认识到助推失败的潜在风险, 在运用助推干预过程中始终保持审慎态度, 积极采取措施应对助推失败。近年来, 随着行为公共政策在西方发达国家政策实践中所表现出的巨大潜力, 世界各国政府纷纷效仿, 甚至出现了盲目跟风的趋势。然而, 本文分析显示, 整体来看, 各项助推措施并非如人们所预期的那样卓有成效。因此, 政策部门在尝试运用助推干预个体行为的过程中, 应形成对其行为效果的理性预期,充分认识到助推措施低效与无效的可能。助推和传统政策工具之间不是相互替代而是互补关系,仅依靠单一工具无法引导公民行为, 将助推和传统工具相结合能更好的发挥作用(Loewenstein &Chater, 2017)。面对助推失败, 可采取以下应对策略: 一是尊重公民的自由选择, 不做任何改变;二是选择替代方案; 三是改变规则、框架及个性化设置, 或转而使用激励、禁令等传统政策工具(Sunstein, 2017)。

第二, 在设计助推措施的过程中, 决策者应重视通过更加透明的政策设计培养和提升个体反思性决策能力。决策者在选择助推工具时常常进退两难: 默默地引导公众行为会使政策设计变成“诡计”, 并为政府操纵公民的行动提供了合法性,但如果公开宣称政策助推的意图和形式, 干预将很可能归于失败。本文分析表明, 助推的透明性和有效性并不冲突, 透明型助推激发个体主动思考的效果优于直觉捷思, 不透明型助推利用个体的直觉捷思能够达到更好干预效果。激发目标群体进行自主思考, 能够提高其认知水平和决策能力, 还有助于维持行为干预的长期效应。因此, 决策者应着力通过改变认知或决策环境等方式帮助个体提升自己决策能力, 采用“教育型助推”为个体“赋能” (Dolan et al., 2012; Sunstein, 2017)。政策制定阶段, 主动向那些对政府干预持有抵制情绪的目标群体及时公开政策目标及实现手段, 以争取公众支持; 政策执行过程中, 面对可能存在利益冲突的情境(比如医患沟通、城管执法等), 提供详细的决策信息能够增强公众认知能力, 引导公民做出理性行为决策以缓解矛盾, 促进政策顺利实施。

第三, 政策制定部门应充分考虑助推的适用性, 根据行为领域与行为特征, 依托各种新兴技术制定差异化、个性化的助推措施提升政策有效性。在进行健康领域、金融领域的政策工具选择时, 可优先考虑通过助推干预来引导行为改变;当公共政策更多与公民自身利益相关时, 政策设计应着眼于增加人们的知识储备和明辨是非的能力来鼓励人们主动积极地做出促进自身福利的行为, 通过政务信息公开提升政策过程透明度, 充分保障公民的知情权。当政策内容涉及公共利益时, 政府部门应尽可能通过巧妙的设计潜移默化地利用或克服个体 “非理性”心理因素和认知偏误来引导人们做出政策所期望的行为。进一步地,将新兴技术与行为科学知识有机融合, 利用个体行为大数据分析优化个体选择架构(Yeung, 2017),探索基于大数据的循证助推政策。政策制定部门可将虚拟现实、社交机器人、游戏设计、自我量化、行为信息学等新兴技术与行为科学相结合,根据目标群体个体特征设计个性化的选择方案和助推方式(Mills, 2022)。

5.3 研究不足与未来展望

本研究局限性主要体现在: (1)元分析样本文献涉及的干预行为大多集中在健康与消费领域,导致我们无法考察其他更多行为领域助推干预效果异质性。(2)由于BehaviouralPublicPolicy与BehavioralScience&Policy期刊中助推干预实验研究样本大多来自西方国家, 以东方国家公众作为被试的研究相对比较缺乏, 造成本文无法对助推效果的异质性进行跨文化分析。(3)受样本文献数量的限制, 过多的交互变量会导致模型估计误差偏大, 因此本文未对异质性要素之间交互效应进行研究。(4)“认知路径−透明性”二维分类框架下四种不同类别助推的效果会受到纳入样本数量的影响, 助推的认知路径与透明性所呈现的交互效应还有待更多经验证据的支持。

未来研究应更多关注助推在其他行为领域的实际效果, 进一步细化目标行为研究助推效果的异质性。已有研究结果表明, 默认选项在西方文化背景中的效果要显著高于东方文化背景(赵宁等, 2022), 未来可以进一步分析其他助推措施在不同文化背景下的效果差异及其原因。对助推效果的交互效应研究可以更好的揭示异质性根源,未来应设计更加多元的交互效应模型, 探索更多异质性要素之间可能存在的交互效应。此外, 不同透明性或认知路径助推的干预效果也还需要更大样本量数据的检验。