腐败治理研究中的前沿问题与研究方法反思

2022-10-19杨丽天晴肖汉宇

上海行政学院学报 2022年5期

杨丽天晴肖汉宇公婷

(1.中山大学，广州510006；2.香港教育大学，香港999077；3.复旦大学，上海200433)

一、引言

腐败被称为“社会的癌症”，是国家治理面临的一个重大挑战。腐败又是一种特征复杂、形式多变、表现隐蔽的社会现象。它存在于人们生活中的各个角落，却难以追本溯源；它干扰和破坏政府管治的能力，而实际影响程度又难以准确测量。例如，腐败形成的原因是什么，它对经济发展有何影响，腐败与民主制度是否相关，如何有效控制腐败，等等。此外，近年来学者们也在关注一些前沿的话题。比如，转型社会的腐败表现形式及特征，腐败过程中的“集体行动”逻辑，市民社会的反腐败作用，腐败治理中的政商关系，全球化对腐败的影响，反腐败的成功要素，腐败与善治的关系等。在腐败研究的诸多方面，学者们基于不同的研究方法，各抒己见，看法不一。因此，如何以行之有效的方法研究腐败治理值得关注，其本身也构成了一个前沿话题。科学的研究方法，对于提高数据的可靠性，分析过程的说服力，研究结果的准确程度，以及治理研究的实用价值，都是至关重要的。本文以实验方法在腐败研究中的运用为例，对此予以说明。

实验方法在近十几年中逐渐在腐败研究中崭露头角，在方法论上为观察和分析腐败问题打开了新的视野，也为弥补腐败研究方法上长期存在的不足提供了机会。本文首先回顾腐败研究的主流研究方法以及这些方法存在的局限，然后分析实验方法在腐败治理前沿研究中的运用状况及其特征，以及实验方法相对于其他研究方式的优劣。本文旨在回答的问题是：以实验方法研究腐败的基本状况如何？腐败研究为什么要采用实验方法？与其他主流的腐败研究方法相比，实验方法有什么特点及优缺点？它为何能够成为腐败治理研究的一种前沿方法？对于这些问题的探讨，将有助于更有效地开展腐败治理研究，把握其基本特点和重要方法，并以此为出发点思考国家治理其他领域的前沿问题和研究方法。

二、腐败研究的主流方法与面临的困难

本文主要关注的是经验性研究；而非经验研究是规范性研究，并不涉及经验事实，因此不在本文的分析范围之内。经验研究一般分为定性和定量分析方法以及混合研究方法。总的来说，三种不同的方法使用的资料的性质有很大的差别。定性研究方法收集、分析非数字化的经验事实，数据多呈现出非结构化的特征。采用定性研究法的腐败研究一般采用访谈和观察法，或者是综合各种定性的非系统性的数据来回答研究问题。例如，有学者利用公开报道的案例分析媒体腐败的特征[1]。根据肖汉宇、公婷的统计结果，在上述所谈及的三种定性研究方法当中，访谈与观察法所占的比例(3%)远远低于后者非系统性的定性资料所占的比例(21%)，凸显出腐败研究在资料收集上面临的挑战与困难[2]。案例分析的优势是可以深入分析特定情境下的腐败和反腐败问题，但案例分析的缺陷在于样本量少，尽管研究结论可以有较高的内部效度，但是外部效度却很容易受到质疑[3]。

近年来，定量方法在腐败研究中越来越占重要地位。目前，学者多数采用二手数据库来定量分析感兴趣的变量之间的相关性和因果关系。除此，也有部分学者通过自行设计和收集的一手问卷调查数据进行腐败研究[4-5]。同其他主流的社会科学学科类似，腐败研究中的定量方法普遍采用不同的回归方程来探讨变量之间的关系，例如OLS回归分析、多层次结构模型、多重差分模型，或者相对较为简单的相关性分析、因子分析等技术。毫无疑问，丰富的数字化数据使得这些统计技术能够在腐败研究中得以运用，并尽可能识别出变量之间可能存在的因果关系。但是，腐败研究中的定量分析普遍存在几个被忽略或者尚未解决的重要问题。第一，对腐败变量的测量是一个难题。虽然不少国际组织(如透明国际、世界银行等)已经尝试在国家层面测量腐败多年，并且在国际社会产生了较大的影响，但是，腐败毕竟会受到特定的社会、经济、政治、历史因素的影响。在对基于国家或地区层面的腐败的数据进行分析时，经常遇到的一个问题是，即使采用同样的问题来测量腐败水平，人们对同样的问题也可能有不同的理解。也就是说，数据之间的可比性令人质疑[6]。那么，基于这样的数据所得到的结论将会受到严重的挑战。虽然目前这方面的讨论众多，但是真正从方法上解决该问题的研究非常欠缺。这是定量数据本身存在的一个缺陷。

第二，定量研究的数据来源主要是二手数据库，例如国际透明的“腐败感知指数”，或者是研究者一手的问卷调查数据。这些数据主要集中于对腐败的认知和态度，本质上是主观数据，或者是自我报告的数据。当采用这些数据作为变量时，回归分析的结果被认为是有偏误的[7]。另外，值得注意的是，受到定量数据可获得性的限制，大部分定量研究的数据来源为单一的二手数据库。这不单是腐败研究的特有现象。在作为公共管理主流话题之一的公共服务动机的研究中，单一数据来源的问题同样严重[8]。这对因果关系的探讨带来一个很大的挑战，当数据来自同一个信息源，两个变量之间的系统方差很可能会存在高度的相关性，称为共同方法偏差(common-method bias)。从而导致采用这样的数据进行回归分析所得到的因果关系很可能会被夸大。

第三，随着统计分析技术的发展与运用，定量方法虽然可以相对容易地使用现成的数据较直观地分析出变量之间的相关系数(大小规模、方向、置信区间等)，但是定量技术本身只是一项技术，无法从理论层面论证解释变量之间的因果机制。一般的定量研究虽然在做理论假设时会从普遍意义上提出几个可能影响的机制，但是定量分析一般通过回归方程的结果来判断最终的关系程度(系数大小及显著水平)，进而间接地证实这些机制可能存在。而事实上，受到定量技术以及数据本身的限制，大部分研究并不能确认因果机制的存在。例如，最近一项研究探讨了互联网如何抑制腐败。在理论部分，作者提出几个可能的机制，包括互联网作为一项技术创新会带来经济增长进而抑制腐败，或者是互联网的使用作为一项技术改变会增进人力资源投资，抑制腐败，又或者互联网能够为民众提供更多的信息。但是作者也明确澄清，他们只是利用美国和全球的数据来检验互联网对腐败的抑制作用，他们并没有检验这些抑制效果是如何实现的。①

由于定量与定性方法本身的局限性，混合研究法应运而生，逐渐受到腐败研究者的青睐。②例如，定性比较分析法(qualitative comparative analysis)在腐败研究中得到了应用，它结合了定性和定量研究的特性，或者可以将定量的优势(例如，因果规模大小与置信度)与定性的优势(例如，对因果机制的探究)结合起来，以提升分析的准确性并增进腐败研究领域的知识积累[9]。Li等人使用混合研究法探讨中国的腐败治理问题，其中用到了词源分析、案例研究、感知测量、统计分析等方法[10]。Wang利用对官员的访谈以及两个原始问卷调查的混合研究法探讨法院的财政分配与腐败感知之间的关系；通过问卷调查数据检验财政拨款与人们的腐败感知之间可能存在的相关性，而对官员的访谈则进一步刻画了这种关系产生的原因[11]。因此，如果使用得当，混合研究法中的定量和定性分析能够相互补充和印证。但值得注意的是，混合研究法本身并没有完全突破传统的定量和定性方法，更多的是将两者组合起来，以期待更全面地回答相关的研究问题。另外，混合研究法在腐败研究中的普遍运用也受到各种限制，包括资料的可获得性，研究问题的特殊性及资源有限等等。

与国际文献中的腐败研究相比，国内的腐败研究在方法上仍然存在较大的差距。倪星和陈兆仓回顾了中国20世纪80年代至2009年的腐败与反腐败研究。他们发现，虽然发表的研究在质量上有所提升，但仍缺乏方法论意识和研究方法的科学运用[12]。数据库中的绝大部分文献都采用了非经验方法，占99.4%。采用经验方法的文献中仅有两篇采用了问卷调查方法，一篇采用了实地访谈方法。其他的经验调查方法则没有出现在腐败与反腐败研究中。据此，他们认为，研究文献的规范性程度亟待提升。在倪、陈文章发表至今的近十年中，情况有所改善。通过问卷调查和大数据所做的腐败研究增加不少。例如，李辉基于 7000 余个法院判决书文本大数据，分析比较了贪污和受贿两种典型腐败类型的地区、领域、行政级别等方面的差异[13]。但是，总体而言，国内的腐败研究较少使用量化分析，采取实验方法的几乎空白。

三、实验方法在腐败治理前沿研究中的应用

近年来，实验研究在国际社会科学研究中颇受青睐，发展很快[14]。实验研究可分为四类：自然实验、田野实验、问卷实验、实验室实验。这四种方法的主要区别在于研究人员对自变量控制的程度，四种分类之间呈递进关系，以实验室实验对自变量的控制最为严格。自然实验和田野实验都是在自然情境下进行的。所不同的是，自然实验在实验参与者的日常生活状态中进行，研究人员并不操控自变量，而是让自变量自然地对因变量产生影响。田野实验虽然也是在自然环境中进行的实验，但研究人员通过改变某个自变量来观察它对因变量的影响，在一定程度上含有人为干预因素。问卷实验尝试在问卷调查与实验方法之间寻求一个结合点，在问卷调查当中将干预的内容以假设的情景形式加入，并将样本随机地分成不同的实验组以接受不同的干预内容，从而观察不同的干预如何影响因变量。实验室实验，是在控制的环境下进行，研究人员通过改变某个自变量来观察它对其他因变量的影响。实验室实验能营造纯化的、封闭的实验环境，与其他实验方法相比，更能控制其他可能造成干扰的因素，因此所得结果的准确性较高[15]。究竟选择哪种实验干预方式，应根据不同的研究问题和具体研究条件来决定。

实验方法可以使一些主流研究方法无法胜任的研究话题受到重视，尤其是一些敏感议题和关于行为的研究[16]。对于腐败研究来说，实验方法或许能够带来研究内容与方法上的突破。首先，主流的腐败研究关注的一些话题(如腐败的成因和后果)并未能直接观察相关的行为。作为行为科学影响下形成的一种科学的研究方法，实验方法有助于探讨与行为密切相关的话题(包括个体、组织及社会行为等)。因此实验方法的引入能够使得腐败研究更直接地观察腐败行为或者反腐败行为。其次，从方法论的角度来看，实验方法的数据更多是采纳直接观察的客观数据，这突破了以定量方法研究腐败时以主观数据为主的状态。而且实验设计对外部环境要求以及对自变量和因变量的严格控制使得实验研究与主流的定量研究方法有极大的差别，这或许能够对腐败研究的因果推断带来新的贡献和知识积累。

为了说明实验方法运用于腐败治理研究的发展状况和基本特征，本文搜集了从2000年至2019年在SSCI期刊上发表的使用实验方法的所有涉及腐败治理的论文。之所以选择2000年作为起点，是由于通过在SSCI数据库的初步检索发现，2000年以前每年的相关文献只有1-2篇，而实验方法在腐败研究中的运用在2000年以后得到迅速发展，文章数量明显上升。

本文通过Web of Science完整下载了198篇使用实验方法的腐败研究文章，这些文章是在两大数据库Social Sciences Citation Index (SSCI)和Arts & Humanities Citation Index (A&HCI) 中，以corrupt*+experiment为关键词，以“主题”搜索得来的。首先，本文将文献类型的范围限定为期刊文章。接着，根据本研究的主题，本文将学科限定为8个，包括经济学、政治学、国际关系、发展研究、心理学、公共管理、管理学、区域研究。再通过详细阅读每篇文章的摘要与浏览文章的内容以确定该文是否采用了实验研究方法。筛选流程如表1所示。

表1 文献筛选流程

据此，本文对采用实验方法的腐败研究文章进行描述性分析。数据显示，从2000到2019年这20年时间内，每年发表的文章数量呈现出明显的增加态势，尤其是2010年之后更甚。在2010年以前每年只有个位数的发表，此后发表数量急速上升，直到2019年的61篇。结果显示，越来越多的腐败研究使用了实验方法。

图1 用实验方法做腐败研究的论文发表数量(2000-2019年)

此外，本文还发现，腐败治理研究中实验方法的研究对象以发展中国家居多。在上述搜集到的 198篇使用实验方法的腐败研究文章中，涉及国别的研究有145篇，其中与发展中国家相关的为95篇，占65.5%。举例来说，受到关注的发展中国家有印度、巴西、墨西哥、智利、尼日利亚、多米尼加共和国、肯尼亚、马拉维、乌干达、哥斯达黎加、阿富汗、塞拉利昂、印度尼西亚等。重视发展中国家的原因主要有二。第一，腐败问题本身在这些国家和地区较为持续和突出，因此受到较大的关注，尤其是在贿选等方面[17-19]。因此，国际组织以及这些国家的政府采取了一些改革措施，试图改变并抑制腐败水平。例如，世界银行于2007年开始启动了一个针对发展中国家的治理与反腐败的项目，通过整合资源来协助这些国家提升治理水平，减少贫困，促进公平。③这些改革本身或者前期的准备工作本身是一种可供研究的政策实验。第二，由于相对腐败或贫穷的国家严重缺乏系统性的数据，尤其是与腐败相关的数据，实验方法的特性使得它较为适合在这些国家和地区采集数据。研究者可以根据自己的研究需要量身定做一些实验设计，回答二手数据不能回答的具体问题，同时也可以避开大规模抽样调查在技术上可能遇到的一些困难。对于腐败这种较为敏感的话题，更是如此。除了关注发展中国家的腐败问题，也有研究其他议题的，例如发达国家中的选举舞弊、企业行为，等等。在国别或单个地区研究之外，也有不少跨区域的比较研究。也有就发展中国家和发达国家之间的同一议题进行比较研究的[17-20]。

如上文所述，在本文所搜集的198篇用实验方法做腐败研究的文章中，共有四类不同的实验方法(见图2)。其中，实验室实验的篇数最多(75篇)，问卷实验次之(63篇)，接下来是自然实验(31篇)，最少的是田野实验(29篇)。实验室实验法出现的频次最多，从侧面说明对腐败研究采取实验方法需要控制的变量较多。问卷实验法的可操作性强，研究的成本收益较高，因此也得到广泛的应用。而自然实验和田野实验较少的原因可能是社会环境中的变量相对较难控制。

图2 四种实验方法的篇数分布(2000-2019年)

就采用实验方法的腐败治理研究所讨论的话题而言，涵盖了腐败动机、腐败行为、腐败后果、腐败感知、腐败容忍度、反腐败策略等诸方面，并且涉及一些子话题(如表2所示)。这些话题在其他定量方法中也很典型，但同样是这些话题，实验方法与其他方法的主要区别在于能对变量做更有效的控制。举例来说，在腐败研究中，学者们比较关注社会对腐败的容忍度[21]。通过实验方法可以将实验接受者按照可能影响容忍度的因素进行分组并作对比，以确定导致对腐败高容忍度有哪些原因以及它们的影响程度。例如，Konstantinidis和Xezonakis为研究希腊为何对贪腐的官员有较高容忍度而采用了问卷实验的方法。他们按假设将受访者分为三个不同的组别，分别是经济政策倾斜组(假设1)、裙带关系组(假设2)和党派关系组(假设3)，通过对照来分析在这三种不同情况下腐败容忍程度的变化[22]。

表2 实验方法中讨论的常见话题

四、以实验方法研究腐败的优点

基于对198篇文章的综合分析，本文认为，实验方法有助于克服腐败研究在方法论上面临的一些困难和挑战。这主要体现在：提升腐败测量准确度，有利腐败因果的探讨，以及强化腐败研究的信度和效度。

(一)提升腐败测量的准确度

在腐败研究中，腐败测量是一个绕不开的话题。如何准确测量腐败变量是建立腐败研究因果关系所面临的第一道难关[23]。目前，腐败测量主要分为主观测量和客观测量两种方式。主观测量是通过调查民众对腐败的认知来反映某一国家或地区的腐败程度，较为典型的是透明国际的腐败感知指数(CPI, corruption perception index)、世界银行的全球治理指标中的腐败控制指标(control of corruption)。④这些主观指标的缺点在于，通过人们的主观认知来测量腐败状况与真实的腐败程度可能存在偏差，甚至相去甚远。感知度是主观数据，而每个人对腐败的感受程度和道德标准又不尽相同，因此无法准确反映现实生活中腐败的实际情况[24-26]。

作为腐败研究主观测量主要方法的问卷调查依赖于受访者自我报告的数据，可能会带来有偏误的因果推断[27]。此外，腐败研究中，不少研究数据的来源单一，比如，仅来自一套问卷调查的数据，可能会带来共同方法偏差问题(common method bias)。共同方法偏差指的是因同样的数据来源、问卷答题者、同样的测量环境以及变量设计本身所造成的变量关系偏差。Siemsen等人的研究指出，使用回归方法评估和测量变量时可能会出现偏差，继而影响因果关系的有效性。有若干方式可以解决共同方法偏差问题，最直接的解决方案是在一个研究中使用不同来源的数据[28]。Jakobsen和Jensen也提供了其他的一些解决方案，如通过修改面板数据设计进行校正等[29]。但这些解决方法仍然是基于主观数据进行技术上的修正，只是尽可能地减少主观数据在方法上存在的缺陷。其效果也因研究设计与研究环境的差异可能有较大的差别。

腐败的客观测量大多数是以官方公布的数据来衡量腐败，如检察机关公布的腐败案件数量、公开的腐败案件判决文书等，以及学者自己搜集整理的案例库。腐败客观测量带来了有益的腐败测量视角，但在多数情况下，无法得知腐败的真实水平是什么[30]。这是因为腐败行为的特质是隐蔽多变，且常常处于法律边缘的“灰色”地带。同时，统计数据有时也会出现偏差。因而，一般而言，关于腐败的客观数据较难获得。

与主流研究方法相比，实验研究在腐败测量方面具有优势。首先，它可以直接获得可观察的数据。在腐败研究中，实验方法通常以研究对象在一定情形下的行为或决策为重点，直接而非间接地测量腐败现象或腐败意图。例如，Corbacho等采用了问卷实验法来测量哥斯达黎加民众的行贿意愿。他们在问卷中设计了三个实验干预项，模拟现实中腐败信息的传播来测量受访者将腐败信息接收并内化为行贿意愿的可能性。干预项分别为腐败干预、低效干预和控制条件。腐败干预是以传单的方式告知受访者，哥斯达黎加人观察到身边有越来越多的腐败行为。低效干预则是作为安慰剂出现的，也是给受访者看传单，内容为该国的法律体系在处理腐败时缺乏有效性。这一干预项的目的是区分腐败干预是否影响到了受访者，抑或是受访者认为是法律低效造成了腐败。控制条件这个干预项是不向受访者出示任何传单，即受访者不受到任何外部信息干预。这项研究以传单的形式直观地模拟现实信息传播，并随之测试受访者是否有行贿意愿，以求二者之间的因果联系[31]。

其次，在腐败测量方面，实验方法比传统方法更容易控制变量。它可以聚焦所关注的变量，对其他变量作较为有效的控制，从而避免在搜集数据时产生的误差，尤其是测量一些诸如想法和观念等难以直接观察和测量的变量。以Rothstein和Eek 探讨“腐败与社会信任”关系的研究为例，尽管许多文章采用了问卷调查的方法来讨论这一话题，但他们认为，实验方法更容易对比关键变量，从而提升腐败测量的质量。因此，他们做了一个很有意思的实验。他们选取了腐败和社会信任程度都有很大区别的瑞典和罗马尼亚这两个国家，分别找了64名瑞典本科生和82名罗马尼亚本科生参与实验。实验的设定是，受访者在一个陌生的国家旅行，遇到了需要当地政府立即援助的问题，由此设置了一些假定情境，模拟了在国外警察局或诊所就医的一系列场景，目的是判断受访者对当地政府的信任度，以及他们是否会假设需要通过行贿来得到救援。瑞典和罗马尼亚的受访者回答了八个情境问题，其中涉及警察和医生的问题各占一半，并控制了其他因素。实验的结果显示，无论是在罗马尼亚还是在瑞典的样本中，政府和公共部门的腐败行为明显影响了人们对他们的信任，越是腐败的政府则越得不到信任，也越会引起腐败，因而形成恶性循环[32]。

总的来说，主流的腐败研究在进行腐败测量时，在微观层面，常常会借助腐败感知指数或公开报道的案件数；在宏观层面，则比较注重腐败对国家、社会、经济、文化等的影响程度，因为腐败研究往往蕴含着一个重要的假设，即，制度塑造个体行为，但个体行为反过来又会对宏观层面的变量产生影响。因此，理解个体行为是腐败研究的关键。但是，无论是采用通过客观的腐败案例或者主观的腐败感知所做的主流研究，都缺乏个体层面可观察的数据(observable data)，因此它们更多的只是“间接”地证明了腐败研究中可能存在的因果机制。实验方法则不同，与主流研究相比，它在腐败测量上的优势是：同样是受访者匿名，但能传递更准确可靠的反馈信息；由于是假设情境，在涉及敏感问题时，容易搜集到受访者的真实想法；通过干预项的设置，更好地控制变量；同时利用干预变量的调节，对实验对象作分组比对，更准确地把握因果关系。

(二)有利于分析腐败因果关系

准确地辨识腐败的因果关系是治理腐败的基本要求。在分析腐败的形成原因时，控制制度环境以及人口统计特征对研究对象的影响十分重要，而实验方法更有利于这些变量的控制。例如，Armantier 和Boly在加拿大所作的研究表明，实验方法使得研究人员有更大的选择余地来检验影响腐败的因素(例如工资水平、监督和问责程度、惩处力度、对政府的信任、人与人之间的信任等等)，以及确定导致腐败的原因[33]。

一般而言，建立因果关系需要满足三个条件：1.两个变量之间存在相关性；2.时间优先，即原因必须先于结果发生；3.排除备选假设，即两者的关系并不会受到第三个或者更多外在因素的影响[34]。腐败问题的问卷调查数据以及客观数据(如收集的腐败案例)往往在第二、第三点上面临较大的挑战。首先，因为问卷调查一般为截面数据，因此无法满足第二个条件。第二，客观数据往往受到数据可获得性的限制，很难较全面地排除其他因素对所关注的因果机制的影响。

实验方法则可以在这三个条件上促进因果关系的识别。第一，关于变量之间的相关性，实验研究可以在设计阶段将可能影响的因素考虑进去，并通过精巧的实验控制或排除这些因素的影响。例如，调节变量(moderator)和中介变量(mediator)往往在因果作用路径中较难识别；实验方法可以有针对性地控制变量来识别它们的作用。Walker等对于实验法在公共治理研究中的应用作了探讨，国内刘军强等学者也就社会实验法对试点机制的启示进行了研究，他们都强调了这一点[35-36]。此外，实验参与者能否提供如实反应与实验干预的效果密不可分。实验方法的干预在设计时可以避免若干因素同时发生而导致的因果关系不明确。如Frank等比较中国和德国两国的企业人员(行贿者)及公务员(受贿者)在个人决策和集体决策情境下，哪种决策方式更容易导致腐败的发生。他们选择了将个人决策和集体决策设置为干预项，其中个人决策是控制干预项，而集体决策是实验干预项。结果显示，无论是在中国还是德国，与个人决策相比，集体决策导致更高程度的腐败，对行贿者和受贿者的决策而言都是如此。其背后的心理逻辑是集体决策一定程度上分散了个人的决策风险，从而增加了腐败的可能性[37]。在现实情境中，企业决策中的个人因素与集体因素相互交织，其影响无法清晰识别出来。该研究在实验中采取了两种不同的实验安排，因此能够识别这两种决策模式对腐败水平的影响差异。不同的实验干预可以在实验过程中有效地隔绝各个因素相互之间产生关系，使得因果推论更为清晰，而单纯通过自我报告的方式来探索因果机制则不能避免这些问题[38]。

第二，通过控制干预出现的先后，实验方法中的因果变量可以满足时间的先后条件，从而更精准地确定X对Y的影响。如Anduiza等的研究，探究党派背景与对待腐败的态度之间的关系。要论证党派关系对腐败态度的影响是困难的，因为存在因果变量很难确认发生先后的问题。一般问卷调查所采用的截面数据不能解决这一问题。作者选择以问卷实验的方式来解决，确保党派在先，态度在后，由此满足因果关系的第二个条件，确定党派关系与对待腐败态度之间的因果关系[39]。

第三，实验方法可以排除备选假设，确定影响变量。以Barnes 和 Beaulieu探究性别差异与腐败感知之间的因果机制的实验研究为例。在以往的研究中，问卷调查揭示了女性候选人的存在降低了参选者选举舞弊的可能性，然而并不清楚其背后的因果机制。实验研究中的干预设计可以提供严格控制变量的可能性，有助于排除备选假设。作者于2014年对1105名美国人进行了实验，受访者使用亚马逊的MTurk平台，回答一系列植入实验干预的问题。实验设计的步骤和逻辑是采用实验干预来测量若干因素对腐败感知的影响力，以这种方式剔除中介变量的影响。最关键的是把两个性别组别当作对比组和实验组。该问卷实验研究的结果表明，性别差异的确存在，同时发现制度约束是起决定性作用的，它在人们对女性更清廉的认知中具有显著的效果[40]。

(三)强化研究的信度和效度

腐败，作为人类社会普遍存在的一个问题，对它的研究必须是跨学科、跨地域的。腐败研究一方面要结合具体的政策实践和社会环境，另一方面对数据获取的灵活性和结论的普适性也有很高的要求。这就涉及研究结果的信度和效度问题。与传统的定量方法相比，实验方法更有助于提升研究的信度和效度。

信度(reliability)指的是研究的稳定性和可靠性。是否可以重复检验(replication)是判断信度的重要指标之一。Walker等提供了重复实验数据处理的过程，并提出了公共管理领域设计和进行实验重复的基本路径：确认该研究是否可以被重复，评估原研究的内部效度(即研究是否提供了唯一解释)，选择恰当的统计方式来进行重复研究，选择环境设定范围，建立边界条件，最后建构并检验相关理论与假设。实验方法具有可重复的特性。也即是说，其他研究者可以根据一项实验研究的步骤和程序，进行重复研究，并比较研究结果[41]。如Salmon和Serra的研究，通过实验室实验方法研究了社会评价在多大程度上影响个体参与腐败的意愿，同时还测量了文化对腐败行为的重要性。作者设计了三人博弈的实验干预，观察社会评价对腐败行为的影响，其中采用了三种干预方式来调节社会观察和评价的水平。研究者一共进行了18轮实验，每次实验包括24个研究对象，总共432个研究对象参与，他们都是佛罗里达州立大学的学生。也就是说，同样的博弈设定被重复了18次，以确保实验的可靠性，提升实验结果的信度。在每一轮实验中，每8名参与者会被随机分配为公民、官员和其他社会成员的角色。公民、官员和其他社会成员三人一组。所有的互动都是匿名的，因此参与者无法在游戏中识别其他人的角色。研究发现，社会评价可以减少腐败，人群中普遍存在的社会文化规范对腐败行为有抑制作用[42]。由此看来，与传统的定量腐败研究相比，实验研究的可重复性是它具有的一个重大优势。

效度(validity)是对理论假设的有效性的评估，包括研究结果的内部有效性和外部有效性。在腐败研究中，传统的定量方法是采用各种回归技术控制影响因变量的外在因素，进而考察所关注的自变量对因变量的影响。这样，研究的内部有效性有时差别会很大。例如，样本量大小以及数据质量都会影响到内部效度。与传统定量研究方法不同，实验方法，尤其是实验室实验，可以通过严格控制变量来确认变量之间的因果关系，相对而言，会具较高的内部效度。如Yap采用实验法研究韩国民众是否会对政府腐败做出反应，及在何种情况下会参与要求政府对腐败问责的行动。在实验中，作者控制了性别、收入、年龄、婚姻状况等变量，得出的结论是，如果韩国民众认为参与行动对自己有利，就会策略性地选择加入对政府腐败的问责行动。即使这些变量在传统的定量方法中加以控制，但是这种方法并不能有效地排除因为现实社会环境中可能的忽略变量对民众要求对腐败问责的决定，进而会削弱因果关系的有效性[43]。其次，传统定量研究很难捕捉到受访者的情绪、行为等相关数据，使得腐败研究多数停留在静态的腐败感知的范围内[44]。研究结论对于理解研究对象的腐败与反腐败动机、过程等都有很大的局限性，甚至不能外推到腐败行为的研究范围内。而实验方法特别擅长搜集人的行为和情绪的动态数据，因此在提升研究的有效性方面为传统腐败研究带来了突破[45]。在外部效度方面，实验研究法一般对研究对象以及场合有严格的界定，因此能够更明确地界定研究结论的适用性，也有利于提升普适性(generality)。例如，Sundström在一项针对南非渔民行贿意愿的问卷实验研究中提到了“非标准的受实验者群体(non standard subject pool)”这一概念。在其研究中共有199位渔民参与了该项问卷实验。作者认为，与其他较为典型的实验群体(如学生)相比，渔民作为非标准实验群体具有更多行业相关知识，在自然作业状态下会提供更丰富的实验信息。通过这样的实验设计，研究结论显然具有更强的外部有效性：关于渔民行贿意愿的研究发现可以外推到更大范围的渔民群体。但如果采用学生作为实验对象，研究结论很可能会大打折扣。实验研究为研究外部有效性的讨论提供了讨论的标准(例如群体或者场景)，这些标准在传统定量研究里是缺失的[46]。

五、结论

本文讨论了实验方法在腐败治理研究中的应用，尤其是它如何帮助学者探讨一些前沿问题。通过比较研究腐败的主流方法与实验方法，本文发现，尽管腐败研究的方法已经有了长足进步，但还有很大的上升空间。实验方法的兴起有助于弥补现有研究方法的不足，提升腐败治理研究的质量。第一，腐败作为一种隐蔽的行为很难被准确测量。实验方法为此提供了可操作化的解决方案，如搜集可观察的行为数据等。第二，通过实验干预有助于辨别因变量和自变量的因果关系。第三，实验方法具有可重复性，有利于回溯和验证，同时对研究对象以及场合有较为严格的界定，因此有更高的信度和效度。实验研究法可以为腐败与反腐败研究提供可供验证甚至复制的行为数据，能够解决传统方法中因自我报告数据而可能产生的因果推断偏误。通过更为有效地控制可能对因变量产生影响的外部环境因素以及其他变量，实验方法能够更好地辨别因果机制。正如Grimmelikhuijsen 等所指出的，实验方法在腐败这种典型的行为研究中的适用性说明，它已成为公共管理行为研究的一个新路径，从而为社会科学研究的行为主义方向搭建了平台[47]。

当然，与其他研究方法相比，实验方法也有局限性。如很可能会涉及研究伦理问题，较为耗费时间，成本较高，并非适用于所有研究议题，实验过程中研究对象可能会产生疲劳，等等。如何适当地控制外部因素的影响也有个技巧问题，颇有难度。在四种实验方法中，自然实验法相对来说更接近主流定量方法，搜集的数据相对难以被重复，因此很难确认其效度。实验室实验存在样本量较小的问题，从而影响其结论的信度。问卷实验则面临干预较弱的问题，如被质疑在问卷中简单地干预是否算是真正的实验，在问卷中将干预的内容以假设情景的形式来体现能不能产生真正的影响等[48]。但这些并不影响实验方法作为一种社会科学研究方法已经展示的优点和潜力。学者们可以通过有针对性的研究设计完善来缓解或消除这些问题。

现有研究指出，与国际公共管理研究领域中激增的实验方法相比，中国公共管理研究对实验方法的应用程度不高[49]。在本文收集的文献中，以中国为研究对象的只有12篇，仅占6%。未来中国的腐败研究乃至国家治理研究需要引入更多的实验方法，以探讨一些用传统方式难以解答的问题，如对反腐败政策的接受度、行贿动机等，从而加深对中国的腐败与治理问题的理解。

本研究不仅仅希望探讨腐败研究的方法，也希望对反腐败实践有一定的政策意义。本文认为，提升腐败与反腐败研究方法之水平是为了加深对于腐败现象的认知和理解，继而提出有针对性和可行性的政策方案。尽管本文是从腐败研究出发来探讨实验方法，但它对公共治理领域的其他研究议题亦有可供借鉴的意义。本文的研究只是抛砖引玉，试图为实验方法在社会科学研究中的应用提供参考，以期在未来的研究中对如何更好运用实验方法，如何解决和避免实验研究面临的难题有进一步的思考。

注释：

①作者在总结经济增长、技术改变与抵制腐败的关系时也没有充分的理论阐述，只是借用了一些经验研究事实作为依据。因此，理论上的因果机制并没有充分展现。当然，列举此文并非针对该文作者。这里只是为了举例说明。事实上，很多定量的腐败研究成果都遵循这样的研究路径。

②例如，Journal of Mixed Methods Research在短短的时间内成为学者关注的重要期刊，反映出混合研究方法对社会科学的影响非常大。

③详情见世界银行官方网站，https://ppp.worldbank.org/public-private-partnership/library/strengthening-world-bank-group-engagement-governance-and-anticorruption-gac.

④世界银行全球治理指标——腐败控制，http://info.worldbank.org/governance/wgi/#home.