司法评估定性方法的理论反思

2022-03-02吴洪淇

四川大学学报（哲学社会科学版） 2022年6期

吴洪淇

引言

在现代社会中，司法是一个国家进行有效社会治理的重要手段。而作为一种社会治理手段的司法是否起到相应的作用，则有赖于良好的司法制度、适格的司法职业群体以及到位的司法保障措施。改革开放40年来，我国在司法领域的制度建设、人员优化以及物质保障方面都取得了长足的进步。但在社会整体快速发展的背景下，司法领域中司法不公、司法不廉、司法公信力不足等问题依然突出，司法错判、司法行政化、司法负荷过重依然困扰着司法系统。(1)关于司法领域存在问题的分析，参见龙宗智：《司法建设论》，北京：法律出版社，2021年，第153-154页。因此，从2013年党的十八大以来，我国以前所未有的速度和深度全面推进司法领域的全方位改革。随着司法改革的全面推进，为了使改革举措能够更具针对性和实效性，对于司法领域的系统评估和跟踪性评估也相应产生。这些评估类型繁多，评估的组织者来源各异，所运用的方法千差万别，所得出的结果自然也就截然不同。从社会学研究方法的角度来说，对某一项目的评估，就是“运用社会研究程序，系统地调查社会干预项目的效果，……评估者运用社会研究的方法，评估并帮助改进社会项目的各个重要方面，包括对社会问题的诊断、概念化、设计、执行与管理、产出与绩效”。(2)艾尔·R.巴比：《社会研究方法》，邱泽奇译，北京：清华大学出版社，2020年，第317页。因此，司法评估作为项目评估的一种亚类型，其本质依然还是一种评估活动，依然要遵循评估活动本身的一些基本准则。这些方法运用的科学与否将直接影响对我国司法状况评估判断的科学性与准确性。

近年来，我国司法的许多制度改革逐渐转向通过试点来对改革方案进行试错，经过试点总结经验教训，提炼可推广的方案，待时机成熟后再上升为司法解释和全国立法。在这一背景下，针对相关司法制度的评估便成为决定我国司法制度改革走向的一个重要环节。目前尽管针对司法的评估已非常多，但我国学者还很少对司法评估方法特别是定性研究方法本身进行专门讨论。(3)何挺对刑事司法改革中的实验研究做了系统的分析，并对实验研究与评估研究之间的关系进行了论述。实验和评估虽有交集但也存在很多差异。参见何挺：《刑事司法改革中的实验研究》，北京：法律出版社，2019年，第234-235页。此外还可参见吉姆·帕森斯等：《试点与改革：完善司法制度的实证研究方法》，郭志媛译，北京：北京大学出版社，2006年，第117-119页。一些试点改革当中，对试点效果加以评估这一至关重要的环节往往被忽略，缺乏足够的科学性。因此，有必要针对司法制度改革的评估进行认真审慎的研究。由于笔者已经在其他文章中对司法评估的定量方法进行过反思，(4)吴洪淇：《司法量化评估的建构逻辑与理论反思》，《探索与争鸣》2021年第8期。本文主要对司法评估的定性方法进行初步的描述与分析。作为背景性材料，文章第一部分对我国司法评估存在的主要问题作初步的检讨；第二部分将讨论司法评估为什么需要定性方法，对定量方法与定性方法在司法评估开展过程中存在的优势与劣势进行检讨；第三部分着重描述分析访谈、参与观察等定性方法在司法评估当中的应用及其潜在问题；第四部分则着重以某一司法改革评估项目为例来展示一种将定量与定性方法相结合的基本进路。

一、司法评估的主要问题

对于我国司法状况的评估形式相当多，这些评估有的以评估的形式出现，有的以试点的方式出现，有的则以检查的方式出现。从不同的角度可以作不同的评估类型区分：从评估主体来看，有司法系统内部自己的评估与司法系统外部对司法系统本身的评估；从评估范围来说，有整体评估和专项评估之分，整体评估着眼于整个司法主体各个领域，专项评估则常常着眼于某一项改革(比如司法员额制、司法责任制)或某一问题(比如司法人员流失问题、速裁程序问题)；从评估对象来说，有针对全国范围内公检法等大范围的评估，也有仅针对某一系统或某一地区司法机构的评估。林林总总的司法评估体现了我们对政策实施后果的重视，但现有的司法评估也存在诸多问题。

第一，司法评估的主体中立性和独立性不足。司法评估的评估者本身的中立性是确保司法评估客观性的一个前提性条件。但在许多司法评估中，司法评估者的中立性往往就存在一些可疑之处。首先，一些评估者本身也许就是政策的倡导者或推行者，对政策在司法机关推行中存在的问题往往会选择性忽略或者低估，以至于在评估的设计和实施过程中无法对被评估对象给予客观的评估。其次，一些评估的评估者与被评估者之间本身存在上下级或其他利害关系，这些利害关系的存在对评估的中立性也会带来一些影响。最后，一些评估的评估者有时候是自我进行评估，即使由第三方评估，第三方本身就是受被评估者委托或者由被评估者提供经费支持，缺乏足够的独立性。

第二，司法评估的主观预设性太强。这种主观预设一方面表现为结论先行，把改革本身当成一种政绩，对改革举措的运行过程缺乏必要的关注。正如一些学者所说，在现有一些司法改革当中，一些部门和地方在缺乏深入调研、充分听取各方意见的情况下，就急于总结各项司法改革举措的成果、经验，草率宣布司法改革取得巨大进步、成效显著。(5)胡昌明：《司法体制改革评估的衡量标准及方法》，《中国法律评论》2018年第3期。之所以出现这一看似荒谬的现象，其根源还在于一些司法机构许多时候是为了改革而改革，为了政绩而改革。对这些机构来说，改革本身就是一种政绩的体现，至于改革成效如何则并不关心。主观预设另一方面的表现则是对改革的评估不够全面，有关改革试点效果的评估常常缺乏必要的审慎，着重阐述试点改革“取得正面效果与实施的可行性，而对其局限性与可能存在的问题要么忽略不提，要么提及很少”。(6)郭松：《试点改革与刑事诉讼制度发展》，北京：法律出版社，2018年，第92-93页。正是主观预设性太强，导致一些改革的官方评价与民间评价之间常常存在巨大的差距。

第三，司法评估所使用的方法科学性欠缺。司法评估本质上还是项目评估的一种亚类型，需要遵循项目评估的基本方法才能确保其准确性。在我国的一些司法评估当中，采用了多种多样的评估方法。在定量方法方面，常常会采用指标设计、调取数据、问卷调查等方法；在定性方法方面，常常会采取座谈、制度实验等方式。但无论在定量方法还是定性方法方面，还存在一些不尽人意的地方，导致司法评估的过程和评估结果最后都未能取得令人满意的效果。下面三个部分将着重围绕司法评估中的定性方法本身展开讨论。

二、司法评估为何需要定性方法？

从整体上看，目前司法评估所运用的方法主要还是以定量为主，通过问卷的发放、回收与统计或者案件数据的统计来收集司法不同层面的信息和评价。(7)吴洪淇：《司法量化评估的建构逻辑与理论反思》，《探索与争鸣》2021年第8期。但对于司法评估来说，仅仅只有定量方法还是不够的，需要定性方法来加以有效的补充。

(一)定性研究方法

按照社会学家吉登斯的界定，定性方法是以下几种研究方法的统称：“焦点团体、民族志、半结构或无结构访谈、面对面访谈、参与观察、传记研究、口述史、叙事研究、扎根理论以及生活史研究。”(8)安东尼·吉登斯、菲利普·萨顿：《社会学基本概念》，王修晓译，北京：北京大学出版社，2019年，第43页。与定量方法不同，定性方法作为一类实证研究方法更接近被观察者，通过近距离的访谈、观察和个人体验来深入把握被观察者本身。正如社会研究方法的权威学者艾尔·巴比所说：定性研究方法“典型的做法是，试图先从无法预测的进程中，发现有意义的东西——从初始的观察，尝试性推展出一般结论，这些结论能够启发进一步观察，进行这种观察，然后再修正结论等”。(9)艾尔·R.巴比：《社会研究方法》，第286页。这种不带强烈预设的方法与带有明确指向性的定量方法形成较为鲜明的对比。目前在司法评估中比较可能涉及的定性方法主要有以下三种：

第一种是定性访谈方法，主要通过与观察者面对面访谈的方式来获取对某一问题的相关信息。在定性访谈中，由访问者确立对话方向，针对受访者提出若干具体议题并加以追问，通过访问者与受访者之间的互动来完成相应的调查与评价。(10)艾尔·R.巴比：《社会研究方法》，第305页。访谈不同于我国法学学者们在研究当中常用的集体座谈。访谈一般是一对一的深度访谈，这样确保被访谈者不会因为其他人在场而心生顾忌。访谈者除应了解所需要的问题之外，还要进一步了解被访谈者的工作历程和相应背景知识，这样更有利于理解被访谈者对相关问题的回答。访谈一般在相应的工作场所进行，这样访谈者可以更深入理解被访谈者的工作情境。访谈要遵守相应的职业伦理，通过保密、匿名等方式避免因访谈给被访谈者带来困扰。(11)刘思达：《法律社会学：定性研究是主流》，《中国社会科学报》2010年12月2日，第11版。访谈之前需要做好充分的准备工作，访谈之后需要将访谈的数据进行整理、编码、汇总，形成相应的数据库，为后续的研究提供最基本的材料。我国法学学者早在20世纪90年代便已将访谈方法运用于司法问题研究，比如苏力有关中国基层司法的研究就主要采用了访谈的方法。(12)苏力：《送法下乡：中国基层司法制度研究》，北京：中国政法大学出版社，2001年，第100页。定性访谈方法从开放性角度可以分为结构化访谈、半结构化访谈、非结构化访谈以及专题小组访谈。(13)有关三种分类的具体描述，参见迈克尔·G.马克斯菲尔德、艾尔·R.巴比：《刑事司法与犯罪学研究方法》，刘为军等译，北京：中国政法大学出版社，2021年，第368-372页。其中，在我国刑事司法研究中，专题小组访谈(我国常常称为“座谈”)是较为常用的形式。

第二种方法是实地观察，通过到考察对象实地进行观察来获取信息。这种方法适合于那些需要在自然场景中研究某一事件或行为，通过到实地进行观察可以获取很多直观的认识，同时通过实地观察具体场景下相关人员的生存环境及其在该环境下的具体行为，可以更深刻理解这些人员行为与环境之间的互动关系。实地观察按照参与被观察者环境的程度可以被大致区分为直接观察与参与观察。直接观察通常是以某一外来者的身份来访问观察某一特定的机构或环境，比如到某一法院进行参观调研。在这种情况下，研究者是很明确的外来身份，而被研究者也清楚了解观察者的身份和目的。直接观察的优点是可以简单快捷地进入实地获取特定的信息，但缺点也很明显。由于被研究者清楚地知道观察者的目的，观察者进入实地这一行为本身就对被观察者的行为带来影响，使得被观察者的行为产生不自然的变化。为此，研究人员还可能通过隐匿研究目的以一种内部人的身份进入被观察者的环境中，这是运用参与观察的方法。参与观察，就是指研究者以某种内部身份参与被观察者的环境，从而对其内部运作过程进行观察的一种基本方法。作为社会科学实证研究中历史最为悠久的一种方法，参与观察最大的优点在于可以在很大程度上避免被观察者因为外部介入而导致数据中的虚假信息，直观地观察到所要了解的信息。在刑事司法研究中，研究人员常常可以通过挂职、实习等方式让自己得以融入被观察者的环境，借以直接观察到司法机构当中的常规运行状态。当然，参与观察由于研究者隐匿研究的目的而可能带来欺骗研究对象的后果及其他风险，这就需要在开展参与观察之前做好相关的预案。参与观察方法的另一个缺陷是由于研究者高度嵌入研究场景，其所观察的信息就是高度地方性的，那么这些信息是否能够适用于其他场景也就是其可适用性就值得探究。(14)迈克尔·G.马克斯菲尔德、艾尔·R.巴比：《刑事司法与犯罪学研究方法》，第436页。

第三种是历史文献分析方法。在社会科学里，所谓历史文献是指一手的原始文献资料(primary source)，而不是他人的学术著作、教材等二手文献。(15)刘思达：《法律社会学：定性研究是主流》，《中国社会科学报》2010年12月2日，第11版。历史文献分析方法就是通过查阅历史文献来观察制度在一定时间段中的具体运行状况和变化趋势。作为一种评估方法，历史文献分析方法的独特优势在于其关注的时间段更长，能够在长时段中展示某一制度实施前后的变化趋势。与此同时，由于这些历史文献都是已经发生过的，不需要接触研究对象即可以开展相关数据收集，因此其呈现的内容很难被更改，也就能更为客观地呈现制度运作的轨迹。司法机关在开展司法活动过程中会生成大量的历史文献，比如案卷、会议记录、人事档案等等。我国已经有一些学者运用该方法来研究司法制度，比如利用审判委员会会议记录来研究审判委员会制度的运作状况，(16)比如左卫民：《审判委员会运行状况的实证研究》，《法学研究》2016年第3期；王伦刚、刘思达：《基层法院审判委员会压力案件决策的实证研究》，《法学研究》2017年第1期。利用案卷卷宗来研究非法证据排除、案卷移送等制度，(17)比如左卫民：《刑事诉讼的中国图景》，北京：三联书店，2010年，第104-147页。利用杂志回复咨询记录来研究律师制度(18)比如刘思达：《当代中国日常法律工作的意涵变迁(1979—2003)》，《中国社会科学》2007年第2期。等等。

(二)定性方法在司法评估中的优势

目前在我国司法评估中主要还是以定量方法为主，这种定量方法的应用大体分成两种形式：第一种是分发问卷，通过分发问卷来收集针对司法机构和人员行为的评价来实现对司法状况的评估，比如目前针对司法公信力、司法文明指数、司法公开等展开的评估活动。第二种则是直接调取或应用相关的统计数据。这种方式主要发生在针对某一具体司法制度改革的评价中，比如对司法员额制、司法责任制、认罪认罚制度的改革。针对这些改革的效果，上级司法机关可以通过收集汇总下级机关的相关数据了解相关改革的进展情况。比如最高人民检察院张军检察长向全国人大常委会所作的关于人民检察院适用认罪认罚从宽制度情况的报告，就是通过大量的数据展示了认罪认罚案制度改革的进展状况。

这些定量方法运用在司法评估当中的优势在于：第一，可以通过定量方法快速收集样本数量较大的、覆盖面较广的数据，进而让评估者通过数据分析快捷地掌握某一研究对象的基本状况；第二，通过设置背景性信息、回归分析等一系列数据分析方法可以将评估结果与受访者的背景信息联系起来，探求不同数据之间的相关关系甚至是因果关系，从而呈现有关研究对象相对立体化的数据画像。第三，定量方法有助于从宏观视角对研究对象整体上进行评估，可以快速勾勒出研究对象的整体样态。除了上述优势之外，这些定量方法本身所具有的“数目字管理”特征一定程度上也契合我国为克服国家治理规模所带来的治理压力。(19)周雪光：《中国国家治理的制度逻辑：一个组织学研究》，北京：三联书店，2017年，第18页。“数目字管理”这个概念最早来自黄仁宇的相关著作，意在强调量化考核的手段与工具在国家治理中的重要性。参见黄仁宇：《万历十五年》，北京：三联书店，2001年，第275页。正因为存在这样一些优势，所以目前国内对司法的评估大多数采用的都是定量方法。

但针对司法评估来说，定量分析方法也存在一些无法克服的短板。首先，定量分析方法需要较高的门槛。定量分析方法一般需要有较大规模的样本量，如果是通过问卷方法来收集的话，收集数据的成本比较高；如果从司法机构内部统计数据的话，往往很难为外部研究者所获得，获取途径受限制较大。定量分析从样本抽样、问卷设计到问卷的分析统计等都需要较高的技术要求，即经过相对专门的培训与学习，这种较高的技术门槛往往是许多法学学者无法达到的。其次，定量方法在数据收集上采用的是相对标准化的方式，无论是问卷调查还是数据统计方法，都有相对标准化的问题设置，这种标准格式容易使丰富的研究对象被“削足适履”。(20)艾尔·R.巴比：《社会研究方法》，第233页。最后，定量分析方法当中调查者往往并不直接接触被调查者，脱离被调查者的生活与工作情境，其对被调查者的感受与判断更多的是来自冷冰冰的数据而非丰富的社会场景。从这个意义上说，其对被调查者的了解是基于数据的了解，缺乏足够的理解与穿透性。

正是因为定量分析方法的上述优缺点，在对司法的评估中仅仅运用定量分析方法是不够的。司法活动是司法者在特定的工作环境中展开的一种法律适用活动，任何司法或诉讼制度改革对司法的影响将在司法者的行为中生动展现。这些行为很多时候恰恰是无法通过回答问卷或者统计数据反映的，而是需要研究者亲身进入司法的场域，通过访谈、参与观察乃至查询相关历史文献，从而对某一项制度改革对被改革者产生的微妙且深远的影响有更深层次的体悟。与定量方法相比，定性方法在司法评估活动当中没有带有非常强的预设，尽管在研究者进入被评估场域的时候带有大致的主题，但这种主题是相对含糊的，研究者对于需要收集的信息总体上是开放的。研究者除了与被研究者交谈来获取信息之外，还可以调阅历史资料，可以从被研究者在评估场域中的反应与表现中获得有关司法活动的立体化信息。因此，通过定性方法来进行司法评估不仅仅是收集数据，还可以在收集数据的过程中逐渐形成相应的直观印象进而逐渐生成理论。在这个过程中，研究者对被研究对象的观察是立体化的，对其的理解逐步得以深入，从而不断修正和完善自身的相关理论。

三、定性方法在司法评估中的应用与检讨

根据评估的条件、对象和标准，定性方法在司法评估中的应用可以通过多种方式组织。从评估条件来说，评估跨越的时间越长，对评估对象的观察也就有越多的时间；评估的人力资源越丰富，评估活动采用的方法就更多样；从评估的对象来说，针对某一司法改革措施、司法群体、司法机构等的评估所采取的方法都会有所差异。因此，司法评估当中对定性方法的具体应用很难说有一个非常统一的运用方式。我国以往在司法评估活动中存在一些定性方法的应用，只是这些方法的应用尚有诸多不规范的地方，影响评估结果的科学性。以下主要列举我国在司法评估当中几种较为常用的组织方式并对其可能存在的潜在风险做一些检讨。

(一)观察访谈方式

观察访谈是目前司法评估比较常用的一种方式。近年来司法改革一系列举措比如认罪认罚改革、速裁制度改革、值班律师改革、司法责任制改革等的评估基本上都是以这一方式展开的。这些司法或诉讼制度改革举措推行之后，评估者往往会到各地区选择一些具有代表性的机构，通过与一线办案人员座谈的方式对政策的实施效果进行评估。这种方法的步骤一般是：第一步，先按照不同类型地区、不同层级选择一些具有代表性的机构，比如发达地区与不发达地区，基层单位与市一级单位等；第二步评估者会到被评估单位进行观摩，现场了解情况；第三步，由被评估单位选出相应的代表参与座谈；第四步综合代表者的意见撰写出对应的评估报告，这些评估报告有时还会以被评估者对自身的评估报告作为基础。这种方法常见于上级机关对下级机关某一方面的评估中，由于上级机关处于领导地位，故而这种评估活动的推进有着强大的组织基础，也会得到下级机关的积极配合。

但从研究方法的科学性来说，前述评估方法也存在以下几个问题：首先，由于这类评估往往带有评比的性质，下级机关为了在上级机关面前展示成绩，往往会展现最好的一面，而对于改革政策的不足有意无意地给予淡化处理，这必然影响评估过程中获取信息的客观性；其次，这种方法在选取评估对象和访谈对象时带有较强的主观色彩，特别是在访谈对象的选取上主要依赖被评估单位推荐，基于前述第一方面考虑，被评估单位往往会推选那些持正面评价的访谈对象；最后，其所采用的座谈方法一般将很多受访者放在同一空间和时间来提供相关信息，受访者常常由于领导或者其他利害关系人在场而心生顾忌，使得一些负面的但能够反映真实状况的信息被屏蔽和过滤。正如一些政治社会学者所观察到的，在考核检查过程中地方官员占据信息优势和主动权，并通过诸多策略影响操纵考核内容、考核对象、问题解决等，从而有效削弱考核检查的制度初衷。(21)周雪光：《中国国家治理的制度逻辑：一个组织学研究》，第227页。司法评估活动常常被下级单位视为某种意义上的检查考核，因此，在评估的过程中同样容易出现类似的问题，这才导致前述评估环节被架空或扭曲的现象出现。

因此，要使司法评估中采用的这一方法真正能够客观反映被评估者的真实情况，还需要从以下几个方面加以改进。首先，在被评估单位的选取上要选择不同类型，根据区域发展程度、案件类型、单位层级等情况选择具有代表性的机构对象。其次，在被访谈者的选取上，要由评估单位根据被评估单位的名册进行随机的选取，当然在选取的过程中可以参考评估单位的意见。选取的人员同样要具有一定代表性，在不同角色中选取一定数量的代表以呈现多视角的信息，比如对司法员额制改革的评估，不仅要倾听员额法官的意见，也要倾听法官助理的意见；不仅要倾听领导层的意见，也要倾听一线办案人员的意见等。再次，在访谈方法的具体应用上，应该尽量采用单独访谈方式，对受访者尽量进行单独访谈，告诉受访者将为其保密，使其能够畅所欲言，避免不必要的顾虑。在访谈之前要做一些准备工作，对受访者的背景信息通过访谈的方式进行一定了解，以便理解受访者提供的评估信息。最后，在访谈的方法上也需相当技巧，质性社会学研究认为，与一般意义上的过程性发问相比，差异性发问能够更好地获取所需要的信息。所谓过程性发问，是指以时间逻辑为基础的过程性发问(how)或试图对案例性质进行定性的发问(what)；而所谓的差异性发问，则是指探求结构/机制性原因的发问，伴随着结构/机制性的因果关系假说和替代假说。(22)赵鼎新：《质性社会学研究的差异性发问和发问艺术》，《社会学研究》2021年第3期。因此，为进行有效的访谈，无论在访谈的组织、访谈地点、访谈顺序还是具体发问方式等方面都需要在评估前进行精心的组织，才能取得预期的效果。

(二)实验比较方式

在司法评估中，定性方法还可以通过实验比较的方式来展开。一项政策在司法机构中实施的效果有时需要通过对比实验才能看出。实验比较法通过选取一个实验组和一个对照组，实验组实行新的政策，对照组则保持原来的运行状态，经过一段时间的运行后再比较两个组的差异及其影响因素。这种实验比较法最早来自自然科学实验方法，在实验室中通过调整部分变量，对比不同组别的变化状况，从而了解不同变量与结果之间的因果关系。这种实验比较方式后来被引入社会科学领域，比如在经济学领域，我国改革开放初期，对包产到户政策的推行某种意义上就是实验比较的方法，一些集体先行采用包产到户政策，与另外一些未采用该政策的集体产生了鲜明的对比，效果显现之后，政策才逐渐铺开。经济特区与一般地区、自贸区与一般地区等宏观政策上的区分一定程度上也带有这种对比实验的性质。在法学领域，实验比较法同样被作为政策实施过程中的一种重要方法。比如20世纪60年代，针对犯罪嫌疑人审前羁押率过高的问题，维拉基金会与纽约大学法学院开展了名为“曼哈顿保释计划”，探索利用面谈等方式来替代附金钱条件的释放，取得了很好的效果。在该计划推行的第一年，就采用了对照组与实验组加以对比的方法，探索政策影响因素及其实际效果。(23)参见柏恩敬等编译：《审前羁押制度演变的比较研究》，北京：法律出版社，2018年，第41页。我国法学界也在21世纪初期引入了这一方法。比如樊崇义、顾永忠等教授主持的侦查讯问中律师在场、录音、录像三项制度改革实验，在北京、河南、甘肃三地的一些司法机关当中进行了对比实验，产生了很大的反响。(24)关于本项目的详细情况可以参见樊崇义、顾永忠主编：《侦查讯问程序改革实证研究——侦查讯问中律师在场、录音、录像制度实验》，北京：中国人民公安大学出版社，2007年。迄今为止，实验比较方法已经在我国的未成年人取保候审、证人出庭作证、羁押巡视制度、量刑程序、刑事和解、辩诉交易等制度当中开展过相关的实验研究。(25)具体介绍可参见何挺：《刑事司法改革中的实验研究》，第93页。

实验比较的开展大致可以分为三个步骤：第一阶段，实验设计与准备阶段，这一阶段主要完成以下几个方面的工作：(1)明确实验的目标，提出需要通过实验验证和解决的相关问题，提炼需要通过实验加以验证的基本假设；(2)选取实验的地点和对象，对对照组和实验组进行精心挑选，对实验组的人员进行必要的培训和准备工作；(3)设计实验开展的基本方案，这一方案要围绕实验的目标展开。以证人出庭为例，哪些因素影响了证人出庭的意愿，增加证人保护措施、证人补偿制度等能否增强证人出庭的意愿，证人出庭后的效果是否强于不出庭等应该都在实验设计阶段着重加以考虑。第二阶段，实验实施阶段，这一阶段是实验展开的关键阶段，主要包括以下几个方面的工作：(1)控制实验的环境，实验环境需要通过外部控制以达到实验设计的要求，避免其他无关变量对因变量的影响；(26)何挺：《刑事司法改革中的实验研究》，第68页。(2)施加自变量的刺激，在司法评估当中，这些自变量常常是一些新的改革举措；(3)观察自变量加以刺激之后因变量所产生的影响，这种影响可以通过访谈、参与观察等方式获取；第三个阶段是对实验进行总结阶段，这一阶段的主要工作是将实验的结果进行总结和反思，对实验当中在自变量和因变量在实验中的互动关系进行总结与提炼。

在实验对比方法开展的过程中运用定性方法需要注意的是，被评估对象是具有高度主观性的人，容易对实验本身产生影响，使得实验的结果失真或走样。这一点与自然科学实验是完全不同的，也是在设计和控制实验时要尽量避免的。这些影响因素主要来自两个方面：第一，在内部效度方面，主要影响因素包括样本选取上要注意选择具有代表性的样本，防止样本偏差；尽量抑制被实验者因为知道自己处于实验过程中带来行为改变，从而按照实验的目的来改变自己的行为，也就是所谓的霍桑效应；(27)霍桑效应起源于1924至1933年间的一系列实验研究，由哈佛大学心理专家梅奥(George Elton Mayo)教授为首的研究小组提出此概念，具体是指那些意识到自己正在被别人观察的个人具有改变自己行为的倾向。因为是研究人员在芝加哥西方电力公司霍桑工厂进行的工作条件、社会因素和生产效益关系实验中发现的，故称为霍桑效应。尽量避免将实验者的主观意愿带入实验中，在实验样本的选取、实验过程设计和实验结果评价上要尽量避免主观目标的影响。第二，外部效度方面，当我们将实验获得的结论向外进行推广应用时，该结论的可适用性将会受到实验对象条件的特殊性等系列因素的影响。例如不同区域的法院面临的办案压力可能截然不同，如果推行证人出庭作证制度实验，就要考虑区域办案压力的差别。实验者主观意愿也会对外部效度产生影响，如果实验者带有强烈的意愿来推广实验结论，那么实验本身的特殊性常常就会被一般性所替代。

(三)时序比较方式

第三种以定性方式来进行司法评估的类型是时序比较方式，这种方式就是在一定的时间跨度内对某一研究对象进行持续的观察和比较，进而判断研究对象本身的变化情况。在人类学和社会学中，往往会针对某一地区进行长达几年甚至几十年的观察，比如费孝通笔下的江村、林耀华笔下的闽北小村都属于此类研究。(28)参见费孝通：《江村经济》，北京：商务印书馆，2001年；林耀华：《金翼:一个中国家族的史记》，庄孔韶、方静文译，北京：三联书店，2015年。这种方式的时间跨度往往较长，周期一般在一年以上，因为只有足够的时间跨度才能看出一个机构的较为显著的变化。这种方式最常用到两种方法：第一种是历史文献法，对被评估机构的相关档案材料进行相对长时间跨度的检索与分析，从中看出相关制度的影响和变化情况。但在司法评估中，历史文献法一般只能作为辅助性方法，因为它主要用于获取历史上的信息，无法评估当前正在发生的状态。刑事速裁程序的试点时间为两年，速裁程序试点结束之后认罪认罚从宽制度的试点时间也是两年，有些学者通过某些机构这几年累计的数据观察制度试点过程中的基本运行状况。(29)比如孙长永、田文军：《认罪认罚案件量刑建议机制实证研究——以A市两级法院适用认罪认罚从宽制度审结的案件为样本》，《西南政法大学学报》2021年第5期。第二种则是通过定期的评估来了解某一研究对象的发展变化状况。无论是某一制度的试点还是针对某一机构的运行状态的评估往往都需要一定的时间跨度才能呈现。这种评估可能是采用沉浸式的法律民族志方式，比如像《秦窑法庭》一书展现的作者对一个法庭的持续跟踪观察；(30)丁卫：《秦窑法庭:基层司法的实践逻辑》，北京：三联书店，2014年。也可能是通过对一个机构定期的回访来了解相关政策的运作效果，比如笔者曾连续多年定期访问西北某一基层检察院，从中考察司法改革相关政策对其产生的影响。

与实验方式相比，时序比较方式的优点在于两个方面：(1)时间跨度一般更长一些，对一些制度的运行效果能够进行更为充分的展现，对被评估者的判断会更准确；(2)时序比较法对于被评估者的干预要小很多，从而避免实验方法对被评估者带来的影响。实验方式展开过程中需要进行分组和政策实施，对被评估者的干预程度较深，而时序比较方式当中，评估者更像是一名消极的旁观者，对被评估者的影响尽管也同样存在，但要小很多。不过，相比于实验方法，时序比较法也存在一些缺点：(1)由于时序比较法的时间跨度较长，因此花费的时间成本、人力成本等更高。而我国各地针对各种不同司法政策的评估往往都是运动式治理的一部分，有着较强的时间要求，很难完全按照时序评估的方式推进；(2)由于时序比较法跨度时间比较长，对被评估对象影响的因素来源就呈现多样化，这就使得相关自变量和因变量之间关系变得非常模糊，很难给出比较清晰的描述。正是因为前述优缺点的存在，时序比较法更适合那些需要长时间观察的评估项目。

四、迈向定量与定性方法相结合的司法评估模式

前述对可能应用于司法评估中定性方法的介绍展示了这种方法相比于定量方法的优势和不足之处。当然，评估运用何种方法更为合适其实取决于评估的目的和需要，没有脱离评估目标本身的完美方法。与此同时，在司法评估实践中也并不会单纯使用某一种方法，更多的时候是多种方法的组合使用，定量方法与定性方法相互结合。从这个角度来说，司法评估活动是一种综合运用定量与定性方法的评价活动。以下我们以某一司法改革评估项目为例，探讨实践中如何构建一种定量与定性方法相结合的司法评估模式。

该司法改革评估项目的目标是通过评估来了解在全国部分试点单位的某一司法改革政策推行效果及存在的问题。评估对象是全国10个试点地区的部分检察院和法院，评估的周期为半年左右。由于评估对象机构较多，评估时间比较短暂，加上该司法改革政策涉及被评估单位的几乎每一个人，即使选取代表性样本，覆盖面预计上千人次。在这一情况下，如果仅仅使用定性方法，显然无法在规定的时间完成相应的评估任务。但如果仅仅采用定量的问卷方法，由于该司法改革政策涉及的被评估机构人事变动的方方面面，很难仅仅用问卷来完成相关信息的收集工作。为此，项目组采用了定性方法与定量方法相结合的基本模式，针对不同的信息收集任务应用不同的方法，最后将通过不同方式收集来的信息加以整合评估。

在司法评估准备阶段，项目组主要完成以下几项准备工作：(1)完成第三方评估指标体系，针对评估对象和评估目标，制定出相应的指标体系，该指标体系为整个评估工作确立了一个基本标准；(2)根据指标体系，确定哪些指标可以通过定量方法来获取信息，哪些指标只能通过定性方法来获取信息，在此基础上设计出相应的调查问卷和访谈提纲；(3)通过随机抽取程序来确定试点地区的试点单位；(4)根据指标体系，请被评估对象提交自我评估报告，该自评报告为评估人员快速了解被评估对象提供了途径。与此同时，在评估的过程中，可以通过与自评报告信息进行比较，从而得出更为全面的评估意见。

在司法评估实施阶段，项目组按照下列步骤来开展工作：(1)评估小组进入被评估机构，确定评估工作开展的主要场所；(2)调取被评估机构花名册，根据花名册分发调查问卷；(3)根据花名册，按照领导层、中层领导和一线办案人员三个类别结合是否进入员额等标准来进行分组，从每一组中抽取一定数额的访谈对象；(4)在主要场所或者被访谈者的办公地点进行单独的访谈，了解被访谈者的背景信息、被访谈者对相关政策的评价意见等信息；(5)回收问卷，收集被评估机构的相关信息。

在司法评估的总结阶段，需要完成以下几项工作：(1)对问卷进行统计汇总；(2)对访谈信息进行整理，对相关信息进行编码、分组、汇总；(3)召开评估总结会议，结合问卷数据、访谈数据及相关背景数据，对被评估单位及相关政策的实施状况进行基本评估，撰写评估报告；(4)对本次评估活动的组织状况、评估方法和利弊得失进行总结。

前述项目是采取定量方法与定性方法相结合来对某一司法改革政策在不同机构中实施状况进行评估的一个实际运用例子。总体来说，定性方法和定量方法在该案例中取得了比较好的效果。一方面，每个评估机构大约用一天的时间完成了调查问卷的收集，快速完成了相关信息的回收。通过问卷调查回收了上千份调查问卷，受访者覆盖了被调研机构几乎所有利益相关者，比较全面地反映了本次改革的利益相关者在一些问题上的基本立场。另一方面，通过单独访谈和收集一些历史文献的方式对一些需要进一步挖掘的关键问题进行深入的了解。许多未能入额人员和相对底层的人员在单独访谈中提供了通过定量方法无法收集到的信息。此外，通过对比入额人员与非入额人员、一线人员与领导层等不同分组人员对司法改革政策的评价及受到的影响情况，可以描绘出司法改革政策所产生的分化效应。在本评估项目中，定性方法和定量方法这两类不同的研究方法得以较好的结合，发挥了两种研究方法的研究特长，有效地将两种研究方法的不足之处进行了互补，在有限时间内完成了相应的司法评估任务。

当然，需要看到在这一司法评估项目中能够有效将定性方法与定量方法相结合并使其发挥最佳的功效，还因为有以下两个有利条件：第一，组织条件。本次评估活动是在中央部门直接支持下开展的，这就意味着本次评估活动本身有着强大的权力资源作支撑，这是绝大部分评估项目所不具备的。(31)关于权力资源对调研的意义，参见苏力：《法律社会学调查中的权力资源——一个社会学调查过程的反思》，《社会学研究》1998年第6期。正因为有这一后盾，许多评估手段才能得以快速顺利地完成，让被评估单位尽量配合提供各类需要的资料。第二，强大的调研团队和调研基础。本项目由一个有着良好基础的调研团队完成，该调研团队由十数名核心团队成员、数十名外围研究成员组成，在过去数年时间里长期从事着司法评估的活动。这些基础为该研究团队能够在本次司法评估活动中娴熟地运用定量方法和定性方法提供了可能。由此可以看出，要在司法评估当中发挥出定性方法和定量方法的最佳效果需要有较好的评估资源和评估团队作为支撑，否则可能导致两类方法都浅尝辄止，无法深入评估对象。在具体的司法评估实践中，应该根据评估目标、评估条件、评估资源和评估团队力量等综合考虑，根据有效获取评估信息最大化这一基本原则来选择恰当的司法评估方法。

五、结语

随着司法改革的不断深入，对司法改革举措成效的评估成为其中不可或缺的环节。司法改革举措评估结果成为我们决定下一步是否继续推广相关改革举措和改进相关举措的最重要基础。从这个意义上说，司法评估已经成为我们进行有效司法治理的一个前提性条件。尽管我们已经对诸多司法改革举措展开了司法改革试点，但似乎对于司法改革举措评估本身的方法及其科学性还缺乏足够的关注，从而造成了“凡是试点必然成功”、改革评估流于形式等不太科学的现象。因此，有必要针对司法评估基本方法本身的科学性及其具体应用的基本条件从理论上加以反思，对现有评估方法的开展进行考察和改进。本文主要侧重从定性方法入手，针对现有司法评估当中所运用的座谈、实验等方法的不足进行检讨。对于方法论的检讨是开展科学的司法评估的一个前提条件。当然，任何工具都是服务于其评估目的，都是受制于其评估资源和评估条件的。因此，在具体开展司法评估的过程中，应该结合相应的评估目的和评估资源，采用相对恰当的司法评估方法，确定相对优化合理的司法评估方案。唯有如此，通过司法改革获得的司法治理才能真正得以实现。