法学研究中的实证发现
——以刑事实证研究为例
2019-01-26白建军
白建军
(北京大学法学院,北京 100087)
实证研究就是经验(Empirical 而非Positive)研究。经验研究的重要功能是发现事实真相和客观规律,问题是,什么是一个可靠的实证发现,实证发现承担着什么样的学术功能,这在我国目前的刑事法学研究甚至整体的法学研究中都是一个存在争议的问题。到底该怎样理解实证发现,有些问题需要澄清。所谓实证发现,就是运用实证研究的方法,描述、解释大量事实材料背后理论与实际之间的关系。实证发现包括“发现什么”和“怎么发现”两个方面:前者如发现应然与实然之间的距离,发现法学理论通说的边界与局限;后者如发现所需要的工具理性和程序理性。不做实证研究,依然有许多已知。不过,人们以为知道的许多内容,有的其实原本就来自某个实证发现,有的其实未必恰如人们所知,有的可能被一个实证发现所证否。既然实证发现在不断丰富各种知识,就不必因各种已知而排斥进一步的实证发现。作为自己从事经验研究的一点经验之谈,笔者拟以刑事法学研究中的若干实证研究为例,讨论实证发现的类型与内涵。①作为学术心得,为避免过多自引,涉及部分研究实例的解析顺序为:在SOCIAL SCIENCES IN CHINA 2004 年春季版发表的“QUANTITATIVE ANALYSIS OF CRIME AND PENALTY”一文,在《法学研究》2010 年第6 期发表的《裸刑均值的意义》一文,在《中国社会科学》2013 年第1 期发表的《司法潜见对定罪过程的影响》一文,在《中国法学》2013 年第6 期发表的《论具体犯罪概念的经验概括》一文,在《中国法学》2017 年第5 期发表的《犯罪圈与刑法修正的结构控制》一文,在《法学研究》2016 年第6 期发表的《基于法官集体经验的量刑预测研究》一文,在《中国法学》2010 年第6 期发表的《犯罪轻重是如何被定义的》一文,在《中国法学》2003 年第3 期发表的《同案同判的宪政意义及其实证研究》一文,在《中国社会科学》2017 年第1 期发表的《中国民众刑法偏好研究》一文,在《中国社会科学》2006 年第5 期发表的《死刑适用实证研究》一文,在《中国社会科学》2010 年第2 期发表的《从中国犯罪率数据看罪因、罪行与刑罚的关系》一文。
一、实证研究可以发现的内容
(一)实证研究可以发现应然与实然之差
“我知道,何必实证”这一说法中的“知道”,可能是指认为、相信理当如何。如纠纷处理,理当公平、公正。应当如何,可能与实际经验的所知不是一回事。更何况,在很多情形下,应然并不等于实然,理应如此的许多认识,实际上甚至恰恰相反,即所谓知其应然,未必知其实然。对应然的了解,的确不必依赖实证方法。要了解实然,要知道实然与应然之间的实际距离,实证研究就可能更有优势。从这个意义上说,实证发现是按照一定的检验逻辑,以应然理论为假设、以实然为检验标准的探索过程及其结果。其中,没有理论研究所给定的待检验假设,任何所谓实证研究都不完整,充其量只是某种现象描述。与此同时,没有实证研究,也没有人知道理论在多大程度上得到贯彻,甚至无从确证一个理论是真是假,抑或只是某种理想。
例如,尽管罪刑均衡或曰罪责刑相适应是我国刑法的基本原则之一,即罪刑关系理应均衡相称,但实际上,学者早就发现我国刑法中实际存在的“刑罚攀比”现象,包括纵向攀比和横向攀比。②参见周光权:《法定刑配置的合理性探讨——刑罚攀比及其抗制》,《法律科学》1998 年第4 期。其实,罪刑关系的错配最简单的分类就是重罪轻罚和轻罪重罚两种。例如,我国《刑法》第三百九十八条规定的故意泄露国家秘密罪和过失泄露国家秘密罪,其法定刑上限均为七年以下有期徒刑。故意犯罪重于过失犯罪是刑法常识,而这里到底是故意泄露国家秘密罪配刑轻了,还是过失泄露国家秘密罪配刑重了?又如,我国《刑法》第三百五十九条规定了引诱幼女卖淫罪,法定刑为五年以上有期徒刑,第一百零三条规定了煽动分裂国家罪,其法定刑分为两档,一档是五年以下有期徒刑、拘役、管制或者剥夺政治权利,另一档是对首要分子或者罪行重大的处五年以上有期徒刑。这两个罪名的法定刑上限是一样的,是否意味着两个罪的严重程度或不法量相等呢?煽动分裂国家罪还配置了基本和加重两档法定刑,下限为拘役、管制。很显然,尽管两种犯罪都是采用欺骗性语言操控信息接收者的行为,以达到其不法目的,但毕竟,一个是有伤风化破坏社会管理秩序,另一个则是危及国家安全,不应该具有相等的不法量。配置了相同的法定刑上限,不是引诱幼女卖淫罪配刑过重,就是煽动分裂国家犯罪配刑过轻。由此也可看出,尽管对法律适用而言,法律条文的规定是应然的规则,但对法学研究来说,法律条文其实也可以视为一种实然。据此,笔者曾以均衡为假设,对中国刑法典中的罪刑关系进行过实证研究,该项研究成果以《罪刑均衡实证研究》为题于2004 年在法律出版社出版。该研究发现,对1997 年我国《刑法》来说,犯罪的严重程度只能解释不到一半的刑罚的严厉程度的变化。刑罚的轻重配置,应该另有原因。
应当承认,说明应当如何的确是法学理论研究的基本要求,甚至是主要形式。至少,对法学教育来说大致如此。然而,学者不能据此形成某种错觉,以为理论工作位居实然、实际、实践之上。回顾现代刑法学最伟大的著作之一《论犯罪与刑罚》一书的形成过程便不难看出,书中提出的罪刑法定原则、罪刑均衡原则、法律面前人人平等原则和刑罚人道主义原则都离不开作者对实然的充分了解。在贝卡里亚写作《论犯罪与刑罚》之前,他参加了一个名为“拳头社”的团体,参加该团体的成员还有一些年轻的数学家、法学家、经济学家。其中,韦里兄弟是贝卡里亚青年时期的挚友,他们同在“拳头社”中学习,韦里兄弟为贝卡里亚提供了大量关于监狱中犯人悲惨状况的资料,对贝卡里亚构思《论犯罪与刑罚》起了很大的作用。③参见黄风:《贝卡利亚及其刑法思想》,载[意]切萨雷·贝卡利亚:《论犯罪与刑法》,北京大学出版社2008 年版,第126~131 页。正是对封建刑事司法种种黑暗的充分了解,才催生了关于现代刑法原则的深刻论述。可见,人们不应满足于知其应然,而应自觉往返于应然与实然之间的观察、思考,不断用新的发现完善、丰富法学理论研究。
(二)实证研究可以发现知识的相互印证
“我知道,何必实证”的说法中还有一种可能:某项研究正好证实了原有的某个猜想或意向,让人们事后意识到原有的这个猜想或意向果然如此。这时,让人印象深刻的往往是结论而非该结论如何得到强化的过程。不过,经验—新的发现—再经验—更新的发现的循环往复,是知识生产的自身规律。不能因为原有知识得到了印证,便忽略了印证过程的必要。从这个意义上看,所谓实证发现就是经得起反复印证的事实观察过程及其结果。如果某个观察结果不可重复,其科学性必然会受到质疑。
例如,2009 年,在最高人民法院支持下,笔者从21 个省市的77 家法院提供的39143 份刑事判决书中提取了71653 个样本,形成量刑研究的最小分析单位。结果发现,过滤已从轻从重的样本以后,绝大部分常见犯罪的平均量刑水平都低于法定刑幅度中间线大约十几个月。以盗窃案件为例,盗窃罪基本犯罪构成的法定刑幅度中间线为21 个月,而大样本的实际“裸刑均值”为9.36 个月;加重构成的法定刑幅度中间线为78 个月,而大样本的实际裸刑均值为51.58 个月;再加重的法定刑中间线为150 个月,而大样本的实际裸刑均值为134.09 个月。其他几类常见犯罪案件的情况也大体如此,实际刑期均值都比法定刑中线低大约十几个月。恰好,来自德国马普研究所的阿尔布莱希特教授用大量实证数据证明,在德国和奥地利,刑罚裁量的普遍水平位于法定刑幅度的三分之一以下。④[德]汉斯·约格·阿尔布莱希特:《重罪量刑》,熊琦等译,法律出版社2017 年版,第322~324 页、第523 页。这三个国家的数据背后可以看出一个共同点:法定刑下限是法官量刑的基本起点,既非法定刑中线,更非法定刑上线。这种相互印证的背后,隐约可见中、德、奥三国法官异曲同工的职业实践,不谋而合的共同选择,让人似乎能触摸到某种超越犯罪论体系、超越意识形态、超越国界的集体理性、实践理性、自然理性。
关于观察的相互印证问题,一个有趣的学术现象值得一提:美国学界关于死刑适用效果的多个实证研究之间往往相互矛盾,有的支持死刑保留论,有的则支持死刑废除论。于是有人认为,这说明实证研究这种方法本身不可靠。⑤参见[英]罗吉尔·胡德:《死刑的全球考察》,刘仁文、周振杰译,中国人民公安大学出版社2005 年版,第453 页。其实,如果因为一种方法得出的结论相异便认为这种方法有问题,那最该被质疑的应该是在各种“我认为”之间来回对照的研究。学术观点、结论的多样化,才是学术生活的常态,并且,对实证研究来说,从样本、假设检验、概念操作化和分析工具的选用以及结果的分析,有一整套科学性的判断标准。反倒是某些理论研究,其科学性的最终判断还需求助于实践检验。其实,不需要担心研究结论之间的差异,真正需要在乎的是理论学说之间的比较和竞争有没有科学的评判机制和标准。正是由于缺乏这种机制,身份、地位、字数、引证率、项目经费数量等因素才不得不成为人文学社科学术评价的实际根据。
(三)样本可靠的实证研究可以发现有历史价值的结论
学生或学者的确知道很多知识,而其中的许多是亚里士多德的、孟德斯鸠的、贝卡里亚的、罗克辛等学者本人的“我认为”。在人类认知的历史中,这样的学者的这种经得起时代考验的观点并不多。对包括笔者在内的不少学者而言,所生产的各式“我认为”很快就会被人遗忘。因为许多“我认为”、“你认为”、“他认为”都对认知活动的推进没有太大意义。与其如此,不如把有限的精力投入到诸如观察归纳的发现、建设可学习的数据库、建设可持续跟踪研究对象的测量机制、数据分析结果、算法模型、田野调查等成果形式上。至少,几十年甚至更久以后,当人们问起现在的学者都做了些什么时,还能看到这个时代法律世界的一些真实记录。如果一个学科的大多数学者都热衷于或只会从事各种观点之争,对个体来说可能“性价比”较高,总有一定数量的产出,但这个学科贡献的增量知识其实有限,因而整体“性价比”并不高。从这个意义上说,实证发现的意义在于做出些能留得住的东西。
所谓能留得住的东西,一个基本要求就是样本可靠。对经验研究来说,当样本等于或接近总体时,抽样误差为零或接近零。这意味着,研究者不应对小样本抱有过分自信,甚至夸大小样本的作用。在方法论上,这个问题叫作小样本风险:个别事件或想象出来的实例可以用来解释某种已有的理论,但如果某种新的学说建立在这些个别事件或小样本基础上,就是一种学术冒险。用大样本做研究,结论不一定是科学的,科学的结论也不都出自大样本研究,但负责任的学者不可能不在乎研究样本的可靠性。因为说得通,未必行得通。真理往往藏在大量事件背后,不仅说得通,而且行得通。是否行得通的一个决定性因素,就是看一个理论能否被大样本的反复观察所验证。因此,实证研究就是观察、挖掘、筛选、运用样本的艺术,就是用可靠样本说故事的艺术。与此不同,某些口水之争也以事实为根据,但是,仅仅为了自圆其说而用人为挑选的事实说话,当然会支持某种预设的结论,不足为信。
或许有学者说,费孝通的《江村经济》、孔飞力的《叫魂:1768 年中国妖术大恐慌》、朱晓阳的《小村故事》,只聚焦某个点从事研究,难道说也是在学术冒险?其实,如果仔细研读过这些大师的著作,就会发现这些经典虽然从一个点切入,却以海量的事实数据作为基础,正是运用样本说故事的典范。始于1768 年春的浙江“剪辫案”持续了大半年时间,所引发的恐慌蔓延大半个中国,使得整个国家陷入动荡不安。美国汉学家孔飞力由此入手,在中国第一历史档案馆收集研究了海量的文献,如《朱批奏折》《宫中上谕》《宫中廷寄》《附录奏折·法律·其他》《上谕档方本》,以及图书集成局1886 年版的《刑案汇览》、薛允升的《读例存疑》、台北故宫博物院的《宫中档乾隆朝奏折》、1899 年版的《大清会典事例》、光绪年间编辑的《大清十朝圣训》等等,最终写出了《叫魂:1768 年中国妖术大恐慌》一书。作者详细观察百姓、官僚、皇帝三个层面在叫魂案中的不同反应,发现每个群体都基于自身利益重新诠释了叫魂事件,经他们各自重塑后的模样已经远离了叫魂事件本身。可以说,叫魂事件是中国放大版的“罗生门”。从中既可以看到各种犯罪定义者如何从自身利益出发,对某一社会事实进行符合自身利益的再定义,也可以观察到专制权力如何凌驾于法律之上,以及官僚机制如何试图通过操纵通讯体系来控制最高统治者。
由此也可看出,样本是否可靠,与样本的分析单位有关。按照上述质疑,大师们的分析单位只是他们着手观察的“点”。其实,在这些学者看来,这些“点”内部的大量事实、数据、信息才是更基本的分析单位。因此,一个省的全样本可谓数量不少,但不能直接推论到全中国;一个村落百年来政治、经济、文化、人口、民俗的大量数据也可能是大时空跨度的典型代表。笔者曾参与三峡移民资金使用专项研究,收集了重庆、湖北两地所有涉该项目的几百个贪腐案件做实证研究。虽然只有几百个案件,但也是该专项研究的全样本。研究刑事司法,有“案”、“人”、“罪”三个层次的分析单位。因为一个案件中可能有数个被告,一个被告可能有数个犯罪行为。在研究过程中,不能在这三个层次之间来回跳跃。可见,样本的可靠性与许多因素有关,不能简单地说样本越大越好。反过来说,如果研究者随机询问三个北京市民对死刑存废的态度,回来便据此得出结论说,中国民众支持废除死刑的占比百分之几,反对废除死刑的占比百分之几的话,大概连该研究者本人都会觉得不科学。总之,样本的可靠性、代表性、可推论性是实证研究成果能否留得住的基本保证。
(四)实证研究可以通过证否来推动理论的发展
“因为我知道所以无需实证”的逻辑还可能掩盖一种可能性:人们自以为知道的东西,很可能只是某种误解、偏见。因为,人的认知能力都是有限的,现有的大多数理论、知识都不过是尚未证否的假设。现阶段认为是真理的东西,随着社会的发展,可能就会被认为不再是正确的,而推动人们不断推翻已知去发现新知的,就是实证研究。因此,实证发现往往是对通说、常识的证伪和批判。
波普认为,科学的标志就是可证伪性。例如,人们曾经认为,天鹅是白的,当发现一只黑天鹅以后,便证否了原有的知识。各种宗教信条就无法被证伪,因而不属于科学范畴。甚至,随着天文科学、医学的不断发展,像“日出东方”、“人皆会死”这样的判断也可能有一天被证否。因此,现在无法证伪的通识,将来未必也无法证伪,此即从相对真理走向绝对真理的认识过程。波普把科学知识看作是一个不断增长的动态过程,提出了一个理论成长的四段图式:“Pl—TT—EE—P2……”其中Pl 表示问题,TT 表示试探性理论,EE 表示尝试排除错误,P2 表示新问题。波普的知识增长理论倡导了一种与教条主义截然不同的理性批判态度,他反对把任何理论尊为教条或权威。⑥参见王婷:《浅析波普的科学知识增长论》,《前沿》2007 年第10 期
后来,库恩用“释疑传统”取代波普的“可证伪性”。例如,他们两人都认为占星术是伪科学。波普的理由是,占星术不科学是因为其理论含混模糊,缺乏可检验性。库恩则认为,占星术曾有过许多失败的预言,按照波普的可证伪标准,占星术也是科学。人们从未认为天文学、气象学是伪科学,因为它们和占星术的重要不同是,天文学家如果预测失败,他可能怀疑数据有问题,于是审查所得数据,进行重新测量,也可能怀疑仪器出了问题,甚至他还可能怀疑理论本身出了状况,并试图加以改进。⑦参见谢江平:《从划界问题看库恩的科学观——兼谈库恩与波普划界之争》,《前沿》2011 年第1 期。由这个“释疑”过程可以看出,释疑和检验、证伪的内核都是理性的批判精神,都是对某些“当然如此”的质疑态度。总之,每当提出对一个问题的解法时,应该尽其所能地去试图推翻之前的解法,而不是去保护它。⑧参见前注⑥,王婷文。
回顾笔者所经历的法律实证研究,也常常感受到这种证否过程的乐趣。例如,按照一般理解,所谓金融安全应该是指银行金库安全、运钞安全、投资理财安全,总之,金融安全是有形的资产安全,但笔者曾经在一项银行犯罪大样本实证研究中发现,以银行资金安全为直接侵害对象的简单骗局的既遂率不到50%,而以银行信用安全为直接侵害对象的复杂骗局的既遂率则高达90%左右。这个发现,就证伪了一些人关于金融安全的简单理解。
还有一项质疑“罪为因刑为果”的研究发现,无罪与有罪的司法决定不完全取决于案件基本事实是否符合实体定罪条件,还与刑事诉讼过程中的某种司法潜见有关。司法潜见源于证据信息不对称、实体性暗示、控辩力量对比悬殊、控方对案件的初选等四类背景信息,这些背景信息使司法人员对案件是否有罪的最终结果早有心理准备和预期。司法潜见包括无罪潜见和有罪潜见。由于司法潜见的存在,一些有罪判决其实是实体定罪条件与有罪潜见的综合产物。因此,追求零无罪率的口号不符合司法规律。
通过反例证伪通说的另一个例子是关于法律经验定义的研究。一般认为,抢劫罪是暴力当场夺取他人财物的行为。然而,笔者收集了几乎全部一审以抢劫罪指控而终审以其他罪名定罪的案例进行逐一分析后发现,这些案例都符合当场施暴当场取财的特征,但最终都未被认定为抢劫罪。例如被告人刘某等人因购买的推土机质量不合格,遇到来自同一地方的推土机推销商,便以暴力手段逼迫其“赔偿损失”。被害人因其产品确属拼装机而惧怕见官,当场交付了财物。控方以抢劫罪指控,而法院以敲诈勒索罪认定。又如被告人在酒席中被人打断一颗牙,遂纠集多人对打人者进行殴打并当众将其带走拘禁,要求其家属支付6000 元的补牙费用。控方以抢劫罪指控,法院以非法拘禁罪认定。再如被告彭某嫖娼后以做法不符合要求为由持刀强行要回嫖资30 元,并将阻止其逃跑的人刺成重伤。控方以抢劫罪指控,法院以故意伤害罪认定,等等。这些案例虽然都有两个“当场”的特征,但又由不同的前因后果所引起。于是,可以对抢劫罪的三段论稍作修订:其大前提为“抢劫罪是暴力当场劫取他人财物的行为”,大小前提之间加入一个来自大样本的经验概括“但有些发生在一定前因后果中的除外”,然后才是基于经验概括的小前提“某被告的行为是发生在一定冲突背景中的暴力当场取财行为”,最终得出“所以,该被告的行为(很可能)不是抢劫罪”的结论。笔者将这种类型化案件事实法律性质的否定性特称判断称为“小但书”。这种实证观察的样本越大,在司法实践中越具有普遍性,借助这种经验之知对具体案件做出判断时,犯错误的风险就越小。可见,三段论的大前提其实是被人们事先放进一些东西的盒子,法律解释实际上是在“猜”盒子里曾经装有什么。既然是“猜”,就会有不同的结果。法的经验定义不能告诉人们,盒子里肯定有什么,但至少可以通过归纳大量的反例告诉人们,盒子里其实(很可能)没有什么。
总之,批判、证否,是实证发现的基本形式。只不过,这种批判不是靠极端语言来表达异议,而是靠数据、经验事实、反例等表达对通说的质疑,因而是一种更温和而有根据的批判。其实,除了实证研究以外,其他学术争鸣也避免不了对另一种理论学说的批判、否定。并且,证否“天鹅都是白色的”说法其实就在证实“存在黑色天鹅”的说法,否定与肯定也是相对的。实证发现的特别之处在于说出事实的方法,按照这种方法,证否和批判都是抽样、概念操作化、假设检验、分析工具选用等一整套规则运行的结果。强调实证发现证否的一面意味着,学术上没有永远的教条,因而,研究意向之间也不应存在仰视链或鄙视链。
(五)实证研究可以发现理论的边界与局限
对于许多正确的结论,确实可能没有必要再去做实证。然而,知道结论未必知道结论止于何处,也未必知道如何用现有结论去预测未来法律现象的范围、规模、水平、出现概率。获取一个结论的同时,不去注意该结论的边界,是某些领域人文社科教育的一个缺憾。道理虽然有对错之分,但也要考虑其起因、条件、范围和局限。真理的边界问题,与真理的相对性有关。所谓真理是相对的,不仅是指人类认识过程新旧知识的更替、原有知识不断地被证否,而且意味着真理都有它的成立条件和适用范围。超越边界条件,真理多走一步就是谬误。因此,所谓发现,就是找到某种理论学说的有效条件、解释范围和局限。缺乏这些界说,则只是一些意见而非严格意义上的理论。
遗憾的是,有的学术研究就缺乏这种边界意识,以至于生出各种无谓的争论。比如,我国1997 年《刑法》颁布施行至今20 余年来,围绕着多次刑法修订是否已经超越合理的正当性界限问题,肯定说认同多年来的修法成果,认为基本上不存在超越犯罪圈合理边界的问题,否定论认为,刑法的扩张已经超越了正当范围,甚至会造成恶果。看上去,好像不同意见持有者各自认为的合理适度的犯罪圈是同一个,只不过肯定说认为刑法修正尚未超越这个范围,而否定说认为刑法修正已经或者正在超出这个范围。然而实际上,并不存在这个公认的犯罪圈。假设存在一个公认的犯罪圈,如果这个犯罪圈原本就很大,对刑法修正的过程和结果自然持肯定态度;同理,如果这个犯罪圈本身就很小,对同样的刑法修正当然可能持否定态度。因此,与“犯罪圈大一点好还是小一点好”这种似是而非的命题相比,讨论刑法修正的一个前提性问题是,犯罪圈的真正范围到底有多大,其实际边界到底在哪里。
法学引进实证研究方法以后,为理论边界的发现提供了方法。例如,司法解释规定的法定量刑情节应该是法官量刑活动的主要根据,然而其中尚存的问题是:“主要根据”到底是什么意思?人文社科研究中,常用“基本上”、“主要”、“决定性”、“一般来说”等等词语表达某个因素的重要性,而“基本上”与“其他情形下”、“主要”与“次要”、“决定性”与“其他相关性”、“一般来说”与“特殊情况”这些表述之间的界限何在呢?正因为无法明确这些界限,法学才没能区分什么是科学理论,什么是意见、见解。
以量刑预测研究为例可以说明实证研究是如何解决这类问题的。司法实践中,虽然某个罪名下各种法定量刑情节在具体个案中有多种可能的组合,但是对于多情节案件如何量刑却无明确的法律规定,导致此类案件的量刑结果不确定。笔者认为,法官的集体职业实践经验中,包含着某种集体理性、实践理性。这种理性是司法客观规律的反映,也会指导更大范围的司法实践。然而,这个理论也是有其作用范围的。以十四万余交通肇事罪案件为样本,对其量刑进行确定性检验发现:通过限缩量刑情节的裁量幅度,可以将此类案件的量刑确定性由原来的30.5%提高到51.1%;在此基础上控制样本离散性程度,又可以将量刑确定性由51.1%进一步提高到73.4%。据此建立的量刑模型还可用于量刑预测,促进司法公正,提高审判管理水平。
这几个百分比其实就是多元线性回归结果的回归系数。在多元回归分析中,每个变量的系数是测量在所有其他自变量都保持不变的情况下,某一给定自变量一个单位的变化导致因变量期望值的相应变化。⑨Dona l d J.Tr ei ma n:《量化数据分析:通过社会研究检验想法》,任强译,社会科学文献出版社2012 年版,第100 页。也就是说,能够在保持其他变量效果不变的情况下,将某个变量的效果分离出来。10参见[美]查尔斯·惠伦:《赤裸裸的统计学》,曹槟译,中信出版社2013 年版,第218 页。因此,这种观察可以弄清三件事。第一,所有有效变量的共同作用能在多大程度上解释并预测理论假设的作用范围。如果回归结果的确定系数R 为0 或接近0,就意味着法定量刑情节基本上无法解释量刑结果的轻重差异;如果确定系数R 为1 或接近1,就意味着法定量刑情节是量刑结果的主要解释,且量刑的合法性、确定性程度较高,非法律因素的影响得到了控制。第二,在法定情节中,有多少情节的影响满足统计显著性要求,以及满足显著性要求的情节的标准化回归系数是否接近1。第三,多少个案较好地被该理论假设解释并预测,多少个案其实更多受其他未知因素影响。这里,总体上的回归系数、具体变量的标准化回归系数以及被较好解释的个案规模,其实都不可能达到百分之百的理想效果,这就是理论的边界。在这之外,一定会有程度不同的未知因素影响着司法实践,因而一定会有某个理论无法解释的个案。实证研究不可能穷尽所有可能性,不可能对所有现象给出确定性解释。实证研究可以比较确切地明确其研究边界及优势与劣势。知与不知相伴而生,是实证研究的基本特征。
二、实证研究的方法及应注意的关键问题
(一)发现适合实证研究的问题
以上笔者从五个方面讨论了实证研究“发现什么”的问题。接下来,笔者将从四个方面讨论“怎么发现”的问题。学术研究中,知道某些结论,未必知道研究始于何种问题,以及如何发现、提出一个值得研究的问题。问题才是科学研究的精髓所在,好问题的价值有时甚至胜过结论。提出问题的方法有很多,如许多法律规则的制定,始于某个新型个案的出现及对其的观察,即许多问题都来自经验观察。自从实证研究方法被引入法学研究领域以来,人们就有可能在更大视野内进行观察。于是,发现、提出问题的路径更多了。因此,从发现的方法角度看,所谓实证发现是指问题的发现,即提出并科学描述一个值得探索的问题。法律实证研究的问题发现,一般具有三个特点。
第一个特点是,一个适合实证研究的问题,往往藏在大量事件背后。当然,非典型个案则并不适合做实证研究。比如,除河北衡水的信用证诈骗案涉案金额高达百亿美元以外,其他地方的信用证诈骗案一般不会达到这个规模。因此,信用证诈骗是否应规定死刑就不一定是个正确的问题。以笔者个人经验来说,取得一定案件数据信息后,应先观察哪类案件的发案规模较大。一种案件的出现规模越大,频次越高,挖掘出来的问题才越可能具有普遍性。即使对这样的问题仍会有不同回答,但不同的结论至少具有更一致和可靠的事实根据和经验原型。例如,对死刑有两种基本立场,保留死刑或废除死刑。笔者的一项实证研究发现,死刑国家的平均人口为一亿七千八百多万人,而非死刑国家的平均人口仅为两千六百多万人,前者大约是后者的6.7 倍。可以说,死刑国家基本上是人口大国。为慎重起见,笔者又测量了有死刑国家的人口总数与刑法中死罪个数之间的相关性。结果是,其皮尔逊相关系数为0.46,“P 值=0.04”,说明死刑的有无以及死罪罪名的多少都在一定程度上与人口因素有关。这个发现虽然不能直接支持或不支持死刑的存废理论,但至少为该问题的思考提供了新的数据信息。基于这一信息,人们会进一步思考,为什么人口越多越难以废除死刑,是因为人口越多的国家犯罪就越重,还是因为人口大国更需要刑罚威慑。接下来,人口与犯罪的关系、人口与公权力的关系等,一系列值得深入探讨的问题都会连带出现。
第二个特点是,实证研究的问题发现,往往有赖于现象的科学描述。例如,笔者曾经按地理区划四分法将全国法院分成四组,然后对四组法院判决的抢劫罪案例大样本进行观察,结果发现:四组法院对抢劫罪的量刑轻重水平有显著差异。A 组法院的罪刑均衡率为86.9%,位居第一位。D 组法院的罪刑均衡率为81.5%,位居第二位。B 组法院的罪刑均衡率为80.9%,处在第三位。C 组法院的罪刑均衡率最低,仅为77.9%。并且,D 组法院的偏轻或者过轻的概率较大,两者相加共有l3 个百分点。C 组法院偏重和过重的机会都名列第一,偏重率为12.2%,过重率为5.3%。应当认为,不论量刑过轻还是过重,这都意味着不公平。为什么有的地方法院量刑较重,有的地方则量刑较轻?到底是不同地方的犯罪严重程度不同,还是不同地方法官掌握的标准不同?如果不是量化分析的精准描述,大家也知道量刑失衡现象的存在,但不可能知道它的实际规模、分布、程度,更无从提出为什么存在这些差异的问题。并且,如果不告知四组法院的实际地理分布,即使是具有大量审判经验的法官,对D组和C 组分别是哪个地区的法院也有不同猜想。可见,实证发现既可能展现某个有悬念的问题,也可能在精准描述的同时提出新的问题。
第三个特点是,能够成为实证研究问题的,往往来自实践中解决疑难问题的需要。与为了满足某种理论体系的完整性而提出的问题不同,实证研究的问题往往具有一定的对策意义。例如,按照《最高人民法院、最高人民检察院关于办理内幕交易、泄露内幕信息刑事案件具体应用法律若干问题的解释》第六条的规定,在内幕信息敏感期内从事或者明示、暗示他人从事或者泄露内幕信息导致他人从事与该内幕信息有关的证券、期货交易,具有下列情形之一的,应当认定为“情节严重”的内幕交易:证券交易成交额在五十万元以上的,或者获利或者避免损失数额在十五万元以上的。该解释第七条规定:具有下列情形之一的,应当认定为“情节特别严重”的内幕交易:证券交易成交额在二百五十万元以上的,或者获利或者避免损失数额在七十五万元以上的。笔者曾对全部内幕交易刑事案件和证监会公布的全部行政处罚案件进行分析后发现,交易额超过50 万的案件,定罪率仅为25.9%,移送率仅为15.4%。获利额超过15 万的案件,定罪率仅为34.0%,移送率仅为17.6%。交易额超过250万的案件,定罪率仅为28.6%,移送率仅为14.6%。获利额超过75 万的案件,定罪率仅为44.6%,移送率仅为21.5%。值得注意的是,交易获利和情节双严重的案件,定罪率仅为34.7%,移送率仅为20.0%。交易获利和情节双特重的案件,定罪率仅为40.2%,移送率仅为21.2%。这组数据意味着,大部分符合定罪标准的案件都没有定罪或移送刑事司法。
这就提出了一个问题:为什么这么多符合定罪标准的违法案件没有进入刑事司法程序?是司法解释规定的起刑点有问题,还是证监会另有某种未公开的移送标准,或是刑法上的罪量要素概念需要重新诠释?更具体地说,构成犯罪的内幕交易与行政处罚的内幕交易在证明标准上到底有何不同?何时需要符合排除合理怀疑的标准,何时只是达到优势证据或合理根据即可?是否需要仿照贷款诈骗罪证明难的解决办法,新增一个骗取贷款罪?对那些仅有买入没有卖出而缺乏实际获利(仅账面获利)的情形,是否可以借鉴盗窃罪既遂判断标准的控制说按犯罪未遂认定?很显然,这些问题都具有很强的实践意义。如果不是采用实证研究的观察方式,就很难发现类似问题。即使感觉到类似问题的存在,也很难作出精确描述,为进一步的科学研究创造条件。
(二)实证研究应重视工具理性
认为对某些观点已经了解而不需要进行实证研究的逻辑,往往是由于对人类抽象思辨能力的过于自信,或者是暴露出某些所谓实证研究在方法选用上的敷衍。其实,如果不借助正确的认识工具,则很可能会知其一不知其二。自然科学对认识工具的依赖毋庸置疑,即使是人文社科领域,认识工具的作用也越来越不容小觑。笔者曾经利用词语分析工具观察刑法典文本,发现刑法中出现频率较高的动词共有800 个左右,是犯罪行为构成要件要素的载体。根据其基本涵义及其在具体法条中的特定语境,这800 多个动词至少可以归纳为三类:“放火”、“破坏”、“持械”、“残害”等动作的共性是暴力;“盗窃”、“贪污”、“盗掘”等动作的共性是偷窃;“骗取”、“煽动”、“谎报”、“骗购”、“引诱”等动作的共性是欺骗。据此,刑法规定的多数罪名可以被还原为暴力、偷窃、欺骗三类犯罪。在此基础上,法条文本的实证研究和多视角理论思考成为可能。
可以说,法律实证研究是交叉科学的产物。学科间交叉、合作的前提是各个学科自身的足够成熟。一个学科成熟到一定程度时,也会表现出对其他学科的开放心态,而非身陷学科壁垒。目前,法律实证研究更多的是法学、统计学、信息技术三者的交叉融合。其中,法学是内容本体,统计学是分析方法,计算机信息技术是事实数据处理工具。面对海量的法律信息,如果没有这三者的高度融合,很难想象法律实证研究能走多远,而三者融合的本质,就是法学研究的工具变革,使法学研究方法变得更客观、理性,从而减少主观性、人为性的影响。较少任意性的法学研究,才不大容易误导决策。
从这个意义上看,实证发现的基本特征是研究过程中工具理性的追求和彰显。所谓工具理性,就是尽可能地借助科学探测、分析工具透视法律世界。尤其是面对大量事件、样本、数据时,科学分析工具可以帮助人们延展自身的感官,看到内在的关系、规律。强调工具理性,不等于说直接观察、抽象思辨等传统方法不理性,更不意味着研究结果是研究方法的产物。因为,这里强调的工具理性,主要针对那种把法律实证研究简单化为单变量描述的做法。这种做法的信度、效度都十分有限,所得结果才更可能是典型的主体性产物。近年来不少法律学者开始选用实证研究方法进行研究,这同时带来一喜一忧。喜的是,相比二十年前人们还在用“几个盗窃等于一个杀人”这样的问题来质疑法律实证研究来说,至少法律可不可以量化已经不再是主要问题了。按照转换原理,人文社科领域中的许多现象都可以将看似不可量的事物转换成若干可度量的事物,从而间接测量,实现量化。刑法典已经显示出,法律已经把那些性质各异、量纲不同的各种犯罪转换成刑期不等的犯罪。尤其是近年来在大数据浪潮推动下,许多法学院逐渐开始做起法律实证研究,法律可以量化已经形成一定的共识。
然而,令人担忧的是,许多冠名以法律实证研究的论著中所选用的研究方法,仍以单变量描述、频次分析、饼图、某某率等简单分析工具为主,以为只要有图有表有数据就是实证研究了。这导致有人认为,法律实证分析和治安形势报告差不多。虽然,对法律实证研究而言,方法选用的基本原则是能简则简,但其前提是,不论繁简,都要解决问题。法学研究中需要采用实证研究方法解决的问题至少有两类。
一类问题是,诸如有罪还是无罪、判不判死刑、上诉不上诉、是否属于再犯、是否减刑假释等,到底与哪些因素的影响有关。很显然,这些定性的结果都不可能是单一因素作用的结果,而是多种因素共同影响的结果。在各种可能的影响因素中,有的人们以为有影响的因素可能实际上无关,有的不认为有关的因素却实际上有关。在有关的因素中,有的是主要因素,有的是次要因素。其中存在的问题是如何对这些因素的实际影响做出区分。这就不能指望单变量描述方法,而要靠各种多元分析工具。
其中,Logistic 回归分析就是解决这类问题的有效方法,在其他人文社科研究中被广泛使用。Logistic 回归分析对变量层次要求不高,可同时展开多个、多种自变量对一个二元定性因变量的量化分析。以是否适用死刑为例,运行该程序后,便可以知道,各种自变量的共同作用大概能解释百分之几的因变量的变化,还可以知道,对是否判处死刑具有显著影响的多个因素中,具体某个因素每上升一个单位,出现死刑结果的机会将是原来的多少倍,进而为不同因素解释力大小的比较创造了条件。
另一类问题是,如何解释、预测诸如刑期多长、罚金多少、判赔多少、涉案金额多大、退赃比的大小、赔偿数额多少、犯罪率的高低等不同结果,以及如何找出其影响因素并预测法律后果。与前一类问题不同,构成这类问题的都是连续变量。对此,在满足一定统计学要求的前提下,最好选用多元线性回归分析的方法。例如,受贿犯罪中的退赃比对刑期长短的影响较大。所谓退赃比就是受贿犯罪案发后,退赔的赃款在所有受贿金额中的占比。退赃比越高,说明认罪态度越好,造成损失可控。然而,作为一个连续变量,受贿犯罪的退赃比又受哪些因素影响呢?这个问题的回答不仅对量刑预测有意义,而且对解释受贿犯罪的原因、预防控制此类犯罪有一定价值。为此,笔者以中国裁判文书网2014 年全部受贿罪判决书为数据来源,选其中一人一罪为最小分析单位共计4205 个样本进行研究。因变量即退赃比,自变量有是否索贿、官职级别、单位层次、所在地区、受贿数额、是否自首、是否坦白、是否立功等等。运行多元线性回归程序后发现,最明显的因素是受贿数额,其标准化回归系数为-0.13,说明受贿数额越大,退赃比越小。自首、坦白的影响也很显著,回归系数分别为0.12 和0.11,说明自首或坦白的,一般退赃比会较高。官职级别的大小的影响并不显著,其P 值大于统计显著性要求的水平,尽管其回归系数显示为负值,即官职级别越高退赃比越低。
换个角度,从自变量角度看,与积极的作为犯罪相比,应为、能为而不为的不作为犯罪毕竟是一种消极的不法行为,其危害往往具有间接性,因而似应轻于积极的作为犯罪。如不履行报告说明义务、不履行财税义务、拒绝抚养义务、不服从命令等不作为犯罪,其法定刑理应较轻。然而,最近的一项实证分析发现,单独看,我国《刑法》中38 个法定不作为犯的平均刑量的确低于其他罪名的平均刑量,但是,与其他变量一起进行回归分析的结果却表明,是否为不作为犯对总体刑量的影响完全不满足统计显著性要求。因此,认为不作为犯罪普遍轻于作为犯罪的想法是不能成立的。这里的工具理性就体现在,不仅不能轻信个别罪名的观察,就连单独观察法定不作为的平均刑量都不足以说明问题,只有将多个因素放在一起进行多元回归分析,才可能科学解析多个因素共同作用下法定不作为对配刑结果的实际影响。
在法律世界中,这种单独看似乎不难理解而放在一起便必须借助科学分析工具才可能得到较好解释的现象还有许多。用此方法分析法律现象,能解答许多问题,如回归决定系数R2 可以显示因变量的变化被自变量的变化解释的程度,还可以比较不同有效自变量各自的解释力大小,甚至可以用来预测个案公正的程度。之所以提倡走出单变量分析的局限,尽可能选用多元分析方法,是因为法律世界本身就是综合的、复杂的。单变量分析可能人为切割或扭曲研究对象的本来面貌,造成各种错觉。科学选用多元分析工具,才能更好地还原对象的内在结构。所以说,问题的关键不在于是否量化,而在于是否在乎真相。
(三)实证研究应强调程序理性
虽然有很多正确的结论,但学者未必知道其如何而来,虽然无需对外公布每个定理、理论的推导过程,但并非每个科学结论都可以不证自明。更重要的是,假设不能建立在假设的基础上,这应该是科学研究的基本规则。一个假设被证实还是证否的概率各占50%,如果另一个假设建立在一个未经检验的假设基础上,其被证实的概率则为25%,如果又有一个假设建立在这个假设基础上,最终被证实为真的概率就更小了。然而,反观法学研究就会看到,完全不问一个结论是怎么来的就假定其为真,然后一个结论接着另一个结论的论证下去,最终得出一个预设的结论,这种论证模式并非罕见。
与此不同,在实证研究看来,发现是对认识过程的如实呈现。因此,实证发现是追求程序理性的结果。这里的程序理性,是对研究者的某种限制,以免过于随意。其实,所有学术活动都包括“说什么”和“怎么说”两个方面。每个学者都可以自由表达学术观点,但怎么表达学术观点,就要遵守一定规则。人们常常以观点对错无从评判、隔行如隔山为由,将学术评价的标准确定为一些外在的非学术指标,原因之一就是缺乏“怎么说”的公认规范。依据这种规范,即使不同领域的专家学者也可能对其他领域的学术成果做出评价。实证发现就有自己的关于“怎么说”的规范,具体体现在研究过程和写作过程两个方面。研究过程的程序理性主要强调认知顺序上的“拿脚找鞋”而非“拿鞋找脚”。所谓“拿脚找鞋”,就是从现象观察、个案归纳、实践问题开始,找到解释现象、解决问题的答案和方法。所谓“拿鞋找脚”,就是从概念、理论、规则、应然或预设结论出发,寻找恰好适合这些概念、理论及预设结论的事实、事件、证据。两者相比,后者成功的概率较大,几乎没什么悬念,前者则不一定,从现象、事实能导出什么结论事先很难预料。对后者来说,做到自圆其说即可。对前者来说,少量的成功是靠大量试错、失败堆出来的结果,同时,写作过程的程序理性,主要体现在呈现实证研究过程和结果的几个必备要素,即问题、已有学术成果中的竞争性理论、样本、核心概念的操作化、假设、因变量和自变量、假设的检验逻辑、分析方法、结果与发现、讨论、新的理论与问题等等。这个模式为研究者提供了一条“轨道”,严格按这条轨道前行的,未必有出色的实证发现,但未能满足这些要素要求而偏离轨道或跳跃某个环节的,就不大可能得到一个像样的实证发现。
例如,宽与严是刑法的一个基本维度,而民众对刑法的宽严偏好常常成为刑事政策决策的重要依据。近年来我国有许多受到各方关注热案,人们往往会看到法院最终不同程度地顺从了舆论。问题是,舆论是否等同于民意?中国民众到底偏好重法还是轻法?对此,首先要将“刑法宽严”的概念进行操作化处理,分解为犯罪圈大小、刑罚轻重以及罪刑关系排序等几个方面,并具体化为问卷问题。然后,由于刑法的宽严轻重理应先从犯罪本身寻求解释,犯罪越多、越重,犯罪危险与民众切身感受之间的关联就越密切,越应该引发相应较重的刑法偏好,所以研究的理论假设被确定为:民众的刑法偏好应该是犯罪被害感受的结果,犯罪被害感受越强烈,刑法偏好则越重。假设中的因变量就是中国民众的刑法偏好系数,自变量就是民众的被害感受。然后,研究确定以CFPS(China Family Panel Studies)即北京大学中国社会科学研究中心的中国家庭跟踪调查项目为样本来源。该样本覆盖25 个省级区划,代表中国95%的人口。由438 名受训的正式访员,对42590 位个人进行入户调查,并对调查结果进行一系列质量监控。该项目是国内第一个如此大规模的、综合性的、以学术为目的的社会跟踪调查项目。在此基础上,对回收的问卷采用多元线性回归分析方法进行假设检验。结果发现,中国民众的刑法偏好系数低于0 到1 之间的中间线,为0.36,这说明大样本研究的证据并不支持中国民众普遍偏好重法的说法;有无传统犯罪的被害遭遇,对刑法偏好的轻重并无显著影响;中国民众的刑法偏好其实另有原因。如个体的沮丧感越强,越可能偏好更重的刑法;自认为在本地收入越低者,越可能偏好重法,相对收入越高者,越可能偏好轻法;对身边干部的信任度越低,则刑法偏好系数越高;对贪腐的潜在数量估计越高,越可能偏好重法;对社会保障满意度越高,越可能偏好轻法,等等。据此得出结论:应理性对待舆论、民意,对其做出有限响应,而不应以民意的名义滥用民意。这项研究耗时三年,投入大量人力物力,可谓“性价比”很低的“非理性”研究活动了。然而,从问题到结论之间全过程的每个环节都展现在读者面前,成本再大也值得尝试。
(四)实证研究如何发现事实与理论的联系
实证研究让一些理论法学家不以为然还有一个重要原因,就是不少实证研究存在一个通病——事实数据与理论分析之间没有内在联系。怎样避免这种问题,恰恰是实证研究最难的部分。程金华教授认为,实证研究中,理论要素和经验要素之间转换非常重要,没有从理论世界向经验世界的转换,就不构成实证研究;如果只有纯粹的经验探索,没有对此进行抽象的理论归纳,那通常也不会有太好的“理论故事”。在两者的论证衔接方面,通常是理论论证回答理论问题,经验探索回应经验问题。11参见程金华:《迈向科学的法律实证研究》,《清华法学》2108 年第4 期。的确,一些研究中,有数据信息,有图有表有回归,也有理论学说、对策建议,就是无法看出前面的数据图表与后面理论阐释之间的内在联系。似乎拿掉前面的实证部分,后边的理论分析也独立成章。数据描述被生硬地挂在文章中的某个部分,为实证而实证的痕迹比较明显。这种做法无益于知识增长,反而破坏了实证研究的优势。
笔者认为,法律实证研究中的“我发现”与“我认为”不可分割。因此,笔者不太理解那种实证法学、规范法学的区分标识。12参见张永健、程金华:《法律实证研究的方法坐标》,《中国法律评论》2018 年第6 期。法律实证研究只是用实证的方法研究法学,并非独立的学科,也并非与规范法学相并列。从这个意义上说,没有实证研究的法学,是法学的缺失,不是实证方法本身的不足。也因为这个原因,实证发现的核心在于数据分析与理论创新之间的内在联系。如何发现这种联系,如何让事实与理论之间形成联系,笔者认为有以下几种方法。
其一,直接证明。例如,关于盗窃罪既遂与否的判断标准,学界有控制说与失控说两种理论。按照控制说,只有被告人最终实际控制了所盗物品才是既遂。按照失控说,只要被害人失去了对财物的控制,犯罪行为就属既遂。如某甲在公交车上行窃得手,汽车行进中被害人发现被盗,司机立即将车开到公安局。对此,如果按照控制说,被告行为只成立盗窃未遂,而按照失控说,被告行为构成既遂。显然,两种认定对量刑影响很大。到底哪种学说代表了司法实践的主流做法,不得而知。于是,有人收集了大量的以是否构成既遂为争点的盗窃罪案例进行实证研究。结果发现,95%以上的类似案件以未遂认定,说明绝大多数法官认同控制说。不难看出,数据与理论的衔接十分明显、直接,操作起来简单易行。不过,遇到此类情形的机会不多。
其二,操作化。所谓操作化,即根据转换原理,通过抽象层到经验层的多维、多次下降操作,将看似无法直接测量的抽象概念、理论具体化、标准化为可感知、可测量、可比较的经验指标。在此基础上,抽象理论、概念得以测量,经验数据也获得了理论内涵。例如,笔者于本文中提到的中国民众刑法偏好研究中,研究者们将刑法的宽严这一抽象概念先拆解成犯罪圈大小、刑罚轻重、罪刑关系均衡性三个基本维度,然后对受访者进行问卷测量。那些赞成将应否划入犯罪圈有争议的几种行为规定为犯罪的受访者,一般偏好重法,反之则偏好轻法;那些赞成“中国每年执行死刑的数量太多了”说法的受访者,很可能具有轻法偏好,反之,则可能具有重法偏好,等等。在此基础上,便可大规模实测受访者的刑法偏好。尽管与直接证据法不同,操作化是一种发现事实与理论之间关系的间接方法,但是,这种方法同样十分有效,且被广泛应用。可以说,未经转换,绝大多数法律现象都无法进行实证研究。不用说“公正”、“平等”、“均衡”这些宏大的表述,就连“损失”、“人身危险性”、“被害过错”这些相对比较具体的法律概念,如果不进行操作化处理,都无法发现大量案件中事实与理论的关联。
其三,根据理论组织事实。比如,在死刑适用实证研究中,人们的理论切入点是法律解释学。其中,哈特将法律解释学分为形式主义与规则怀疑主义,13参见陈弘毅:《当代西方法律解释学初探》,载梁治平编;《法律解释问题》,法律出版社1998 年版,第11~12 页。陈兴良将其分为主观主义与客观主义,14参见陈兴良:《法的解释与解释的法》,《法律科学》1997 年第4期。陈金钊将其分为法律决定论与法官决断论。15参见陈金钊:《法律解释学的转向与实用法学的第三条道路(上)》,《法学评论》2002 年第1 期。在此基础上,笔者将其归纳为真理论的法律解释观与价值论的法律解释观。16参见白建军:《死刑适用实证研究》,《中国社会科学》2006 年第5 期。问题是,哪种学说能更好地解释普遍的司法实践呢?为回答这个问题,笔者观察梳理了死刑样本中所有控辩争议焦点问题共两千多个,并将其分别归入动刑、除刑、量刑、用刑这样一个分析框架。所谓焦点问题通常是对同一法律问题的不同理解,而正是这些不同理解之间的交锋当中才蕴藏着丰富的法律解释学资源,以及案件与规范之间的种种联系。然后,以是否适用死刑、死缓为因变量,以这四类焦点问题为自变量,进行回归分析。结果发现,在死罪阶梯的较低层次上,真理论的法律解释观的确统御着大多数法官的释法活动,法律上的区别是多数罪与非罪、死罪与否的唯一解释,对这些界限的判断,法官基本上没有太大的自由空间。然而,在死罪阶梯的较高层次,价值论的法律解释观是法官们释法活动的某种客观反映,法官的自主判断对死刑圈、死缓圈的把握具有较为显著的影响。这样,案件中的争点数据与理论资源之间的关系就不显得十分生硬。由此也可看出,根据理论组织事实不同于“拿鞋找脚”的关键之处就在于“组织”。以本例看,把案件控辩争点分别归结为动刑、除刑、量刑、用刑四类问题,就是组织事实的过程。尽管都离不开某种主观选择,但这种组织过程中,理论与事实之间由某个分析框架相连,其结果到底怎样并不确定。不同于“拿鞋找脚”,实证研究的魅力就在于其结果的不确定性,使研究有乐趣,有风险,有成败标准。
其四,根据事实组织理论。例如,按照“罪为因刑为果”的常识,犯罪率的上升理应导致刑罚资源的加大投入。然而,笔者曾用中国1988 年至2007 年20 年间的纵向犯罪率数据与1998 年、2003 年、2007 年31 个省(市、区)横向的犯罪率数据,以及同期同地十几项社会经济发展数据与几百个最高人民法院示范性案例数据进行交叉印证性考察,结果发现,中国20 年间毛犯罪率总体上升趋势明显。然而,社会用刑罚对犯罪做出的反应却表现出适度克制和轻缓,五年有期徒刑以上刑罚的适用相对比较审慎,即重刑率不升反降。怎样解释这种明显的不均衡呢?笔者回顾了芝加哥学派的社会解组论、莫顿的社会异常论、布劳夫妇的相对剥夺论、犯罪定义学理论等,发现伴随着经济的高速增长,非正式社会控制的减弱和资源分配结构的失衡是犯罪增多的重要原因。重刑率与犯罪率之间的负相关关系,正是法官群体依法对犯罪做出合理反应的结果。因此,说这种不均衡背后蕴含着更加深刻的均衡,就变得不难理解。
三、结语:实证发现蕴含着理论创新
完成上述讨论,实证发现似乎被带进了一个更大的误解:实证发现往往是保守的、回顾的、现实的、呆板且无创新活力的。的确,实证发现不一定导致理论创新,理论创新更是不都来自实证发现。但实证发现确实蕴含着理论创新的可能性。因为除了继承、比较和综合以外,实践也是理论创新的重要源泉。17参见于树元:《试论理论创新的思想方法》,《黑龙江社会科学》2006 年第5 期。笔者的上述讨论,基本上是从方法论角度回顾笔者所经历的实证研究。换个视角看,这些刑事实证研究中的具体发现,它们实际上从不同方向走向一个共同的理论问题:犯罪定义学问题。
犯罪定义学的基本问题是,犯罪是被发现的还是被发明的,以及犯罪定义到底是犯罪现象的客观反映,还是犯罪现象的客观性以及犯罪定义者的主体性的共同反映。从前述实证发现可知,如果犯罪定义完全取决于犯罪现象本身,为什么人口总量、密度等因素还会影响死刑的有无——作为犯罪定义的一种形式,死刑不可能完全归因于犯罪的轻重不同。如果犯罪定义完全取决于犯罪现象本身,全国各地法院对同一罪名下犯罪案件的量刑轻重可以有所不同,但不应在均衡性程度上有过大差异。如果不是中国国情以及不同时期立法者内心的不同价值偏好起作用,刑罚资源的分配就不会出现刑法各次修订前后的变化。对法官量刑是否以法定刑中线为参照,法律并无规定,但是法官群体的职业实践选择的法定刑中线以下十几个月不等的位置,就不能全用犯罪本身的客观性来解释。如果罪为因刑为果,那被害人的被害感受就应当对其刑法的宽严偏好构成显著影响。然而,为什么不仅没有实测到这种影响,反而,各种心理、收入、福利、教育、反贪力度等因素的影响更大呢?如果犯罪行为本身是定罪量刑的全部解释,为什么有职业律师辩护案件无罪率是没有这种律师服务案件的几倍之多?如果犯罪现象的客观存在完全不以人的主观意愿为转移,那么,其范围大小就应当也是客观的,可为什么还会有犯罪圈应该大些还是小些的讨论呢?如果犯罪是刑法的唯一解释,为什么二十年全国刑事司法数据证明犯罪率高速增长的情况下重刑率不升反降呢?如果犯罪定义者完全被动地反映犯罪现象,为什么死刑适用的某个阶段中由法律决定论主导,另一个阶段中就成了法官决定论主导呢?所有这些,都指向一个结论:犯罪定义不可能是犯罪定义对象的原貌复制,定义者或多或少,或积极或消极,都会将自身的主体性投射到犯罪定义中。
犯罪定义学是刑事一体化思维的必然结果。从意大利实证派犯罪学理论中可以引申出客体决定论的主要思想,而从现代犯罪学,如标签论、文化冲突论、社会异常论中可以引申出主体决定论的基本思想。客体决定论认为,犯罪定义的决定性因素当然是被定义的行为、现象本身,客体性是犯罪定义的决定性因素。主体决定论认为,行为被赋予犯罪意义的决定性因素是定义者,其主体性是犯罪定义的核心属性。按照主体决定论,把何种行为定义为犯罪是一个对象化过程。然而,正如颜色和视神经本身都不能单独说明视觉一样,任何一个犯罪定义都不可能完全还原为客体或主体本身。犯罪定义是主客体间不断往返交互的中介,包括主体(被)客体化和客体(被)主体化两个方向上的过程。这一解释可以说是刑法学和犯罪学之间交叉部分的一点理论创新。
应当说明,实证发现的结果当然不只是这一种理论创新。况且,这一理论对现有刑法、犯罪学研究有何意义还不明显。如果行为本身不是被犯罪化(规定为或判决为)的唯一解释,那么,对定义者自身或者社会控制的控制,也许更值得研究。可见,有了一个实证发现,研究可能刚刚开始。