大数据在刑诉经验法则中的作用及局限性之应对
2020-05-20邹扬荣
邹扬荣
(湘潭大学 法学院,湖南 湘潭 411100)
一、大数据在刑事诉讼经验法则中的作用
(一)时代背景下经验法则的新要求
面对诉讼中的待证事实,如果能够直接证明要件事实的证据不存在或者无法收集,就需要运用间接事实来推定要件事实。在这种情况下,需要运用经验法则进行推理。经验法则指的是人类以经验归纳抽象后所获得的关于事物属性以及事物之间常态联系的一般性知识或法则[1]。相对于民事领域,“定罪标准”极高的刑事领域对经验法则的要求也更高,一般是在“高度盖然性”和“排除合理怀疑”之间的超然盖然性标准[2]。这使得通过一般途径形成的经验法则只有少数能够满足刑事裁判的要求。现代科技的发展加剧了这一问题,随着互联网高速发展时代的到来,社会变迁比任何时代都要迅速和剧烈,一些习以为常的规则,会在短时间内发展改变,仍旧采用这些规则进行事实认定和法律适用,将导致对案件的判断脱离社会发展的现实,因此传统的经验法则形成方式已经不能适应时代发展的需要。必须寻找新的信息获取方法,提高信息获取的速度和数量,并快速进行数据分析和汇总以形成与社会需求相适应、与刑事裁判要求相匹配的经验法则。
(二)大数据的概念及内涵
大数据(Big Data)也称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。大数据可以依托云计算分布式处理、分布式数据库和云存储、虚拟化技术,来对海量数据进行分布式挖掘[3]。运用大数据进行数据处理的流程为:大数据的采集与治理→数据管理→数据分析与挖掘→数据可视化→大数据处理平台。第一步,收集尽可能完整的数据。在海量数据下,保持数据的精确性不可能也无必要,故应当尽可能收集全面而完整的数据;第二步,开展数据管理,进行细致的数据筛选。在精确性无法保证的情况下,数据的筛选显得尤为重要,基于归纳得到的关联关系与基于逻辑推理得出的因果关系同样具有价值[4]。第三步,进行数据分析和可视化(1)处理。从大数据运用目的出发,寻找数据的有用性和数据之间的关联性,得出符合运行规律的结论,并预测未来行为,同时进行数据可视化处理,让分析结论能为一般人所理解和认可;最后是数据的共享,将其放置在处理平台进行数据共享。这一过程与经验法则获取的要求不谋而合,大数据能够弥补经验法则获取端的不足,不仅能够为经验法则提供大量的初始数据,还能够通过云计算、云存储等技术对数据进行分析和归纳,得出具有普遍适用性的经验法则。
(三)大数据在刑事诉讼经验法则中的功能及运用
1.大数据在经验法则获取端的作用
经验法则在刑事诉讼中的作用是规定案件事实“一般情况下事情是怎么样的”,而要获取“一般情况”,就需要对大量的现有数据进行归纳、总结和分析。大数据时代经验法则在获取端的机遇体现在:(1)基数扩大。大数据最为显著的特征是覆盖范围广,数据来源包括政府数据、企业数据和舆情数据等[5],这将为经验法则的形成打下基础。(2)速度提升。经验法则本质上是一种经验的总结,因此在获取数据后,需要对这些数据进行归纳和总结,以得到能够真正使用的规则。大数据时代通过云计算、智能化开源实现平台等技术取代原有的自发形成模式,经验法则形成速度将大幅提升。(3)合理性提高,更大程度地实现“证伪”的目的。“科学要么被证伪,要么是假设或者猜想。”[6]刑事诉讼经验法则需要达到排除合理怀疑的程度。因此其形成是不断排除错误判断的动态过程。大数据本质上是一种归纳,在归纳的过程中不断纠偏以实现规则的合理性。这一程序对于实现经验法则的合理性具有重要意义。
2.大数据在经验法则运用端的作用
经验法则在刑事审判中的运用数量虽然处于逐年增加的趋势,但并未得到普遍认可。笔者以“经验法则”“符合常理”等词汇为关键词在中国裁判文书网搜索发现,“经验法则”在刑事案件一栏中出现次数为332 次,占比0.77%;“与常理不符”一词在刑事诉讼文书中出现的次数为2327 件,占比3.22%;“日常生活经验”一词在刑事诉讼文书中出现264 次,占比0.39%。均显著低于刑事案件在所有案件中所占11.38%的比例。笔者认为,原因包括以下几个方面:(1)经验法则适用的主观性较高,容易出错。法官运用经验法则认定事实的活动是一种主观判断活动,不可避免地受到法官性格、情绪、道德水准、职业水平等因素的影响,而归纳方法下的经验法则,本身的盖然性程度也存在差异,运用到证明标准极高的刑事诉讼裁判中容易出错。(2)刑事诉讼法未对经验法则的内容及适用进行明确规定,仅在《最高人民法院关于适用〈中华人民共和国刑事诉讼法〉的解释》中进行了类似的规定,这些规定无法改变经验法则在刑事诉讼中使用频率低的现状。(3)刑事诉讼经验法则获取难度大,刑事犯罪并不经常在日常生活中出现,且出于保护被告人权利的需要,对犯罪处理的公开程度也很低,能够用于形成经验法则的信息不多,在无法对当前数据进行专门收集和汇总的情况下,获取刑事诉讼经验法则的难度较高。大数据的运用有助于解决这一问题。
第一,提高经验法则的认可度。在相关规定出台前,民事活动中的经验法则已经获得了社会的广泛认可,可见经验法则能够得到适用不在于法律规定,而在于社会认可。大数据最大的特点就是对现有数据进行广泛收集和精准分析,在大数据的推动下,经验法则的信息来源主要包括社会实践、司法实践和公众意见,以此法获取的信息更贴近社会生活,进而更为公众信服,这将提高大数据的社会认可度。此外,大数据下的数据收集具有量大和范围广的特点,此法下进行的归纳能够大幅提高盖然性程度,避免法官主观因素的影响,使其更具有可信度。
第二,扩大经验法则的适用范围。经验法则的内涵具有相对性,在数据收集和更新速度较慢的时代,无法在短时间内收集大量的信息并进行分类汇总,容易出现经验法则的内容不适应各地特点的情况,进而导致经验法则的适用范围受到限制。大数据时代的到来将为这一问题的解决提供可行性方案,信息时代数据的地域性特征已经越来越模糊,以这些数据为基础分析、归纳而成的经验法则也将摆脱地域的束缚,从而具有普遍适用性。
第三,促进经验法则的共享。建立大数据下的经验法则共享系统,不仅能够进行数据的收集和分析,也能将数据对外分享。经验法则处于变动的状态,在更新之后必须及时对外传播,才能保证各地所使用的经验法则的正确性。通过经验规则共享系统,可以免去类似于规范制定的拟定、讨论、通过、颁布程序,通过信息网络的传播实现经验法则的快速推广。
3.大数据在经验法则中的具体运用
在大数据时代,在数据构成的世界,一切社会关系都可以用数据表示,人是相关数据的总和[7]。大数据分析是一种方法,其功能表现为通过统计分析、数据可视化与发掘,实现描述性、校验性和预见性。简言之,即监测、预警、分析与预测功能[8]。具体而言,可以参考深圳市“织网工程”的做法,建立信息统一采集、分析和共享系统。在信息采集端,可以建立具有大范围覆盖面的信息收集系统,集中收集现有数据源产生的数据。通过系统日志采集法、网络数据采集法、数据库采集法等方法,运用scribe、kafka(2)等高吞吐量的日志收集系统,统一收集日常生活和刑事诉讼过程中产生的一般性认识和看法[9]。为经验法则的形成奠定基础。为节约成本,也可以利用其他部门已经建立的数据收集系统。
在信息分析端,建立独立的经验法则数据分析系统。运用云计算(3)等技术建立专门用于经验法则分析的系统,首先对信息进行预处理,具体包括数据清洗、集成、转换、归约、标准化等步骤,将数据转化为能够进行系统分析的标准化数据;其次,将数据存储到分布式基础框架中,通过计算形成能够有效利用的智能信息;再次,运用模型算法进行数据挖掘和分析,包括统计分析、数据挖掘、模型匹配、可视化分析等步骤,通过上述步骤建立数据之间的关联性并寻求规律,从而得出具有较高可信度的规则,再通过可视化分析,将规则以直观、形象的方式展现出来,成为能够为一般人理解和使用的经验法则。值得一提的是,此种分析方法还能够进行行为预测,对于监测和预防犯罪具有重要作用,可以向侦查机关提供该技术或者与侦查机关共同开发。
图1 可视化基本特征
在规则共享端,建立经验法则的共享系统。建立共享系统,关键在于信息系统的共享。为了节约成本和简化步骤,信息收集、分析和共享都可以在一个系统内进行,形成收集→分析→运用→共享→收集的循环,同时将系统对外公开,进行意见收集和规则推广。通过建立信息收集、处理、共享系统,可以一次性完成经验法则形成和推广的所有步骤,从而达到提高经验法则适用范围和受认可度的目的。
二、大数据在经验法则中的局限性
(一)大数据技术与经验法则需求的背离可能性
目前大数据技术开发与法学专业知识尚处于互相独立的状态,这在客观上导致了二者的冲突。例如,现行通用的正则表达式的语言识别方式要求表述的高度一致性,这导致难以准确将某些行为归入特定犯罪的行列,尤其当这些行为并不具备所对应犯罪的典型特征时,往往只能依靠专业司法人员运用经验和个人理性对行为进行识别和归纳。在结论获取和使用阶段同样存在这样的问题,大数据技术运行逻辑的相对独立性与司法需求难相匹配,导致通用大数据分析很难带有法律理性,只能得出空洞的数据。从历史进程来看,大多数时候法律是为公正和秩序而存在,而在某些关键时刻,法律需要成为实现政治目的的工具,完全依靠大数据分析得出的经验法则无法做到审时度势和联系实际。大数据开发与经验法则需求的另一个背离可能性在于大数据技术本身带来的风险。现代技术的发展本身具有不确定性,面临诸多技术瓶颈,包括数据安全和隐私保护等问题,信息泄露将导致其中隐私信息的外流,大量事实表明,未能妥善处理隐私保护问题会对用户造成极大的侵害[10]。尽管相关机构会对隐私信息进行脱敏处理,但经过信息比对等方法仍然可以查找出信息对应的人员。刑事诉讼经验法则下数据的收集多针对违法犯罪行为,一旦相关隐私泄露,损害后果将更为严重。
(二)数据全面性和真实性问题
由于“数据孤岛”和“数据烟囱”的存在,数据的分布呈现星罗棋布而又杂乱无章的状态,2014年和2015年,全国裁判文书网公布案件量不到实际结案量的50%[11],近两年裁判文书公布数量虽有明显增加,但总体仍处于比例较低的状态。这一现状导致大数据分析和汇总信息的全面性难以保证,以此为基础分析得出的经验法则也难以在司法实践中得到运用。经验法则不同于一般的法律规范,其在司法审判中并不具有当然的适用效力,在其本身缺乏合理性和可接受性的情况下,即便将其强行作为经验法则在审判中进行运用,作出的判断也经不起大众的检验和辩护方的质疑,最终损害司法权威。另外,大数据技术识别真伪信息的能力有限,如果不能对数据源进行严格把控,将缺乏真正有效的手段保证数据的真实性,可能将虚假的、无法反映社会真实状况的数据吸收入库作为进行经验法则分析的数据基础。基础数据是进行一切后续工作的基础,在信息本身存在虚假可能性的情况下,难以保证通过归纳、总结已有信息获取的经验法则具有可靠性和真实性。不具有可靠性的经验法则无法直面民众的质疑,也将难以在刑事诉讼中得到认可和适用。
(三)责任归究问题
司法责任制改革是新一轮司法改革的重点,突出“由审理者裁判,让裁判者负责”,以大数据为依托的经验法则的引入,可能导致责任的错位。法官运用大数据分析下的经验法则进行案件审理和判决,如果因为经验法则的问题导致最终判断出现错误,应当由谁承担最终的责任?数据分析系统本身并无责任承担能力,不可能要求其担责。而如果认为应当由司法者承担责任,司法者适用获得认可的经验法则进行案件审理和判断,本身并无过错。如果认为法官对于经验法则的运用具有审慎义务,则这一要求超出了法官的能力范围,也违背了运用大数据获取经验法则的初衷。而如果完全不追究司法者的责任,有可能出现法官在司法审判中大量运用经验法则审理案件,导致司法责任制被架空。因此,除了分析制度设立上的问题外,还应当考虑运行过程中可能出现的问题。
(四)数据公平问题
1.信息掌握差异
2017年,被称为“美国大数据审判第一案”的威斯康辛诉卢米斯案(State v.Loomis)尘埃落定,卢米斯不服原审判决申请司法复核的请求被否决。尽管法律规定控辩双方拥有相对平等的地位,但“算法对法庭和被告人均不公开”的现实导致辩护方事实上处于劣势。在运用经验法则进行案件审理时,辩护方既无法了解经验法则的形成过程,也不能对经验法则本身提出质疑,这种被动接受的状态事实上体现了双方在数据上的不公平,这将导致控辩双方实质意义上的不平等。
2.数据歧视
以大数据进行信息分析的过程并不总能保持全面和理性,而是存在作出歧视性判断的风险。一些研究显示“COMPAS”评估软件存在明显的性别歧视和种族歧视,特别是黑人被告的再犯风险常被误判为远高于白人[12]。同理,由于自然犯与法定犯在社会情感上的不同倾向,大数据在收集有关这些犯罪的信息时,就有可能吸收其中的主观因素成为数据分析的基础。分析评估软件具有智能化倾向,能够在长期的数据分析中不断归纳、总结,最终作出自己的判断。这种判断一旦成为经验法则获取过程中的程序,有可能作出具有倾向性而非单纯的归纳性判断,促使最终得出的经验法则也具有倾向性,这对于被作出负面判断的一方显然是不公平的。
3.个案不公
通过分析数据进行的归纳推理存在忽视个案正义的问题,大数据分析的重点在于从海量数据中将某种特质进行抽离,即“从个性中寻找共性”,这样的分析方式容易忽视个性。而个案的正义往往体现于每个案件的个性,如在“米兰达案”推动下的沉默权、“吉迪恩诉温赖特案”(Gideon v.Wainwright)推动下的普遍获辩护权等。大数据下经验法则的作用之一在于推动“同案同判”,以实现司法公正和维护司法权威,但现实是这个世界原本就不存在相同的两个案件,无论经验法则如何合理,片面看待案件共性而追求相同判决,最终都难免陷入形式主义的窠臼,导致案件的审理结果脱离正义的轨道。
三、数据在经验法则运用中的完善
(一)双层推进,内外兼修
1.推动建立司法专用型大数据应用
技术权力应当谨慎介入司法领域,充分尊重专业权力的固有属性[13]。普通大数据与司法知识不具有天然匹配性,为推动大数据技术与司法实践融合,在数据采集、分析和应用领域,应当进行修正和升级以适应法学领域在专业性和精准性方面的需求。首先,将法学相关词汇融入数据采集领域,采用自然语义识别技术(NLP)(4),除了将法学专业词汇作为数据采集关键词外,日常语言中涉及的与犯罪相关的词语也作为数据采集和数据清洗、筛选阶段应当关注的词汇,以此法推动大数据准确识别应当纳入数据分析的信息;其次,在数据挖掘和分析过程中运用“数据画像”(5)原理,分析每个罪名的行为特征和可能涉及的词汇和语言,最终形成对每个罪名的“画像”,以画像为基础分析每个罪名下对应的经验法则,避免出现数据分析以情节而非法律关系为指向的本末倒置;最后,具体运用过程中尊重法学知识的固有属性,大数据技术始终是辅助工具而非运用主体,运用大数据得出的经验法则不一定比法官根据当地实际和控辩双方实时对抗作出的判断更符合实际,因此,法官不可迷信大数据技术加持的经验法则,应当秉持专业准则进行判断,以维护司法独立性与权威性。
相较于其他类型的信息收集,刑事案件下信息收集有可能涉及刑事犯罪和重要的个人隐私,对这些隐私信息进行保护的重要性更为突出。一旦隐私泄露,对于信息提供者而言,其有可能遭受信息所涉主体的报复;对于信息所涉主体而言,其个人信息和行为记录将公之于众,其中可能包括犯罪信息,这将给社会带来不稳定因素。故应当建立特有的隐私保护机制,除有特殊理由,并经特别批准,任何人不得获取所采集信息中的个人隐私。经验法则下采集的信息不要求信息的绝对完整,在采集信息时可以进行筛选,删去不重要的隐私信息;对于应当保留个人信息的,在储存阶段加强保护,包括隐匿个人信息、个人信息模糊化、信息脱敏等;同时建立信息追踪机制,包括数字水印、安全令牌管理等,以便在信息泄漏时及时追踪盗取者[14]。运用多种途径保护所采集的数据。
2.划定责任承担者
大数据技术支持下的信息采集、分析、共享和最终的结论使用涉及到不同主体,包括开发者、所有者和使用者等,这就涉及到使用过程中出现信息泄露或者错误等问题时责任承担的问题。在信息保护层面,大数据系统的开发者、所有者和使用者都与技术使用存在相关性,因此三者应当对受害者承担连带责任。确定内部责任承担者时,由于大数据技术具有复杂性,使用者并不一定知晓其原理和算法,如果其按照开发者的要求运行系统仍然出现问题,则不应当成为责任承担者,同理,所有者也不应当成为责任的实际承担者。故开发者应当承担推定责任,只有其能够证明使用者或者所有者有过错时,责任才能转移。在数据运用层面,依照大数据运行出现错误进而导致裁判不公的,法院作为裁判作出者应当承担先行责任,此后结合经验法则错误原因、法官过错、社会变迁等因素确定最终责任。经验法则只是参考,法官固守经验法则作出判决的,应当认定其存在过错。同时,为保证制度运行的合理性,应当确立数据运用的溯源制度,追诉数据采集、分析、运用行为,为确定责任承担者提供参考。
3.设立被遗忘权
收集数据的目的在于分析汇总,以得出能够在案件审理中直接适用的经验法则,即只要得出相关的经验法则,数据收集的基本任务就已完成。为了保护信息主体的个人信息权利,应当为其设立被遗忘权。具体而言,在收集信息之时,信息采集机构应当告知信息主体其信息被采集的情况,同时告知其在一段时间后有权要求采集机构删除相关信息,信息主体在规定期限后要求删除的,应当予以删除。同时为信息保存设定最长保存期限,一定年限后应当自动删除所收集的信息。这有助于推动信息的及时更新,保护信息主体的合法权益,同时一定程度上维护信息安全。
(二)实现大数据技术运用的全面性和合理性
全面收集信息是进行大数据分析的基础,也是获取具有广泛适用性的经验法则的前提。当代社会,人人都能够成为信息的创造者和传递者。即便政府不主动收集信息,信息也能够得到快速的传递和长久的保存。因此,公权力机关除积极收集和保存信息之外,还应当加大与企业、个人的合作,以便获取最新信息。具体而言,可以借鉴浙江省政企合作的“信用社会”模式和深圳市“织网工程”。首先成立高规格组织架构,国家牵头进行工程建设,整合各方资源,实现部门之间、上下级之间信息的互通,制定符合条件信息的强制公开制度,确保数据来源充分,走出只是“大量数据”而非“大数据”的困局;其次,参照大数据侦查模式,推动司法机关与大数据公司的数据共享,政府提供平台,与企业共同运营,并通过设立奖励等方式提高群众参与积极性,以“技术支撑+群众参与”的方式建设大数据中心,数据中心以政务服务为主体,另设经验法则数据采集的子项目,以节约项目成本和提高收集速度;处理阶段,在借助已有大数据技术的同时,运用独立的算法进行数据分析处理,保证经验法则的公正性,最终形成的处理结果也将由项目自行掌握,独立于已建立的大数据中心。在数据的共享阶段,借助大数据中心进行数据的共享,群众可以通过大数据中心随时了解经验法则下数据的处理和运行情况并提出意见。这个过程需要具备法律知识和大数据技术的人员参与其中,因此在不久的将来,面向未来的大数据法律研究复合型人才培养将变得极为重要[15]。
(三)建立公平机制
公权力机关在大数据运用上的优势将加剧控辩双方实质意义上的不平等,为保持控辩双方相对平等的地位,应当设立一系列平衡双方的制度和原则以推动二者平衡。
1.设立算法开示制度。大数据时代的经验法则是数据采集和分析的结果,不同于法律条文,在司法实践中不具有不容置疑的效力,辩护方若能找出其中的合理漏洞,便可以此为由要求排除经验法则的适用,这是实现程序正义的要求。因此了解大数据下算法的内容并对其科学性和有效性进行质疑,应当成为辩护方的基本权利,这也是解决控辩双方信息获取不平等问题的重要手段。具体而言,要对大数据分析中的核心算法进行开示,帮助控辩双方及时、公平地了解进行经验法则运行的算法,以便任何一方能够及时识别法官判决所用经验法则存在的不公之处。
2.确立非歧视原则。大数据的“智能化”倾向可能导致歧视的产生,应当确立大数据分析中的非歧视原则,进行单纯的归纳分析而不加入情感因素,不考虑被分析对象是否存在民族、信仰、地区、职业、健康等方面的差异。不因其是弱势群体而对其从宽评价,也不因其具有行为恶劣、累犯等情节而对其刻意从重评价,保证对所有类型的犯罪同等看待。
3.确立个案独立原则。为保证提高案件办理效率的同时坚持个案正义,应当确立个案独立原则。在运用经验法则之前分析案件的特殊性,在运用经验法则之前检验其是否与案件相匹配,如果存在相悖之处则拒绝运用;在运用经验法则时,应当判断经验法则的运用是否有利于案件认定达到事实清楚、证据确实充分的程度,如果不能起到这样的积极作用,则应当停止运用,做到“用好智能手段,而不是依赖智能手段”[16]。案件的审理和判决不是简单的规则适用,而是对案件真实和法律正义的不断探索,特别是在认罪认罚从宽制度的语境下,应当允许同类案件的不同判决。在这个过程中,经验法则只能作为参考,法官应当充分发挥主观能动性,充分听取控辩双方的意见,按照内心确信作出最佳判决。
经验法则在提高诉讼效率和约束法官行为上的双重作用,与司法责任制和提高诉讼效率的司法审判要求不谋而合。而大数据时代的到来为经验法则的发展带来新的机遇,在“案多人少”的矛盾日益剧烈的今天,有必要以大数据推动经验法则的发展。同时,“不可为了时代而放弃永恒”[17],大数据与经验法则并非当然匹配,其存在的问题也可能导致经验法则的发展走向反面,在这个过程中,应当保持刑事诉讼下经验法则的底线和要求,适当放慢步伐,在磨合中发展,不可毕其功于一役。
注释:
(1)可视化是指利用图形、图像处理、计算机视觉以及用户界面,通过表达、建模,对数据加以可视化理解。
(2)二者都属于日志收集系统,Scribe 是facebook 开源的日志收集系统,能够从各种日志源上收集日志,存储到一个中央存储系统上,以便于进行集中统计分析处理。它为日志的“分布式收集,统一处理”提供了一个可扩展的、高容错的方案。Kafka 实际上是一个消息发布订阅系统。生产者向某个主题发布消息,而消费者订阅某个主题的消息,进而一旦有新的关于某个主题的消息,中间商会传递给订阅它的所有消费者。
(3)云计算指的是进行任务分发和结果合并的技术,即将数以万计的数据分发至世界各地的计算机,在极短的时间内完成数据的运算并将结果反馈给数据中心,进行完成数据的高速运算。
(4)一种人机交互方式,把人类语言转化为能够为计算机识别和分析的语言,是人工智能中最为困难的问题之一。
(5)指的是通过大数据收集到的用户信息,抽象出一个用户的信息全貌,为进一步精准、快速地分析用户行为习惯、消费习惯等重要信息,提供足够的数据基础。