论刑事审判中大数据证据的审查

2022-11-21卫晨曙

安徽大学学报(哲学社会科学版) 2022年2期

卫晨曙

一、问题的提出

达马斯卡认为：“站在20世纪末思考证据法的未来，很大程度上就是要探讨正在演进的事实认定科学化的问题。”(1)[美]达马斯卡：《漂移的证据法》，李学军、刘晓丹等译，何家弘校，北京：中国政法大学出版社，2003年，第200页。然而，科学技术的迭代变革，已经远超出达马斯卡在20世纪末的设想。近年来大数据、人工智能技术迅猛发展，许多以大数据、人工智能技术生成的证据材料逐渐从“幕后”走向“台前”(2)程雷：《大数据侦查的法律控制》，《中国社会科学》2018年第11期。，事实认定已经逐步呈现出自动化、智能化的趋势。大数据证据便是在这一新技术革命背景下诞生的一种新的证据形式。大数据证据是指运用大数据技术，对海量数据进行收集、存储、分析所形成的能够证明案件事实的证据信息，这些数据难以凭借人类经验进行分析和处理，因而大数据证据呈现出以海量数据为基础，以智能算法为核心，以自主判断为表征的特点。当前，大数据证据已经出现在国内外司法实践当中。例如，在美国康涅狄格州的一起杀妻案中，一位男子声称其妻子是在躲避入侵他们住宅的罪犯时被杀害，但是妻子所佩戴的FitBit(3)FitBit是美国的一家消费电子产品和健身公司，主要产品包括活动追踪器、智能手表和无线可穿戴式智能产品。https://web.archive.org/web/20190331155429/https://www.reuters.com/finance/stocks/company-profile/FIT.N，最后访问日期：2022-01-09。却显示当时她正在外散步，与该男子所描述的事实有所出入(4)See Christine Hauser, In Connecticut Murder Case, a Fitbit Is a Silent Witness, The N.Y. Times, Apr. 27, 2017.，该男子随后被指控谋杀。在我国，有法院在司法证明中运用人脸识别系统的运行结论，例如一份法院判决书载明：“根据海康系统人脸识别高级运算法则，人脸相似度大于95%，可以认定为同一人，确定本案的嫌疑人为王某某。”(5)参见湖南省株洲市中级人民法院(2021)湘02刑终3号刑事裁定书。但是，大数据证据在事实认定过程中蕴含着风险，主要包括：第一，人为偏误。大数据证据的真实性取决于生成该证据的机器学习程序代码，但该程序代码是需要人类程序员进行设计与训练的，它们执行的是人类程序员的指令，因而它们反映的是程序设计者的事实预设和价值取向(6)Andrea Roth, Trial by Machine, Georgetown Law Journal, vol.104, no.5, 2016, pp.1-48.。例如在智慧司法领域经常被提及的美国COMPAS量刑程序软件，其所暴露的种族歧视风险被社会所诟病(7)https://www.propublica.org/article/how-we-analyzed-the-compas-recidivism-algorithm，最后访问日期：2022-03-25。。第二，算法失真。由于机器学习技术具有自主性，会对其所处理的数据进行再加工，从而导致原始事实失真。例如有科技界人士曾评论称，华为P30Pro手机拍照，可能存在AI软件对照片进行加工的可能(8)转引自何邦武《网络刑事电子数据算法取证难题及其破解》，《环球法律评论》2019年第5期。，这可能导致以音视频形式呈现的大数据证据的准确性降低，这些证据风险很可能成为事实认定错误的诱因。因此，为了规范大数据证据的适用，降低事实认定错误的风险，本文首先分析大数据证据的技术原理，明晰大数据证据的证据属性，在此基础上构建大数据证据的审查体系和配套机制。

二、大数据证据的技术原理

(一)大数据技术的原理描述

当前，大数据、人工智能技术往往同时出现在人们的视野当中，这是因为二者之间存在着紧密的联系。一方面，当前的人工智能建立在海量数据基础之上，数据越多，人工智能的行为结果就越近似于人类行为；另一方面，大数据技术为人工智能提供了强劲的数据存储、计算能力(9)林子雨编著：《大数据导论》，北京：人民邮电出版社，2020年，第41～54页。。因而，有论者又将大数据证据称为人工智能证据(10)参见马国洋《论刑事诉讼中人工智能证据的审查》，《中国刑事法杂志》2021年第5期。。为了保持与既有大数据证据学术讨论的一致性，本文不特别区分大数据技术与人工智能技术，统一称作大数据技术。大数据技术离不开数据与算法的支撑，前者是大数据技术的“燃料”，后者是大数据技术的“引擎”(11)参见左卫民《关于法律人工智能在中国运用前景的若干思考》，《清华法学》2018年第2期。，二者共同构成了大数据技术的架构。一方面，从算法的角度而言，算法(algorithm)是数学或计算机科学领域的专用术语，本质而言是解决某一特定问题的步骤，而且该步骤具有有限性与明确性(12)[美]科尔曼等: 《算法导论(第三版)》，殷建平等译，北京：机械工业出版社，2013年，第3页。。不同的算法采取了不同的数据处理路径，因而一项大数据技术的目标或功能是由算法决定的。另一方面，从数据的角度而言，与目前的大数据技术相比，传统的数据分析技术并不具备智能化、自反应性与自适应性的特点。申言之，传统数据处理程序仅能处理人工输入的数据，而不具备对数据的自动选取、清洗以及筛除功能。而当前大数据技术凭借“机器学习”这一技术关键，实现了数据的自动提取、挖掘、碰撞与分析。其中深度学习(deep learning)是机器学习的重要分支，当前绝大多数的大数据、人工智能技术主要采取这一技术路径。本文关于大数据技术原理的介绍主要围绕深度学习技术展开。

深度学习模仿的是人类的神经元网络。从生物学意义而言，在人脑中，细胞体、轴突和树突构成一个神经元，多个神经元构成相互联结的神经网络。一个神经元得到信息输入后，单个神经元会把计算负担分摊到整个网络上进行“并行处理”，并由整个网络负责信息输出(13)徐英瑾：《心智、语言和机器：维特根斯坦哲学和人工智能科学的对话》，北京：人民出版社，2013年，第43～53页。，这为工程学意义上的神经网络奠定了生物学结构基础。所谓深度学习就是用很多层神经元构成的神经网络达到机器学习的功能(14)尼克：《人工智能简史》，北京：人民邮电出版社，2017年，第97～115页。。其中，数据就相当于“神经元”，算法就相当于“神经元的联结方法”。具体而言，一项深度学习任务的完成一般分为两步：第一是设立深度学习的目标或任务，比如图像或面部识别、数值预测、语音转录文本、机器翻译等等(15)Ian Goodfellow, Yoshua Bengo & Aaron Courville，Deep Learning 2-3(9th ed.)，Massachusetts：MIT Press，2016，pp. 99-103.。第二是在此基础上进行数据训练。比如人脸识别，程序员先将某人的面部特征数据化并将其输入机器，这些数据被称为“训练数据”，程序员在训练数据的基础上引导机器学习，挖掘面部特征数据与特定人之间的关系，这一过程被称为“监督学习”。如果机器经过监督学习能够对该人的面部进行识别，那么程序员会将其放入一个数据测试集中进行测试，调试机器识别的准确率直至达到所预期的精度水平，该机器便可在更大范围的环境内进行人脸识别(16)Ian Goodfellow, Yoshua Bengo & Aaron Courville，Deep Learning 2-3 (9th ed.)， pp. 103-104.。

(二)大数据技术的程序实现

在计算机学科中，算法、程序、软件是三个联系紧密又有所区别的概念。概而言之，算法是解决某一问题的思路，而程序是将算法转化成能够被计算机执行的命令语言，是算法在计算机上的实现，软件则是一个或多个程序的集合(17)转引自张凌寒《算法权力的兴起、异化与法律规制》，《法商研究》2019年第4期。。因而，上文所描述的大数据证据的技术原理，需要一整套具有机器学习功能的计算机程序予以实现，而计算机程序以代码为载体。一般而言，计算机程序代码的编写主要包括源代码编写和由编译器将源代码转为机器代码前后相继的两部分。源代码(source code)是指计算机程序的源生代码，是由程序员编写的原始文件；而机器代码又被称为目标代码(object code)，是源代码经过编译器转化输出的二进制形式的机器指令。就二者关系而言，源代码在计算机程序中发挥着基础性作用，如果需要对目标代码进行修改的话，必须先行修改源代码(18)https://www.thecrazyprogrammer.com/2018/05/source-code-and-object-code.html，最后访问日期：2022-02-06。。以上文所述的“人脸识别”功能为例，计算机程序员首先确定程序代码欲以实现的人脸识别目标，在此基础上运用C、C++、Java以及Python等计算机程序语言进行源代码编写，然后运用“调试器”对已经编写好的源代码进行测试，观察能否达到最初的功能预期并进行优化调试，之后再通过“编译器”将源代码转译为由“0”和“1”组成的二进制代码，该二进制代码是能够被计算机识别的机器代码。至此，一套具有人脸识别能力的计算机程序代码才得以完成。

三、大数据证据审查体系的构建

(一)大数据证据审查的前提：证据属性分析

构建大数据证据审查体系的前提是辨明证据属性。在证据法理论中，不同的证据属性要求特定的审查规则。例如言词证据侧重于证人的可信性审查，主要审查证人的作证能力以及诚实性；而包括电子证据在内的实物证据则注重对证据进行鉴真，保障证据的同一性与真实性。当前学界关于大数据证据的属性之争尚无定论，有论者将之视为类鉴定意见(19)参见刘品新《论大数据证据》，《环球法律评论》2019年第1期。，有论者认为其属于实物证据(20)参见元轶《大数据证据二元实物证据属性及客观校验标准》，《山西大学学报(哲学社会科学版)》2021年第5期。，有论者主张应当将大数据证据作为一项独立的证据种类(21)参见徐惠、李晓东《大数据证据之证据属性证成研究》，《中国人民公安大学学报(社会科学版)》2020年第1期。。这些观点普遍采取了单一化视角，忽视了大数据证据内部证明机理和所处的外部环境对证据属性产生的多元化影响。具体而言，大数据证据的证据属性主要表现为以下两方面：

首先，从内部证明机理而言，大数据证据以专家证据为证据内核。在证据理论中，意见证据是指作证人发表对案件事实的评论、判断、推测等意见性主张。根据作证主体的不同，意见证据可以分为普通证人意见证据和专家证人意见证据。从证人作证的一般原理而言，证人应当根据自己的亲身感知或第一手知识进行陈述，不能在此基础上作出对案件事实的意见性论断，因为普通证人的意见性评论可能会存在谬误，误导事实认定者，并且有可能僭越本应由事实认定者所享有的对证据进行评价和判断的权力(22)参见马贵翔、张海洋《意见证据规则探析》，《华东师范大学学报(哲学社会科学版)》2009年第2期。。因而，为了保障事实认定的准确性，证据规则会对普通证人意见证据予以排除。但专家证人意见证据与之相反，因为专家证人具备事实认定者缺乏的专业知识或技能，能够有效弥补事实认定者的认知短板(23)参见李学军《意见证据规则要义——以美国为视角》，《证据科学》2012年第5期。，因而面对案件中的专业性问题，专家证人根据专业知识、技能经验所作的推论或意见能够有效弥补事实认定者的专业鸿沟，从而能够进入事实认定者的视野。

大数据证据遵循与专家证人意见证据相同的证明机理。大数据证据依赖深度学习技术，这就决定了大数据证据是生成性质的。换言之，大数据证据是通过数据挖掘与数据碰撞产生了不同于既有数据的“新”的信息，这是与当前电子数据这一法定证据种类的本质区别(24)2016年最高人民法院、最高人民检察院以及公安部联合颁布的《关于办理刑事案件收集提取和审查判断电子数据若干问题的规定》(下文称《电子数据规定》)第1条规定：“电子数据是案件发生过程中形成的，以数字化形式存储、处理、传输的，能够证明案件事实的数据。”。一方面，大数据证据的海量数据已经远超法官的专业范畴或技能范围，数据的提取、固定以及处理模型的构建均需借助专业知识。大数据技术能够破除法官所面对的专业壁垒，辅助事实认定者进行事实认定。另一方面，与传统专家意见不同的是，大数据技术是通过从数据海洋中提炼数据经验并形成自主判断，发现难以通过人工方式总结的客观规律以及隐藏的、人类难以发现的客观联系，例如运用深度神经网络对相关数据特征进行提取，发现犯罪组织的资金转移规律(25)参见刘品新、唐超琰《穿透式取证：涉众型经济犯罪的法律应对》，《法律适用》2022年第1期。。这一知识发现过程主要依靠的是具有机器学习功能的程序代码(26)例如由美国Cyber Genetics公司研发的DNA比对软件TrueAllele能够推断DNA样本中的基因图谱，并自动(automatically)与DNA数据库中的图谱进行比对。See DNA Casework, CYBERGENETICS, http://www.cybgen.com/systems/ casework.shtml.，最后访问日期：2020-10-02。。机器学习技术在大数据证据的生成过程中发挥着更具基础性的作用，人类专家的主体地位在此过程中不断式微，程序代码甚至反过来“控制”着人类专家(27)关于专家与法庭科学技术之间的关系，有学者总结出了三种类型：第一，辅助模式。在这一模式中，专家掌握着主动权，科学技术仅为专家更高效地完成任务提供辅助作用，例如专家应用计算机存储信息、运用计算机进行数学演算等；第二，协同模式，在这一模式中，专家与科学技术的地位平等，处于交互合作关系，专家离开科学技术可能无法对相关事实进行认定，科学技术离开专家的解释与分析可能无法发挥其证明作用，例如运用X射线对相关病情进行诊断等；第三，控制模式，在这一模式中，随着科学技术自动化、智能化程度不断提高，生成专家证据的专家知识或经验，转变成了如今的计算机程序代码。See Itiel E. Dror & Jennifer L. Mnookin，The Use of Technology in Human Expert Domains: Challenges and Risks Arising from the Use of Automated Fingerprint Identifification Systems in Forensic Science，Law Probability & Risk，vol.9，no.1，2010，p.48-50.，可以说程序代码才是生成大数据证据的“专家”。所以，大数据证据可以看作是由人工智能程序代码生成的新型专家证据(28)See Erin Murphy, The New Forensics: Criminal Justice, False Certainty, and the Second Generation of Scientifific Evidence, California Law Review, vol.95, no.2, 2007, pp.721-797.。

其次，从所处外部环境而言，大数据证据以电子数据为表现形式。大数据证据虽然衍生于以大数据、人工智能为代表的新技术革命，但并非横空出世的一种证据形式，电子数据载体仍然是其存在方式。根据现行刑事诉讼法，电子数据作为一种法定的证据种类，具有独立的证据地位。但是，电子数据作为一种信息的载体或媒介，任何证据形式都可以电子数据的形式表现出来，有学者甚至认为“电子数据实际上就是传统证据电子化”(29)喻海松：《刑事电子数据的规制路径与重点问题》，《环球法律评论》2019年第1期。。大数据证据同样也难以摆脱电子数据的形式外衣。一方面，从当前数据社会的角度而言，万事万物都浸润在数据海洋之中，大数据证据即是在这种数据化环境之中凝练出的“数据经验”，会以电子化数据的形式呈现出来；另一方面，从证据制度的演进视角而言，有论者称大数据证据是电子数据的高阶形式(30)有学者将大数据证据称为第三代电子数据。参见刘品新、陈丽《电子证据的迭代与立规》，《人民法院报》，2020年10月22日第5版。，“只是在数量级和复杂性上与前者(电子数据)存在差别”(31)元轶：《证据制度循环演进视角下大数据证据的程序规制——以神示证据为切入》，《政法论坛》2021年第3期。。因而，电子数据作为大数据证据的载体或媒介，在构建大数据证据审查体系时不能脱离电子数据的审查规则。鉴于电子数据自身的技术性、依赖性以及无痕性等特点，仍须将电子数据的提取、固定、审查和认定等规则考虑在内。这种证据审查方式在当前的规范层面上已有规定。例如，在以电子数据形式呈现的言词证据审查问题上，《电子数据规定》第1条第3款规定：“以数字化形式记载的证人证言、被害人陈述以及犯罪嫌疑人、被告人供述和辩解等证据，不属于电子数据。确有必要的，对相关证据的收集、提取、移送、审查，可以参照适用本规定。”该条款明确了以数字化形式呈现的言词类证据不属于电子数据，要适用言词证据的审查规则，但同时表明了数字化形式可能会对该类证据形式的真实性和完整性产生影响，因而在必要情况下也可适用电子数据审查的有关规定。

总而言之，大数据证据具有以电子数据为表现形式，以科学证据作为证据内核的证据属性，是一种重叠着传统与现代、实物证据与意见证据的证据形式。所以，大数据证据审查体系的构建需要考虑其多元化的证据形式，既不能脱离电子数据审查的传统，同时也应当根据专家证据证明特点设置相应的审查规则。

(二)大数据证据的审查铺垫：证据鉴真

鉴真(authentication)，是指证据提出者必须用证据充分证明所提出的特定证据确实是其所主张的证据(32)参见联邦证据规则901(a)。。鉴真是审查实物证据证据能力的重要环节，鉴真不仅能够对实物证据的真实性进行鉴别，同时也能保证实物证据的相关性(33)参见陈瑞华《实物证据的鉴真问题》，《法学研究》2011年第5期。。以证据鉴真作为大数据证据审查的第一步，是因为大数据证据以电子数据为存在方式，由于电子数据的虚拟性与依赖性，其遵循不同于一般实物证据的鉴真机制，有学者将之称为电子数据的双重鉴真模式(34)参见刘译矾《论电子数据的双重鉴真》，《当代法学》2018年第3期。。概而言之，一方面要审查电子数据的物理存储介质，例如计算机、手机、硬盘等；另一方面要审查能够使电子数据以证据事实的形式为人感知的载体，例如声音、图像、数字、代码等。在大数据语境中，大数据证据一方面需要依托有形的物质载体，例如计算机、智能手机、运动手环等一系列智能终端；另一方面，生成数字、图像以及音视频的内部数据或代码，是大数据证据能够为人们所感知的主要媒介。因此，大数据证据的鉴真也主要从以下两方面展开：

首先，需要对大数据证据的物质载体进行鉴真。物质载体的鉴真主要分为两种情况：第一，如果物质载体属于特定物，具有与众不同的特征，容易辨认，那么直接对该物质载体进行辨认就能达到鉴真的目的；第二，如果物质载体是种类物，不具有区别于其他物体的独特特征，则适用保管链证明。保管链证明是指从侦查机关搜查、扣押证据开始到法庭出示证据这段区间内物质载体保管、流转的完整性。大数据证据的外部载体鉴真与一般实物证据鉴真并无二致，应当着重审查证据保管链条的主体是否合法、是否尽到证据保管义务、证据流转是否连续完整等。另外，还需要注意的情况是，在原始介质无法封存、不便移动时，根据2020年底颁布的《最高人民法院关于适用〈中华人民共和国刑事诉讼法〉的解释》(下文称《新刑诉法解释》)第110条第1款的规定，需要审查有无说明原因，以及是否有对电子数据的收集、提取程序，存储介质原始存放地点以及电子数据来源等情况予以说明。大数据证据物质载体的封存以及大数据证据内部数据和代码的收集和提取，同样适用于该条规定。

其次，大数据证据内部数据或程序代码的鉴真。第一，计算机程序代码和数据与之生成的大数据证据的同一性审查。上文已述及，不同的计算机程序代码具有不同的功能指向，因而需要对涉案大数据证据所对应的特定的计算机程序软件进行同一性审查。第二，生成大数据证据的数据或代码的完整性审查，防止数据或代码被调换、裁剪或编辑。同时，需要注意的是，生成大数据证据的数据库内的在线数据不仅数量巨大，并且处于实时变动之中，可能导致在不同的时间节点下生成不同的大数据证据，从而影响大数据证据的同一性或完整性。针对此问题，在鉴真时，一方面应当运用电子数据冻结措施，例如，《电子数据规定》第11条、第12条分别规定了电子数据冻结的情形和方法，通过电子数据冻结保障大数据证据的实时性和同一性；另一方面，可以凭借新兴的技术手段保障大数据证据的完整性，例如及时运用完整性校验、哈希值校验以及当下的区块链技术等防止数据篡改的技术手段固定数据。

(三)大数据证据的可靠性评估：源代码审查

如果说专家证人的资质和可信性是影响专家证言的关键，那么生成大数据证据的源代码的可靠性则是决定证据可靠性的核心因素。一方面，源代码作为计算机程序的通识语言，具有可识读性。源代码是由通用的程序语言编写的，其他编程人员也能够进行读写与理解(35)https://www.thecrazyprogrammer.com/2018/05/source-code-and-object-code.html，最后访问日期：2022-02-06。。另一方面，如上文所述，源代码是主导大数据证据生成的核心，证据的可靠性与源代码紧密相关，因为源代码的准确性是计算机程序正常运行的最根本保障(36)Ryan Christopher Fox, Old Law and New Technology: The Problem of Computer Code and the First Amendment, U.C.L.A.Law Review, vol.49, no.2, 2002, p.871.。大数据证据的可靠性依赖于计算机程序的准确性，而充分理解计算机程序的唯一途径就是阅读程序的源代码(37)Christian Chessman, A “Source” of Error: Computer Code, Criminal Defendants, and the Constitution, California Law Review, vol.105, no.1, 2017, p.182.，有论者曾言，“如果不对源代码进行审查，就发现不了程序的错误”(38)Andrew Morin et al., Shining Light into Black Boxes, Science, vol.336, 2012, p.159.。

首先，监督学习过程中源代码的“训练数据集”审查。根据上文所述的技术原理，机器学习的前提是要有一套训练数据集，以此为基础训练算法，使其具备根据目标任务自主抓取、挖掘、分析数据的能力。训练数据集是机器学习的开端，在审查大数据证据时，应首先对训练数据集的数据质量进行审查。第一是在数据收集阶段。大数据技术离不开数据的“喂养”，“垃圾进，垃圾出”表明了数据收集是影响大数据技术可靠性的首道关口。数据收集一般可以分为数据源和收集方式两部分，数据源一般是指各类系统、网站以及传感设备，数据源是否运行稳定、是否经过篡改、是否被网络黑客所攻击等因素是评估数据源可靠性与真实性的主要标准。与此同时，大数据的收集方式也是影响数据真实性与完整性的重要因素，比如，互联网数据爬取是当前数据收集的主要方式之一，而爬取互联网数据的爬虫软件的时间设置则是影响原始数据收集范围与时效性的重要因素，在证据审查时应当着重关注。第二是在数据预处理阶段。数据预处理主要是对所收集的数据进行“清洗”或“标注”。监督学习型的大数据技术，在这一阶段一般需要大数据技术工程师人工介入进行处理，因而人为因素是影响这一阶段数据质量的主要因素。对此可以从以下几方面进行审查：数据标注是否有统一的行业标准，对数据采集点、采集内容以及采集频率等数据标注流程是否有明确的操作规定；数据标注过程中数据工程师的综合素质——他们是否专业化、能否中立地进行数据标注、工作态度是否认真、是否在数据标注过程中为达到某一数据处理目的而数据造假等因素，是评估数据预处理阶段训练数据集的主要标准。

其次，大数据证据源代码的可靠性审查。传统专家意见证据的可靠性审查，重心在于专家所依赖的理论或技术的可靠性和准确性。美国多伯特案件为专家证据的可靠性审查提供了标准，主要包括四个方面：(1)专家证言所依赖的理论或技术能否以及是否能够经过测试或检验；(2)该理论或技术是否经过同行评议；(3)该种理论或技术已知以及潜在的错误率是多少；(4)该理论或技术是否为相关领域所普遍接受(39)Daubert v. Merrell Dow Pharmaceuticals, Inc.,509 U.S.579,587( 1993).。这四项标准为大数据证据源代码的可靠性审查提供了思路。第一是源代码的可重复性测试(40)“只有当一个装置反复应用后给出了同样的读数或图像，这样的装置才是可靠的。如果该装置没有得到适当养护，就不能提供可靠读数。例如，如果一支警用雷达枪没有定期检测或屡次受损，就不可能指望它提供汽车速度的可靠标示”。[美]特伦斯·安德森等《证据分析》，张保生等译，北京：中国人民大学出版社，2012年，第86页。。根据上文所述，源代码是一套预先设置的解决某一问题的固定步骤，这使得源代码的处理结果具有可预测性，不受反复无常的主观化个人的影响。因而，对源代码进行可重复性测试，并且评估每次测试结果的一致程度便可以评估源代码的可靠性，这同时也规避了算法黑箱的技术难题。美国纽约上东区法院在审理一起案件时发现，纽约州警局犯罪实验室未对STRMix这一DNA分析软件进行任何内部验证(internal study)，法院因此排除了这一软件生成的DNA报告(41)People v.Hillary, Case No. 2015-15, at 8 (N.Y. Sup. Ct. Aug. 26, 2016).。第二是源代码的同行评议。计算机程序语言的两个顶级会议 POPL和PLDI发布了有关计算机程序语言论文的严格评审流程(42)POPL发布的论文评审流程参见http://popl.mpi-sws.org/PrinciplesofPOPL.pdf，最后访问日期：2021-11-30；PLDI发布的论文评审流程参见http://www.sigplan.org/sites/default/files/PracticesofPLDI.pdf，最后访问日期：2021-11-30。，因而，法官可以通过评估有关源代码程序语言的论文发表刊物级别、会议层级、是否有严格的同行评议机制等因素对源代码的可靠性进行审查。第三是源代码的错误率。由于错误率对计算机程序的稳定运行十分关键，计算机科学家也总结出了许多评估计算机程序代码错误率的方法，概括而言，可以从源代码的使用年限、复杂性以及源代码的历史故障率等方面进行评估。第四是源代码在相关领域的普遍接受度。由于不同的源代码所实现的程序功能不同，关于源代码的接受度不能一概而论，因而应当从特定的源代码适用领域，比如人脸识别、数字金融、智慧健康医疗领域等等出发来评价其普遍接受度。在此基础上，可以通过相关源代码的行业声誉、适用范围、适用时长、用户满意度等要素对其普遍接受度进行评估。

四、大数据证据审查的配套机制

上文所构建的审查体系是大数据证据审查的应然范式，将这种理想样态落实到实践中仍然需要一系列配套的体制机制，主要包括以下三方面：

(一)突破法定证据种类的藩篱

法定证据种类是我国证据规则构建的逻辑前提，但是这种法定的证据种类制度难以应对日新月异的社会进步以及纷繁复杂的司法实践，例如在《新刑诉法解释》颁布之前，广泛存在于司法实践之中的价格认定报告、会计审计报告等证据形式，均因不属于法定证据种类而难以纳入证据审查体系。当前新技术革命催生出的大数据证据也不例外，面临着相同的证据种类归属难题。因而，为了破解这一问题，需要突破当前法定证据种类的制度约束，探求契合司法实践的大数据证据审查路径。

首先，应当注重证据审查规则的构建和完善，避免过度纠缠大数据证据的证据种类问题。为了实现这一目标，可以大陆法系证据理论中的证据方法为进路(43)林喜芬：《大数据证据在刑事司法中的运用初探》，《法学论坛》2021年第3期。。在大陆法系的证据理论中，证据包括证据资料与证据方法，证据资料是指可能与待证事实相关的所有的资讯内容或速素材，而证据方法则是调查证据资料内容的手段(44)林钰雄：《刑事诉讼法(上册总论编)》，北京：中国人民大学出版社，2005年，第349页。。因而，在证据法中，“法定”的不应当是某类证据类型所携带的证据信息，因为任何一种人、地、物都有可能是与待证犯罪事实直接或间接相关的资讯内容或素材，而应当是审查类证据的调查方法。例如，欧陆刑事诉讼中法定的证据方法主要包括五种，即人证(询问)、勘验、鉴定、文书(宣读)以及被告(讯问)。对于我国的法定证据种类制度，有学者批评道：“就是没有充分认识到证据法的基本功能在于对诉讼中运用证据的行为进行规范。”(45)孙远：《论法定证据种类概念之无价值》，《当代法学》2014年第2期。因而，面对大数据证据，在明晰证据属性的基础上应当注重具体审查规则的构建和更新，以规范大数据证据的审查行为，而不应当过度纠缠其到底属于何种法定证据种类。同时，“证据方法具有一定的开放性，并不必然对应某一种证据形式”(46)林喜芬：《大数据证据在刑事司法中的运用初探》，《法学论坛》2021年第3期。，同一证据可以组合多种证据方法予以审查。这也契合了大数据证据兼具电子数据与专家证据的多元证据属性。

其次，可以通过司法控制的方式为大数据证据审查规则提供规范路径。大数据证据的可靠性审查要深入至机器学习的源代码，而当前的证据审查规则尚未对机器学习源代码审查有完善的规定，这可以通过司法解释或指导性案例的方式予以实现。这种通过司法调控确立证据审查规则的方法在我国当前的司法实践中并不鲜见。例如，《新刑诉法解释》第100条规定：“因无鉴定机构，或者根据法律、司法解释的规定，指派、聘请有专门知识的人就案件的专门性问题出具的报告，可以作为证据使用。”这条规定赋予了专门性问题报告在审判中的证据资格地位，同时也明确了其审查规则(47)《新刑诉法解释》第100条规定，专门性问题报告的审查参照适用鉴定意见审查的规定。，回应了我国司法实践中大量存在的“价格鉴定报告书”“会计审计报告”等证据材料的法律地位和证据审查难题。又如，最高人民法院2020年12月29日发布的第26批指导性案例中明确了专门性问题报告的证据地位(48)参见最高人民法院第26批指导性案例147号“张永明、毛伟明、张鹭故意损毁名胜古迹案”。。这种通过司法解释或指导性案例的方式，能够疏解法定证据种类制度的封闭性和滞后性，也可以有效应对当下大数据证据审查规范依据阙如的困境。

当然，借由司法解释的路径将审查大数据证据规则规范化，是应对当前新技术革命的权衡之策，因为通过司法解释创设证据审查规则，会侵蚀证据规则体系的合法性与融贯性(49)参见吴洪淇《刑事证据制度的体系化塑造及其隐忧——最高院“新刑诉解释证据规定”的宏观分析》，《当代法学》2021年第5期。。造成这种困境的原因，在于我国证据制度中证据种类与证据审查规则的联结过于紧密，证据审查规则完全依照证据种类展开，而证据种类划分又不周延，导致一些新兴证据形式难以归入既有的证据审查规则进行审查。因而为了实现证据种类与证据审查规则的适度分离，可以通过整合我国当前的法定证据种类，将之归纳为言词证据、实物证据和派生证据这种证据范畴容纳性更高的证据类型(50)参见吴洪淇《刑事证据制度的体系化塑造及其隐忧——最高院“新刑诉解释证据规定”的宏观分析》，《当代法学》2021年第5期。，实现证据审查规则的灵活适用。而这一过程并不是一蹴而就的，其有赖于立法、司法以及理论界的持续努力。

(二)完善电子数据鉴真机制

根据上文所提及的大数据证据与电子数据的关系可知，大数据证据的鉴真镶嵌于电子数据的鉴真机制当中，因而完善电子数据鉴真机制，对于保障大数据证据的真实性与同一性具有十分重要的意义。在2010年最高人民法院、最高人民检察院、公安部、国家安全部、司法部颁布的《关于办理死刑案件审查判断证据若干问题的规定》(下文称《关于死刑案件证据规定》)中，开始出现了对电子数据的鉴真规定，之后的2012年刑诉法解释吸收了《关于死刑案件证据规定》中关于电子数据鉴真的规则，一套关于电子数据鉴真的规则体系初见雏形。但是，2013至2014年间引发巨大争议的快播案暴露出了我国电子数据鉴真的严重问题，2016年出台了《电子数据证据规定》。这是我国首次以单独一部司法解释就某一特定证据种类进行规制，其中鉴真规定占比达三分之二(51)参见谢登科《电子数据的鉴真问题》，《国家检察官学院学报》2017年第5期。。这无疑是我国电子数据鉴真体系的一大进步，但仍然存在着诸多有待完善之处，比如鉴真规则体系不完善、鉴真方法单一、鉴真程序依赖笔录类证据等(52)参见刘品新《电子证据的鉴真问题：基于快播案的反思》，《中外法学》2017年第1期。。大数据证据的鉴真要求，可能成为进一步完善电子数据鉴真鉴定规则的“证据法时刻”(53)Jeffrey Bellin，E-Hearsay, Minnesota Law Review,vol.98, no.7, 2013, pp.11-12.。

首先，丰富电子数据的鉴真方法，实现证据鉴真实质化、高效化。一方面，从鉴真实质化而言，我国当前的物证鉴真实践中，主要依赖于笔录类证据，由于该类证据主观性较强、易于修改且难以完整还原物证提取、收集以及固定等过程的原貌，导致鉴真流于形式(54)白冰：《论实物证据的鉴真规则》，《当代法学》2018年第1期。。有鉴于此，应当丰富电子数据的鉴真方法，逐步脱离对笔录类证据的依赖。比如，知情人鉴真。知情人鉴真是物证鉴真中较为常用的方法，一般是指对物证的外部特征、收集、固定以及保管程序有亲身知识的人进行的作证。就大数据证据而言，知情人可以分为大数据证据数据或程序代码的设计者或制作者，大数据证据所存在的载体或终端的使用者以及大数据证据的收集、固定和保存者，他们可以对案件中大数据证据的同一性进行作证，实现鉴真目的。再如，推定鉴真。推定鉴真是专门针对电子数据鉴真而提出的鉴真方法。因为在产生电子数据的程序或设备中会产生关于该电子数据的附属信息，例如时间、地点、设备名称等，这些信息产生于系统或设备的运行之中，受人的主观性影响较小(55)郭金霞：《电子数据鉴真规则解构》，《政法论坛》2019年第3期。，可以根据这类附属信息对电子数据的完整性和同一性进行推定鉴真。另一方面，从鉴真高效化而言，可以凭借智能技术进行鉴真。随着人工智能技术的发展，知情人、技术专家可能也难以辨识人工智能算法对证据的修改，因而在一些图像智能化处理领域，有论者主张运用AI技术对人工智能算法加工的图像进行鉴真(56)2018年，Rossler等研究人员创建了一个包含约50万张图像的数据库(来自1000多个视频)，并发表了他们的研究成果，成果表明，他们开发的机器学习算法(XceptionNet)可以在不对图像进行修改的条件下区分人脸图像是否存在互换的情况。See Marie-Helen Maras & Alex Alexandrou, Determining Authenticity of Video Evidence in the Age of Artificial Intelligence and in the Wake of Deepfake Videos, The International Journal of Evidence & Proof, vol.23, no.3, 2019, p.255.。此外，可以尝试引入自我鉴真规则。自我鉴真(self-authentication)，是指物证、书证等展示性证据的真实性已经得到证明，无需外部证据进行证明。美国联邦证据规则902条款列举了包括带有签章的国内公文、官方出版物等在内的12种自我鉴真的情形。在大数据证据的鉴真过程中，可以设立自我鉴真规则，例如由政府机关收集的数据或认证的源代码生成的大数据证据，或由独立第三方评估过的程序代码生成的大数据证据等可以纳入自我鉴真的情形。

其次，平衡新技术发展与司法鉴定管理制度之间的关系。鉴真是鉴定的前提与基础，鉴定是鉴真的延伸与补充。当大数据证据因专业技术问题而存在着鉴真难题时，法官可以将证据审查诉诸司法鉴定。但是，与美国由法官裁量评估新技术可靠性的方式不同，我国是借由国家标准或行业标准等规定对新技术进入司法鉴定领域提供门槛，并且当前的鉴定机构并不具备自行制定有关技术规范的权力。这种司法鉴定管理体制意味着大数据证据的鉴定仍然要严格依照规范化的国家标准或行业标准，但是目前关于大数据证据鉴定的标准依旧付之阙如。因而，应当寻求新技术发展与司法鉴定管理制度之间的平衡路径，树立技术自治的理念，恢复司法鉴定机构技术规范制定的自主性，通过向司法行政部门进行事前报备、事后评估监管的方式释放新技术在司法鉴定领域的效能。在此基础上，应当加快相关技术国家标准或行业标准的制定步伐，为大数据证据鉴定提供规范化的制度标准，为大数据证据鉴定创造制度空间。此外，办案机关应当探索高效灵活的大数据证据审查机制，破解当下大数据证据的鉴定困境。例如北京市海淀区检察院探索出“检察官+数据审查员”新型办案模式，通过招录具有计算机背景和法学背景的人才，将具有计算机专业知识的检察员作为数据审查员，并吸收本院具有鉴定资质的专业人员，在不脱离各自岗位的情况下对电子数据进行审查分析，为专业鉴定机构先行锁定了海量电子数据中的“重点鉴定范围”，提高了电子数据的鉴定质效(57)参见《让数据不再成为“孤岛”》，《检察日报》，2021年11月8日第5版。。

(三)构建大数据证据质证机制

我国《新刑诉法解释》第71条规定：“证据未经当庭出示、辨认、质证等法庭调查程序查证属实，不得作为定案的根据。”由于大数据证据特殊的证明机理，主导证据生成的源代码应成为证据质证的焦点(58)Edward K. Cheng and G. Alexander Nunn, Beyond the Witness: Bringing a Process Perspective to Modern Evidence Law, Texas Law Review, vol.97, no.6, 2019, pp.1077-1124.。从域外的讨论来看，主张被追诉人获知(access)用作指控的机器证据的源代码并对其进行对质已经成了共识(59)Alex Nunn, Machine-generated Evidence, The SciTech Lawyer,vol.16, no.4, 2020, pp.3-7.。具体而言，在我国的司法语境中，大数据证据的质证机制应当从以下两方面展开：

首先，大数据证据源代码的开示。因为源代码在生成大数据证据的过程中发挥着核心作用，源代码的准确性与可靠性决定着大数据证据的可靠性，甚至有论者主张将源代码的公开作为大数据证据可采性的条件之一(60)Christian Chessman, A “Source” of Error: Computer Code, Criminal Defendants, and the Constitution, California Law Review, vol.105, no.1, 2017, pp.179-228.。但是，源代码一般涉及相关企业的商业秘密保护等权益，在国外的司法实践中，以商业秘密保护为由拒绝披露源代码的上诉请求得到了法院的支持。但是，多数学者认为在刑事审判中对商业秘密保护赋予证据上的特免权地位有过度保护的倾向(61)Rebecca Wexler, Life, Liberty, and Trade Secrets: Intellectual Property in the Criminal Justice System，Stanford Law Review, vol.70, no.5, 2018, pp.1343-1429.，为了保障证据裁判的正当性，应当对源代码进行开示。鉴于源代码特殊的商业秘密价值，源代码开示的关键在于开示的情形、程序与方式。第一，从公开情形而言，当大数据证据是证明案件要件事实的关键证据时，源代码应当公开；当大数据证据充当的是间接证据、补强证据时，源代码可以公开，如果被告人及其辩护律师申请公开并担负保密义务的，应当向其公开；第二，从公开范围而言，大数据证据的源代码公开仅限于经过鉴真的源代码，与该案无关的源代码禁止公开；第三，从公开对象而言，大数据证据源代码应当主要向辩护律师公开，未聘请辩护律师的，可以向被告人及其近亲属公开，为了维护源代码的商业秘密价值，在向其公开的同时应要求保守秘密；第四，从公开的方式而言，可以通过口头解释或者通过可视化的动画演示，以当事人的理解为标准；第五，从公开的阶段而言，可以主要集中于庭前会议阶段。

其次，适用专家辅助人制度。因为大数据证据的专业性程度较高，这种知识上的不对等加剧了控辩之间的不平等关系，导致证据质证难以进行，为了缓解这一难题，可以借助专家辅助人制度。在我国的诉讼语境中，专家辅助人又被称为“有专门知识的人”。我国2012年修改的《刑事诉讼法》第192条规定：“公诉人、当事人和辩护人、诉讼代理人可以申请法庭通知有专门知识的人出庭，就鉴定人做出的鉴定意见提出意见。”尽管从文本上看，专家辅助人的作用仅局限于对鉴定意见进行质证，但是在司法实践中，在一些情况下专家辅助人已经超越了规范文本所规定的角色功能，例如就专业问题提供意见等，并且并未带来庭审失控的后果(62)吴洪淇：《刑事诉讼中的专家辅助人：制度变革与优化路径》，《中国刑事法杂志》2018年第5期。。因而，第一，应当适度扩大专家辅助人的功能定位，不再局限于对鉴定意见提出意见，也可就相关专业问题提供意见。2020年颁布的《新刑诉法解释》明确了有专门知识的人就专门性问题出具的报告的证据地位，这为专家辅助人有效介入大数据证据质证提供了合法依据。第二，明晰专家辅助人的法庭准入标准。可以综合考虑专家辅助人的执业经验、职称、行业知名度以及专业对口程度等因素，聘请专业化的计算机程序工程师等专业人员对源代码进行识读分析，判断计算机程序源代码的准确性和可靠性。第三，明确专家辅助人质证的程序细节。从质证对象而言，专家辅助人应当仅能对与本案有关的程序代码发表意见；从权利义务角度而言，专家辅助人在享有发表专业意见的权利之外，同时也要担负独立客观以及对非开源源代码保守秘密的义务；如果专家辅助人出庭作证，为了保障其专业性与客观性，应在其发表完专业意见并接受询问后退庭，不得旁听案件的其他庭审环节。

五、结语

证据法学家达马斯卡在20世纪末展望证据法的未来时断言：“越来越多的对诉讼程序非常重要的事实，现在只能通过高科技手段查明。随着人类感官察觉的事实与用来发掘感官所不能及的世界的辅助工具所揭示的真相之间鸿沟的扩大，人类感官在事实认定中的重要性已经开始下降。”(63)[美]达马斯卡：《漂移的证据法》，李学军、刘晓丹等译，何家弘校，第200页。当前，大量涌现在庭审中的科学证据，诸如DNA测序、血液酒精浓度测试等，都让位给超出人类感官经验的机器代码，事实认定者主要依靠一系列“真相机器”来查明案件事实(64)Andrea Roth, Trial by Machine, Georgetown Law Journal, vol.104, no.5, 2016, pp.1-48.,因而在传统司法证明过程中人类的主体性认知，逐渐演变成了数据社会背景下的人机分布式认知。大数据证据就是在这种认知模式转型的背景下诞生的一种证据形式，它通过机器学习技术在海量数据中凝练的“数据经验”进行自主判断，这种超越人类感官、凭借程序代码生成的证据，在当下的司法实践中成了一种新的专家证据。面对这种诞生于新技术革命的证据形式，我国尚处于发展完善阶段的证据制度，不得不面对旧的问题尚未解决、新的疑难已经诞生的窘境。这种新旧问题交叠的现实难题要求我们对大数据证据审查体系进行调整和创新。一方面，大数据证据不可能脱离当下的电子信息社会而真空存在，与电子数据之间的紧密关联既要求我们对既有电子数据审查制度进行完善更新；另一方面，机器学习等新技术对司法证明领域的渗透不可避免地存在着大数据证据失真风险和技术伦理困境，又要求我们对机器学习源代码的审查体系，以及证据种类、证据开示以及法庭对质等一系列证明机制进行反思与创新，最终为大数据证据的可靠性审查确立一套完善的审查体系。