民事诉讼大数据证据独立性探究
2022-09-07陈丽娜
陈丽娜
(贵州大学,贵州 贵阳 550000)
从网络安全到数据主权,从域外欧盟《通用数据保护条例》(General Data Protection Regulation,简称“GDPR”)、美国《加州消费者隐私法案》、新加坡《个人数据保护法》和日本《个人信息保护法》到我国网络安全法、数据安全法和个人信息保护法等,全球各个领域的学者、立法者、专家都投身到网络法治研究中。随着网络技术的发展,大数据技术逐渐应用于各个领域,包括司法实践中。例如,江苏省法院推出了“智慧审判模式”以减轻事务负担,提升审判质效[1];贵阳市政法部门研发了“政法大数据办案系统”,创新运用大数据技术破解司法难题[2]。工业和信息化部提出,网络犯罪精准治理需要充分运用新一代信息技术工具以构建完善的犯罪预防同治理体系[3]。在大数据技术应用于司法实践的过程中,民事诉讼大数据证据逐渐被人们所熟知。
大数据分析方法突破了人类处理事件的局限性,有助于司法工作者更好地整合司法资源,更大限度地实现司法公正。大数据开启了证据法治建设的时代转型,为实现司法现代化、数据化,法学家们开始关注大数据材料进入诉讼程序这一事实并思考大数据材料是否真正具备证据资格等问题。大数据分析技术跳出了对子数据集本身的关注与分析,强调将算法模型得出的结论或规律与关联事件或行为进行映射。当发生民事纠纷时,大数据为司法证明提供了证明案件事实的可能性。大数据证据对传统证据规则形成明显挑战、与传统证据规则产生明显冲突,进而导致了大数据证据在法庭适用中的困境。若事先未对典型形式的审查方法进行规定,司法应用中则难免出现混乱。因此,法律工作者理应顺应历史的发展,结合现有实践经验,从立法层面对大数据证据进行体系性制度构建,使大数据能作为桥梁,为探索、发掘具有价值的证据材料做出贡献。
一、大数据证据本体论研究
新证据派的学者重视交叉法学领域新兴证据形式的运用,强调要充分利用信息技术分析手段的优势以解决诉讼资源有限的问题,关注新证据形式对裁判者认知能力的提升。学术研究首先应当有基本的概念分析工具,对研究范畴的核心概念进行梳理,这有助于从纵深度和广阔度两方面对议题进行合理性证成。
(一)研究对象的界定
大数据材料转变为大数据证据,起证明作用的并非客观收集的子数据集,而是各个数据通过特定算法模型凝练成规律性认识,经计算后得出客观分析结论以还原案件事实。大数据材料是否具有进入诉讼程序的证据资格等问题既是法学学者关注的方向,也是各领域与信息技术发展融合时必须关注的内容。
当前,大数据证据在刑事诉讼法、民事诉讼法、行政诉讼法三大诉讼法中均有适用。但三大诉讼法的证据法规则并非完全一致,本文不打算对三大诉讼中的大数据证据运用进行全面论述,而是只就民事诉讼程序中的大数据证据的理论与实践进行研究。大数据证据的运用涉及诉讼法学、证据法学与数据法学的基础理论,它应当是刑法、民法、行政法三大法学学科共同研究的对象。本文拟从上述三者相结合的角度来研究大数据证据的独立种类问题,以我国当前大数据证据在司法实践中适用的难题为切入点,从实践和理论两个维度对其进行检视并分析研究,从证据种类、证据效力、适用规则等方面对大数据证据的属性定位、适用规则、审查判断标准等给出明确的实践指引,以期促进我国民事诉讼证据制度的良好运行。
(二)大数据及大数据证据的含义
在介绍民事诉讼大数据证据的含义之前,首先应当明确其核心概念——大数据的定义。“大数据”是一个互联网行业术语,当其运用于不同领域时,其在合成术语中会有不同的解读。大数据研究的先驱者麦肯锡咨询公司在《大数据:下一个创新、竞争和生产力的前沿》中指出,大数据是在时间、空间中不断变化的数据集合,并非一般的超过某一特定Terabyte(太字节)值的数据集,传统数据库工具无法对其进行获取、存储、分析和管理操作[4]。研究机构Gartner 认为,大数据是具有海量性、高增长率和多样化等特点的信息资产,需要研究新的数据处理工具才能发挥其最大作用[5]。日本学者城田真琴在《大数据的冲击》一书中指出,大数据并非一个孤立的“数据槽”,在海量数据中除了各个子数据,数据的处理者、数据适用的计算模型及数据使用规则等都属于大数据的内涵和外延[6]。2015 年,国务院印发的《促进大数据发展行动纲要》明确指出,大数据是数据集合,其以子数据数量大、传输信息质量高、运行速度快为主要特征。大数据技术采用的“数据—理论模型—特定现象”的认知范式,系大数据证据的特征。综合学界的不同观点,本文认为,大数据以庞大的数据源为基础,通过建立理论模型和设计特定算法在海量数据中进行筛选、分析,输出有效的信息,以反映特定的现象和规律。
大数据分析技术的价值不在于对子数据本身的研究,而在于对经过算法模型生成的大数据分析报告进行运用,对案件待证事实起证明作用的是大数据凝练的规律性认识。大数据材料到大数据证据的转变大致需要经过以下技术处理:第一,利用互联网技术,例如程序或网页,遵循特定规则进行数据爬取,获得所需的文字、视频等源数据;第二,将所得源数据进行处理,根据一定分析算法过滤、筛掉无用、重复数据,获得目标子数据集;第三,利用算法模型得出分析报告,将报告结论与关联行为或事件进行对应,以得出的结论或传递的信息为目标做服务。大数据分析报告的价值和精华在于规律传递的信息,而非海量数据本身。由此可见,客观上大数据以海量子数据构成的数据集的形式存在,而子数据通过算法模型得出认识性规律并生成分析报告以分析阐明案件的待证事实。综上所述,本文认为可将“大数据证据”定义为:将收集程序所获的子数据集进行处理,采用算法模型和分析技术,以所得分析结果或报告的形式反映数据背后存在的规律和价值,并以此证明案件的待证事实。
(三)大数据证据与相关证据种类
当前,大数据证据本身不能作为现行法律规范下的合法证据形式,其属性及法律定位在学术界和实务界中尚存在争议。就目前来看,是在既定证据法体系内对大数据证据进行归属还是在体系外为其另觅路径,这是亟需解决的问题。明确其法律定位是进行制度构建的理论前提,作为一种新兴的证据形式,亟待从理论基础及机制构设角度讨论大数据证据的法律定位、明确其属性并将其进行归类,将符合大数据证据实质要素的各类证明材料纳入其逻辑范畴,规范其在诉讼法语境下的证据规则体系。对于大数据证据的法律属性定位,目前全球范围内并未达成共识,主要存在以下学说。
1.电子数据说
电子数据证据和大数据证据均属于实质上的非物质形态化证据,都以数字化形式存在。不同之处在于前者是“原生证据”,后者是“加工证据”。具体而言,电子数据证据呈静态化,是通过子数据本身携带的信息起证明作用,不存在对数据的“加工”;而大数据证据对数据本身并不关注,呈动态化,其重视海量子数据结合而反映的整体性规律和结论并以此起证明作用。大数据证据与电子数据证据并非同一物,从数量来看,电子数据证据是大数据证据形成的源头,但是,大数据证据并非海量电子数据证据的简单相加,而是需要对数据进行处理以得出分析规律和结论,以整体规律实现证明作用。纵然两种证据并非完全等同,但保守派学者仍坚持在现有证据法体系内为大数据证据找到归属,以保证法律的稳定性,因此便在经过对比后,将大数据证据归类到与其有形式等同性的电子数据证据中来。
2.鉴定意见说
持鉴定意见说的学者提出,虽然目前对以大数据分析技术作为鉴定手段得出的报告未被立法认可,但大数据证据本身实现证明作用的方式与鉴定意见有异曲同工之处。二者都非“原生证据”,大量子数据与鉴定材料对应,算法模型与鉴定技术相似,二者均是以得出的分析或鉴定意见作为证据来证明案件事实。大数据证据和鉴定意见都属于重视材料反映的信息而忽视材料本身的证据,但大数据证据是经由特定算法模型得出的,分析的技术方式客观性更强,这对于传统的主客观相结合的司法鉴定体系是一个不小的冲击。短期来看,此种对大数据证据的认定方式将会是我国司法实践的最大走势。
3.证人证言说
美国学者洛斯教授认为,机器证言传递案件信息的模式同证人证言类似,证据的获取源头是否合法决定证据的可采性[7]1972-1974。与传统证据形式中传闻证据的存在相同,大数据分析技术“黑箱化”难以避免,即设计失误和运转事故都有可能导致机器证言出现错误。大数据证据以数据整体反映的规律实现证明作用且以报告的形式呈现,其结论均是算法模型运行的结果,从学理角度分析,前述理论对大数据证据同样适用。截至目前,我国学术界与实务界对“机器证言”的理念还未形成普遍且正确的认识,相关理念的适用是否会出现错误还有待观察[8]73-77。
4.独立证据种类说
大数据证据的内涵和外延非常复杂,其形成过程包括了数据的爬取、模型的构建、算法分析技术的运用等流程,现有证据体系内的任何一种证据形式都很难完全将其涵盖。有学者认为,大数据证据不仅在形式上不同于任何传统的证据种类,在科学证据、概率证据等理论范式的讨论之中也无法找到其对应的进路。因此,部分学者提出应将大数据证据置于现行的法定证据种类之外,单列出来作为新的证据种类。
笔者认为,上述对于大数据证据性质定位的不同学说在具体场域下均有其合理之处,但部分学说在大数据证据特殊性质的统摄方面周延性稍显不足。具体来看,电子数据说忽略了大数据证据并非海量电子数据的集合体,其结论的形成经历了众多电子数据信息交汇的量变推演过程,即通过算法模型使数据产生质变的过程[9]。鉴定意见说不能体现大数据证据与鉴定意见两种证据形式的本质差别。大数据证据的形成是按特定标准对源数据进行逻辑归纳的过程[10]143-152,而鉴定意见的形成是鉴定人以涉案材料为基础提取信息,以专业知识为手段进行经验总结的过程。大数据证据受算法技术本身影响较大,其证明结论是固定且客观的;鉴定意见则受鉴定主体属性影响较大,因为类推演绎的不可控因素而使证明结论的不确定性更强。证人证言说排除了大数据证据作为实物证据的客观规律属性。大数据证据发挥证明作用的是其内在物理属性,其通过算法显化、读取关联维度大数据中所包含的信息并生成大数据分析报告,以为司法人员所感知[11],此属于实物证据的运用常态。综上,本文认为将大数据证据作为一种独立证据种类处理更为合理,对此笔者将在后文进一步论证。
(四)大数据证据的效力
证据的合法性、客观性、关联性(以下简称“证据三性”)是事实材料具备证据资格的基本判断标准,具备“证据三性”就意味着该份材料可以对案件待证事实成立与否起到肯定或者否定作用,才是适格的证据。大数据证据获得证据资格并进一步对案件事实起证明作用亦必须满足“证据三性”。此外,由于大数据本身的特殊性,在对其“证据三性”标准进行判断时需要结合其特殊之处确立判断标准,要更为谨慎地进行审查。
1.合法性
从海量数据到大数据证据分析报告的形成,并非单一印证方式可实现。大数据证据作用的实现需要针对个案进行专门的采集,即根据具体案件争议事实辨析的需要,针对具体的事项,通过互联网数据采集,如利用Python 技术多维挖掘、收集相关联的数据源,再采用特定的算法分析得出报告。这是一个从数据到大数据、从材料到证据的复杂转化过程[12]。数据库的数据信息是形成大数据证据的基础,只有形成分析结论所依据的数据是以合法方式获取的,大数据报告的结论才有可能符合法定要求。当源数据的获取与数据结论均符合合法性要求,理论上该份证据才算符合立法规定,方可进入法庭作为证据使用。大数据分析结果由机器算法产生,算法的有效性和公正性取决于数据源获取与算法设置本身的合法性。因此,对机器算法进行法律规制和理论指引是保障大数据证据获得证据合法性的有效前提。
2.客观性
同现有法定证据形式不同,大数据证据复合性更强、审查判断更复杂,审查的技术性、科学性、经验性并存。大数据证据突破了裁判者主观认识的局限性,为发现潜在的事实提供了更大可能。以海量子数据为基础,通过算法模型和分析技术,大数据证据所得出结论的客观性相对单一性证据而言更强。大数据证据的优势在于对规律的总结和概率的演算方面,但即使是基于数据的结论,其误差也是存在的。不过这种误差是基础材料本身的特质所导致的,与传统意义上裁判者依据自由裁量而导致的误差并不相同。在浩瀚的互联网世界中,智能化应用所依据的数据是海量的。其中,某个数据节点是否稳定、数据子系统是否有延迟、海量数据能否弥补上述错误,以及数据集传递信息概括为真的证明方式是否会对其证明作用产生影响等仍待求证。
3.关联性
证据法理论强调证明需严格遵循逻辑演算规则,判断者基于主观理性对证据进行运用。大数据分析技术以分析报告的形式起证明作用,分析结论是基于算法模型对海量子数据的客观分析,与传统人工推演方式大不相同,其更讲究算法逻辑。算法分析模型是人为设计结合机器自我运行的结果,结论产生的方式涉及诸多技术手段的综合应用,结论本身亦与待证事实不呈现传统因果关系,因而难以为一般人所理解。大数据证据更强调“是什么”的关联关系,而不深究“为什么”的因果关系。与传统司法实践中的人工认知模式不同,大数据分析技术的应用基础是海量数据。从量上讲,判断的做出有更充分的信息予以佐证;从质上讲,经过算法模型得出的分析结论有更具客观性的报告予以支撑。在对案件待证事实的证明上,大数据证据更加客观,受裁判者主观影响更少,受经验法则左右的程度更小。正如《麦考密克论证据》中对影响证据关联性基本因素中提到的,地图、图、表、照片、录像带、计算机动画对理解其他证据材料都具有实质性帮助[13]。重视结果,忽视因果关系推演规则,大数据证据得出的结论是否经得起司法逻辑的推理论证还需进一步探讨。
二、大数据证据实践价值论
在司法实践中,以非法定证据形式出现在法庭上并被法官采纳的证明材料并不只是大数据证据这一种。为何主张将其独立出来,作为新的法定证据式由立法加以明确规定,需要从应然角度和实然角度对其价值进行深度剖析。从国内近几年的相关成果来看,学术界对大数据证据的价值进行了深入的探讨,研究内容涉及大数据证据证明力规则的价值①对于大数据证据证明力规则价值论的研究,学者马明亮、王士博认为,应通过探究大数据证据的生成过程和构成要素证明力的真实性和相关性两个要素,以进一步探讨证明力规则。[14]、大数据证据二元实物证据属性的价值②学者元轶认为,大数据证据具有“大数据集”和“大数据报告”二元构造,严格证明视角下,有必要将“大数据报告”设为独立法定证据方法。将大数据证据认定为实物证据并按符合论等标准对其进行真实性评判,是刑事司法程序正视大数据所带来之认知变革的第一步。[10]143-152以及大数据证据的程序规制价值③学者元轶提出,大数据证据的出现将会导致对以口供为代表的言词证据需求的骤减,以既定口供为中心的诉讼证据结构体系可能会得到一种矫正,即整个以口供为轴心的证据、侦查、强制措施三维体系,包括辩护保障制度都会发生结构性改变。[15]等内容。但从众多研究成果来看,当前研究的涵盖面有限,对规则层面的关注较多,而对技术交叉带来的应用实践价值鲜有关注。笔者尝试从大数据证据实践价值论的角度出发,对大数据证据进行剖析,力图为后文对大数据证据实践应用困境的分析与制度建构提供价值论解读。
(一)促进司法公正
当前我国的司法实践中,大数据证据已经被原被告作为证明材料提出并进入法庭,但由于大数据证据的内涵和外延较为复杂,当前法定的八大法定证据种类不能完全涵盖和体现大数据证据运用的特点和模式,再加上对大数据证据法律定位、使用规则等内容的法律规范缺失,造成司法认定不一的情形。为满足司法实践的需要,实现同案同判,促进司法公正,大数据证据作为独立种类规定确有必要。大数据时代,裁判者判决的作出逐渐由感性指引转向数据指引,过去是唯一的绝对结论,现在也出现了允许多形态讨论的局面[16]。对大数据证据的研究旨在提升司法人员处理海量证据的能力,使其能更客观地梳理案件事实,更大程度地实现司法公正。数据应用有助于将法官自由心证的指导由情感理性逐渐转向证据理性,可起到约束法官自由裁量权的作用。将大数据作为证据使用,审判的公正性以公众看得见的方式呈现,可以提高当事人对判决的接受度。大数据技术把抽象现象转变为量化的分析结果,能够帮助法官实现高效判案。在形式上,一方面,大数据证据是动态的新型证据种类,其司法运用是时代选择的结果,是当下复杂、专业案件处理难催生的产物;另一方面,科技的高速发展使得新兴技术被有心人错误利用,反过来导致案件变得愈发疑难复杂。在民事诉讼程序中,大数据证据提供的客观分析报告和司法鉴定的结合能有效限制裁判者的自由裁量权。这种双重指引的方式在提升裁判者司法认知能力的同时,还能更好地保障程序正义。
(二)促进法律事实与客观事实无限接近
如今,各类案件呈现出越来越强的专业性,为了应对案件事实证明的高要求,证据的专业性和技术性是大势所趋,运用大数据分析技术等新兴信息技术证明案件事实已经成为一种客观需要。大数据证据在“质”和“量”上有其独特优越性,可将数据背后的规律和特征以可视化形式直观、清晰地表现出来。大数据分析材料通过一系列处理程序最终以可起证明作用的分析报告形式呈现,操作更便捷、诉讼成本更低。一般情况下,囿于各种主客观因素的限制,法官不可能完全地、彻底地还原案件发生的全部事实,其裁判依据的事实是经过法定程序最大程度地“还原”的法律事实,而大数据证据有助于人们更加深入地了解和认识民事诉讼的案件事实。大数据分析报告所传递的信息能够帮助裁判者减少主观因素的影响,更加客观地审查证据、认定事实,使裁判依据的法律事实无限接近客观事实。
(三)提高诉讼效率
英国学者洛克提出,证据的核心本质在于以自己传递的信息起证明作用[17]。若大数据证据可以通过自身传递的信息明晰案件争议、厘清案件事实,起到诉讼证明作用,其便满足了证据基本效力原理,就该承认其作为全新证据形式的资格。大数据分析方法为瞬间大批量处理非结构化信息提供了可能性,为事实认定者提供了基于数据的“数据经验”。在案件日趋专业化和复杂化的今天,大数据分析技术的瞬间信息处理优势能有效缓解司法实践中案多人少的困境,大数据证据的广泛适用将是我国证据法治建设和发展的方向。在信息化时代,文件、资料大多以电子形式存储。纠纷发生后,若上述材料可以通过大数据分析报告的形式呈现,将有助于当事人表达诉求、陈述事实,也有助于裁判者认定事实、采纳证据,并进一步作出公正的裁判。这样不仅能节省诉讼资源,还能提高诉讼效率。
三、大数据证据司法运用的实践与困境
当前,我国司法实践中遇到大数据材料可能作为诉讼证据的情况时,大多是根据个案材料的情况将其归入现有的八大法定证据种类之中。究其原因,是因为现有立法未对大数据材料作证据予以法定,没有可循规则对其应用程序予以规制,司法运用又不可随意而为,唯有将其归入现有种类才可对应相应规则予以规范适用。大数据证据在司法实践的适用过程中的一系列问题,如大数据证据的属性定位、法官对大数据证据的资格判定标准等,还需要进一步深入地分析研究。
大数据证据通常以“分析报告”“指数报告”等形式运用于司法实践中。然而,由于大数据材料运用是一个远未成熟的领域,其基础理论尚未形成通说。实践中,大数据证据通常直接以最终报告的形式起证明作用,因此,质证多围绕报告本身而不对报告形成的过程进行审查,由此造成了一定的程序瑕疵(见表1)。
表1 的三个案例中,法官对实质上与大数据证据特征相吻合的证明材料予以运用,但裁判文书中法官并未直接以“大数据证据”的名称对相应材料予以描述。与此同时,文书所记载的法官判断认定过程亦无法反映法官是采用何种标准来认定材料的证据资格与证明效力。现有的司法实践中,由于证据规则体系构建不完善,导致大数据证据的运用出现种种困境,下文将从理论和实践两个维度出发,分析总结适用中出现的主要问题。
表1 大数据证据司法运用的案例
1.证据定位模糊
从立法层面来看,迄今为止,三大诉讼法缺乏对大数据材料作为诉讼证据使用的明确立法和规定,对于大数据证据的运用在我国尚处于探索阶段,理论界对大数据证据法律属性的认定也不统一。学者邵俊武认为大数据证据可归入现有八大法定证据种类的鉴定意见之中,因为数据信息需要根据争议事实的认定需要,通过收集、提取数据源的海量数据,采用特定的算法多维计算分析后将其以分析报告的形式呈现,该原理与鉴定意见发挥证明作用的机制相同[18]。也有学者提出不同看法,认为电子数据的内涵与外延较广泛,可将大数据证据予以涵盖,因此大数据证据要获得证据资格进入法庭,必须按照电子数据的法定标准加以运用,以实现其诉讼证明功能[19]。由于法律属性定位的不统一,在“基调”未定的情况下,对于大数据证据的审判判断等规定亦存在不同的观点。学者张建伟认为,“证据三性”标准是以证据法基本
原理为基础提出的概念,适用于整个证据法体系。大数据证据无论法律属性定位如何,都不可能置身于整个证据法体系之外,继续适用“证据三性”规则是当然做法[20]。还有学者主张大数据证据同传统证据形式存在的差异之处是需要予以正视的,因此在证据审查标准的设定上,应在尊重上述特点的基础上进行重构,并判断是否符合内容完整、数据源合法、处理规则公开三个标准[12]。由于大数据证据的理论研究与立法规制还未形成完整的规则体系,在司法实践中缺乏统一的法律规定和指导,目前各地法院都是进行个案裁量,而由于基本法律属性定位的不明确,当前大数据证据的适用情况较为混乱。
2.存在数据来源合规风险
海量的子数据是大数据证据形成的基础,但后者并非前者的简单相加,而是通过特定算法模型分析计算得出的结论、规律,子数据的客观真实是分析报告准确、客观的基础。大数据材料并非自然而然地满足诉讼证据的标准,互联网承载的数据源是复杂且混乱的,需要经过一定的算法模型进行数据筛选才有可能获得法定证据资格。因为互联网上的海量信息质量参差不齐,数据不真实、不符合时效性、有意误导等情形难以避免,数据信息传输的准确性难以确保。一方面,并不能保证海量数据均在同一平台。如果在进行数据爬取之前,不能保证各数据储存平台的安全稳定,数据源本身的完整性和准确性就容易遭到破坏。另一方面,子数据处理过程的多个环节涉及技术问题,若不能有效进行规制,将难以避免出现算法风险。上述问题的存在既对大数据证据的司法运用带来了阻碍,也不利于法官对证据的审查。
3.存在算法黑箱化风险
对大数据分析结果的质疑主要指向结论的可靠性。对互联网特定范围内的数据进行全面爬取、收集、处理,使数据可被理解并以此对案件事实的关联性做技术评估是大数据分析技术的基本模式。其突破了传统人力的逻辑推理演绎模式,采用算法模型作为技术支撑得出更客观的演算结论[21]。换言之,大数据分析报告展示的并非数据源与待证事实之间的引起与被引起关系,而是以算法模型和分析技术计算后的数据集规律来实现证明作用。如今,算法以不公开为原则,公开为例外[22]。算法保密性使得模型的建立和计算的过程处于封闭状态,在外界无法监督的情况下,算法技术的可信度大大降低。再加上算法模型是由技术人员所设计的,设计过程及结果本身就很难完全排除设计者的主观性而做到彻底的中立[23]。
四、大数据证据作为独立证据种类的制度设计
民事诉讼大数据证据的运行涉及数学、统计学及计算机科学等多领域的基础理论,由于相关理论研究还不够全面、立法指引尚不够完善,导致大数据证据在司法实践中的适用缺少规制,较为混乱。通过立法将大数据证据确定为独立证据种类并不难,但传统证据规则用于审查判断大数据证据时会出现一些问题,使大数据证据在诉讼活动中的运用面临一定的风险。部分风险类型上文已有列举,不再赘述,下文仅针对司法领域的特殊风险展开论述。对司法领域的特殊风险需要结合基础法学理论,做到合法地以技术规制技术。
(一)明确证据的法律属性
大数据证据作为一种新型证据在司法适用中面临系列难题,由于立法指引的缺失,大数据证据的法律属性难以定位,导致司法适用时无法可依,从采集、筛选、处理到适用等程序的实践操作混乱,内部无规则可制约,外部无鉴定机构可审核。大数据分析技术将经筛选的数据予以收集,通过结构化分析,采用特定算法模型,借助分析结论对行为及事件进行预测,并进一步关联所需信息,最终将大数据材料通过法定程序转化为大数据证据,用以证明案件事实。由于大数据证据的内涵与外延较复杂,现有八大法定证据种类无法将其完全囊括,因此从法律属性定位来看,应通过立法将其确定为新的证据种类,以更好地构建适用规则,应对实践中的困难。
(二)对数据来源风险进行规制
从法学理论出发,数据源的真实性由宏观层面和微观层面共同构成。宏观来看,作为最终起证明作用的数据整体必须真实且完整;微观来看,具体起到基石作用的每个子数据必须保证传递信息的真实性。对大数据证据来说,数据源直接关系到该份证据是否能进入诉讼程序发挥证明作用,数据的采集直接影响证据的准确性和完整性。立法在设置民事诉讼大数据运用规则时要认真考虑大数据证据的特点,对基础数据的提取、算法的规制、结论的形成等过程进行规范。只有在保证数据源合法、数据收集全面的基础上,运用合理的技术和算法模型对大数据材料进行分析后,才能将其转化为起证明作用的诉讼证据。对此,英国学者维克托指出:“‘大数据’并非凿凿可据,大数据分析技术是概率事件……若想要扩大数据的可采集范围,必须首先提高处理错误、重复等无用数据的能力。”[24]大数据分析技术的运用要确定海量子数据的真实性,源数据的真实保证是分析报告得以应用的基础。但是,核实所有源数据真实性的工作量庞大,是坚持逐一核实原则还是采纳近年来学者提出的以“大”真实性为主的证据规则,值得进一步商榷。根据“大”真实性原则,在目标数据集数量十分庞大时,只要有合乎逻辑的算法技术的运用和行之有效的司法鉴定标准做基础,极少量的不真实数据并不影响整体大数据分析报告的真实性。
(三)对算法运用规则进行规制
算法本身的保密性和复杂性极易产生大数据分析技术的算法黑箱风险,在保证商业机密不被泄露的前提下,算法模型的公开是解决大数据证据可靠性困境的关键所在。但是,技术的攻防涉及各方利益的权衡,算法本身的公开方式、公开内容及公开程度等亟须立法逐一予以明确。首先,大数据材料转变为大数据证据是基于数据挖掘、算法逻辑发生的,大数据分析技术是全新的信息技术,短期内大数据证据的司法适用裁判者可能难以完全掌握[8]23-77。因此,就算法公开的方式而言,可引进外部审查机构,在个案的审理过程中将算法向指定的专业人士进行披露。此模式既能实现算法的公开,也能在一定程度上保障其他方面的利益,还能尽量避免裁判者提前接触案件材料,产生先入为主的观点。其次,保障当事人的程序参与权能够提高其对案件处理结果的接受度。由于大数据证据本身生成机制的特殊性,数据爬取、模型建立、计算分析等过程很难让人们直接参与并监督证据的形成,这就容易让人产生黑箱操作的怀疑,并因此不信任法院对证据的取舍和最后的裁判结果。因此,就算法公开的内容而言,要公开算法本身,众多算法方案的取舍、最终算法模型的建立等过程也均需呈现,只有这样才能弥补大数据证据生成过程难以由第三方参与、监督的问题。最后,司法人员是法律的专家并非技术型人才,难以独自对源代码和算法模型做出判断。在具体司法实践中,大数据分析报告基于数据爬取、模型计算得出,有关技术鉴定的部分法官显得无所适从。再加上并非所有机器算法均由人类设计,机器本身存在自己生成算法的能力,对此类即时算法,互联网专家甚至都无法轻易解读。“源代码是冗长的,2009 年以来TrueAllele 软件已被应用在美国和英国5000 多个案件中,其有170000 行代码。但是,有学者提出,只要软件的使用可以保证当事人的知情权及参与权,且该软件的市场适用符合所有检验标准,那么获得软件源代码本身就无关紧要了。”[7]1972-2053因此,就算法公开的程度而言,笔者认为,可根据个案案情的复杂程度、侵害法益的重要性程度以及涉及承担责任类型的不同,判断是否需要在公开算法的基础上进一步对源代码进行检验。针对行为违法程度的不同,立法规定了不同的证明标准。那么,根据宽严相济的立法政策,通过案情证明标准的难易程度来决定个案算法的公开程度也是合理的。
制度的生命力并不只及于制度创设本身,其生命来源于制度的良好实践[25]。法学研究应当在坚持自身特有理论架构的基础上,适当开放接受其他学科的影响。新的科学理论和技术在法庭中的出现极大扩展了事实认定者的认知能力。新兴技术的高速发展给传统证据法体系带来了极大冲击,以致新型证据在诉讼程序中出现适用不能的情形。大数据证据以海量电子数据凝练的规律性认识发挥证明作用,其主要以分析结果或报告的形式呈现。大数据作为一种证明材料越来越多地出现在庭审过程中,如何规范地运用由材料转变而来的证据是当前立法亟须解决的问题。随着信息技术的高速发展,新兴技术与法的结合对司法人员处理专业化问题提出了更高的要求。本文旨在对大数据证据的属性定位、概念明确以及法治化运用进行理论构建,以促进大数据证据的法律适用,使其在诉讼程序中发挥出更大的价值。