以定义为中心的大数据证据独立种类研究
2020-12-14严若冰
严若冰
(四川大学法学院,四川 成都 610207)
一、实务发展:大数据证据登上司法舞台
随着信息技术的快速发展,用大数据技术预测案件发生、证明案件事实已经成为我国司法实践中的现实情况。然而,不论在理论还是实践上,大数据证据都是一个远未成熟的领域,其基础理论尚未形成通说,实践运用也缺少规范。研究大数据材料作为证据的基础理论,不仅是法律实践和学术研究的需求,也是以全球视野应对科技发展的需要。
(一)大数据证据出现的背景
大数据证据登上司法舞台,首先取决于大数据技术在社会范围的广泛应用。我国政府高度重视大数据技术的发展,2014年“大数据”首次被写入政府工作报告,随后国务院印发《促进大数据发展的行动纲要》《十三五规划纲要》提出要“实施国家大数据战略”,工信部发布了《大数据产业发展规划(2016—2020年)》。随着国家大数据战略的深化,党的十九大报告中提出“推动大数据与实体经济深度融合”,我国正在从“数据大国”迈向“数据强国”。政策支持下,大数据产业的水平持续提升,涌现了华为、百度、阿里等一批大数据企业;大数据应用不断深化,从互联网、广告营销等领域,向工业、政务、电信、交通、医疗、金融、教育等实体领域广泛渗透,呈现出“脱虚向实”的趋势,正与社会生活的各方面产生深度结合。[1]
随着越来越庞大的数据存贮和分析能力,实践中案件的“专业化和巨型化”[2]对大数据技术进入司法领域提出了需求。如涉众型金融犯罪案件中动辄涉及百亿元、千亿元金额的流转,十万人、百万人涉案人员的行为,对传统办案方式提出了极大挑战。用大数据技术侦破案件成为许多情况下必然的选择,有关材料作为证据进入庭审流程是实事求是的需要。虽然大数据技术强调关联关系而非因果关系,与传统的司法证明要求不完全相符,但是由于证据的稀缺性,大数据技术的司法应用有助于我们更好地发现案件事实,即“符合降低司法证明难度的导向”[3]。
(二)大数据技术的法律实践
目前,司法实践中大数据技术的应用在世界范围已经形成一定积淀,其身影出现在立案前的线索搜集、案件侦破过程、法庭证明等一系列司法活动中,受到实务界越来越多的关注,同时成为学术研究的热点。国际上,美国刑事侦查中采用了“大数据预测警务”技术。[4]司法实务中,出现了将汽车事件数据记录系统数据、谷歌地球卫星图像和坐标数据、“查找我的iPhone”数据等用作证据的案例。[5]在国家大数据战略推动下,我国司法领域的大数据技术应用也正在飞速发展。涉及海量数据的案件中,大数据证据的应用已经成为案件侦破的重要突破方法,典型的有涉众型金融犯罪案件。有学者以一起资金大数据侦查案件为例,说明大数据技术在发现案件情况中的作用。该案涉及到上亿条资金流水数据,上万个账户,人工梳理难度极大。对此,侦查人员建立了资金特征分析模型,利用统计概率、挖掘分类算法等技术,对交易行为特征、账户特征、主体特征等资金特征进行分析,在短时间内刻画了可疑资金网络,并利用可视化技术展现了可疑资金的来源和去向,且自动标注账号和主体的类别标签,为侦查人员提供了侦查的方向,提高了工作效率。[6]大数据技术在深入我们生活的同时,也在与司法实践深度结合。在法庭上面对一项作为证据的大数据材料,或许是越来越多法律工作者将会遇到的情形。
从大数据技术到大数据证据,经历了两个过程。第一,抽象的大数据技术被运用于社会生活形成具体的材料,其中一部分与法律活动存在关联的,成为可能被作为案件证据或者参考的大数据材料。第二,大数据材料中,具备客观性、关联性、合法性等证据属性的,是大数据证据。也就是说,大数据证据在形式上主要由大数据技术本身决定,不仅指通过大数据技术形成的预测、分析结果,还包括作为分析基础的海量基础数据,以及作为分析技术的算法;同时,大数据证据要在实质上符合证据属性的要求,否则只能成为大数据材料。
(三)大数据证据的实证研究
1.大数据证据的案例分析
有学者在实证研究中,以刑事案件为范围,将检索关键词确定为“大数据”“数据平台”“数据分析”,通过案例分析指出:审判机关多将大数据证据作为电子数据,仅将极少数纳入鉴定意见或者书证。[7]为更加全面地梳理大数据证据的实务状况,本文在这项实证研究的基础上,对主流论者较为关注的有关大数据材料的案件进行了梳理,[8]得到应用大数据材料的案件共15例,尝试通过分析这些案例,从另一个侧面窥见实务中对大数据证据的理解,辅助本文的立论。
在这些案例中,“公安大数据平台资料”“百度指数”“淘宝指数”“医保大数据分析”“大数据比对”“舆情专报”等大数据材料已经在我国的司法实践中被用于证明或辅助证明。从样本来看,并不能得出“法律实务中倾向于将大数据证据认定为电子数据”的结论,与上文提到的实证研究结论之间存在一定差异。这可能有以下原因:第一,前述研究的关键词选取偏向基础数据,而非大数据产品和大数据技术,可能导致研究结果存在偏向性,如司法实践中运用的“淘宝指数”(1)参见周乐伦与新百伦贸易(中国)有限公司、广州市盛世长运商贸连锁有限公司侵害商标权纠纷案,广东省高级人民法院民事判决书(2015)粤高法民三终字第444号。“百度指数”(2)参见北京趣拿信息技术有限公司与广州市去哪信息技术有限公司不正当竞争纠纷案,广东省高级人民法院民事判决书(2013)粤高法民三终字第565号。“舆情分析”(3)参见程幼泽、刘欣等与程会林、刘军等聚众扰乱社会秩序案,山西省晋城市中级人民法院刑事判决书(2017)晋05刑终271号。也符合我们对大数据证据的期待,但无法通过以上关键词检索得到;第二,该学者的实证研究梳理了大数据材料作为证据的情形,较难反映出大数据材料作为非证据材料的技巧性运用,如用大数据分析意见说明某项证据的证明价值,而非将大数据材料单列为证据;(4)参见普春花走私、贩卖、运输、制造毒品案,新疆维吾尔自治区乌鲁木齐市中级人民法院刑事判决书(2017)新01刑初200号。本案中,控方为证明被告人的行程轨迹,用公安大数据平台分析意见,说明书证“登机牌”的证明价值,但并未将大数据平台分析意见列为书证。第三,在刑事案件范围内选取案例,其结论的普遍性或有缺失,因为大数据证据在民事案件、行政案件中也得到了运用,而且呈现出与刑事案件不同的特征。
2.大数据证据实践的特点及困境
纵观表2案例中大数据证据的表现形式可以发现,大数据证据在实践中的表现形式非常多样,尚未形成普遍的做法。以与其他证据的关系为标准,可以大致将其分为四种类型:(1)作为法定证据种类,如电子数据、鉴定意见、书证;(5)参见表1中第1—6案例。(2)作为独立的证据,但是不说明证据种类,如“舆情报告”“情况说明”“侦破经过”“车辆大数据”;(6)参见表1中第7—11案例。(3)作为其他证据的部分,如吸收到书证、证人证言之中;(7)参见表1中第12—14号案例。(4)用于佐证其他证据,加强其他证据的优势。(8)参见表1中第15号案例。
表1 涉及大数据材料的部分案件
表2 大数据证据在案件中的使用情况和表现形式
从案件类型上看,15个样本里,有11个刑事案件,3个民事案件,1个行政案件,说明大数据证据已经被运用在行政、刑事、民事等类型的案件中。同时,大数据证据在不同类型案件中也呈现出不同的特征。在证据形式上,民事案件大数据证据的形式更加规范。民事案件的大数据证据多以鉴定意见和书证的法定证据形式呈现,而刑事案件的大数据证据形式五花八门,从鉴定意见,到“情况说明”“侦破经过”,甚至是将其吸收到证人证言中。这或许是因为不同类型案件里大数据证据的制作主体不同,对它们的可靠性造成了天然的影响。比如在刑事案件中,大数据证据多基于公安大数据平台、医保大数据平台,由公安机关、社会保险管理部门等制作,由于具备公权力机关的背书天然具有较高的真实性。而民事案件中的大数据证据,基于企业等私主体数据库,由具有技术能力的企业或鉴定机构制作。这就意味着,民事大数据证据的可靠性相对较低,便更加注重形式上的规范性,需要强化法定证据的形式要件,才能更易被法庭采信,因此在结果上导致了民事案件中大数据证据的形式规范性更高。
这些案例反映出司法实践中大数据证据的一些共性。第一,大数据证据的定义没有明确标准,但大都包含三个要素,即基础数据、分析技术和分析结果。以表1第9号案例张建春走私、贩卖、运输、制造毒品案为例,其基础数据为公安大数据平台的数据库,分析技术为大数据查询,分析结果呈现为情况说明。第二,司法机关对大数据证据的侧重不同,如表2第9号案例仅将情况说明作为证据,体现了对分析结果的侧重,而表2第1号案例中大数据证据以电子数据呈现,体现了对海量基础数据和分析技术的侧重。第三,从证据能力上看,大数据材料在法律实务中不仅是辅助,而是已经通过“鉴定意见”“公证书”“情况说明”“电子数据”等形式,作为独立证据登上法庭。大数据证据得到了司法机构较广泛的认可,通过司法鉴定使大数据材料转化为鉴定意见用以证明案件事实,成为一项有效的策略,多得到法院的支持。(9)参见许有发与淘宝(中国)软件有限公司、杭州阿里科技有限公司网络服务合同纠纷案,杭州市余杭区人民法院民事判决书(2014)杭余民初字第3号;王荣美等组织、领导传销活动案,山东省济南市中级人民法院刑事裁定书(2017)鲁01刑终88号;李奕、王舟等非法吸收公众存款案,湖南省长沙市中级人民法院刑事判决书(2018)湘01刑终18号。这些案例中的大数据证据均以鉴定意见的形式呈现,为法院接受。
作为一种新型证据,大数据证据的实践也面临着困境。一方面,大数据证据缺乏法律依据,难以被归于法定证据种类,在提取、审查和认定上都缺乏明确的规范指导;另一方面,大数据证据的呈现形式多样,审查认定方法不一,存在一定混乱。除了表现为鉴定意见、电子数据等法定证据种类,大数据证据还有“侦破经过”“情况说明”等多种表现形式,实质上反映的都是相似的证据内容。实践中甚至有将大数据材料吸收到证人证言、书证中的做法,绕开了庭审对大数据证据的规范质证,造成一定程序瑕疵。如表2第14号案例中,控方用证人证言吸收了大数据证据,以“大数据查找”结果质疑被告人的辩解。(10)参见赵锐芳组织、领导传销活动案,吉林省松原市宁江区人民法院刑事判决书(2017)吉 0702刑初 460号。本案中,控方提供的证人证言里包含了“我们通过大数据查找你的下线人数为291人,你怎么解释”,以及“我们通过大数据查找,你属于功德主会员,你怎么解释”。由于大数据技术的专业性较强,直接让被告人就“大数据查找”的结论进行辩解,这是否尽到了控方的举证责任,是非常可疑的。
二、学术争鸣:众说纷纭的大数据证据基础理论
大数据证据基础理论的研究早见于有关电子证据的研究中,有学者在2016年的文章里就对大数据证据展开了讨论,并敏锐地指出了大数据证据关联性的特殊之处。[9]时至今日,大数据证据的基础理论仍然存在诸多争议,需要进一步研究回应。
(一)一般认为大数据材料具有证据资格
证据资格,即“什么样的证据可以被采纳”,是大陆法系证据体系的惯用提法,在英美证据法律制度中被概括为证据的“可采性”,又常被我国学者翻译为“证据能力”“证据的采纳标准”。证据资格的内容,包括了客观性标准、关联性标准和合法性标准。[10]
目前,对于大数据的证据资格已经形成一定共识,从学术界到实务界,多数法律工作者认同大数据证据具有证据资格。有学者从实践和理论两个维度,对大数据材料的证据属性进行了论证,一方面从实证角度,指出大数据材料“在近三年的司法刑事过程中应用逐年增多”;另一方面从理论角度,以关联性和真实性着手论证了大数据证据具有证据属性,提出了大数据证据与案件事实之间是弱关联甚至“模糊性”关联关系,其真实性则可以被划分为大数据真实(海量基础数据的原始性)、大数据载体和介质真实、大数据方法真实(运用大数据进行分析和预测的方法可靠性)和大数据内容真实(大数据证据蕴含的信息与案件事实具有关联性)四个方面。[11]还有学者指出,在理论上,修改后的《刑事诉讼法》采用证据概念材料说,放宽了对证据资格的限制;在实践中,交通事故责任认定书、未成年人犯罪社会调查报告等,都不是法定证据种类,但是可以作为定罪量刑的证据,因此大数据分析报告的证据资格应当得到肯定。[12]
(二)大数据证据的定义尚未统一
大数据证据在实务中崭露头角,是一种正在越来越被广泛应用的案件侦办方法和证明材料,在民事、行政、刑事案件中已经作为证据材料出现。然而,大数据证据的定义仍较为模糊。从基础的大数据技术定义来看,人们常用大数据的四个特点(4V)来回答“什么是大数据”的问题,包括数据量大、数据类型繁多、处理速度快和价值密度低。[13]有法学学者从语义学、逻辑学角度对大数据进行了界定,认为“大数据是一种以数据技术为引领的创造应用价值的方式、方法,其本质仍是一种方法论概念”[14]。但是从大数据技术到大数据证据,需要经过数据汇总和清洗、构建分析模型、形成分析报告等步骤,两者不能等同。
明确大数据证据的含义,是分析其形式、论证其类型的基础。作为一项新型证据,学界和实务界对大数据证据的定义尚未达成共识,易造成研究的不便与误解。一种较普遍的观点是将大数据证据限定为“基于海量电子数据形成的分析结果或报告”,[15]也就是以大数据分析报告为核心的定义方法。刘品新在这一定义中指出,海量基础数据是“源”,分析结果或报告是“果”,“果”往往起到直接证明作用;[16]又如张建伟主张将大数据分析报告“单列出来作为单独的证据种类”,而将海量基础数据纳入电子数据;[17]再如刘广三提出,可以把大数据分析报告纳入司法鉴定范畴,将其视作检验报告。[18](11)此处刘广三教授观点的法律依据为《最高人民法院关于适用<中华人民共和国刑事诉讼法>的解释》第87条,对案件中的专门性问题需要鉴定,但没有法定司法鉴定机构,或者法律、司法解释规定可以进行检验的,可以指派、聘请有专门知识的人进行检验,检验报告可以作为定罪量刑的依据。然而,这种定义方法的缺陷也是显见的,即弱化了海量基础数据和算法的重要性,尽管有利于司法效率的提升,却容易使裁判落入“算法黑箱”的困境和危险。与学术界截然不同的是,司法实践中有许多将大数据证据作为电子数据的做法,[19]同样是片面强调了大数据材料的“部分”。
另一些学者对大数据证据的外延提出更具整体性的理解方式。徐慧认为,大数据证据是“将大数据技术、方法、思维等方式、方法用来证明案件事实或者预测案件所得出的一切材料”,其外延包括了案件的全数据,处理非结构化数据的大数据技术说明材料,大数据分析技术运用合理性说明材料,有关案件真实性、关联性、合法性的分析说明,以及对案件预测结果等内容的说明材料等。[20]
争论过后,不妨将视线归于最初的大数据技术本身。王燃指出,大数据包括海量数据集、数据分析技术以及大数据分析结果这三层含义。这一观点一针见血地指出了大数据证据在形式上的鲜明特征,即由海量数据集、数据分析技术和大数据分析结果这三部分构成。本文赞成这一观点,以大数据证据外延的整体性理解为基础,将大数据证据定义为以大数据方法证明案件事实或者预测案件得出的材料,它在形式上主要包括海量基础数据、大数据分析技术和大数据分析结果三个部分,形成“三位一体”的构造逻辑。
(三)大数据证据种类的争鸣
大数据证据的证据种类众说纷纭,在学术界尚未形成统一意见。对于大数据证据的证据种类,有电子数据说、视听资料说、书证说、独立证据说等观点。
1.大数据证据定义影响对其种类的判断
讨论大数据证据的种类时,必须首先明确如何定义大数据证据。因此大数据证据定义成为了大数据证据种类的前置问题。
一些学者主张,将大数据证据视为一种独立的证据种类较为妥当。如徐慧认为,大数据证据不属于电子数据,也不符合司法鉴定范畴,是一种新的复合型证据,应当被视为独立的证据种类。[21]也有学者认为,大数据分析报告或者海量基础数据,已经足以反映大数据证据的本质特征,它们本身就是一项单独的“大数据证据”。如张建伟提出,在未来的证据法中,大数据分析报告有必要成为一种独立的证据种类,而与案件有关的基础数据可以被纳入“电子数据”这一法定证据种类。又如刘广三主张,可以将大数据分析纳入司法鉴定范畴。[22]
通过文献梳理发现,学界对大数据证据的理解偏向于以大数据技术分析报告为核心,主张将其归于鉴定意见或者书证。然而,这种侧重与刑事司法实践存在一定出入。徐慧对145个应用到了大数据材料的刑事案件进行分析,发现其中大数据证据以电子数据的形式出现的案件占比高达66%,而将大数据证据作为案件线索、侦查方法的案件占比21%,作为书证应用的案件占比11%,仅有2%的案件将大数据证据作为鉴定意见应用。[23]该组数据说明,刑事司法实践中对大数据证据的理解,更倾向于将海量数据作为核心,而不是将其理解为以分析报告为核心的书证或者鉴定意见。
2.大数据证据的电子数据说
大数据证据和电子数据之间存在着天然的联系,尤其是电子数据与大数据证据的海量基础数据部分。根据《最高人民法院关于适用<中华人民共和国民事诉讼法>的解释》,电子数据是指通过电子邮件、电子数据交换、网上聊天记录、博客、微博客、手机短信、电子签名、域名等形成或者存储在电子介质中的信息。最高人民法院、最高人民检察院和公安部《关于办理刑事案件收集提取和审查判断电子数据若干问题的规定》则指出,电子数据是案件发生过程中形成的,以数字化形式存储、处理、传输的,能够证明案件事实的数据。而《互联网信息内容管理行政执法程序规定》中指出,电子数据是指案件发生过程中形成的,以数字化形式存储、处理、传输的,能够证明案件事实的数据,包括但不限于网页、博客、微博客、即时通信工具、论坛、贴吧、网盘、电子邮件、网络后台等方式承载的电子信息或文件。不论是民事、刑事还是行政立法,在定义上都强调了电子数据的数字化形式和承载方式,而且从规范列举的表现形式看,一般人能够直接从电子数据中获取与案件有关的信息。
单从定义上,电子数据和大数据证据的基础数据似乎具有高度相似性,它们都是基于计算机应用等电子化技术手段形成的客观资料,包括文字、图形符号、数字、字母等多种形式。有学者就提出在未来的证据法里,“可以将大数据中与案件相关的数据信息”纳入电子数据范畴。[24]但是大数据证据的海量基础数据具有明显区别于电子数据的特征,主要在三个方面:一是海量基础数据的数据总量远大于传统的电子数据;二是海量基础数据具有非结构化特征,其数据格式是纷杂、无法被直接分析利用的,需要经过数据清洗;三是海量基础数据的价值密度低,无法像一般电子数据那样直接证明案件事实,而是需要通过大数据分析技术得出结论,从而与案件事实产生联系。
除了将大数据基础数据作为电子数据的学术意见,法律实践中还有将大数据证据整体直接认定为电子数据的做法,[25]反映了实务界以海量基础数据为核心的大数据证据观。但是这种视角忽视了大数据分析技术、大数据鉴定程序的重要性,存在一定缺陷。
3.大数据证据的鉴定意见说
鉴定意见是指鉴定机构的鉴定人对案件中的专门性问题所出具的专门性意见。有学者在讨论资金大数据分析时指出,将大数据证据纳入司法鉴定范畴,“有利于司法实践的展开,在法律上也可以找到依据”[26]。根据《人民检察院电子证据鉴定程序规则(试行)》,电子证据是指由电子信息技术应用而出现的各种能够证明案件真实情况的材料及其派生物,其鉴定范围包括对各类存储数据内容的认定。大数据技术是电子信息技术发展的产物,如果将大数据证据的海量基础数据看作“存储数据”,大数据分析技术和分析结果看作是对海量基础数据的鉴定,大数据证据在形式上便符合鉴定意见的要件。
反对者则指出,将大数据证据纳入司法鉴定范畴并不妥当,理由集中在三个方面:其一,该做法没有明确的法律依据,公安部《公安机关鉴定规则》、司法部《司法鉴定执业分类规定(试行)》、最高人民检察院《人民检察院鉴定规则(试行)》等均未将大数据证据纳入司法鉴定的业务范围。其二,该做法在鉴定方法上存有障碍,大数据证据的鉴定方法与现有规范不符。目前的大数据证据鉴定意见书常显示根据《电子物证数据搜索检验技术规范》《数字化设备证据数据发现提取固定方法》进行鉴定,但事实上大数据证据检验过程涉及的技术范围却远比这两种方法要广。其三,两者的鉴定主体存在差异,传统的鉴定主体是鉴定人,大数据证据却很大程度上由机器进行判断。[27]
三、总体思路:“三位一体”的大数据定义方法
研究大数据证据的种类问题,首先要明确其定义。大数据证据的定义在学术和实务中都充满争议,在顺应法律实践的基础上,还需要考虑技术需求。本文从技术出发,在梳理案例和学术研究的基础上,提出了“三位一体”的大数据证据定义方法,以期符合实践中的普遍情况,也适应大数据技术的特征。此外,以对不同部分的侧重为标准,可以将大数据证据分为三种具体类型。
(一)“三位一体”的大数据证据定义方法
实践中,法官常将海量基础数据作为电子数据,将符合形式要件的大数据分析报告作为鉴定意见或者书证;研究中,一些学者主张将大数据证据归于鉴定意见。这些做法都是在将大数据证据的“部分”作为大数据证据,或许是不太恰当的。海量基础数据、大数据分析技术和大数据分析报告分别具有相对完整的、独立的外在表现形式。海量基础数据通过分布式存储技术得以保存,以数据的形式存在,大数据分析技术常表现为算法,大数据分析报告表现为公证书、鉴定意见或者情况说明,都是相对独立、完整的。但是,三者又紧密联系,互为补充,形成“三位一体”的构造。大数据证据是指由海量基础数据、大数据分析技术、大数据分析结果三个部分组成,它们相互联系、互相依赖,共同在案件中作为一个证据呈现。
从另一个角度看,大数据证据以三个部分的不同侧重,可以分为三种具体类型:第一种是以海量基础数据为核心的大数据证据,在实践中常表现为电子数据;第二种是以大数据分析技术为核心的大数据证据,如表2第2号案例中被告出具的鉴定意见,被用来证明淘宝客反作弊系统异常检测方法的科学性、合理性;第三种是以大数据分析结果为核心的大数据证据,如实践中较为常见的警务大数据平台查询结果。
(二)大数据证据的三个组成部分
1.海量基础数据
海量基础数据是大数据分析的基础,同时具有数据量极其庞大、价值密度低、全样本的显著特点,以至于它无法单独被理解,直接呈现在法庭上,而是需要经过专业的数据清洗、分析处理才能被加以利用。但是如果将它排除在大数据证据的定义之外,就意味着一份大数据证据可以不包括分析对象,这将对大数据证据的真实性、关联性造成减损。大数据证据本就具有“弱相关性”的特征,其解读方法在很大程度上影响着分析结果,因此明确基础数据属于大数据证据,为质证中运用多种大数据分析技术验证分析结论提供了必要条件。同时,海量基础数据的真实性是大数据证据真实性的前提,虽然海量基础数据的证明能力弱,却是大数据证据中不可或缺的一部分。
需要注意的是,海量基础数据不仅数据量巨大,还具有非结构化的特点。这意味着大数据证据的基础数据没有高度组织和整齐格式化特征,可能体现为图片、音频、视频等,如社交媒体数据,通讯数据等,它们不方便管理、分析和利用,需要经过数据清洗才能被有效分析。当然,大数据证据的海量基础数据也包括结构化数据,但非结构化数据构成了网络上绝大多数可用数据,在社交媒体、短视频平台兴起的背景下更是如此,非结构化数据中蕴含的巨大价值在大数据证据研究里不可忽视。因此,笔者主张对大数据证据的格式不宜作过高要求,否则或将违背引入大数据证据的初衷。
如果将海量基础数据作为大数据证据中的一个部分,随之而来的难题就是其举示的方法。大数据以分布式存储为关键技术之一,分析超越人类理解范围的庞大数据量。作为折中的处理方法,或许可以要求举示大数据证据的一方,同时开放案件有关的数据库的访问权限,以便法院和诉讼相对方进行质证。
2.大数据分析技术
大数据分析技术是指分析海量数据从而提取有效信息的技术。从宏观上看,包括数据搜索、数据碰撞、数据挖掘、数据画像、犯罪网络分析等方法;[28]从微观上看,指具体用于分析数据的逻辑指令,即算法。算法的定义尚缺乏共识,可指一系列解决问题的逻辑指令,是处理数据的方式,同时它本身也以数据的形式呈现。如果说基础数据是思考的材料,那么数据分析技术就是思考的方法。在大数据证据的语境下,数据分析技术是具体的、具有针对性的,因此也可以理解为算法。算法作为证据,具有高度的专业壁垒,和数据不同,它的逻辑性较强,理解起来需要更高的专业知识。
将算法作为一个必要的部分纳入大数据证据,用意在于强调算法的重要性,也是基于正当程序的要求。[29]比如目前各个城市有不同的个人信用评分系统,如杭州的“钱江分”,苏州的“桂花分”,厦门的“白鹭分”等,它们的算法设计,却多不公开。以福州市为例,《福州市个人信用积分(茉莉分)管理暂行办法》第12条规定:“个人信用积分和信用等级由市公共信用信息平台根据归集的个人公共信用信息自动计算生成,每月15日更新。”[30]也就是说,在“自动化行政”中,算法成为了一个决策的“黑箱”,政府没有对形成个人信用评分的算法进行说明,违反了说明理由制度。而后续如果出现针对这种“自动化行政”的诉讼,需要对政府形成个人信用评分的行政行为进行审查,算法将作为一种证据呈现在法庭上。算法如何定性,如何审查,本身就是一个值得思考的问题。
这个问题是大数据证据的关键问题之一。一些学者提出海量基础数据属于“电子数据”这一类型,一些学者提出分析报告属于鉴定意见,却没有出现“计算模型属于法定证据类型”的主张。一方面,算法作为海量基础数据的分析技术,通过分析基础数据体现自身作用,似乎确实没有成为核心的必要;但是另一方面,算法在大数据技术中具有重要的作用,以不同的方法对数据进行处理,甚至会得出具有差异性的结论。在司法实践中,已经出现了以鉴定意见来证明大数据分析技术科学合理性的做法,且得到法院支持(12)参见许有发与淘宝(中国)软件有限公司、杭州阿里科技有限公司网络服务合同纠纷案,杭州市余杭区人民法院民事判决书(2014)杭余民初字第3号。本案中,被告举示上海东方计算机司法鉴定所出具的司法鉴定意见书1份,鉴定结论指出:“系统所使用的异常检测方法是建立在大规模数据分布式计算基础之上的,有成熟的概率学理论作为支撑,通过该方法检测异常淘宝客并判定其推广行为为不正当推广行为,是科学合理的。”法院在事实认定部分引用了以上鉴定结论,并在判决中对被告诉求予以支持。。
3.大数据分析结果
大数据分析结果,常呈现为分析、说明报告,或是鉴定结论。它不仅指最后的大数据分析报告,还包括了过程中的技术说明,如对于非结构化数据处理采用大数据技术的说明材料,对于大数据分析技术合理性的说明材料,以及大数据证据和案件之间关联性、合理性、真实性的说明材料,对案件预测结果的说明材料等。实务中,大数据证据常被定义为电子数据,这样的做法虽然使大数据证据的运用有法可依,但是忽略了算法的重要性,而且难以适应大数据证据弱关联性的特征。将分析和说明报告作为大数据证据的形式要件,一方面对举证方提出了说明算法合理性的要求,另一方面有利于诉讼参与人理解大数据证据,对于避开“算法黑箱”,降低大数据证据运用的专业壁垒,具有积极意义。
以“三位一体”的大数据证据定义方法审视表1中的案件,除了第14号案例以外,其余案例中的大数据证据均可以找到对应的基础数据、分析技术和分析结果,说明该定义方法能够较好地回应实践需求。反过来说,14号案例中的大数据证据在形式上只包含了分析结果,材料的证明能力存在较大风险。
四、立法回应:能否将大数据证据作为独立证据种类
大数据证据的独立种类在理论上是成立的,因为大数据证据区别于目前的法定证据种类,同时具有区别于传统证据的明显特征。但是科技发展如流水奔腾浩浩荡荡,大数据证据只是新技术证据的一个部分,将来或许还会出现人工智能证据等新技术证据。由于技术发展的急速性,是否需要从法律上将大数据证据单列出来作为独立证据种类,是一个值得商榷的问题。或许可以考虑从更高层面进行规范建构,将新技术证据作为法定证据种类。
(一)大数据证据无法被归于法定证据种类
综观学术观点和实践做法,将大数据证据归于鉴定意见或者电子数据是较为主流的两种观点。将大数据证据归于鉴定意见,只能部分反映大数据证据的形式特征,其法律依据较为牵强。如果根据《人民检察院电子证据鉴定程序规则(试行)》,将大数据证据视作电子证据的鉴定意见,就等于是将海量基础数据视作电子数据。(13)参见《人民检察院电子证据鉴定程序规则(试行)》第2条、第4条。但大数据技术中的海量基础数据具有数据量巨大、价值密度低的特点,与电子数据一般能直接证明案件事实的情况存在较大差异。而且,电子数据鉴定限于对基础数据本身的鉴定,但大数据证据的意思表达高度依赖算法,不同的算法直接影响着大数据证据表达的意思。
将大数据证据纳入司法鉴定,也未必能回应实践需求。实践中的大数据证据形式多样,一些大数据平台本身就具有较高的公信力,一味要求对大数据证据进行鉴定,或将浪费司法资源。如公安大数据平台,社保大数据平台等平台形成的大数据材料,以及“淘宝指数”“百度指数”等大数据企业产品,由于有政府公信力或者较好的企业商誉进行背书,即便不进行司法鉴定,也具有很强的证明力。因此,将大数据证据归于鉴定意见,将对其审查程序提出更高的要求,提高了诉讼参与人的成本,也提高了司法机构的成本。
大数据证据与电子数据同样有明显的区别。其一,从技术角度看,电子数据和大数据证据的分析对象和方法不同。电子数据注重简单、结构数据的分析,而大数据证据更注重对非结构数据的分析,更关注算法的运用。其二,从证据属性看,电子数据与大数据证据在关联性上存在显著差异。电子数据与案件事实之间的联系较为直接,侧重数据与案件之间的因果关系;而大数据证据由于大数据技术注重相关关系的特点,侧重数据与案件之间的“弱关联性”[31]。其三,电子数据和大数据证据的物理形态有显著区别。电子数据完全存在于虚拟空间,大数据证据则具有虚实结合的特征。大数据证据被利用,需要通过分析报告的形式,分析报告是存在于现实空间的。另外,电子数据是一种静态的证据类型,大数据则是动态变化的。其四,电子数据一般反映已经发生的案件,而大数据证据还被用于预测即将可能发生的案件。[32]
(二)大数据证据具有区别于传统证据的特征
大数据证据在内容和载体上都区别于传统证据,是其构成独立证据类型的根本逻辑。徐慧等学者在严密论证大数据证据预防性、相关性、真实性价值的基础上,基于行为规律理论、证明标准的差异化理论、概率和博弈理论论证了大数据证据的科学合理性,指出大数据证据以“整体性”和“重方法”为特征,作为独立证据种类具有可行性。[33]在此基础上,可以进一步将大数据证据的特征明确为“三位一体”“算法黑箱”“专业壁垒”“弱关联性”的内容结构特征,和“虚实结合”的空间模式特征。
在内容上,大数据证据区别于其他证据种类的特征有四:一是“三位一体”,即海量数据、分析技术和分析报告是相互区别和联系的统一整体。一方面,海量数据、分析技术和分析报告相互独立,有不同的载体和表现形式;另一方面,它们又相互依赖,海量数据是真实性的保障,分析技术是提取证据的基础,分析报告是对数据语言的解读和翻译,三者联系成为统一的整体。二是“算法黑箱”,即算法具有相对独立性和高度重要性,同样的一份基础数据可能因为不同的分析技术得出不同的结果。三是“专业壁垒”,即大数据证据的解读高度依赖分析报告,一般人无法通过观察海量数据和算法理解大数据证据。四是“弱关联性”,即大数据证据与案件事实的关联性较弱,常表现为相关关系而非因果关系。
在载体上,大数据证据具有虚实结合的特征。第一,基于大数据的分布式存储技术,海量基础数据的载体一般是云存储装置,由于其高度分散,在物理上难以呈现于法庭,从而具有最高的虚拟性。第二,大数据证据的分析技术部分与电子数据相似,能够以静态数据的形式呈现,其存储也具有物理空间上的虚拟性,但是不具有分布式存储的特征,因此分析技术部分的虚拟特征较海量数据部分弱。第三,分析报告部分通过文字形式表达意思,它的实在性较前两者强,虚拟空间性最弱。从海量基础数据,到分析技术,再到分析报告,它们载体的虚拟性依次递减,实在性依次递增。因此从整体上看,大数据证据的载体呈现出虚实结合的特点。
(三)大数据证据独立种类问题的实践回应建议
司法实务中大数据证据的丰富形式、不一的认定方法,说明实践对大数据证据有关立法的需求正在显现。在对大数据证据作出定义、认定种类之后,还有一系列相关的问题,如大数据证据的取证、举证、质证和认证等,需要作出回应。这是否意味着未来的证据法学需要将大数据证据作为一项独立证据种类?或许不然。一方面,从实证研究结果来看,虽然大数据证据有扩张使用的趋势,但目前司法实践对大数据证据的使用范围并不大,且大数据证据囿于本身“相关而非因果”的弱关联性特征,作为定案证据具有较大风险,因此其证据价值要打一些折扣。另一方面,大数据证据是大数据技术发展产生的一种新型证据,在新技术快速发展应用的背景下,每种新技术形成的证据都可以有其区别于传统证据和既有证据种类的特殊之处,越来越多新型证据的出现是必然的,如区块链证据、人工智能证据等。如果为每种新型证据立法,或将使实践失于疲乏。因此,可以考虑以“三位一体”的形式要件、重分析技术和重整体性的内容要件等为标准,构建新信息技术证据种类,以更长远、开放的视角应对新技术发展背景下的证据法问题。
为了应对目前实践中应用大数据证据时出现的混乱,可以通过司法解释等规范形式,在明确“三位一体”整体定义的基础之上,将大数据证据的海量基础数据和分析技术部分参照电子数据,将大数据分析结果部分参照鉴定意见或书证,进行规范的提取、审查和认定,以充分发挥大数据证据的作用。
五、结语
大数据证据作为信息化浪潮的产物之一,已经悄然在司法舞台上登场,显示出了在案件侦破、犯罪预测等方面的重要作用。大数据证据的“三位一体”定义是解决其独立种类问题的前置研究,也是大数据证据的基础问题之一。同时,“三位一体”定义也可能带来一些弊端,比如给大数据证据审查增加复杂性,加剧庭审中两造力量的不对等。使用大数据证据进行庭审攻防,本就对法律和计算机领域的专业性都有较高要求,如果再按照本文的“三位一体”定义标准,在法庭上使用大数据证据,或将需要分别对海量基础数据、分析技术和分析报告进行举证质证。这除了对法律专业知识的要求,还需要诉讼参与人具备一定的计算机知识,对于大多数人来说,进一步提高了参与诉讼的难度。为了兼顾司法的公平和效率,或许可以简化一些较为可靠的基础数据、算法模型的审查和认定,如政府的大数据平台、具有较好商誉的互联网大数据平台。