大数据侦查情报的分析运用风险及其规制*
2023-02-27李小猛
李小猛
(中国政法大学刑事司法学院 北京 100089)
伴随着信息化的发展,犯罪的信息化、智能化趋势日渐明显,侦查过程中的数据信息也呈逐年增长趋势。为应对海量数据信息对犯罪侦查带来的挑战,在侦查中利用大数据和人工智能等手段分析相关数据信息近年来尤为盛行,大数据侦查情报也逐渐出现在人们的视野中。大数据技术在犯罪监控、犯罪的侦破和犯罪的预测等实践中越来越发挥着重要的作用[1]。技术本不具备价值判断的属性,但是在具体运用过程中却可能因为运用场景的不同和设计者的偏好产生不同的价值后果。大数据侦查情报深刻地改变了传统侦查情报分析的内在逻辑,其融合了人之判断与算法判断,同时也在无形中影响着人的认知因素。面对这一新兴事物,有必要从概念、运用场景及运行逻辑等角度切入,评估大数据侦查情报分析与运用中的风险和问题。
1 大数据侦查情报的基本范畴
1.1 大数据侦查情报的概念
探究大数据侦查的概念需要先厘清大数据侦查和侦查情报的概念。首先,存在侦查学和刑事诉讼法两个学科层面的大数据侦查定义。两者在定义大数据侦查时,基本都采取“技术要件”+“部门理论要件”的方式。“技术要件”方面,二者基本都认为应用于侦查中的大数据技术主要包括数据收集、数据共享、数据清洗、数据比对、数据挖掘等[2]。在“部门理论要件”方面二者存在一定差异。在侦查学研究层面,侦查不仅包括调查犯罪的相关手段和强制措施,还包括发现犯罪所要采取的相关手段和措施。因此,侦查学意义上的大数据侦查可以表述为侦查机关利用大数据技术进行的发现犯罪和调查犯罪的活动。这一定义并不区分刑事立案前和刑事立案后的手段,但是在刑事诉讼法学研究领域,侦查在时间上有所限制,其开始于刑事立案之后。本文研究的大数据侦查情报是侦查学范畴下的产物,因此应采取侦查学的观点。
其次,大数据侦查情报也是公安情报学范畴的概念,因此还需要从公安情报学的角度切入。所谓的公安情报是指公安机关通过各种途径获取的、广泛服务于公安工作的各类情报信息及其分析研判后的成果[3]。公安情报不仅涉及犯罪情报,还包括违法活动情报和一系列与社会管理相关的情报,侦查情报可以视为公安情报的细类。综合上述概念,可以将大数据侦查情报定义为侦查机关运用数据收集、数据共享、数据清洗、数据比对、数据挖掘等大数据技术所获取的与发现犯罪和调查犯罪相关的信息及其研判后的成果。
1.2 大数据侦查情报的来源形式
大数据侦查情报的来源形式是指大数据侦查所使用的源数据形式。大数据情报的来源形式从主体性质上划分可以分为私权利主体来源数据和公权力主体来源数据两大类。从数据的性质上看,两大主体的数据都包含开源数据与非开源数据两大类。
首先,私权利主体来源数据是指个人、公司、社会组织等私权利主体所有或管理的网络数据作为大数据侦查的源数据。例如个人社交网络平台账户的相关数据及个人在网络上发布的相关信息所产生的数据,商业软件或社团组织网络中所发布和管理的数据以及相关网络系统的运行数据等。私权利主体来源数据是大数据侦查的主要数据源,在侦查实践中,侦查机关一般通过直接对接数据库的方式获取私权利主体来源的开源数据。
其次,公权力主体来源数据主要是指公权力机关自我构建的相关数据库或自建网络信息系统所获得、产生的数据。在我国,公安机关自1999年便启动了“全国公安信息化工程”即金盾工程。经过两期建设,当前金盾工程囊括了全国公安快速查询综合信息系统(CCIC)、城市公安综合信息系统、公安业务系统等多个数据库。上述数据既包括了开源数据也包括非开源数据。实践中,公权力主体来源的数据往往具有衍生性,其还需要依靠私权利主体来源数据的供给[4]。
1.3 大数据侦查情报的功能类型
以大数据侦查情报在刑事侦查和刑事诉讼中的作用及功能作为分类标准,可以将其分为对象锁定型、侦破辅助型、诉讼证据型三类。
其一,对象锁定型大数据侦查情报是指在已经发生的刑事案件中,通过对案件的相关数据进行清洗、比对、挖掘和研判后,产生的锁定犯罪嫌疑人身份的侦查情报。在犯罪现场数据信息充沛但是缺乏直接指向犯罪嫌疑人身份信息的侦查场域中,运用大数据侦查往往是锁定犯罪嫌疑人身份的最佳方式。例如,盗窃案件案发现场周围一般都留有大量的监控视频数据和网络通信数据,而这些数据的体量巨大,利用传统的人工比对和分析是难以实现的。大数据技术却可以利用上述数据快速地锁定犯罪嫌疑人。对象锁定型的大数据侦查情报除了能够锁定犯罪嫌疑人助力案件侦破外,还能通过情报分析进一步获得物证、书证、犯罪嫌疑人供述等传统证据,运用到具体的刑事控告中[5]。除此之外,实践中个别对象锁定型大数据侦查情报还会以“到案经过”“情况说明”等形式直接出现在刑事案卷中的证据卷。
其二,侦破辅助型大数据侦查情报是侦查机关利用大数据技术获得的,揭示案件线索、证据、犯罪嫌疑人行踪的侦查情报。例如,通过大数据技术对已知的犯罪嫌疑人的开房记录、通信记录、购物记录、监控记录等信息进行比对挖掘和研判后,进而定位已知的犯罪嫌疑人或者获得与犯罪相关的证据资料。实践中,侦查机关经常使用大数据合成作战平台研判在逃人员的活动轨迹和可疑地址,进而发现犯罪的相关证据、线索或者抓获犯罪嫌疑人。从作用上而言,侦破辅助型大数据侦查情报往往并不指向宏观的犯罪构成要件,而是在微观上帮助侦查人员寻找能够证明犯罪构成要件的相关线索材料。在刑事诉讼中,侦破辅助型大数据侦查情报往往也不会被记录到刑事案卷中,更不会转换成刑事证据出现在刑事诉讼中。
其三,诉讼证据型大数据侦查情报是指侦查机关应用大数据技术产生的能直接作为刑事证据使用的侦查情报。例如,组织、领导传销活动罪需要证明犯罪嫌疑人实施的行为满足“照一定顺序组成层级,直接或者间接以发展人员的数量作为计酬或者返利依据”这一要件。同时参与传销活动人员在30人以上且层级在三级以上是组织、领导传销活动罪主体的认定标准之一。由于传销团伙往往人员数量巨大,各层级存在相互交叉及统计混乱等问题,用传统的人工形式对传销组织层级、人员数量和资金往来的认定存在困难。但是,公安机关和金融机构的大数据分析软件可以做到对金融账户的实时分析预警,精确分析涉嫌传销公司“返利”用户的具体层级,并将相关情报提供给侦查人员,这些情报不仅助力于案件侦破,同时也是证明犯罪事实的证据。
2 大数据侦查情报分析与运用风险
2.1 数据失真导致的情报错误风险
大数据侦查情报由于其所依赖技术的特点很可能会在真实性和可靠性上存疑。对象锁定型、侦破辅助型、诉讼证据型大数据侦查情报都是对数据分析和研判后的产物。公权力主体和私权利主体来源数据自身存在的错误,以及存在问题的算法加工后产生的错误数据都可能导致后续情报分析结果的错误。
首先,大数据侦查情报的源数据如果存在虚假,可能导致大数据侦查情报的错误。其一,大数据侦查以海量数据作为基础,数据库的建设中选取的数据往往会受到个人偏好、信息来源等多重因素影响,因此难以保障每一个数据的真实性。例如互联网金融犯罪中,涉案账户动辄几万乃至几十万,交易频次更是可能高到需要以亿或兆计算,基于上述数据进行大数据分析时,一一调取单个数据并向当事人核实数据所反映信息的真实性是不可能完成的。因此源数据中存在错误或者偏差便难以避免[6]。基于错误的源数据产生的大数据侦查情报其真实性和可靠性就不得不引起怀疑了。其二,大数据侦查所利用的源数据可能经过了多次的提取和转移。由于电子数据存在脆弱性和易变性的特征,数据存储链条、运输链条和存储环境以及存储主体等各个环节的任何一次失误都有可能造成源数据的改变,基于改变后的源数据进行的大数据分析所得出的情报难免出现错误。
其次,大数据侦查中的算法出现问题可能造成大数据侦查所产生的数据信息失真,基于错误数据信息研判后的情报也会产生错误。a.当下的数据挖掘技术、改进后的经典聚类算法、抽样技术约简原始数据集规模等方式是大数据算法较常采用的形式,上述形式都是在抽样逻辑下进行的,当抽样的范围偏离了正态分布时,抽样数据就很难体现数据的整体风貌和特征,大数据侦查情报所反映出的内容就会与事实存在出入[7]。b.当下大数据的算法基本都是非开源算法,因此从可解释性角度难以验证算法是否存在问题,当算法在设计上或者运行中产生了偏见,则基于错误算法或偏见算法产生的大数据侦查情报也会成为反映偏见或失真信息的情报。
2.2 算法依赖导致的研判省略风险
侦查情报往往需要研判后才能为决策所用,对象锁定型、侦破辅助型、诉讼证据型大数据侦查情报都需要经过细致和科学的研判才能为侦查决策和刑事诉讼程序所用。大数据侦查情报的出现可能在多重因素的作用下导致侦查主体依赖算法产生的情报,但是省略情报研判过程,进而对情报的准确性和可信度产生威胁(见图1)。
图1 算法依赖导致的研判省略图示
首先,在思维惰性的引导下,大数据算法对侦查的便捷性可能导致侦查人员省略研判过程并加深直觉偏差。侦查情报分析过程中认知因素对侦查决策的准确性起到重要影响[8]。直觉思维便是重要的认知因素,直觉思维通过一系列对信息的间接认识并结合固有经验和心理认知产生对情报信息所反映事物面貌的预设。在传统情报分析中,这种预设往往需要通过查找其他信息和证据进行证实。这一证实过程注定是艰辛而复杂的,需要通过一系列侦查手段予以实现。大数据侦查情报的产生很可能缩短乃至直接消除这一预设的证实过程。由于大数据侦查具有便捷性和直接性的特点,侦查人员在惰性思维引导下会倾向于利用大数据侦查情报与自己的直觉进行印证并放弃其他的努力。即只要大数据侦查情报所反映出的信息与情报分析人员的预设一致,则分析人员会直接倾向于认定先前预设和大数据侦查情报的真实性。
其次,在认知闭合需要较高的侦查主体身上,大数据侦查情报的使用极易造成研判的省略。认知闭合需要是指人在面对模糊不清的情景时对解决问题寻找答案的渴望。面对案件本身社会影响力较大、上级对工作施压较多、侦破时间较紧张等外部因素时,侦查人员可能会产生较高的认知闭合需求,进而有强烈的意愿追求有罪证据和有罪信息,同时赋予个别与自我认知相契合的信息以过高的权重[9]。认知闭合需求较高的侦查主体面对大数据侦查情报时,一旦侦查情报所反映的信息指向有罪,则为了尽快破案以完成业绩考核结果,缓解工作压力,多数侦查人员都会产生追求定罪目标忽视其他可能性的“隧道视野”[10],进而选择相信大数据侦查情报的结果而忽略进一步研判其准确性和可靠性。原本作为工具的大数据侦查技术从辅助侦查异化为主导侦查,则侦查人员作为人的主体性逐渐退位给算法[11]。
2.3 认可度低导致的证据转换风险
诉讼证据型大数据侦查情报在互联网犯罪和金融犯罪案件中,对于证明犯罪主体、涉案金额、犯罪方法上往往发挥着十分重要甚至不可替代的作用[12]。对象锁定型和诉讼证据型大数据侦查情报在刑事司法中往往都会以“到案经过”“情况说明”“大数据分析报告”等形式归入刑事案卷的证据卷中[13],但是上述大数据侦查情报运用于刑事诉讼中存在着向刑事证据转换失败的风险。
首先,大数据侦查情报往往不隶属于法定证据形式。《刑事诉讼法》第50条规定可以用于证明案件事实的材料都是证据,同时《刑事诉讼法》又规定了物证,书证,证人证言,被害人陈述,犯罪嫌疑人、被告人供述和辩解,鉴定意见,勘验、检查、辨认、侦查实验等笔录,视听资料、电子数据八大类法定证据形式。对象锁定型和诉讼证据型大数据侦查情报一般被命名以“到案经过”“情况说明”或“大数据分析报告”。实践中追诉机关会将个别“大数据分析报告”转换为鉴定意见这一法定证据形式,从而为其获得法定证据资格。其他种类的大数据侦查情报往往不能归类于法定证据形式,在当前的司法实践中一般不能够直接作为证据使用,往往只能作为加强法官心证的辅助材料使用。
其次,大数据侦查情报作为证据具有衍生性和间接性等特征,这也增强了其向刑事证据转换失败的风险。a.衍生性特征与最佳证据规则存在一定冲突。传统刑事诉讼中提倡的最佳证据原则要求用于刑事诉讼的证据以原始证据为最优选择。大数据侦查情报作为证据使用时,往往是源数据的衍生性信息,也即原始证据经过加工和处理后得到的信息。这种衍生性决定了其属于“传来证据”,在证据能力和证明力上十分容易受到质疑。b.大数据侦查情报在证明案情时往往并不能对案件事实起到直接证明作用,而是通过间接证据这一形式发挥定案功能,辩护方往往会对证据关联性和间接证据形成的证据链是否能够证明案情提出质疑。
3 大数据侦查情报分析运用的规制路径
3.1 规范信息来源与防止算法独裁
针对大数据侦查数据失真导致的情报错误风险,需要从源数据的真实性和大数据侦查算法的完善两个层面进行规制。
第一,对大数据侦查情报数据源的真实性问题进行验证需要构建宏观真实性和微观真实性相结合的真实性验证规则[14]。其一,数据源的宏观真实性即通过数据获取、保存、运输等环节的规范性操作保障数据在宏观层面来看是真实的。具体而言,需要通过数据来源是否准确无误、数据获取过程是否合规、数据获取过程记录是否完善、数据获取结果的固定及保存的程序是否合法合理、数据获取主体是否具备法定资格等方面进行验证[15]。其二,数据源的微观真实性即核验单个数据是否真实。具体而言,可以采用抽样方式对个别源数据真实性进行检测。需要说明的是,抽样检测数据真实性以保障数据源整体的真实性并不要求抽样结果必须100%真实,毕竟大数据整体结果的准确性与数据供给量和数据源个体准确性都具有相关关系,当数据量足够大时,数据源中一定量不准确的信息不会对结果造成实质性干扰[16]。因此,抽样检测数据源微观真实性需要在考量数据体量的基础上,确定动态浮动的准确率标准。
第二,构建大数据侦查算法解释规则,防止算法错误。为防止大数据侦查依赖的算法产生失真信息,就需要对算法进行剖析。然而,算法的可解释性长期以来都是一个难题,因此可以将黑箱测试作为算法可解释性的替代方案。大数据侦查的算法与人工智能技术密不可分,部分算法也是由人工智能自动学习得到的,因此从算法可解释性上直接入手往往不能得到答案。但是通过黑箱测试一定程度上能够证明算法是“正常运作”的,以此间接证明大数据侦查情报的真实性和可靠性也是可行的。具体而言,可以从程序法上要求所有提交法庭的大数据侦查情报均需通过专业的司法鉴定机构对大数据侦查的算法完成黑箱测试。
3.2 提高主体认知与构建研判程序
解决侦查主体依赖大数据侦查情报进而造成研判过程的省略风险,需要从提高侦查主体的“主体性”认知和构建研判程序等方面入手进行规制。
a.不论是侦查制度的设计者还是侦查情报机关的决策者需要从根本上认识到侦查主体对大数据侦查情报的依赖本身就是一种风险,对大数据侦查情报的依赖本质上是人的理性精神在情报分析活动中的减退。侦查人员是侦查活动的责任主体,也是大数据侦查情报的研判、分析和运用的主体。大数据侦查情报不论是作为侦查线索还是刑事证据使用均应由人决策、由人主导。因此,侦查人员应当从认知层面树立起对侦查情报研判的主体意识。同时侦查人员也要主动地认识到直觉思维的存在,在大数据侦查情报与自身直觉思维相契合的场域应当有足够的警惕,运用理性对直觉进行验证。
b.降低侦查主体对大数据侦查情报的依赖,防止情报研判省略的风险还要构建大数据侦查情报的研判程序。其一,建立情报研判主体与承办案件主体相分离制度。在侦查实践中,不论是对象锁定型、侦破辅助型还是诉讼证据型大数据侦查情报,都需要由独立于承办案件的其他侦查人员进行研判。通过将情报真实性研判主体和情报使用主体进行分离,防止高认知闭合需求侦查主体可能造成的研判省略风险。其二,建立直觉思维反思提示制度。在侦查情报的研判工作流程上,若出现大数据侦查情报反映的信息与情报研判人员预设相契合的情形,研判人员应注意是否存在其他可能性,是否有其他信息与预判以及大数据侦查情报存在抵牾,如果存在则需要在工作日志中进行记录备案。
3.3 赋予证据资格与完善分析方法
大数据侦查情报对案件侦破起着越来越重要的作用,对于运用于刑事司法中的大数据侦查情报应当明确其法定证据形式归属及其向诉讼证据转换的方法,并建立符合大数据侦查情报特征的相关证据分析方法。
首先,针对大数据侦查情报在法定证据形式中的归类问题,笔者认为应当构建一般和特殊相结合的归类规则。详言之,一般情况下,大数据侦查情报应当归类为电子数据。在特殊情况下,如果符合其他法定证据形式的概念,则归类为其他法定证据形式,且特殊归类规则要优于一般归类规则。例如,在诉讼证据型大数据侦查情报中,一些大数据分析报告具有对特殊科学性问题进行鉴定分析的特性,因此这些大数据分析报告应当归类为鉴定意见,这类情报的分析研判也要遵循司法鉴定的相关法律规制要求。对于其他不具备鉴定意见特征的大数据分析报告,则可归类为电子数据,遵循电子数据的相关法律规制要求。
其次,大数据侦查情报衍生性、间接性的特征决定了其作为刑事证据使用时在来源上往往缺乏独立性,因此采取传统的印证模式往往不能够对案件事实起到证明作用。印证模式作为我国刑事司法中主要甚至是唯一的证据分析方法在分析大数据证据时具有局限性[17]。而验证证明模式则能够很好地化解这一问题。所谓的验证证明模式是在缺乏足够直接证据的条件下,通过大量相关的间接证据,推导出或从法律上确定一个“答案”的过程[18]。大数据侦查情报的衍生性和间接性与验证证明模式恰好是较为契合的,今后应当构建大数据侦查情报运用验证证明模式的具体证据分析规则。