数智时代预测性侦查的算法规制研究
2022-11-22张晓华
张晓华
(中南财经政法大学,湖北 武汉 430070)
大数据侦查模式在形成之初就树立从被动向主动、从经验向标准化转型的远景目标。近年来随着人工智能技术的爆发式增长,数据、算法和算力都有了深度积累与广泛运用。这也为大数据侦查实践的多维度拓展提供了契机。在刑事司法中,大数据侦查不仅可以形成大数据证据、大数据监控、大数据并案等针对已然犯罪的侦查策略,亦可以在预判未来犯罪上发挥积极作用。由此,在数智时代,大数据侦查衍生出了由算法支撑的预测性侦查分支。
一、算法主导:预测性侦查的兴起
(一)算法对预测性侦查的助力
在算法大规模运用之前,警察的数据分析能力有限,大多集中在对犯罪已经发生后的因果关系型数据分析上,“侦查程序的启动以犯罪行为已经实施乃至后果已经发生为前提,即犯罪行为是侦查行为的动因,犯罪行为和侦查行为之间存在着时序上的先后关系,侦查机关不主动发现犯罪线索或者采取诱惑侦查措施,是一种针对犯罪已经发生情况的侦查启动方式”[1]。虽然侦查权从本源上从属于国家的刑事追诉活动,并以保障诉讼的顺利进行作为核心目标,但这并不意味着侦查权的启动只能滞后于犯罪行为。随着风险社会的到来,被动式侦查机制在面临诸如网络犯罪、有组织犯罪、恐怖主义犯罪时无法达到预期的犯罪治理效果,恐怖主义所奉行的无差别袭击而造成的巨大政治社会影响是快速反应机制所不能消弭的,电信诈骗所带来的高额经济损失亦是被动反应机制所无法填补的被害黑洞。而有组织犯罪天然所具备的非对称侦查格局,亦会使被动反应机制付出巨大的司法成本,并对社会稳定产生系统性破坏。这都意味着被动反应机制在应对风险社会时的乏力。从国家治理体系现代化的角度来看,侦查权的功用不仅在于事后追诉,更应当肩负风险预测与监控的职责。“侦查权可优先察觉到新的犯罪风险源,并以个案为依据,抽取风险源的特征、分布情况等表象特征,进而传递给治安职能部门,以寻求进一步治理。”[2]
另一方面,以大数据、人工智能为基础的智慧时代又为侦查权的这一转型提供了技术积累与平台基础。在技术维度上,算法更新了侦查情报分析的思维与界面。除了传统的“目标驱动型数据挖掘”和“比对驱动型数据挖掘”[3],算法在相关性层面可以拓展到“犯罪风险增加的地点和时间”“未来有犯罪风险的个人”,创建“准确匹配可能的罪犯与特定过去犯罪的人的档案”,或识别有成为犯罪受害者风险的群体或个人[4]。算法的规格化在平台维度上,除了公安自建金盾大数据平台外,社会运行所形成的大数据正在商业平台、政府平台和社会组织上进行集中储存,其分析主体除了公安机关,其他具有“数字看门人”角色和承担公共责任的数字平台经营者亦能在一定范围内依靠算法来建立合规性内控机制,并与公安机关构建犯罪防控联动机制[5]。正是在这样的条件下,以预测和感知未来犯罪为目标的预测性侦查日渐勃兴。“犯罪预测的手段和方式更加智能化,各种可视化技术和机器学习算法被运用到犯罪预测中,从而为犯罪预防带来了非常重要的新机遇。”[6]
(二)预测性算法的运用场景
1.对犯罪人的预测
立案侦查是侦查机关常用的侦查手段,其策略通常是在获取一定线索的情况下,暂不立案,而是将特定人员纳入侦查经营的对象,通过监控其行为活动,得出对“案件黑箱”内部情况的推理[7]。由于立线侦查可以具有一定的秘密性质,可以避免打草惊蛇,亦可以灵活掌握侦查战机,因而在毒品犯罪调查中较为常用。传统的立线侦查以人力贴靠为主,效率低且存在一定风险。如今则可以通过数据手段来监控、分析经营对象的行踪、生活数据,例如通过语料库的积累可以对网络聊天中出现的毒品犯罪隐语进行预警,从而将聊天双方纳入侦查经营的对象。此外,毒品犯罪中毒品异地交易可能还存在交通工具选择上的特殊性,①例如银川市公安局利用嫌疑人去云南乘坐飞机,而返回时开车的交通大数据,预测嫌疑人可能去交易毒品,并通过3年的线索经营,完整地获取了嫌疑人的毒品犯罪网络。详见央视网.银川公安利用经营近3年“死线索”破贩毒大案[EB/OL].(2019-06-12).http://news.cctv.com/2019/06/12/ARTIzlEibvzOVDLYYJmoh3qi190612.shtm,2021-12-28.亦可以通过交通大数据的分析,预测其潜在的毒品交易行为。
2.对异常行为的预测
在无被害人的案件中,由于缺乏控告人的直接揭发,犯罪行为较为隐蔽,并由此形成犯罪黑数的治理难题。然而在大数据留痕的原理下,犯罪行为的形成过程就是一个数据痕迹生成过程,犯罪行为的预备、实施以及犯罪后的反侦查行为都会通过数据群的异动而为侦查人员所捕捉。这种对异动数据的算法分析可以突破传统的公安行业情报分析范畴,通过更大范围的社会大数据比对来预测异常行为。例如厦门公安机关通过医保大数据的开药量、就诊医院以及就诊人数的关联性分析,成功预测一起特大吸食、售卖曲马多毒品案件。②案件详情参见吴迪.吃药吃上瘾,虚开麻醉药[N].厦门日报,2020-01-11(A9).而个人大数据的异常现象还可以广泛运用于传销、虚开增值税发票等犯罪行为的预测中。③简单地分析如通过短途频繁上下车的行为,可以预测有盗窃行为发生。同一个人带不同人员进入同一个小区,且只进不出,可以预测有传销行为发生。
3.对犯罪地点的预测
在系列案件的侦查中,对下一次作案地点的预测亦有数据上的支撑,在系列杀人案件中,通过并案侦查后,可以综合已获得案件信息的结构化数据,在算法的支持下可以展示出犯罪嫌疑人可能的居住范围,并提示后续可能出现的作案地点[8]。而犯罪地理画像结合大数据已经揭示出城市步行街“两抢一盗”案发次数与犯罪嫌疑人居住概率之间的关系存在空间异质性,这可以进一步缩小嫌疑人的查找范围[9]。
4.对被害风险的预测
在刑事案件的结构中,不仅通过犯罪人可以推进侦查线索的发掘,被害人及其被害风险亦可以成为案件预测的关键节点。在诸如电信诈骗案件当中,由于犯罪人长居国外,组织严密且分散化,对犯罪人的预测难度较高。但由于电信诈骗存在固定的犯罪规律与模式,通过对侵害行为的特征归纳,可以反推被害风险的强弱。而当前在反电诈机制中,公安机关已经通过多种大数据平台,联合电信部门、网络平台对通讯位置、通讯形式以及通讯时长进行筛选分析,预测是否存在诈骗行为,并提前加以干预。
二、算法风险:预测性侦查的法治挑战
随着算法在社会经济生活中的嵌入,算法带来的风险亦在不同层面得到展现,无论是算法价格歧视还是算法隐私侵犯都引起了公众的广泛关注。在刑事司法领域,预测性侦查同样也有犯错的可能,这既包括算法在设计时可能产生的错误风险,也包括侦查机关不当使用算法造成的公正风险以及执法责任上的伦理风险。
(一)算法设计缺陷的风险
算法作为一种运算工具,在设计时既要结合使用者的需求,又要坚持自身的计算理性,在面对更为复杂的犯罪治理与侦查场景时,两者的结合可能力有不逮,进而在产品开发阶段就存在天然缺陷。第一,所要预测的犯罪问题可能无法被算法准确定义。算法的一个重要优势是将现实中大量而复杂的问题以结构化的数据类型和特定的运算逻辑加以定义和处理。然而犯罪问题未必能被转化成为结构化的数据。这是由于犯罪问题不仅在法律上会形成看似相近但归责评价差异较大的情况,也会在行为规律上产生多因一果的情形。如盗窃和抢劫都是一种侵财类犯罪,可能都会有逗留、踩点、尾随等行为特征。这会导致算法在定义问题时,将两者混为一谈。再比如寻衅滋事和故意伤害可能会互相竞合,但其犯罪规律和空间分布有着较大差异,如果算法设计者不能明确两者在行为模式上的差异,仅仅根据起诉罪名来判定问题,很显然就不能正确反映治安局势。而美国预测性警务中就出现了证券委员会使用的金融犯罪预测模型竟然和警察所使用的街面犯罪预测模型完全一致的情形[10]。第二,数据归类的偏差。算法是以训练数据和测试数据为基础的,每一种机器学习方法都有一套独特的数据参照系。在预测性侦查中,诸如高危人群(例如吸毒的人更容易实施财产犯罪)等人群标签就是一个简单的数据归类。然而算法训练所需要的数据集更为多样化,数据归类也不局限于高危人群,在涉及更复杂的相关性时,如果侦查机关不能深刻地理解犯罪因素之间的偶然性和必然性,只是从数据标签的直观性、便利性和可理解性出发,则这种特征的归纳就蕴含了潜在的歧视风险,例如常见的种族、社区、性别、年龄都是一种标签化的反映,这种分类并非经过严格的犯罪学知识检验,而仅仅是因为它是便于警察理解和运用的。一旦这样的数据归类被用于算法训练,则极容易产生歧视性算法。第三,算法训练时的不充分。算法成熟与否取决于算法训练是否充分、全面。预测性侦查中的算法同样需要进行机器学习才能形成特定的预测逻辑。这意味着算法训练需要全面、客观地吸收历史执法数据。而当前算法产品多由市场企业加以开发,通过政府采购的方式加以引进。我国公安机关在智慧警务的建设过程中亦通过社会化的方式与相关企业共同开发算法工具。①例如2021年广西南宁市公安局、深圳市腾讯计算机系统有限公司、华为技术有限公司、中国移动通信集团广西有限公司、中国电信股份有限公司广西分公司的代表参加了战略合作框架协议签约仪式。这种社会化的算法设计方式在训练过程中对数据的吸收可能遭遇壁垒。一方面,出于数据安全上的考虑,公安机关可能不会提供全面性的执法数据;另一方面,出于警务工作的秘密,公安机关无法按照算法训练的需求提供各类型的代表性执法数据。这意味着算法训练无法保证其充分性和可靠性。这可能会导致算法产品本身就具有运算缺陷。
(二)算法使用时的风险
1.算法篡权
算法在预测性侦查中的角色绝非只是传统的科技辅助设备。传统的情报分析虽然有计算机系统的辅助决策,但其分析过程仍然依靠侦查人员的个人经验和隐性知识,对分析结果的可解释性也较强。但算法对犯罪是否发生的预测以及是否需要进一步查证都需要人机互动才能加以完整判断,且算法的运算过程极为隐蔽和技术化,可视化和可解释化程度都较低。这意味着侦查程序的重要节点已经不完全由警察自己来决策和控制,算法正在不断嵌入到警察的决策结构中。“一旦启用算法决策,其决策能力全然依赖于系统开发者的设计构建与系统自身的机器学习。”[11]这使得算法不再是警察工作中的客体,而成了警察的“战术伙伴”。而警察在程序节点上的决策权被部分让渡给了算法。这种决策结构的变化可能会对正当程序产生挑战。虽然我国刑事诉讼法限制了侦查机关在立案以后才能采取强制措施,但预测性侦查仍然会形塑出“犯罪嫌疑人”。而为了避免侦查权的滥用,各国都会对犯罪嫌疑规定警察心证上的门槛。如在美国法上,截停和盘查需要有合理怀疑,搜查则需要有相当的理由。我国《刑事诉讼法》虽没有证明门槛的具体表述,但犯罪嫌疑仍然需要基于个案的事实、时空和罪名要件而加以判断[12]。这种基于个案的个别化决策方式,可以保证该侦查决策“具体问题具体分析”,即根据案件中的具体线索按照因果关系逻辑来判断每个公民的行为举止的合理性,而不是建立在诸如刻板印象、有罪偏见之上。然而由于预测性算法是建立在机器学习的基础之上,这意味着人类无法和算法同步学习、共享知识,也就不能准确及时地在决策过程中发现偏见之所在。由于天生的透明度不够,专业壁垒强,算法其与个案之间的决策逻辑可能无法为普通侦查人员所理解,警察在未进行个别化调查的情况下,算法即已给出了犯罪“嫌疑”的程度大小,使得正当程序中的个别化决策方式被算法的批量化决策所遮蔽,嫌疑人的认定条件将变得极为宽泛。
2.算法权能认识的偏差
按照法律保留原则的精神,侦查强制措施必须要由立法予以明确授权,尤其是涉及基本权利干预构成要件的事项还需要接受绝对法律保留原则的检验。正是法律保留原则维持了基本权利的双重属性,从而起到规制侦查强制措施的规范功用。同传统的物理强制力不同,在进入大数据时代后,以隐私权和个人信息权为核心的新型基本权利正在不断拓展侦查强制措施的评判标准,预测性算法在数据分析的过程中,既会针对不同的数据类型,也会使用到不同的计算方式。就前者而言,预测性算法不仅会对一般的执法数据和档案进行分析,也会对涉个人住宿记录、交通数据甚至是通讯情况进行数据比对和挖掘,这直接涉及到对个人信息的干预。就后者而言,随着算法、算力的精进,即使公开的数据也可以被统合分析,从而计算出个人隐私的种种面相。算法的这一特性对我国侦查程序产生了挑战:一方面,我国刑事诉讼法坚持以立案来作为侦查强制措施适用的前置程序,立案前的初查不能适用强制措施;另一方面,算法所具备的权利干预性已经显现,如果侦查机关仍然将算法视为一种内部的情报工作,不从权能上加以辨识,则预测性侦查会逐渐将立案程序架空,不仅会使不破不立的现象回潮,还会涉嫌触犯初查不得使用强制措施的规定,并带来初查权力秩序的混乱。
现代大数据警务的发展趋势就是数据、平台的高度集中化:在横向上,所有警种的数据资源都向情报中心汇集,借由公安大数据平台统一加以分析研判;在纵向上则形成了较为清晰的收集—储存—研判—执行的四级架构。基层警务单位主要负责数据的收集;中层警务单位则主要对数据进行汇总、储存、清晰、溯源等数据保真性工作;而高阶警务单位则以对数据的分析研判为主,并将分析研判得出的犯罪线索交由基层警务单位去查证。在这样的架构下,大数据警务进一步强化了警察组织的多层化特征,并由此形成了在数据流转环节的分工体系。随着预测性算法的发力,侦查活动的时间点逐渐前移,通过强大的运算能力,将原本依赖警察个体经验而启动的侦查感知能力,变成了基于人、行为、时空而进行的普遍性社会监控活动,就算法的运算潜力而言,只要数据量足够多、数据类型足够丰富,预测性算法可以衍生到所有的犯罪类型,其效能、效度与效益亦是传统警察个人经验所不能比拟的。这意味着在算法警务中,算法的高阶研判人员与算法科技成为机制核心,一线侦查人员逐渐变成了“数据的搬运工”和“算法结论的执行者”。这可能会导致警察忽视侦查活动的其他社会价值,而将社会公众视为潜在的数据供给者,社会公众成为了侦查活动的手段。更为重要的是,由于预测性算法具有时空上的无限延展性,如果警察不加以节制地进行预测,则预测性侦查将会迈向预测性管治,从而超出侦查权的功能边界,社会有陷入福柯所描述的“全景敞视监控”的风险。
(三)执法责任的分散化困境
传统侦查程序中警察凭借其职业经验进行决策,决策的结果也由其个人承担,决策的自主性较高,执法责任的审查主要考虑个人决策的合理性、合法性以及是否有上级命令。但在预测性侦查中,由于警察决策模式发生变化,参与主体多样化以及算法流程的复杂化,执法责任被稀释,造成了审查上的困难。
1.预测性算法对侦查决策的制约作用
一旦引入预测性算法,警察在侦查中的决策流程就会发生结构性变化。首先,预测性算法由于表面上有计算理性的加持,其稳定性要强于纯粹的警察的职业经验。一线警察面临着不确定的决策环境,在信息不充分的情况下,警察采取的行动通常都是有限理性下的决策,充满了执法安全和法律上的风险,而规避风险是警察决策时重要的心理机制,尤其考虑到我国压力型体制下严苛的错案责任追究机制,在出现警察个体经验判断与算法指引不一致的情况下,警察将会依据算法采取行动,以防止事后以违背算法指令来进行追责。除此之外,警察为了提高工作效率,也会放弃传统的人力型调查模式而依赖算法提供的批量情报,采取更有侵略性的侦查手段来提升对犯罪的探查。而对执法绩效指标比较敏感的警政机关不仅会鼓励警察依据算法决策,也会将对算法结果的执行程度视为警察工作的积极性评价要素。
2.预测性侦查流程的复杂化
正如上文所述,预测性侦查要想大规模实施,就需要算法和数据在侦查运转机制的各个环节都得到深度运用,敏锐的信息感知与分析体系、网格化的高效信息作战体系、全范围的信息服务体系、信息转化与加工体系等要素是必不可少的配套机制[13]。如果说预测性算法的自动化得益于信息技术的精进,那么预测性算法的批量化和可持续化则有赖于侦查机制中各要素的充分参与。在数据留存端,社会信息化后的各种数据生产者、持有者都成为了侦查的间接参加者。在数据输入端,来源于不同警务单元的执法人员都在成为警务大数据平台的直接供给者,为算法运行提供基础性数据。在数据处理端,高度集成的情报中心正成为警务的大脑,通过输出算法结论来指引具体的执法工作。而一些警员则成为算法指引的执行者,并将执行结果反馈给情报中心,从而维持算法的运行周期。在这种互相依赖互相影响的警务流程中,算法只是这种周期循环的公共产品,这也加剧了算法溯源的困难性。一旦预测性执法出现错误或者引发负面舆论,在追究执法责任时很难界定是哪一阶段的问题,也就很难具体追究主体责任。“这可能会导致问责制上的陷阱,即警察无法理解模型,因此无法推断出模型中的偏差。换句话说,当完全依赖预测算法时,就不清楚谁负责决策。”[14]
3.算法工具供给的市场化
对于待分类的数据记录,计算其和已知数据记录的相似性度量,获取和待分类记录中相似度最高的K个记录,并且按照相似度从大到小的顺序降序排列。
除了流程复杂外,算法工具的特殊性质也造就了预测性警务主体的多元化。由于当前算法技术多由市场企业加以开发,这意味着预测性侦查中私主体参与的深度与广度都不可同日而语。在这样的格局下,算法的生成与使用不完全由公安机关掌握,虽然公法上公安机关可以监督私主体的参与,但毕竟技术问题涉及专家意见、财政经费以及更上一层的政府行政指导等,在算法黑箱不能被完全揭开的情形下,一旦因为算法错误而出现追责情形,私主体和公安机关之间如何分配责任,现行立法亦不能给与明确回应。“更深层次的一般性问题是:算法设计者责任、算法应用开发者责任、算法用户责任、算法应用平台责任及监管部门的责任应当如何合理分配,至今未有清晰的总体原则。”[15]
三、传统法律框架的应对局限
算法需要规制,算法可以被规制已经成为学界的共识,然而算法规制并非专属于某个部门法,无论是《个人信息保护法》还是《数据安全法》都具有强烈的领域法特征,其在规制路径上仍然面临着与具体部门法的对接问题。预测性侦查中的算法规制同样面临部门法化与场景化的问题,然而当前的侦查规范体系既存在着规制空白,也存在规制上的矛盾。
(一)忽视数据分析型职权
算法的本质是一种数据分析,无论是德国警察法上的前沿措施还是美国法上围绕隐私合理期待的判例,均将目光聚焦到逐渐膨胀的数据分析型职权。美国2018年通过卡朋特案继承了过往的马赛克理论,确立了数据分析对隐私合理期待的决定性影响。德国则在《刑事诉讼法典》98条B和C条款直接规定了信息排查措施,并在2008年的线上秘密搜索案中,反对警察基于预防性目的在无犯罪嫌疑人的情况下就大规模收集和分析个人计算机中的信息[16]。然而我国《刑事诉讼法》中的侦查职权体系却滞后于算法时代。一直以来,《刑事诉讼法》中仅有“证据调取”和“技术侦查”的规定,“证据调取”显然不包括大数据的分析,而技术侦查的内涵和范畴又过于概括,在实践中有被随意解释的现象。虽然2016年“两高一部”①分别为2016年“两高一部”《办理刑事案件收集提取和审查判断电子数据若干问题的规定》和2019年《公安机关办理刑事案件电子数据取证规则》。和2019年公安部陆续出台了电子数据取证的规范性文件。但其中的重点仍在于数据是如何被收集的,而不涉及数据如何被分析的。在观念上,数据分析一直被看成是警察机关的内部事务,是侦查工作的策略、方法而不是法定的侦查措施。所以,立法上的忽略造成了《刑事诉讼法》对算法这种新型技术的规制空白。
(二)侦查强制措施启动要件的宽松
预测性算法与警察决策的关系不仅在美国引起了争议,在我国同样也需要进行谨慎对待。相比较于美国法上的合理怀疑或者相当理由等层级化门槛设置,我国《刑事诉讼法》对强制措施启动门槛规定得较为粗疏。只要有办案需要,就可以启动拘传。刑事拘留虽然有现行犯的表述,但在重大嫌疑要件上仍然没有证据和心证门槛上的体现。②刑事拘留措施中的“犯罪后企图自杀、逃跑或者在逃的;有毁灭、伪造证据或者串供可能的;不讲真实姓名、住址,身份不明的;有流窜作案、多次作案、结伙作案重大嫌疑的”在性质上类似于社会危险性要件,而不是嫌疑事实的要件。这样的立法粗疏既不能体现出个别化决策的正当程序要求,亦不能在算法和人工决策之间划分边界。此外,预测性侦查还会借助盘查等方式进行查证犯罪,我国《人民警察法》和《公安机关办理行政案件程序规定》虽然对盘查措施的启动有犯罪嫌疑上的要求,但什么是犯罪嫌疑,如何确立具体的心证标准,仍未有规范和判例上的权威指引。“假如对有违法犯罪嫌疑缺少解释,则意味着它是一个没有确定标准与规范约束的概念,意味着我们还没有建立起足以规范自由裁量权行使的具体逻辑结构。”[17]这种立法基础增加了我国处理算法与警察决策之间关系的难度。一旦大规模引入预测性算法,在决策过程不透明、决策过程无法实质审查的情况下,究竟算法有没有篡权、算法有没有滥用,可能更难澄清。
(三)侦查规范与数据规范的断联
对数据安全与个人信息保护的重视已经从私法层面扩展至公法层面。2021年出台的《个人信息保护法》亦对公权力机关收集、分析数据提出了一般性要求。例如第17条规定了处理个人信息时应当告知个人,但第18条又规定了免于告知的情形。类似于这种“原则性规定—例外规定”的立法结构在《个人信息保护法》中有多处展现,体现了个人信息处理活动合法性的多重结构。除此之外,比例原则在《个人信息保护法》中亦有提及,如第34条规定了“国家机关为履行法定职责处理个人信息,不得超出履行法定职责所必需的范围和限度。”在程序上,第24条则规定了通过自动化决策方式作出对个人权益有重大影响的决定,个人有权要求个人信息处理者予以说明,并有权拒绝个人信息处理者仅通过自动化决策的方式作出决定。但是《个人信息保护法》毕竟具有强烈的领域法色彩,能否落实个人信息保护的一般性规则还要取决于部门法的对接情况。然而当前侦查规范体系并没有体现个人信息保护取向的条款,首先,《刑事诉讼法》并没有规定个人信息大数据处理时的告知或者同意规则。无论是证据调取条款还是搜查条款,只是细化了能够担保证据真实性的执行程序,对于个人信息本身如何处理,是否需要告知,则语焉不详。其次,预测性算法在效用上可以拓展到个人隐私的所有领域,在预测手段上也可以穷尽一切数据。而技术侦查却没有对数据分析措施进行分级分类,如果用技术侦查条款来吸收数据算法,则本质上仍是一种概括性条款,无法体现出比例原则。最后,个人对其个人信息权利的救济也缺乏刑事诉讼法的渠道。由于我国刑事诉讼合宪性审查机制尚不成熟,尤其是对具体侦查行为缺乏有效的司法审查渠道和审查标准,除了涉及证据真实性而不得作为定案根据外,非法证据排除规则的重点也仅限于言词证据,对于预测性算法是否侵犯了个人信息权的外在价值判断,法院缺乏制度空间与积极性。这也导致了《个人信息保护法》的权利保护机制无法融入刑事诉讼法中。
(四)刑事司法领域算法监管机制的缺失
预测性侦查既是一种算法侦查,也是一种算法警务。从国家治理的角度来说,更是一种算法行政或者算法司法。因此,算法规制必须要融入国家对于算法规制的整体规划中。相比于私法领域日趋成熟的算法监督机制,刑事司法领域内的算法监督机制几近阙如。一方面,虽然网信办是个人信息保护名义上的专责主体,但囿于其机构性质与功能定位,其专责范围被限制在了协调统筹的层面,实践中主要负责政策执行的协调和数据安全技术、制度的开发与推行,而监管职能、执法职能缺乏配套机制建设。“未来的个人信息保护机构究竟是整合相关职能、独立设立的个人信息保护机构,还是由现有的机构作为个人信息保护机构其实并未明确。”[18]这导致了对于刑事司法领域的算法运用缺少实质上的监管主体与监管机制,“自用自管”的现象比较突出。另一方面,刑事司法领域的算法由于涉及具体的警务数据安全、个人信息隐私以及执法安全等因素,不能简单地类推适用私法领域的算法监管机制,比如算法透明、算法解释等路径,这也加大了刑事司法领域算法监管的难度。
四、预测性侦查的双重规制
如上文所述,预测性侦查中的算法既有一般性的技术风险,亦有算法融入侦查职权中的制度性风险。为此,需要在侦查规范与算法监管的双重维度下对预测性算法进行综合性规制。
(一)侦查规范下的算法规制
鉴于预测性算法已经能够对公民基本权利产生不同程度的影响,因此,侦查规范下的算法规制主要指向权力与权利之间的平衡,是对数据分析型权力的回应。
1.预测措施的类型化
算法融入侦查职权首先是影响了强制侦查措施与任意侦查措施的分类。与传统的有形力标准不同,算法预测性措施与新兴权利的兴起密切相关。一方面,以个人信息保护为内核的权力约束不断膨胀,既拓展了基本权利干预的类型,也调整了侦查强制措施的外延。另一方面,算法延展了数据型职权的内涵,不仅数据收集可能会存在基本权利干预的风险,数据分析同样能达到权利干预的效果。这意味着强制措施的判断标准也逐渐动态化,需要结合算法的强度和个案加以具体评判。在2018年卡朋特案中,美国联邦最高法院既没有完全抛弃“第三方披露原则”,又拒绝机械适用披露即无隐私合理期待的机械解释,转而认为个别的手机基站位置数据不具有隐私合理期待,但大规模的长周期的分析,可能会详尽还原个人行动轨迹[19]。个人对其行动轨迹是有隐私合理期待的,这就将隐私的判断标准从过去的数据收集阶段转移到数据分析环节。我国侦查规范也应当将概括的“证据调取”措施拓展到数据分析措施,并将实际上具有监控效果与还原效果的深度预测行为纳入强制措施行列。其次,还需要进一步区分预测措施中的技术侦查措施与其他数据分析措施。当前侦查规范中只有技术侦查措施和网络远程勘验措施涉及数据分析型职权,但技术侦查措施显然过于严厉,其启动门槛也较高。而网络远程勘验措施又局限于犯罪现场,不能提前到犯罪预测阶段。因此,还需要在技术侦查之外配置一些相对权能较弱的数据分析措施,通过预测措施的阶梯化来适应预测性侦查的常态化。
2.算法结论的有限适用
预测性侦查中算法的强势介入与警察个别化决策之间形成了正当程序上的冲突,如果放任算法决策的扩张,则会导致算法篡权,并加剧算法依赖路径的形成。因此,尽管预测性算法具有效能上的助力,但对算法结论的应用仍应当有决策上的限制,尤其是算法结论需要借助强制措施加以查证时,需要有明显的决策边界。一方面,当算法结论指向的是犯罪地点预测时,算法可以直接启动强制措施。这主要是由犯罪地点的抽象危害特征所决定。德国警察法曾将犯罪发生的盖然性区分为具体的危害与抽象的危害。“具体危害即符合合理预测之个案,亦即个案逾越风险而威胁与社会不相应之法益,若状态或行为为数众多,其具有统计上的重要意义而逾越与社会相应之风险者,则属抽象危害。”[20]抽象危害并不要求精确的空间定位,形成特定区域与特定危害之间的稳定关联即可。而路检和场所检查正是因为基于抽象危害而启动。如德国《标准警察法草案》规定了在“危害之地或声名不佳之地”警察可以实施集体盘查[21]。我国台湾地区《警察职权行使法》第6条管制站的设立以及第10条公共场所监控录影就是基于抽象危害的预防措施。另一方面,当算法结论指向的是特定个人的犯罪嫌疑时,则需要人工干预并达到法律上的心证门槛。虽然就算法程式而言,对人和地点的预测并没有本质的差别,而对人的预测则是将危害行为关联到特定人群,本身就存在一种对人的评价与筛选。而在警察法上,对人的怀疑则必须要具体和个别化。例如我国台湾地区《警察职权行使法》第6条明确规定查证身份需要有“有事实足认为防止其本人或他人生命、身体之具体危害。”美国的合理怀疑也是要求“警官必须根据明确的事实,合理地怀疑个人嫌疑人可能参与犯罪,并可能携带武器和危险”[22],而对潜在犯罪人预测的个别化机制就是要加入对被怀疑对象的具体危害或者嫌疑事实上的论证,而仅仅是抽象的基于算法的特征相关性并不能形成具体的危害疑虑。在实践中,算法对犯罪人的预测可以帮助警察进一步缩小可疑人员的范围,警察则需要通过人工决策进一步聚焦于那些具有“形迹可疑”的个人,在出现具体的危害疑虑时可以采取强制措施。
3.与《个人信息保护法》的对接
预测性侦查是一种典型的公权力处理个人信息的领域。按照个人信息保护法的要求,算法在进行个人信息处理时亦需要遵守比例原则以及履行个人信息保护的一般性程序。就比例原则而言,侦查措施的程序构造本来就要考虑“罪有轻重,人有差别,事有缓急”[23],并实现权能强弱与程序控制宽严的比例化。而个人信息处理的必要性完全可以融入传统的比例化构造中,只需要在原有的理论模型中,将预测性算法也纳入到权能强弱的评估中。除此之外,为了应对《个人信息保护法》中的新兴权利,侦查规范仍然需要就侦查机关处理个人信息增加额外的程序要件,不过就个人信息保护的一般性程序而言,由于传统的侦查程序并没有树立诸如知情权、解释权,而《个人信息保护法》亦设立了许多例外,这就需要结合算法的内容和运用场景进行个案分析。从立法模式上来说,应当在《刑事诉讼法》之外就《个人信息保护法》中的个人信息保护例外规则进行统合性和承接性细化。
(二)算法专门监督机制
由于算法和预测性侦查的高度黏合,仅仅靠侦查规范还不足以触及预测性侦查的所有权力面相,为了遏制算法本身的技术风险,以及由此而带来的问责问题,需要另外搭建算法的专门监督机制。
1.建立刑事司法领域的专门算法监督机构
按照《个人信息保护法》所倡导的公私一体化保护原则,算法监督也不能只存在于私法领域,公权力机关不仅是算法的监督主体,在其处理个人信息时也应当成为算法监督的对象。而刑事司法领域的算法监督因为涉及公权力机关之间的关系以及警务秘密而又倍显特殊。当前的网信办统筹协调,各主体自行监管的格局既不适应我国刑事司法中的专门机关依法行使职权原则,①由于侦查权只能由侦查机关依法行使,检察机关才能监督侦查活动,因而网信办在宪法体制上是不能干预刑事侦查活动的,而预测性算法已与侦查活动深度融合,所以网信办以算法监督名义干预侦查活动,仍有违宪之嫌。也不符合算法监督的透明、公正原则。因此,需要在刑事司法领域建立算法监督的专责机构。从机构要素来看,至少需要包括:算法使用与执行的角色——公安机关;专责侦查监督机关——检察机关;算法技术的标准制定与风险监测主体——工信部。其组织形态可以采取合署办公的形式,成立专门的算法监督委员会。从机构职责来看,主要集中在两个方面:一是对预测性算法进行事前审查和事后评估;二是受理公民关于预测性算法异议的投诉或者申诉,并依职权调查和核实侦查机关使用预测性算法的合法性与合理性。
2.算法引入的事前审查
警务中的算法是一个极其专业的行政领域,普通公众难以理解其计算方式,这天然地降低了预测性侦查的透明度。但这并不等于免去了警政机关对算法的解释义务。正是因为算法工具的专业性以及潜在的风险,而警察的执法策略与模式又内在地包含了“警政组织对社会分化的价值判断,以及对社会各阶层的利益诉求的协调过程”[24]。 因此,在引入算法的时候,就需要进行事前的风险审查,其主要内容包括:第一,评估预测性算法的总体目标以及适用场景。预测性算法针对的目标不同,适用的场景不同,其运算方式、偏差率亦有所不同,其包含的风险自然有所差异。因而在引入预测性算法时,应当评估算法的适用目标是否符合本地治安局势,是否存在功能过剩的情形。同时,还要进一步评估算法的适用场景,例如区分以人为目标的算法和以地点为目标的算法,区分预测性侦查场景和犯罪预防场景,其意义在于防止出现算法滥用以及算法不合规的情形。第二,算法技术的分级分类。由于算法强度与预测性侦查的权能强弱紧密相连,为了便于算法使用者更直观地进行合法性审查,有必要在算法技术参数中标识出算法的效能等级,包括算法收集的数据类型、数据量、分析深度、分析广度、分析对象等,从而展现算法权能的梯级化结构。
为了达到算法事前评估的目的,有必要配套建立算法清单备案制度,即算法开发者按照技术参数和技术目标结合上述审查内容来申报算法清单。专门算法监督主体可以在备案程序通过建立算法试用期、算法同行外审以及算法认证等方式逐步建立算法的技术准入门槛。
3.算法的事后评估
即使有算法工具的事前审查,仍然不足以保证预测性警务能够兼顾形式正义和实质正义。由于预测性警务是个持续性的数据输入—算法计算—算法输出—执法适用的循环系统,对预测性警务的实时监督显然不切实际,那么对算法使用的事后评估则必不可少。同传统的行政行为审查不同,对于算法使用的评估并不是以形式合法性为标准,而是包含了准确性、公正性以及反歧视意图的价值保护系统。因此,对算法使用的事后评估需要引入新的机制和方法。一方面,要丰富和增加警察执法的数据留痕。大数据时代不仅拓宽了公民个人信息留痕的渠道,也便利了警察执法的数据留痕。警察每一次利用预测性算法进行执法的数据都应当保留,其数据类型至少包括预测性算法的指令类型、指令内容、警察是否适用、适用对象、查证结果、后续的处置措施等,丰富的执法数据可以为后续的评估打下基础。例如美国从1964年开始,纽约警察局要求警察在标准表格上记录截停盘查的数据。进入2000年以来,美国44个最大的警察部门约有23个要求警察收集每次拦截搜身的具体数据。2008年,纽约州法官命令纽约警方公开其关于盘查的电子数据库,以回应纽约公民自由联盟提起的诉讼,但全国范围内的盘查执法数据库尚未建立[25]205-207。而我国集中统一的警务大数据的平台完全可以记录警察执法的操作流程,这也包括了预测性警务的实施。另一方面,有了执法数据的记录,还需要专门方法来评估预测性算法。预测性算法是否产生了歧视性效应仅从个案观察很难得出结论,所以对预测性警务的长期观察,并找到适合的评估方法就显得尤为重要。美国一些学者在Floyd V. New York案的基础上发展出了“SHR”方法,即所谓截停命中率分析模型,即通过算法结论、截停理由、截停后的逮捕率三者之间的转化关系来分析预测性算法的准确性[25]188-189。这些探索都值得我们借鉴,尤其是在预测性侦查的问责上,这种事后评估,不需要区分是算法运行的哪一阶段出了问题,而是通过执法终端的偏差来及时发现和纠正算法缺陷,从而将算法运行机制和预测性侦查机制看成是一个执法整体,预测性侦查的整体责任。