刑事诉讼中的人工智能①
——以犯罪预测为例
2024-01-09米夏埃尔黑格曼斯
[德]米夏埃尔·黑格曼斯
人工智能在刑事诉讼中的运用受到讨论,这包括特定的调查事项,如为了确保对核心领域的保护②Gleizer,in:Beck/Kusche/Valerius(Hrsg.),Digitalisierung,Automatisierung,KI und Recht,2020,S.535.而对德国《刑事诉讼法》第100B、100C 条规定的措施进行监督,以及帮助法官在量刑③Kohn,Künstliche Intelligenz in der Strafzumessung,2021.上做出决定,还有刑罚执行和监禁执行的问题——尤其是为了评判是否采取必要的执行措施和假释而进行犯罪预测。由于当前高度复杂的数字系统在发展上的迅速进步,必要的技术前提(尤其是计算机能力和适当的软件)迟早是可以获得的,所以这一发展不会停留在理论设想中。因此,在未经准备地遭遇制定司法和刑事政策的诱惑以及触发假想的客观约束(Sachzwang)或自动机制以前,是时候去思考刑事诉讼中关于人工智能运用的机遇、风险和必要的规范性框架条件了。
一、我们如何理解“人工智能”
人工智能的概念很不统一地得到运用,在此应当在一种严格的意义上予以理解。这一般不是指附带数据库系统和记录管理、已进入司法①So hat die elektronische Akte in der Ziviljustiz bereits das Versuchsstadium verlassen und ist weitgehend etabliert(§§130a ff.ZPO).中或在可预见的将来受到规划的数字化。②Vgl.Mitterer,in:Anders/ Graalmann-Scheerer/Schady(Hrsg.),Innovative Entwicklungen in den deutschen Staatsanwaltschaften,2021,S.353.结构通常相对简单的电子系统对程序发展的助益建立在确定的计算机程序这一基础上,并由此基本上始终能得到法官的理解和监督。人工智能的特殊性在于机器通过算法的运用进行学习这一可能性,该可能性从数据中推断出独立的规律性,持续调整和优化以经验为基础的系统。人工智能系统在研发及其后的数据处理阶段运用了数学算法而非单纯的“如果—那么”规则,用数学算法识别复杂的模型,与人类观察者的眼睛相反,后者注意到的主要是个别情况。较强的算法是将来的神经网络,其工作原理类似于学习过程以及对人类大脑中的反馈进行处理。判断一种预先的评估是正确或错误的,根据这些信息(如根据对外部数据库的独立进入),该人工智能系统单独或共同地改变了系统(“突触”或“神经”)内部无数的规则连接,由此导致对未来的问题进行变动的评估。当然,为了识别复杂的模型和理想地获得适当的结果,这种独立进行学习的人工智能系统需要大量的训练数据。
基于神经网络的多层性和复杂性,人类运用者对被开发的人工智能系统始终理解甚少:某个参数在何处被改变,为何经过一段延长的训练期以后只能产生这样一种结果——存在系统还无法识别的新数据?该决定过程以此方式似乎迅速成为一个“黑箱”,在复杂的人工智能系统中,最初的编程者也不再能完整地解释它。为了解决人工智能的不透明性问题,近年来对“可解释的人工智能”(Explainable AI)所进行的研究率先提出了一些大有希望的算法③Vgl.u.a.Goodfellow/Bengio/Courville,Deep Learning,2018.(参见下文),但尚未进入在此得到关注的适用范围。基于该特殊性,在刑事诉讼中,人工智能的运用关系到一种特殊的挑战——由人工智能产生的评估,该评估以其他的程序为基础或者做出决定时要进行该评估。
二、在犯罪预测中的运用
由于人工智能系统对刑事诉讼中的各项事务存在多种评估方法,对此无法对合法性和可行性进行全面的评估。因此,在进行犯罪预测时,可将以下观点示范性地用于可想到的运用方案中:一方面,这涉及一种在结构上还比较简单的决定(有无风险)。另一方面,外国已有实践经验,尽管尚未运用上文意义上的人工智能,这是因为,虽然这些被运用至今的系统还将得到运用,但在运用过程中它们的参数没有独立、持续、额外地得到优化。④Siehe dazu näher unter III.这种关于预测的决定属于以下范围——法官在审判中做出判处缓刑(德国《刑法典》第56、67B 条)的决定,或者在刑罚执行中做出决定(德国《刑法典》第67C 条、第67D 条第2、3 款)。但对执行保安处分而言,人工智能的运用可能是不太实际的,这是因为,为了适应电子决定过程,精神病学的评估通常具有决定性意义,这具备很强的个案关联性并在经验上难以理解。至少在更轻微和中等的犯罪这一领域,关于缓刑和假释的预测在数量上明显更多,但更依赖在统计上具备可测量性的电子处理标准(如前科刑、执行经历、犯罪种类和年龄)。只要法官在提供建议上并非罕见性地不专业(德国《刑事诉讼法》第246a 条第2款、第454 条第2 款),他以自己多少较为充沛的职业经验和对犯罪原因及过程的主观认识为背景,根据个案中对事实情况的提出和衡量,做出了较为理想但终归是直觉性的决定。
这种做出决定的结构(以统计和数学上的关联为基础提出和评估数据,完全通过数据处理被模拟)最终能给出风险评估——是否会导致德国《刑事诉讼法》第56 条第1 款意义上的“期待”存在或是否符合该法第57 条第1 款第2 项的“责任”,随后法官在做出决定前的评判中可能参考该评估。但根据当前的规范纲领(Normprogramm),基于做出缓刑决定的必要评判要素,这种扩展性的运用亦即适当的缓刑决定无法通过人工智能做出。此外,很明显,德国《基本法》第92 条意义上的司法权被行使,该司法权被委托给法官而非技术人员设计的一个计算机程序。①Eingehend Nink(Fn.2),S.261 ff.,287 f.对此,存在以下共识:最终的决定必须始终由法官做出,②Nink(Fn.2),S.354 f.在此要区分两种讨论面向:一方面涉及以下事实问题:人类对一种潜在的、永不出错的工作系统进行控制的强度和效率。③Eisele/Böhm,in:Beck/Kusche/Valerius(Fn.1),S.519(532).另一方面涉及以下规范视角:法官保留(Richtervorbehalt)或一般的人类决定者的保留。在一般的数据保护法即欧盟《通用数据保护条例》第22 条第1 款④Art.22 Abs.1 DSGVO lautet:“Die betroffene Person hat das Recht,nicht einer ausschließlich auf einer automatisierten Verarbeitung[…]beruhenden Entscheidung unterworfen zu werden,die ihr gegenüber rechtliche Wirkung entfaltet oder sie in ähnlicher Weise erheblich beeinträchtigt.”(当然也有例外)中,完全自动地做出决定在一般法(einfachgesetzlich)的意义上已被禁止。⑤Steinbach(Fn.5),S.120.此外,处于核心地位的危险防控和刑事追诉部门与欧洲议会和理事会第2016/680 号指令有关,该指令第11 条第1 款有相应规定,明确要求具备(人类)责任人介入的可能性。⑥Art.11 Abs.1 RL(EU)2016/80 lautet:“Die Mitgliedstaa-ten sehen vor,dass eine ausschließlich auf einer automatischen Verarbeitung beruhende Entscheidung-einschließlich Profiling-,die eine nachteilige Rechtsfolge für die betroffene Person hat oder sie erheblich beeinträchtigt,verboten ist,es sei denn,sie ist nach dem Unionsrecht oder dem Recht der Mitgliedstaaten,dem der Verantwortliche unterliegt und das geeignete Garantien für die Rechte und Freiheiten der betroffenen Person bietet,zumindest aber das Recht auf persön-liches Eingreifen seitens des Verantwortlichen,erlaubt.”德国《联邦数据保护法》第54 条第1款的规定⑦Die Vorschrift lautet:“Eine ausschließlich auf einer automatischen Verarbeitung beruhende Entscheidung,die mit einer nachteiligen Rechtsfolge für die betroffene Person verbunden ist oder sie erheblich beeinträchtigt,ist nur zulässig,wenn sie in einer Rechtsvorschrift vorgesehen ist.”修正性地得以实现:通过法律规范,禁止完全自动地做出决定最终变成附许可保留的禁止,但令人惊讶的是,对责任人介入权的最低保障在此并未复归。然而,该条款也通过进行符合该指令的解释得到解读。⑧Helfrich,in:Sydow(Hrsg.),Nomos Kommentar,Bundesdatenschutzgesetz,2019,§54 Rn.5.上述介入可能性的最低标准意味着一种(法官)对决定过程的监督,同时基于其他必要的、有待评估的决定性因素,这种监督最终仅成为一种将做出决定的人工智能支撑:法官审查人工智能所进行的犯罪预测,目的在于必要时纠正这些预测,然后(若有可能的话)将这些预测建立在以下基础上——关于“可期待性”或“可负责性”的决定。
三、机遇与风险
这种所谓的决定模式当前是可以建构的,不会从一开始就面临无法克服的法律障碍。然而,这只是完成了第一步,因为两个相互交织的问题完全可能导致:通过人工智能排除做出这种决定的支撑。第一个问题涉及对人工智能评估进行法律监督的可行性和效率。要克服这些难以修复的薄弱环节将产生以下问题:对于法官所做出决定的质量提出规范性要求。如果基于人工智能的复杂性,该决定的特定基本前提不可能得到质问,这就涉及该问题。此外,工作量、技术信任或其他原因导致丝毫不加批判地接受技术评估——该疑虑是有价值的,并且对于非学习性信息系统的运用也是适用的。对此,相似的但同样遭受疑虑的是反面效果——一种对人工智能评估不加区别的不信任,这导致技术支持基本上受到忽视并以(可能是比较糟糕的)直觉替代评估。这就将人工智能的优势转化为劣势,最终导致做出更糟糕的决定。
在此背景下,考察一下国外迄今为止获得的、以软件做支撑的犯罪预测工具运用的经验是值得的。基于算法对罪犯进行风险预测可能已被美国所有的州(不包括联邦层面)采用。⑨Steinbach(Fn.5),S.85.这类系统⑩Eine Übersicht bietet Electronic Privacy Information Center(epic.org),Liberty at Risk:Pretrial Risk Assessment Tools in the U.S.,2020,S.2 ff.中当前最知名的是COMPAS,①COMPAS = Correctional Offender Management Profiling for Alternative Sanctions,entwickelt von Northpointe Inc.und inzwischen als COMPAS-R Core Teil der Northpointe Suite Pretrial.其以137 条信息为根据,其中部分信息是通过询问获取的。②Der Fragebogen ist abgedruckt in Electronic Privacy Information Center(Fn.16),S.26 ff.但关于这些系统的经验是矛盾的。一个重要的批评点在于对特定族群可能存在的歧视,因为危险在于仅以肤色为根据将他们归入风险族群。③Nink(Fn.2),S.381 ff.此外,在风险预测中,所谓的结果可能不会被高估,因为得到运用的系统在有效性上并无区别,运行的精确性较低。④James,Risk and Needs Assessment in the Federal Prison System,10.7.2018,S.4.
在瑞士,分类能力明显较低的FaST 软件⑤FaST=Fall-Screening-Tool.得到运用,其当然无法发布预测,而是将受检者仅归入3 个风险族群,并且仅表明可能需要进行更详细的说明。⑥Eisele/Böhm(Fn.9),S.525 f.在犯罪行为和人方面,来自4 个领域的17 条标准得到运用,使用者也要对其中的部分标准权衡一下,但这些标准既未得到深度的采用,也未对个案特殊性留有余地。⑦Wegen der Einzelheiten siehe das Manual des Fall-Screening-Tools,Version 6 aus Januar 2018.
基于上述经验,当前可用的程序(用于有效地支持法官做出决定)具备的可运用性值得怀疑。但在此背景下,如何判断人工智能系统潜在的合适性?
此外,如果对自动做出决定所持的期待很高,⑧Dietvorst/Simmons/Massey,Journal of Experimental Psychology:General 2015,Bd.144,Heft 1,114.该决定就像人类的判断一样,始终形塑了环境中的一部分。⑨Steinbach(Fn.5),S.33.这涉及一个高度复杂的环境,因而人们经常“忽略”相关的环境因素。原因可能首先在于相关者在动力和生活环境上的多样性,这就无法事先识别对关于预测的决定有意义的所有因素。但这可能(就像在FaST 的场合)以已知的少数因素的减少为根据,有人想要充分地认识其效果,严格循证的规定参数(Streng Evidenzbasierte Vorgaben)对此通常是欠缺的。有人可能为了避免歧视而故意删除了其他因素。⑩Siehe etwa die Bemühungen in Pennsylvania,ethnisch begründete Risikomodifikationen auszublenden,z.B.in den Richtlinien der Pennsylvania Commission on Sentencing.在算法训练中,何种因素占据重要地位?这在某种程度上也取决于开发者和委托人的世界观(和犯罪观)。⑪Steinbach(Fn.5),S.34.此外,只有在人工智能模型中明确的获取和供给这一场合,从情境角度诱发或阻碍犯罪的影响可能才得到考虑,这种获取和供给只是识别了一般性的促进或阻碍犯罪的情况。基于人类的决定自由,这是否也在个案中起作用是悬而未决的。
此目的也不一定是最好的,最好的是:进步取决于预测是否比现状起到更好的作用。人工智能的运用可在多个方面考虑已有的预测方法,对此要富于帮助性。众所周知,人类做出决定时在感知、信息处理、决定的做出方面均遭到某种程度的(未考虑到的)扭曲(“偏差”)。例如,在法学语境下,以下倾向是较为重要的:对符合最初推测的信息进行评估、忽略相互矛盾的信息(“已证实的偏差”),或做出决定时完全忽略法官遭遇的困难和不合法的证据。⑫Peer/Gamliel,Court Review:The Journal of the American Judges Associaton 49(2013),114.甚至在诉讼期间数量(有时这是不重要的)的大小可能决定性地影响最终量刑的高低⑬Englich/Mussweiler,Journal of Applied Social Psychology 31(2001),1535.(“锚定效应”)。这只是一些例子说明对人类做出决定的主观影响。自主学习的人工智能系统没有这种阻碍,每次做出决定都以基于数据的模型为基础,不被以下因素影响:最初的推测、不重要的信息、数据的顺序、时间、饥饿或其他心理状态。对此,可能实现一种相当程度的公平,始终不变的循证规则就能由此得到运用。
人工智能的另一个优势在于最大可能地将数据作为决定的基础而加以利用,⑭Steinbach(Fn.5),S.30.这种决定的基础优于单纯的人类或法官的经验基础。除了更好的预判能力以外,还利用人工智能系统或(独立的)数据挖掘(Data Mining),寻找不同因素(犯罪行为的发生、诸如社会环境条件等个人情况)之间在数据上的重要关联。因此,人工智能可从独立并同时起作用的几种原因之间的关联中识别出犯罪风险,个案中的人类观察者不一定知道这些风险。
人工智能有希望得到成功运用的基本前提在于足够大而有效的数据库,但该数据库主要只对经常或大量被实施的犯罪而言具备可展示性。①Eisele/Böhm(Fn.9),S.531.为了能对犯罪黑数较高的犯罪进行可靠的预测,同时为了获得在生活和性格方面容易导致犯罪的、有意义的参数,还要对犯罪黑数进行相应的研究。但对犯罪自动进行预测大体上可能还是一种空想。对于研究现状较好或可研究性较强的犯罪领域,如商店盗窃、BTM 机犯罪、暴力犯罪,自动预测在可预见的未来完全可能得到运用。
对此,较为重要的是,人工智能系统仅适用于适合进行犯罪侧写(Kriminalitätsprofil)的情形。否则,人们将相信它是一种精确的方法所导致的结果,在具体情形中其不应得到这种信任,因为算法所依据的数据过少。这也同样适用于决定的客观性或中立性。②Steinbach(Fn.5),S.31 ff.
四、法官监督结构
1.可比较的决定情境(Entscheidungssituation)
要考察一下法官对人工智能提供支持的、调查领域的犯罪预测所进行的必要监督,就不得不先在结构上比较一下对鉴定意见的审查。在这种情形下,法官利用连自己都没有的、他人的权限,以对自己做出的决定确定根据。数据库和算法可能大体上均已家喻户晓,但可能与计算机运算一样,被人们理解甚少,如其自动进行的DNA 分析或类精神分裂型人格违常(schizoide Persönlichkeitsstörung)的诊断。鉴定意见仍然要求理解数据库和算法,并且不要盲目相信被告知的结论。③BGHSt 8,113(118).同样在结构上可以比较的是经常在罚金程序中讨论的问题——合规的自动化测量仪。在标准化的测量程序中,只有被告知的结论在正确性上存疑时,才存在详细的审查义务。④Dazu statt vieler BGH NJW 1993,3081(3083).当然,人们可能暂时不会将处于发展中的人工智能视为标准化的方法。在可比较的情形中,没有必要通过征求鉴定意见去详细地理解标准化速度测量的准确性和以其为基础的预判。⑤OLG Oldenburg,Beschl.v.19.7.2021-2 Ss(OWi)170/21,Rn.19.人们将鉴定意见交给审查人工智能预测的法官,对此可能产生很广泛的审查需求。但值得怀疑的是,一方面,是否要对预测结论进行完整的理解?另一方面,力求做出无过错的决定是否有必要?因为不同于鉴定意见和速度测量,如果法官由于极其怀疑人工智能的正确性而拒绝运用人工智能,他并未两手空空,因为其仍保留着传统的预测方法,甚至以职业和生活经验为基础通过直觉进行风险评估。将来一个有趣的选择,同时也是一种可能性——考虑以进修或继续教育的形式,将基于人工智能的预测变成法官培训的部分内容。
2.对程序的监督?
这涉及对人工智能所产生结果的审查,那就主要考察一下软件。但这种审查会遭遇极大的困难。用于进行犯罪预测的人工智能系统的开发主要由私人企业掌握,这些企业的运作以营利为导向。⑥Vgl.für die USA die Übersicht von Electronic Privacy Information Center(Fn.16),S.5 ff.虽然美国有个别州表现得较为积极,但大多州运用较为简单的统计程序,鉴于必要的编程或培训程序费用较高,积极的州在数量上稀少得令人震惊。就德国而言,由于联邦结构使然,同样不可能期待个别或几个州能以一己之力开发有效的程序用于犯罪预测。在国家司法中运用多种数据处理程序的经验事实上允许我们期待以下情形:有人在产生疑问时及开发人工智能系统时将求助于商业供货人。但如果以营利为导向的软件企业必须将其软件置于法官的监督之下,这些企业就有权认为其市场地位遭遇危险。这种情形在刑事诉讼中业已发生,所以根据既定的阅卷权,排除以下情形的发生是站不住脚的:有人索取甚至竞相索取敏感信息。根据迄今为止所有的经验可知,开发者有良好的理由拒绝公开以下数据:①Electronic Privacy Information Center(epic.org),AI in the Criminal Justice System.该数据诱发了以下要求——只接受开源算法运行的系统。②Jiang(Fn.37),S.569 f.
但即使运用开源软件是现实的,也存在以下疑问:这种运用是否将导致可理解性得到极大提升?在自主学习系统的极深层结构中,系统的初始结构(Ausgangsstruktur)可能对以后的个案结果扮演着一个较为微弱的角色,该结果证明是一种持续优化的机器学习过程。因为相较于训练数据的总量、结构和系统内部由其引起的变化,上述初始状态对具体的请求进行响应时较少做出决定。是否有人会以合理的费用,通过软件、神经元及其重要性的公开,理解这种随着时间的推移持续发生的变化,③So die Forderung von Jiang(Fn.37),S.585.这至少是有疑问的。上述情况的实现无论如何都不是常规的,通常必然同时发生的是不再让法官进行审查,但这似乎与法官做出决定的要求不一致。
如果人工智能支撑的个案预测对系统之最初编程的依赖,低于对基于数据的训练之依赖,这些数据的质量则成为焦点。“垃圾进,垃圾出”这一现象,建议坚持运用特定的标准,从理论上讲这具备可控制性。因此,这些训练数据必须在数量上符合被犯罪学证实的事实,不可有歧视倾向。但实际上面临极大的障碍,因为获取这些数据完全不是理所当然的。美国的经验包含以下内容:基于竞争和费用原因,合作和透明度是无法期待的。④Jiang(Fn.37),S.563.但即使在可用的训练数据这一场合,识别潜在的关键性数据也并非不重要。例如,有人识别出此种过度表征(Überrepräsentation):歧视性的模型(比如,相较于没有移民背景的人,该模型更多地表现出逮捕具有移民背景的人),被认为以一种较为精确的认识为前提——认识到相关群体的犯罪倾向实际上是怎样的情形。这些事实是否都得到了充分的研究以及完全被认识清楚,对所有的重要参数而言似乎无论如何都无法得到保证。基于此分析,预先完全隐去这些易受歧视的事实(比如出身)⑤Sympathien für eine solch radikale Lösung scheinen bei Eisele/Böhm(Fn.9),S.530,durch.这一简单的解决方案带来以下危险:可能放弃对预测而言重要的提示。特定类型的训练数据有必要仅在以下范围得到运用:该数据符合已得到充分研究的事实。如果上述事实在某个环节未得到充分研究,但人工智能查明了其相关性,该环节就必定具备可察知性,对此,该环节受法官监督的预测作用是可以获得的。不要忘记具体案件的数据在质量上的重要性。只要案件数据在录入上具有目的性而非被自动获取,⑥Denkbar wäre natürlich auch ein Scan der Akten bzw.künftig der elektronischen Akten.Allerdings erscheint der dadurch erzielbare Vorteil in Gestalt einer Arbeitserleichterung eher gering,weshalb sich diese zusätzliche Fehlerquelle ohne größeren Aufwand vermeiden ließe.对录入错误进行监督的标准和方法就仍不属于人工智能做出的决定这一范畴,法官通过上述标准和方法,在这些事实中选择他认为重要和不重要的部分。其他的错误根源或监督漏洞在此可以很好地得以避免。
3.针对人工智能所产生结果的解释方案
基于各种原因考察数据库和软件对法官监督而言可能毫无用处。令人担心的是,人工智能越先进并且可用的经验越多,就越难做出决定。因此,试图在某种程度上进行剖析并让决定过程透明可见、易于理解,⑦Auf die damit verbundenen datenschutzrechtlichen Probleme im Lichte der Art.5 Abs.1 lit.a DSGVO(für die betroffene Person nachvollziehbare Verarbeitung)und der dies konkretisierenden Art.13-15 DSGVO soll an dieser Stelle nicht eingegangen werden.应该没有较可行的方法。要从本质上理解人工智能产生的结果,就需要对信息与计算机科学进行很深入的研究并提出多种解决方案,⑧Einen anschaulichen Überblick liefert die Studie von Kraus/Ganschow/Eisenträger/Wischmann,Erklärbare KI - Anforderungen,Anwendungsfälle und Lösungen,2021,S.24 ff.但这绝非所有努力的终点。
为了提高人工智能的透明度,可想到的是这样去编程:向人工智能公开将产生特定结果的、某个案件的重要参数。最近开发的一种名为“SHAP”的模型可解释性算法甚至在当前极不透明的神经网络中都让我们能进行这种观察。对此,对每次做出决定而言,可能要显示出何种因素是决定性的。一种因素对结果而言是积极的还是消极的也要受到评判,据此让人们予以理解。这对人工智能系统的可理解性而言是巨大的进步,并且产生歧视效果的情况由此潜移默化地昭示在外。
为了提升对人工智能及其可接受性的信任,法官可能“玩弄”案件数据,亦即,为了研究人工智能评估在何种程度上发生改变,修改或忽略某个或几个参数。例如,以此方式可以厘清:法官根据直觉认为案件中较为重要的某方面究竟是否在自动化的预测中扮演着一个角色。人工智能的这种情况明显被认为是无关紧要的,这无论如何都让法官发出质问:他通过直觉做出的相反的评估是否可能是错误的?或者说,他本应认为,人工智能在此明显已到达极限并由此不值得赞同。歧视倾向同样可能通过替换为一个听上去较为外国化的名称“非犯罪嫌疑人”(Unverdächtige)而暴露无遗。①So sollen Algorithmen in der Versicherungsbranche bei einer bestimmten nationalen Herkunft zu Angeboten mit höheren Versicherungsprämien neigen,vgl.die Website der Eidgenössischen Kommission gegen Rassismus.该可能性至少为初任法官培训提供了充满趣味的潜力。
一种容许进行对比试验的软件设计无疑具备可建构性,在诸多解决方案中也是存在的。②Zahlreiche Modelle,die eine KI zu erklären suchen,sind allerdings auf KI-Systeme zur Bild-(oder Gesichts-)Erkennung ausgerichtet(wie LRP[Layer-Wise Relevance Propagation])oder für Nutzer nicht anwendungssicher(wie DeepLIFT[Deep Learning Important FeaTures]oder Activation Maximization)und scheiden daher für die hier in Rede stehenden Zwecke aus.该软件设计以SHAP 运用的原则为根据,③SHAP=SHapley Additive exPlanations.根据该原则,被单独选择的因素对人工智能系统所产生具体结果的影响得到确定。对此,人工智能先是在考虑所有因素的情形下做出某种预测,随后在隐去个别因素的情形下完成了其他的预测。以此方式,存在于这些结果之间一种存在疑问的区别可能呈现出来,某种因素的具体影响可能由此被识别出来,只要不是只有少数几个因素得到审查,缺点就在于费用较高。④Kraus/Ganschow/Eisenträger/Wischmann(Fn.44),S.27 f.m.w.N.一种其他的解决方案提供了反事实解释(counterfactual explanations)。这涉及一个概念,对一种具体的分类结果(比如一个糟糕的犯罪预测)而言,此概念试图在输入值中识别出一种尽可能小的变化,该变化将导致不同的分类。该软件以此方式显示出了这个敏感点。⑤Kraus/Ganschow/Eisenträger/Wischmann(Fn.44),S.26 f.m.w.N.定义这些有待审查的因素本身可能是有助益的,却是不被允许的。为了通过这些变化查明哪些输入参数对分类结果影响最大,灵敏度分析作为第3 种可想到的方法系统性地改变了各个输入值。⑥Kraus/Ganschow/Eisenträger/Wischmann(Fn.44),S.31 m.w.N.该方法的目的当然是识别重要的因素,而非审查孤立来看可能显得不太重要的各个参数。
4.法官监督的执行力
基于既定的解释模型和人工智能技术的进步,认为对信息与计算机科学领域详细知识欠缺的使用者而言,将来相对更容易有机会审查各个案件参数的影响,不应该是一种不切实际的空想。运用人工智能系统完成预测以及具有相应的监督可能性还不够。在人类法官做出决定以及人工智能对做出决定提出建议的场合,要思考一下:这两种做出决定的系统并非彼此独立运行的。一方面,尤其是当出发点为人工智能预测,原则上具备有效性和精确性,并且法官认识到这一点时,究竟是否要进行一种符合法官角色的、中立的、不偏不倚的监督,是不明确的。⑦Ähnlich für den Einsatz im Rahmen medizinischer Diagnose und Behandlung Lohmann/Schömig,in:Beck/Kusche/Valerius(Fn.1),S.345(355).另一方面,法官是一个可能不符合信息技术使用者常规类型的群体。法官习惯于独立做出决定,基于其职业上的社会化,他们可能比其他职业群体更不信任这种评估,如何理解法官要做出决定的一个事实,这具有优先性,但没有得到详细的解释。这种相反的趋势在何种程度上实际发挥作用,尚需要解释。根据这两种可想到的态度中某种态度的出现或占据上风,要么产生一种未加批判的信息技术依赖性,该依赖性容许通过技术根据实际情况做出法官保留的决定,要么忽视高价值的信息而损害所做出决定的质量。为了利用人工智能的优点而非一开始就遭受其影响,二者都需要避免。
通过许内曼(Schünemann)的相关著作可知,①Schünemann,StV 2000,159=ders.,Strafprozessrecht und Strafprozessreform,2020,S.239.法官做出决定时并未不偏不倚,而是可能具有阅卷(Aktenkenntnis)、当事人陈述和利害关系等特征。比如,许内曼研究法官在审判中依赖于阅卷这一问题行为(Frageverhalten)并发现:预先信息(Vorinformation)已导致回应询问的准备不足。②Schünemann,StV 2000,159(161 f.).因此,可能无法排除的是,一种形式为人工智能犯罪预测的预先信息也会导致法官的举止发生改变。③Staffler/Jany,ZIS 2020,164(175).只要在适当的、批判性思考的范围内考虑人工智能提出的建议,这本身不是有害的。此外,其他欠缺实证检验的想法当然是纯理论性的。
另外,法官作为人工智能使用者一般需要信任人工智能对做出适当决定提出建议的能力。否则,人工智能就无法有效地得到运用。人工智能已被察知的可信任性不仅包含以正确建议为形式的执行力方面,这让使用者能信任该系统(在理性上完全是可理解的)。④Solberg et al.,Group&Organization Management 2022,Bd.47,Heft 2,187.为了评估系统的有效性,以过程为导向的方面(如人工智能的可运用性和上文已讨论的工作过程的透明性)作为其他要件也扮演着一个重要的角色。第三个要件是对人工智能总体目标、基本价值和编程导向的信任。除了人工智能系统这种受到评估的可信任性以外,法官的信任也被关于技术的信任倾向(Vertrauensneigung)决定,该倾向的程度无论在一般性(在社会整体及其法官群组中)还是个别性上都是可变的,并且通常依赖于人工智能或数字化的经验(技术信任)。人工智能的运用潜力随着信任的程度得到提升,因为使用者乐意运用人工智能,其优点由此得到利用。⑤Meeßen/Thielsch/Hertel,Zeitschrift für Arbeits-und Organisationspsychologie 2020,Bd.64,Heft 1,6.对此,信任并不完全是正面的,因为盲目的信任可能导致不适当地运用人工智能,这可能又潜移默化地导致做出不适当的决定。这与“算法厌恶”这一想象相反,因为相较于人类犯错,人们很少原谅系统犯错。⑥Dietvorst/Simmons/Massey,Journal of Experimental Psychology:General 2015,Bd.144,Heft 1,114.
需要考察的是,对人工智能所具有能力的信任究竟如何在特定的法官这一目标群体中产生?何种其他的因素(其中部分是无关因素)影响了法官对人工智能做出决定的可接受性?可想到的大概是较高的工作量、没时间亲自做出合理的决定或个人在自动决定过程中由于技术恐惧或担心而产生的不信任(这是不必要的)。然后要考察的是,信任与否以及如何在某种程度上受到限制且不遭到破坏,以及如何被降低到一种“健康”的程度?回答上述两个问题也需要实证研究的帮助。这取决于法官对人工智能给予何种信任,亦即,在可变的初始条件下涉及对具体得到运用的人工智能的认识。因为在这种情况下,要对所有已知的训练数据和经验数据、可能未知的个案事实具有的影响形成完整的认识,是无法达到理想状态的。需要说明的是,在运用人工智能的场合,信任的最低限度条件是什么?此外,尽管明显相反的(重要的、不重要的或重要性无法判断)个案事实引人注目,知道一种既定的信任何时减弱,或者知道法官还能对人工智能信任多久是较为重要的。上述问题是跨学科尤其是心理学的最佳研究对象。
在运用人工智能系统的场合,对使用者的信任所进行的初始研究一般是存在的,⑦Höddinghaus/Sondern/Hertel,Computers in Human Behavior 116(2021),106635 m.w.N.但并不涉及法官这一特定群体。此外,该初始研究基于其独立性而具有一种特殊性:在其他机构(经济、行政)中没有众多的决定者。另外,法官遵守严格的决定过程,该过程预先规定了其无法任意处置的法律规范。其特殊性并不在于追求更上位的利益(比如经济成果或政治目的),而仅在于追求以下最终目的:根据决定过程这一标准所做出决定的正当性。这些特殊性不容许未经审查就作为初步证据(prima facie)在其他职业群体的场合接受某些调查结果。更确切地说,似乎有必要在法官群体中获取关于信任产生和信任限度的实证数据。
五、结论
人工智能的运用在刑事诉讼中可能长期导致迅捷地做出长远来看较为经济的、高质量的决定。在此,就像完成犯罪预测那样,个案中的许多因素以一种在经验上可理解的方式决定了结果。然而,人工智能的可运用性暂时还未充分得到开发,以符合在内容上待定的规范性要求。只要法官能理解某个决定并让该决定实质上成为自己做出的决定,则法官做出关于预测的决定可能基本上都以人工智能预测为支撑。对此,软件必须提供机会让法官至少在原则上理解具体的、对预测的决定而言特定案件参数的重要性。同时,人工智能的运用和其他的相关框架条件是这样来设计的——法官在(通常能进行正确评估的)人工智能的运用中可能产生一种合理的信任度,而不丧失回应批评性询问的能力和准备。如何塑造这种工作环境,仍需要深入的跨学科实证研究。应建议司法行政管理部门和立法者保持克制,直至这种工作环境形成。(王德政①王德政,中南财经政法大学刑事司法学院博士后研究人员。译校)