人工智能辅助量刑系统的现实风险及其治理路径研究

2022-12-28郭若宇

齐鲁师范学院学报 2022年4期

郭若宇

（山东大学法学院，山东青岛 266200）

在信息技术飞速发展的今天，大数据、人工智能、云计算为司法实务助力赋能，人工智能辅助量刑逐步成为我国司法量刑的重要辅助手段。特别是随着认罪认罚从宽制度从部分试点到正式入法，人民法院作出判决时既要同意检察机关指控的罪名，又要同意检察机关的量刑建议[1]1-12，由此科学而准确的量刑建议既是当前办案质量的核心考核指标，也是创新办案机制的新要求，在此背景下人工智能辅助量刑系统的风险与治理成为亟需探讨的重要课题。

需要注意的是，“人工智能辅助量刑”与 “电脑量刑”有着根本差异。“电脑量刑系统”以2004 年3 月山东省淄博市淄川区人民法院研制的“规范量刑软件管理系统”为代表，该软件以《量刑规范化实施细则》作为“规范量刑软件管理系统”数据资料库，将1300 余件已审结的刑事案件归纳为财产犯罪、职务犯罪和暴力犯罪等十一种犯罪类型，再将每一类案件审理过程、量刑情况和裁判结果等分类统计并输入电脑，在法官的操作和监督下，电脑根据储存的法律条文和有关细则进行信息检索和公式计算输出量刑结果[2]。所谓的“电脑量刑”本质上为关联要素检索系统[3]271-279，即根据量刑细则进行检索，或根据关键词相关联的程度搜寻法规或判决。此系统的工作原理是通过统计数据来计算相似度，如果逻辑上相似就会以关联比率计算归类为有关联的法规或判决。而人工智能是以人工方式创作出来、拥有智能的实体，或指为了创造出这类产物的智慧本身，系通过机器学习习得人类思考能力的技术[4]1015-1042，以计算机程序模仿人类思考模式的结果，进行数据搜集、分析，以更为准确高效的程式进行运算，其数据抓取与运算能力远胜于电脑量刑系统。目前人工智能辅助量刑系统在司法审判中可用作法律检索分析、风险评估工具、计算量刑基准、鉴识辅助系统、预测犯罪热点执法，应用范围亦远大于电脑量刑系统。因此，人工智能辅助量刑并不等同于“电脑量刑”，本文的研究对象为人工智能辅助量刑系统。

人工智能辅助量刑存在系统上的风险，且量刑系统的透明性与可受监督性也存有疑问。另外，人工智能辅助量刑系统研发的重要原因是为了量刑规范化和高效化，但是在弱人工智能时代，智能辅助量刑工具的应用可能导致量刑结果不准确、量刑过程侵害当事人权益的现象，甚至存在引发新一轮诉讼的风险，反而有损于司法公信力与诉讼效率。本文对人工智能技术应用于刑事司法领域进行研究，分析人工智能量刑系统司法实践层面的风险及成因，并探究现实风险治理的具体路径。

一、人工智能辅助量刑系统的实践样态

人工智能辅助量刑系统已经有了丰富的实践。在我国，2017 年贵州省高级人民法院采用的“大数据分析平台”、2018 年苏州市中级人民法院上线的“智慧审判系统”、2019 年广东博维创远科技有限公司研发并推广的“小包公”智能定罪与量刑系统等都包含了人工智能辅助量刑这一核心功能。在域外，美国的风险评估系统（Riskneed Assessment Tool）、英国的HART 风险评估系统（Harm Assessment Risk Tool）都是运用比较广泛的人工智能量刑辅助系统。

2017 年贵州省高级人民法院采用的“大数据分析平台”，对具体案件评查“案件偏离程度”，如果程度过高则会提醒法官及案管部门来保证量刑精准、同案同判。2018 年苏州法院上线的“同案同判数据监测系统”结合江苏省有关危险驾驶罪的量刑指导意见，通过大数据分析近五年来全省各地法院审结的相似案件，自动生成刑事案件量刑预判结果。2019 年推广的“小包公”智能定罪与量刑系统提供200 多个罪名的精准量刑预测及说理过程，通过大数据类案查询提供类案判决，生成全案的定罪量刑分析报告，通过理论量刑预测和实际量刑分析“双系统”帮助法官准确定罪量刑。2020 年上海市虹口区检察院上线的“智能量刑小程序”，为弱化地域差异对量刑的影响，仅选取上海本地近10 年的刑事判决书填充数据资料库，在小程序中输入 “核心量刑情节”和“罪名”后生成“量刑可视化图表”。

在美国，人工智能辅助量刑系统早已在司法实践中得到应用。在该系统中计算机通过机器学习习得人类思考技术，而后根据具体案件的犯罪事实和犯罪嫌疑人或被告人的犯罪动机、反社会同伴、认知、教育、家庭、财务、医疗、心理健康、兴趣爱好、药物滥用、创伤和工作等不同因素所形成的加权值进行机器运算，通过习得的人类思考技术计算、整理与分析数值，从而预测被告人或犯罪嫌疑人的再犯率[5]39-47。

然而，该系统技术上仍然存在障碍与局限性，实践中引发诸多争议，甚至导致新一轮争讼现象的出现。是继续推进该技术的前进还是在落实有意义审查后再禁止不透明的人工智能应用于刑事司法程序中，仍然是一个值得讨论的问题。当前，检察官、法官和当事人对这种工具的应用带来的负面影响聚讼纷纭。首先，人工智能量刑辅助系统的研发公司如果以保护商业秘密为由不公开评估过程记录，则系统的“算法黑箱”特性使被告没有办法了解与检验评估结果的正确性和精准性。其次，该系统减损了在司法审判中法官基于事实怀疑主义和规则怀疑主义对被告人的个性关注。再者，人工智能量刑辅助系统评估出男性的再犯率普遍高于女性，司法实践中采用一个存在性别歧视的系统辅助量刑违反宪法原则。

二、人工智能辅助量刑系统的现实风险

从算法自动化决策在刑事司法实践中的争议中可以窥测人工智能法律辅助量刑系统的一系列现实风险。

（一）量刑机械主义倾向

量刑的权衡没有公认的统一标准，而是多元化的。所以在现代法治社会的量刑具有丰富性和灵活性，远非机械式计算。检察官在行使量刑建议权或法官在行使量刑权的过程是一个价值判断的过程，包含着检察官和法官在长期审判工作中形成的法律思维、对世态人情的认知等理性关怀，在具体案件中也会考量被告人或犯罪嫌疑人认罪认罚的态度以及被害人是否谅解等具体情况，并结合实时政策和社会影响进行量刑判断。故而判断过程并非是寻找最优解的命题，而是对量刑结果符合“国法、天理、人情”的追求过程。

然而，人工智能辅助量刑系统仅针对确定的目标计算成本和收益，找到最优化的解决方案。人工智能辅助量刑系统不关心目的，只关心达成目的的手段是否为最优。在推广适用的过程中，可能导致工具理性的单方面扩张，工具理性压倒价值理性，社会理性化发展异化为不平衡的“片面的理性化”，具体表现为如下三个方面：

（1）法律程式化风险。构建人工智能辅助量刑系统时设计重心在标准化程式，程式最终任务仅是找寻最优解。法官在行使量刑权或检察官在行使量刑建议权时，包含了对法律的敬畏和对正义的追求。而弱人工智能不具备人的法正义和法感情，可能无法对个案的具体情况和特别状态进行判断和思考，在识别信息、分析案情、评判证据、作出裁判等方面倾向于标准程式化的判断，故而无法考虑效率代价等复杂性问题。另一方面，在具体案件当中，案件特殊情形具备不易描述的属性，对于人权保障的追求也无法量化，人工智能辅助量刑系统趋向将法律程式化，将个案的参数和信息置于系统考量范畴之外，无法进行分析并作出具体判断。

（2）司法数据化风险。人工智能辅助量刑系统本身只有习得的固定思考模式与可调整的参数，无法像人一样通过联结的神经元同时进行创造性思维活动，故司法实务中运用该系统将无法针对特殊化的个案情形进行灵活的创造性考量。然而检察官量刑建议或法官量刑的过程恰恰是开放的、辩证的，排斥固化单一的逻辑模型。法律的生命不是逻辑而是经验(He life of law doesn’t lie in logic, but in experience)[6]233-234，经验是结合社会生活、习俗、公众认知，如对时代需要的感知、形势政策的理解、对公共政策的直觉，再如社会族群的习惯、一个民族的发展历史、法官和他的同胞所共有的偏见或基于某种有关共同体或某一阶层的习惯和信仰，并经过专业的学习、思考与长期的实践形成的。司法实践中若用简单粗略的数据去推断极端复杂的人性，将导致司法数据化风险冲击破坏衡平正义。

（3）资料滞后性风险。人工智能辅助量刑系统本身的资料库有限，无法实时性地反映社会发展进步对法律提出的新要求，因此人工智能辅助量刑系统本身具有无法预测和判断新兴的法律事实样态的滞后性。面对社会的发展或形势的变更，法官在量刑判断时并不会机械地局限于严格的法规正义，而现阶段的人工智能辅助量刑系统却无法本着公平原则进行利益权衡，其所进行的机器学习乃是过往的人类裁判所形成的经验，如果某个时点发生突然性的政策变化、剧烈的价值观变动或某个具体问题的法律见解变更，将对本身学习资料的完善和人工智能系统设计的更新提出较高的要求，这将是在弱人工智能时代技术上所不得不面临的重大问题。

（二）算法歧视的产生

前文所述的COMPAS 系统男性被评估出的再犯率高于女性。虽然在美国的宪法修正案乃至各国宪法中都对禁止司法歧视做出了规定，但是人工智能辅助量刑的过程中算法以一种不轻易为人察觉的隐性方式歧视社会特定群体。以下为导致人工智能辅助量刑系统算法歧视的三个因素：

（1）数据资料的偏见。《自然》杂志在2016 年提出“BIBO”定律（bias in, bias out）[7]537-549，意即输入的数据隐含偏见，那么输出的数据也必定含有偏见，这是数据的原教旨主义（Data Fundamentalism）特性使然[8]55-66。在运用复合控制结构而设置的规则依赖深度学习进行计算的过程中，大数据所做的决定系用过去的数据对未来的事项进行评估，极易产生系统偏见而致歧视后果。即便在机器学习的数据中清除性别、种族等特征，并保证在训练数据集中每一个特定群体都有相当的数据，然而司法判例中既有的偏见仍然无法消除。

（2）系统开发者的偏见。人工智能系统开发者趋向藉由操纵程式将个人的成见或偏见反映在算法之中，或是潜意识的歧视被反映于人工智能系统的程式之中[9]1027。在人工智能辅助量刑系统的程式设计中，一个问题将被分成拟解决问题的转化、数据的收集、模型的完善与评估等多个子问题交由不同的神经元进行运算。输出的算法结果都要经过开发者的主观验证，由此开发者的评断决定着输入变量、结果变量、数据的收集范围、数据特征的选择，故而系统设计者趋向于将自认为正确的解决问题的步骤与参数置入人工智能辅助量刑系统的程式中，因此系统中往往不可避免地富集系统开发者个人认知或潜意识中的偏见。

（3）人工智能技术的偏见。算法作为人工智能系统的主要实现形式，在其运算系统中，人类在某种程度上被视为“数据主体”，拥有了“数据身份”，而后基于算法分类进行的优先化排序、关联性选择和过滤性排除等运算，其中不可避免地都带有显性或隐性的偏见。另外，如前所述，人工智能系通过机器学习（machine leaning）习得人类思考技术，而人脑必须在分类（category）的帮助下才能思考，分类形成的“类别”会成为平常预先判断的基础[10]22，由此人类认知和解释世界时离不开“类别”，人工智能机器学习人类心智也习得了这一认知方式以及“类别”，于是预先判断成为无法避免的过程。

三、人工智能辅助量刑系统现实风险的治理路径

（一）系统定位：突出“辅助”量刑功能

首先，将人工智能辅助量刑系统定位为辅助工具，是宪法理念的实践要求。量刑权本质上属于司法权能。法官和检察官行使量刑裁判权或量刑建议权时，应根据自己的独立判断，故人工智能不具备取代法官的合宪性。因此，人工智能辅助量刑系统理论定位应当是辅助性的。

其次，将人工智能辅助量刑系统定位为辅助手段，是尊重人类自主性的伦理要求。2019 年 4 月，欧盟公布了《可信 AI 伦理指南（Ethics Guidelines for Trustworthy AI）》[11]1，提出四项基本原则作为人工智能是否可信的判断准则，其中第一条是尊重人类自主性原则。该原则要求确保检察官与法官拥有针对个案情况具体分析的自主性，使法官有相当的权限空间（discretion）作出符合个案正义的量刑判断，从而尽可能地保证衡平正义的实现，维护法律的权威和法律体系的先进性。

然而在实践当中，司法人员主观上对现代科技前沿的人工智能过分信任加之人类思维惰性，以及对错案追责的担忧，导致司法人员不会对人工智能辅助量刑系统评估结果作出轻易修改。

对此，司法人员需扭转对辅助量刑评估结果的看待方式，消除辅助量刑评估结果的“隐性强制力”。辅助量刑系统所给出的结论并不是“标准答案”，而是矫正量刑误差的一种“验算”方式，仅对司法人员量刑判断是否存在遗漏某个量刑情节等谬误具有提示作用。客观上，人工智能的输出结果采纳与否并不能与追究错案责任直接挂钩[12]163-174。

（二）具体方法：完善人工智能模型

人工智能量刑辅助系统运用于司法实践，选择算法和设计程序的目标是人工智能习得法律推理能力并将之应用于量刑过程，而运用法律推理包括案例推理、规则推理和原则推理等多种模式，并没有明确或唯一的标准答案，仅存在某个合理的区间，量刑结果是一个程度的问题，并且会随着社会发展而改变。因为在量刑论证过程中所需的知识会随着时间推移而改变，这些常识或知识是丰富多元的，生活常识到专业知识都可能涉及，其中专业知识在学界可能存在不同观点的争议。

由于法律推理的上述特性，构建辅助量刑系统模型不能用纯粹的演绎方法建模，而应当增加系统输出结果的丰富性和灵活性，构建模型时可以从如下几个方面进行完善。首先，把握法学逻辑的数字化表达，明确法律推理对资料和方法的要求。在构建系统模型时不仅需要计算机科学的思想和方法，也需要法学者提供的关于法律推理的见解。其次，不断补充、完善和更新人工智能的学习资料，对于过时认知、错误数据及知识上的例外冲突进行去噪，对于新兴的人类生活共识和学术观点进行补充和更新。再次，对于人工智能辅助量刑系统中的各种法律推理模式进行分析与探索，完善案例推理，推广规则推理，同时探索多范式推理。最后，探索人工智能对自然语言理解的实现路径，这将是弱人工智能时代人工智能系统构建最困难的挑战之一。在人工智能辅助量刑系统的复杂逻辑架构下，探索如何让机器学习快速适应法律的渐进变化，让机器理解法律常识、辩护意见等自然语言，深度学习数据丰富的内在信息，从而提升量刑预测的准确性。

（三）制度保障：建立监督和评估机制

透明化和监督是现代民主法治社会对公权力的基本要求，遑论量刑权与量刑建议权等重要司法权力，因此人工智能辅助量刑系统的透明化和可评估化是法治的必然要求。在弱人工智能时代，人工智能辅助量刑系统的机械主义倾向短期内无法实现有效改善；决策标准被隐藏在我们无法轻易阅读和理解的代码之下，算法根据不同的数据模式而发展变化，这进一步增加了实现公开透明的难度[13]5；此外，在线活动的算法大多是由追求利润最大化的私人商业实体执行的，他们仅需在最低限度的透明度义务下即可运营。人工智能产生的歧视与偏见短期内无法消除，亦要求我们必须寻求司法公平与技术局限的平衡，制定人工智能辅助量刑系统的评估机制为暂时解决算法歧视问题提供一种可能路径。

首先，在人工智能辅助量刑系统设计周期内，应当建立辅助量刑对基本权利影响评估机制。在系统研发过程中就其对基本权利造成的可能影响进行详细评估，如果出现辅助量刑系统对人格尊严、人身自由、平等无歧视等公民基本权利的侵害和对民主、正义等法治基础的破坏，那么将丧失合法性基础，轻则及时修正，重则直接停用，从而有效防止开发者夹带个人偏见或将潜意识中的歧视因子输入量刑系统。

其次，应当建立辅助量刑系统的全过程监督机制，保障在辅助量刑系统的每个决策周期都可人为干预，并赋予司法人员根据人工智能辅助量刑系统的整体活动及影响而决定是否使用的权力。全过程的监督机制是在使用人工智能辅助量刑的司法人员充分且有效的量刑决定能力的必要条件，也是人工智能辅助量刑系统遵循用于服务人类、增强人类认知和提升人类技能基本理念的重要保障。

再次，应当建立算法与学习资料透明度评估机制。IEEE（Institute of Electrical and Electronics Engineers）在2017 年12 月14 日发布的《合乎伦理设计：利用人工智能和自主系统优化人类福祉的愿景》[14]197-201中指出，算法的设计应当透明化，应适当地提供系统执行行为的原因解释，并且设置算法设计的透明度评估机制。人工智能辅助量刑系统中，除构建算法的透明度评估机制以外，还应构建学习资料的透明度评估机制。人工智能辅助量刑系统机器学习的样本资料库是歧视问题的始作俑者，只有公开监督才能从根源上化解歧视问题。合规评估机制和透明度评估机制的建立也将进一步促进“技术黑箱”难题的破解。