美国司法实践中的人工智能:问题与挑战
2018-02-06李本BenjaminLiebman
李本(Benjamin L. Liebman)
哥伦比亚大学法学院教授,中国法律研究中心主任
最近一段时间,“AI”(人工智能)一词在中国大火,许多学科均在思考如何用信息技术改造自己,中国法律界亦不甘落后:从各种法律人工智能研讨会到形形色色的法律服务机器人、裁判文书自动生成系统,法律人工智能的建设与应用正如火如荼地展开。与中国相同,在美国,法律人工智能也引发了学界与实务界广泛的讨论。
一、人工智能在美国刑事诉讼程序中的应用
在美国法律人工智能领域,引起最为广泛讨论的问题聚焦于算法在刑事诉讼程序中的应用。在刑事诉讼程序中,算法已经被大量运用于预测个体是否会再次犯罪、是否会在开庭日出庭等的可能性,从而影响关于保释、量刑和假释的决定。早在几年前,美国就开发了COMPAS、PSA和LSI-R三种主要的风险评估软件。目前美国已有一半以上的州利用这些软件来辅助法官量刑。其中,一些州使用模型来辨别哪些在押人员会在被释后再次犯罪,从而降低累犯率。而鉴于美国远高于世界平均水平的被羁押率,实务界同时希望在AI的帮助下通过更精确的风险评估来降低羁押率。另一些州则直接依靠软件作出量刑。因此法律AI的预测功能对美国法律界尤为重要。
客观地讲,风险评估并不是新兴的领域,它一直是量刑和假释裁定的组成部分。过去,这种评估依据的是法官的“直觉、本能和正义感”,而现在它将依赖于精算模型和算法。COMPAS与LSI-R模型涉及五个主要的领域:犯罪的情况、人际关系、个性、家庭、还有社会排斥程度。由于这些软件的专利性,确切的考虑因素和计算权重外界是不得而知的。有学者研究称,这些模型可能还包括工作经历、经济状况、家庭成员犯罪记录、年龄、性别、婚姻状况、福利、教育水平等要素。值得一提的是,其中的一些模型是为假释裁决而设计的,现在被应用于量刑。
实践中,这些模型首先会根据与不特定于被评估者个人的历史数据来做出风险评估。随后,这些模型会针对被评估者个人提出一系列的问题(有时数量可能达到甚至超过100个),并从评估者个人回答或是从其犯罪记录中提取答案。问题的答案会进一步和历史数据进行比对。尽管如此,许多学者认为这样的模型会在适用于被告人个体时出现偏差,因为这些模型考虑了大量与个体情况无关的因素。与此同时,另一些纳入这些模型的因素则带有内在的偏见。换言之,这些模型可能在预估某一群体的累犯风险时相对可靠,但是对于某一个人的累犯风险的预测却会失准。此外,虽然累犯风险评估一直以来都是量刑中需要考虑的一个因素,但它也仅仅是因素之一——例如,被告人的道德可责性也时常会纳入量刑的考量。但是,依靠算法来进行决策使量刑在很大程度上取决于对被告人累犯风险的评估,将累犯风险变成量刑中的主导因素,甚至是唯一因素。这样的结果是量刑仅仅关注被告人累犯的可能性,却忽视了对监禁本身是否可以降低累犯概率的考量。
二、人工智能的司法挑战
在美国,使用机制并不透明的算法来取代法官的自由裁量引发了众多的批评,担忧和在法律上对人工智能的挑战,归纳起来有如下几点:
一是准确性问题。有学者通过实证研究证明这些算法并不能很好地预测未来的暴力犯罪。一项研究显示,在被算法预测的未来两年内实施暴力犯罪的人中,仅有20% 实施了暴力犯罪。就算范围扩大到所有犯罪,算法预测的正确率亦仅有61%。据此,部分学者认为AI及其算法在风险预测领域并不优于其他方法。
二是社会问题。具体而言,量刑应当依据社会经济的不利因素吗?算法在预测评估时会参考对方及其亲属的生活环境、受教育程度、收入情况、违法记录等因素,这便形成了一种压制贫困者的体制。1部分学者认为算法会根据一般认识将被预测的个体区分为穷人、富人,并以他们身份作为其危险性高低的重要判断因素。尽管这些算法并没有直白地询问或是考量被告人的种族,但是其中很多问题设计却体现了同样的目的。许多学者已经提出很有说服力的论证,证明这些设计可能会引发种族偏见和歧视。例如,被评估对象是否与警察打过交道这一问题。在美国的大城市,年轻的黑人经常会被警察拦下来盘问。这样的问题显然偏向性地增高了黑人被评估者被预测的累犯风险。同样地,被评估者会被询问,自己的家庭成员是否曾经有犯罪记录。鉴于在美国,黑人的被羁押率要远远高于白人,这样的问题同样会过度预测黑人受访者在未来再次犯罪的风险。因此,是否与警察打过交道、是否有家庭成员被定罪这类问题很大程度上相当于直接询问被评估者的种族,进而把种族和累犯的可能性联系起来。学术研究也证明,这些模型过度预测了黑人被评估者在未来再次犯罪的概率,同时也过低地预测了白人被评估者在未来累犯的概率。综上,虽然美国不允许开发者在这些软件、算法和模型中明确写入种族等因素,但因某一些考虑因素客观上与种族相互关联,它们也就成为了将种族与风险预测相连的媒介。
三是正当程序问题。鉴于负责设计这些算法的公司拒绝公开它们的算法或这些算法所考量的要素,被告人也就无从知晓这些算法究竟是如何设计的。同时,目前针对法律程序中算法的使用,几乎不存在任何规则或者标准。这就在一定程度上形成了所谓的“黑箱”。正是这一担忧使人工智能在美国司法系统中的运用引发批评和争议,并带来了在现实中的司法挑战。最近在威斯康星州便发生了一起典型的案件(State v. Loomis)。该州一法院使用COMPAS作为量刑过程中的一环,被告认为法官违反了正当程序原则并上诉到威斯康星州最高法院。此案在美国引起了较大的争论,被告的部分主张也基本反映了当前对法律AI的一些批判观点:其一,被告应有权检查法律AI的算法,如何科学透明地公开算法信息是法院必须面对的;其二,算法的科学有效性和正确性值得怀疑;其三,算法量刑侵犯了量刑个别化的权利;其四,使用性别作为量刑考量违反宪法。威斯康星州最高法院最后驳回了被告的诉讼请求,主要原因在于州最高法院认为使用算法量刑没有违反正当程序原则,且在使用法律AI的同时法官依然可以做到量刑个别化——在威斯康星州,算法只是量刑的一个因素,并不是唯一的因素。不过该州最高法院亦借此案要求法官向被告人解释其在做出量刑决定时所考量的因素并且提醒法官警惕使用COMPAS算法所可能带来的偏见。
对于本案的处理结果,有学者批评道:本案过后,法官使用的算法依然没有得到公开,“黑箱”依然可能存在。另外,相关机构未能对法官如何使用风险评估系统给出充分的指导。换句话说,法官真的理解自己在使用工具吗?如若法官不能掌控好AI、算法,很有可能会导致种族歧视等社会问题。更为致命的一点在于,算法量刑工具的虚假吸引力风险依旧存在。和其他国家的法官类似,美国法官很多时候对AI和算法持乐观态度,认为其具有科学性和专业性,操作起来也方便快捷,因而喜欢使用。殊不知算法模型的建立是依据经验法则的,法律AI本身其实是另一种形式的经验证据;长期使用会有过度重视“专家”的经验证据的风险。
当然,我们不能忽视法律人工智能支持者们的论点。他们认为,像这些模型一样,法官同样持有偏见,而算法可以提供一个用来减少人类偏见的客观标尺。对此,一些学者提出,算法并不一定比人更能克服偏见,但不会被主观情感左右的AI在某种程度上或许能够限制人为偏见或提供客观基准。此外,一些州的数据表明,算法在减少被羁押率方面确实有一定的作用。而面对美国法院普遍存在的诉讼爆炸、案件积压问题,人工智能高效的运算、决策能力能使大量事实清楚、情节简单的案件得到迅速处理。支持者们希望通过降低积压的案件来减少案件当事人因为案件审理缓慢而遭到的不公正待遇。
除法院之外,类似的法律AI也被应用于其他法律领域,典型的就是美国警察执法使用的软件和算法。但其重点不在预测个体犯罪的可能性,而是犯罪可能发生的时间、地点,从而使警方能合理配置警力资源。不过与法院使用的人工智能一样,其使用风险即在侦查贫困社区犯罪方面形成恶性反馈循环:每次出警侦查到的轻微犯罪将会形成新的数据,而这些数据又会促成更多的出警,因为模型在预测轻微犯罪(“滋扰型犯罪”)方面的优先度高于重罪,并且其考量因素可能让贫穷本身成为一种罪行。长此以往,对少数族裔社区的轻微犯罪将会产生更多的逮捕,同时以数据为基础的犯罪地图会与贫困区域重合。如此,有学者警告称,警方使用的预测模型将会令传统的“罪后出警”向“罪前出警”转变,将普通公民转变为嫌疑犯;同时预测型出警还会助长种族歧视的风险——这些问题都是目前美国警方要着力解决的。
在司法领域之外,一些律所和法律公司也利用AI来进行电子开示和结果预测,并利用自然语言处理技术筛选与案件有关的文档。而在法学研究领域,对于机器学习技术、AI和算法的研究,美国法学界可以说是刚刚起步,对不少既存和设想中的问题的验证与解决还停留在最初阶段。与中国的法学家们一样,多数美国法学家也对电脑技术不甚了解,缺乏相应的技能。因此在研究法律人工智能时,多学科、跨领域的合作相当重要,而法律人工智能亦会是法律实证研究的新领域。
三、结语
综上所述,目前,人工智能在美国快速发展,而违反正当程序、歧视、法律私有化和算法不透明等关于这一技术的诸多问题与质疑也随之而来。为了人工智能在法律领域应用的继续发展,我们需要对它的优点与不足进行一番坦诚地讨论。同时,也需要增加人工智能技术的透明性。公众对司法的信任建立在司法透明的基础上:如果这些算法继续保持神秘并且AI发展的重心始终围绕着公司的利润而非公正与平等,那么AI将很难取得公众对其在司法中运用的信任。这一信任不仅关乎AI的成功发展,同时也关乎司法体系长期、健康地运行。