生成式人工智能司法应用的风险与出路
2024-04-13徐恩平
徐恩平
(安徽大学法学院,安徽 合肥 230031)
2022年末,OpenAI公司研发的ChatGPT一经发布便引爆全球,凭借其强大的文字处理能力和快速的问题应对能力在短短几个月内赢得了大众的青睐,使得生成式人工智能在短时间内成为各领域、各行业的热点。另外,Meta AI开发了BlenderBot 3聊天机器人,OpenAI开发的DALL-E-2能够利用算法自行创作图片,GPT Engineer能够通过一个简短的提示语创建完整的APP。在此背景下,国内的生成式人工智能研发也在高速发展,例如百度发布的“文心一言”语言生成模型等。
生成式人工智能的应用范畴涵盖文本生成、图像生成、音视频生成等领域,能够进行聊天对话、创作艺术作品、生成原创音乐、完成代码编写和初步的算法设计,并且未来有可能通过利用多模态数据在教育领域取得重大进步[1]。随着“数字法治、智慧司法”信息化建设的推进,包括生成式人工智能在内的各种人工智能工具在司法中的运用日益增多。因此,研究生成式人工智能应用于司法这一特殊问题就变得非常必要。
司法在面对新兴技术时总是持严谨的态度。当生成式人工智能与司法融合时,既要防止科学技术对司法的反噬,又要避免保守心理阻碍司法的发展。本文以生成式人工智能本身的特点为出发点,总结生成式人工智能应用于司法的优势,并结合我国司法的实际情况,分析其应用于司法领域面临的风险,以化解风险为目的,从理论与实践两方面思考司法领域应当如何应对生成式人工智能的冲击,迎接科技发展的挑战。
1 生成式人工智能的界定与特点
1.1 生成式人工智能的界定
生成式人工智能,是指一类基于深度学习的机器学习模型,它们可以通过学习大量数据来生成新的、与原始数据相似但并不完全相同的数据。这种数据生成的过程通常是通过给定一些初始条件(如噪声向量)作为输入,然后使用深度神经网络和概率模型来逐步生成新的数据。生成式人工智能可以创建各种数据,如图像、视频、音频、文本和3D模型,其典型任务涉及生成高维数据,如文本或图像。这种生成式内容也可用于合成数据,以减轻深度学习海量数据的需求[2]。对于生成式人工智能的界定,我国2023年7月13日发布的《生成式人工智能服务管理暂行办法》规定,生成式人工智能技术是指具有文本、图片、音频、视频等内容生成能力的模型及相关技术。
生成式人工智能演化计算的能力在人工智能算法中最为突出。演化计算是一种以人类进化为灵感的优化算法,通过基于人群的引导式搜索,以编码设置问题,进行大数据库的搜索、筛选、更新,对生成的结果不断进行筛选、更新、试错后提高算法的适应度,并以设置的问题作为其深度学习的内容,不断拓展和完善数据。目前演化计算已经覆盖了人工智能的各个分支体系,尤其在计算机视觉和自然语言处理中取得了巨大的突破。
1.2 生成式人工智能的特点
生成式人工智能的特点可以概括为以下三个方面。
第一,海量化的预训练数据。生成式人工智能通过在海量化数据中进行预训练,这些数据来源于互联网、书籍、百科全书等众多内容,使其能够适应多种任务场景。
第二,长距离理解上下文语义的能力。生成式人工智能主要依赖于Transformer结构,其通过自注意力机制、多头注意机制来捕捉文本中不同位置之间的关联关系,从而关注到文本中较远的上下文信息[3]。这一能力使得生成式人工智能可以更好地理解和解释相对复杂的逻辑推理、句子结构和上下文关系,并且能够根据设置的问题提供更加精准的回答,基本上不会出现答非所问的情况。例如,在商业使用场景中,生成式人工智能在提供法律咨询服务、文本摘要、机器人客服等领域展现出其强大的应用价值。
第三,少样本、零样本的学习能力。生成式人工智能基于其强大的表达能力,通过学习数据之间的语义关系和逻辑关系,从而产生“自己的算法理解”,不需要提供任何的案例展示即可完成指定的任务,具有高度的自由化和灵活性[4]。此种自适应学习能力可以识别大量信息之间的关联,建立起庞大的知识网络,为人工智能未来的发展提供了新的方向。
2 生成式人工智能司法应用的价值
2.1 提高司法审判效率
在法治社会背景下,随着人们法律意识的提高,越来越多的人选择通过法律途径解决纠纷。根据最高人民法院公布的数据,我国地方各级人民法院和专门人民法院受理案件的数量庞大且仍呈上升趋势,导致“案多人少”的问题日益突出,法官的工作负担和工作压力持续增加。因此,如何提升司法审判的效率是我国司法长期面临的难题之一。
首先,将生成式人工智能技术引入司法审判过程,可以利用其长距离理解上下文语义的能力,在案情复杂、证据材料繁多的案件中对整体案情进行总结,提取争议焦点,帮助法官节省庭前准备的时间,提高庭审的效率。目前,国外已有借助生成式人工智能辅助判案的案例,在Loomis v.Wisconsin一案中,法院使用了COMPAS智能评估工具对Loomis的社会危险性进行评估,并参考该评估报告作了量刑裁判①。2023年1月30日,哥伦比亚法官胡安·加西亚(Juan Garcia)借助ChatGPT作出了一份关于孤独症患者免于支付治疗费用而获得医疗服务的法庭裁决[5]。
其次,针对相似判例自动形成判决书等法律文书也是生成式人工智能应用司法的优势所在。生成式人工智能通过对司法数据库同类型判例的深度学习后,结合输入案件事实数据,自主形成判决书。法官对生成式人工智能形成的文书进行修改便可完成法律文书的写作,从而提高法官写作文书的效率,缓解当前“案多人少”的问题。现如今,随着我国智慧法院的建设,人工智能已经被广泛地应用于起诉立案、证据交换、审前程序、庭审、送达、法律适用、执行等环节[6],例如,上海刑事案件智能辅助办案系统(又称206系统)支持“判决书”“裁定书”“调解书”“决定书”等法律文书的在线制作,并提供相应模板;还有北京市高级人民法院“睿法官”智能研判系统等多种类型的司法人工智能系统面世。
2.2 促进同案同判
同案同判是司法正义的一项重要原则,也是普通民众衡量司法公正性的关键标准之一。同案同判是指在对同一类型或同一构成要件的案件进行审判时,法官应保持判决结果无明显差异。
生成式人工智能凭借其少样本、零样本的学习能力,能够根据之前相同或者相似的判例形成“人工智能判决”,从而起到辅助法官审判的作用。由于法律语言具有一定的模糊性,不同的法官可能会因个人经验和实践背景对同一法律条文产生不同的理解,导致在适用法律和价值判断上存在一定的分歧,甚至出现同案不同判的情况。而生成式人工智能通过对司法数据库中的相同或相似样本进行分析,给出对判决结果的预测和评估。当法官的自由心证结果与预测结果偏差过大时,生成式人工智能可以起到提醒法官的作用,从而在一定程度上对提高司法裁判质量,对实现同案同判目标起到推动作用,这也有助于避免法官在高强度的审判工作中出现失误。
2.3 推动司法裁判发展
关于“人工智能法官”的讨论由来已久。生成式人工智能凭借其深度学习能力、语言分析能力以及文字生成能力让人工智能审判成为可能。
第一,生成式人工智能在司法领域的应用促进了司法裁判权的分配。在中国特色社会主义法治体系中,裁判权由法官独占仍是诉讼的基本原则,然而生成式人工智能的介入很可能改变此种现实。例如,在法官使用生成式人工智能辅助书写法律文书的场景之下,法官通过使用生成式人工智能形成的“预判决”中的部分或者全部内容,最终形成了裁判结论。法官引用生成式人工智能形成的“预判决”这一行为一定程度上也促使了生成式人工智能作为裁判者参与了司法裁判过程。在此类案件中,生成式人工智能对于案件的判决有着一定程度的决定权,甚至可以说已经获得了一部分裁判权。尽管短期内生成式人工智能因受制于技术不成熟和司法伦理问题而不能作为拥有裁判权的主体,但从提高诉讼效率、降低错案概率等方面考虑,未来生成式人工智能享有裁判权很有可能变成事实。
第二,生成式人工智能促进裁判说理方式发生改变。生成式人工智能对于海量司法案件的深度学习和语言分析帮助法官从之前的判例中提取有用的信息,从而法官针对其所作出的判决进行说理。例如,2023年1月,美国哥伦比亚法官在裁判书中的说理部分引用了法官本人与ChatGPT的对话,并以此作为了其裁判的依据[7]。这种新的裁判依据和说理方式的引入,使得法官可以在某些专业领域借助生成式人工智能的帮助提升裁判的专业度,避免因为专业性知识的缺失而导致裁判的不公正。
3 生成式人工智能司法应用的风险
3.1 生成式人工智能有违司法裁判公正公开原则
3.1.1 数据歧视有违司法公正原则
生成式人工智能的运行机制是通过对先前的司法判例进行深度学习从而作出预测性的判断[8]。然而,其在学习先前裁判经验的过程中,也可能会学习到其中的价值偏见,出现“偏见进,偏见出”的情况[9]。例如,智能语音助手对于不同口音或语速的用户存在不同的识别率,对于一些特定群体如女性、少数族裔等的识别率可能较低。另外,一些招聘平台也被发现存在数据歧视的问题,即某些特定职位或公司的招聘广告的展示结果会比其他职位或公司更好,这也可能导致不公平的结果。展示结果指的是招聘广告在招聘平台上的展示效果,包括展示的频率、位置、曝光量等。在存在数据歧视的情况下,某些特定的职位或公司的招聘广告的展示效果会比其他职位或公司更好,这可能导致一些更优秀的求职者没有看到这些招聘广告,从而错失了机会,造成不公平的结果。可见,生成式人工智能算法基于数据的预测并不能完全保障司法裁判的公正性[10],反而有可能造成特定群体遭受不公平对待。
虽然生成式人工智能可以在一定程度上减少法官自身的主观偏见对裁判结果的影响,但是其数据本身存在的“天然缺陷”也存在导致裁判有失公正的风险。在司法人工智能高效运行的情况下,这些隐藏在数据库中的“算法歧视”有可能被运用到司法裁判中,进而恶化司法领域业已存在的不平等现象,对现代社会的司法公正价值形成挑战。
3.1.2 “算法黑箱”有违司法公开原则
生成式人工智能因具有深度学习的能力,其算法与逻辑会随着其预训练数据的改变而改变,从而能够更好地辅助司法。但算法逻辑的改变,会让人无法把握算法的运行规律。底层算法的保密和算法逻辑的改变这两大因素的叠加,导致生成式人工智能在应用过程中存在着无法避免的“算法黑箱”问题,有违司法公开原则。
首先,底层算法的保密。基于技术保密和商业秘密保护等的要求,生成式人工智能的算法具有封闭性和秘密性。在司法应用场景中,若算法编写公司或机构为获取某些商业利益或不正当利益,通过秘密封闭的算法在不为人知的情况下刻意影响裁判的结论,那么司法的公平与公正就无法得到保证。例如,在Loomis v.Wisconsin一案中,法院在量刑环节使用了COMPAS工具对Loomis的社会危险性进行评估。受制于COMPAS专利方面的保密性要求而不得公开该人工智能算法,Loomis质疑COMPAS工具的准确性和科学性而提起诉讼[11]。在我国,司法人工智能系统一般是由司法机关外包给人工智能公司进行建构,其算法本身就受知识产权的保护,公司基于商业利益的考虑也更倾向于对算法进行保密。
其次,算法逻辑的改变。生成式人工智能算法逻辑通常通过学习大量的数据来训练,当输入信息改变时,算法逻辑会对新的输入信息进行学习,并更新其内部表示。这种改变可能会导致生成式人工智能产生不准确的结果,同时当前的算法逻辑也会因为发生改变而变得不为人知,这有违司法公开原则。例如,微软的 Tay 聊天机器人是一个基于文本生成的人工智能系统,其算法逻辑是基于循环神经网络(RNN)和长短期记忆(LSTM)网络等深度学习模型进行训练的。然而,在 Tay 发布后不久,一些恶意用户通过输入恶意指令和关键词,成功地诱导 Tay 的算法逻辑发生改变,生成了虚假信息和性别歧视等不良言论,微软也不得不紧急下架 Tay 并对其进行改进。
3.2 生成式人工智能冲击现有司法制度
3.2.1 诱发司法责任归责风险
生成式人工智能可以自动分析和解释大量的案情与法律文本,辅助法官作出“预判决”,在一定程度上提高了法官的审判效率。但是生成式人工智能引入司法也会导致“去责任化”的趋势。如果出现错误裁判,按照常理来说,应当由法官承担相应的责任。但如果错误判决是因为生成式人工智能的辅助判决影响了法官的自由心证,那么生成式人工智能系统的开发者和法官之间司法责任的承担比例和方式将会难以明确。若由生成式人工智能系统的开发者单独承担,法官无须承担任何相关责任,这显然不合理;若由生成式人工智能系统的开发者与法官共同承担,在确定责任比例和大小的过程中会因为没有相关法律规制导致出现责任推诿的情况。这两种情况都将使得错案责任追究的规定因无法执行而被架空,也使得司法责任制保证法官尽职勤勉、预防错案的目标难以实现[12]。
3.2.2 法官主体性地位受到挑战
第一,生成式人工智能可能会对司法公信力产生挑战。首先,生成式人工智能在司法审判中缺乏主观能动性。虽然生成式人工智能相比法官来说有着更严密的论证过程和更加精准、专业的知识储备,但它始终无法依托人类情感、政治因素和内在法理去对案件的事实与价值作出精准的判断。因此,其作出的“预判决”往往无法获得公众的认同。其次,司法公信力来源于公众对法官和公权力的信任。当法官和公权力被弱化,司法判决很有可能会因为人工智能的过度使用而遭遇信任危机。再次,生成式人工智能在司法审判中缺乏灵活性。在司法大众化的今天,社会公众的道德观念不断渗透到司法活动中,面对一些引发较大舆情的敏感案件,法官的司法推理也会愈发复杂。针对一些疑难案件,法官审理时需考虑政治与社会因素,往往形成的判决都是创造性的判决,并不是生成式人工智能所能完成的。生成式人工智能只能基于现有的数据和既定的算法生成判决,缺乏价值观导向和社会价值判断,难以获得人民群众的认可,从而可能导致司法公信力的缺失。
第二,生成式人工智能过度干预司法可能导致法官的自由裁量权受限。例如,江苏省苏州市中级人民法院研发了“法信”智能辅助办案系统,该系统能够根据案件信息自动生成裁判文书,辅助法官快速完成案件审理;浙江省高级人民法院的“凤凰金融智审”系统实现了无人工的智能审判流程。此外,在辅助量刑、类案推送等领域,生成式人工智能也存在干预法官自由裁量权的风险。如果法官形成的自由心证和判决与生成式人工智能的“预判决”存在较大差异,而法官坚持自己的决策并作出判决时,可能需要承担更多的论证说理责任。在这种情况下,法官可能会为降低风险而选择妥协,导致其丧失依据个人自由意志进行判断的权利。
3.3 生成式人工智能的自限性缺陷无法突破
3.3.1 生成信息的不稳定性
生成式人工智能在面对相同问题时,可能会产生不一致的回答。这是因为生成式人工智能的结果是结合其预训练库的数据、输入问题的语序、语言逻辑等多重因素共同作用,通过其算法生成的。当法官在生成式人工智能系统中输入的问题语序、语言逻辑发生变化时,其生成的“预判决”也可能因此而发生改变,这种结果的不稳定性与司法判决的严谨性、公正性背道而驰。
3.3.2 数据质量不高
生成式人工智能的特点决定了其并不能像人类一样识别信息的真假,很可能将网络上的虚假信息纳入其预训练的数据库,这会导致其生成的结果受到虚假信息的干扰而真实性存疑。2023年国家互联网信息办公室等七部门联合发布的《生成式人工智能服务管理暂行办法》中就强调了训练数据的真实性问题。
在保证数据真实性的基础上,司法数据的内容质量也至关重要。从中国裁判文书网公布的司法数据来看,由于公布裁判文书的具体标准不统一,一些法院对于裁判文书的信息片面公布、选择性公布的情况愈发增多。这将导致导入数据库的司法数据缺乏裁判说理或是案件关键事实部分,从而影响人工智能的计算,导致输出的结果不准确,失去辅助裁判意义。
4 生成式人工智能司法应用的路径优化
4.1 确保算法的公开公正,建立算法审查机制
算法作为生成式人工智能的核心,其存在的“算法黑箱”和“算法歧视”问题直接影响了生成式人工智能所生成结果的公正性、公开性和真实性。根据现有的科技成果和司法实际,笔者认为可以从以下几个方面去解决此问题:
第一,提高算法的透明性从而保证司法公开。“算法黑箱”所导致的信息不对称会将一些重要法律权利的意义消弭[13],也会导致司法的公开性无法得到保证。为此,可以要求算法编写者向司法机关开放源代码,以便对代码进行检验,防止可能存在某些歧视或其他非法利益。同时,算法编写者也应当对算法的运行过程进行解释,以减少未知性对司法带来的威胁。然而,算法的完全公开仍然是一种比较理想的状态,涉及知识产权保护和商业利益。公布源代码等同将算法开发者的智慧成果免费共享,对算法开发者本身可能产生不利影响。因此,司法机关可以选择自主设计算法,以司法权威为背书,确保算法的公开与公正。
第二,建立算法的审查制度保证司法公正。一方面,应当由相关的算法技术人员与司法人员相互配合,通过数据测试来检测算法是否存在歧视和偏见。同时,邀请具有算法技术背景的社会公众参与算法的审查。另一方面,要保障算法预训练数据的公正性。算法最终的输出结果受其输入数据的影响,因此预训练数据库的建立应当由相关的司法从业人员审核通过。此外,对于数据的真实性也要进行审查,以确保数据的可靠性。
4.2 明确生成式人工智能参与司法的“辅助”定位
生成式人工智能作为辅助性工具参与司法,现阶段已经得到了广泛的应用。随着科技的发展和智慧司法的建设,未来科技与司法的融合将更加密切。司法不可能纯粹依靠科技,司法离不开人的价值判断,过分依赖技术也会动摇司法的根基[14]。因此,必须明确法官的主体地位和生成式人工智能的辅助性工具地位,以技术辅助司法,以技术维护正义。
第一,确立法官的主体地位。案件的裁判需要理性与感性的共同投入,这也就使得人工智能永远无法取代法官成为审判的主体。一方面,要明确生成式人工智能的工具属性,其应用的最终目的是提高司法办公的效率和效果,促进司法的公正透明。在生成式人工智能的“预判决”与法官的自由心证结果不同时,应当以法官为准,使法官的自由裁量权得到充分的保障。另一方面,要深刻落实最高人民法院在2022年发布的《关于规范和加强人工智能司法应用的意见》,明确人工智能的辅助审判原则,坚持人工智能对审判工作的辅助性定位,人工智能辅助结果仅可作为审判工作或审判监督管理的参考,并强调无论技术发展到何种水平,人工智能都不得代替法官裁判,从而确保裁判职权始终由审判组织行使[15]。
第二,明确错案的司法责任承担。随着智慧司法机制的引进和使用,现实裁判过程中对于人工智能的使用也变得越来越频繁。为了避免技术成为法官推卸责任的“挡箭牌”,责任的明确就变得至关重要。最高人民法院发布的《关于规范和加强人工智能司法应用的意见》中明确了人工智能的辅助审判原则,那么错案的责任也应由法官承担。当法官向生成式人工智能进行案件咨询和评估时,法官更要牢牢掌握案件的裁判权力,仅把生成式人工智能作为一个工具使用。一旦发生错案,也应当由拥有裁判权的法官承担责任。
4.3 加强司法数据的管理机制
为了使生成式人工智能更好地发挥其作为辅助性工具的作用,确保司法数据的真实性和提高司法数据的质量至关重要。
第一,提高生成式人工智能算法的准确度。首先,在算法设计之初,应探索将法律推理和法律解析融入算法中的路径,在此基础上将因果关系、法律论证融入算法之中[16],并确保生成式人工智能对同一问题生成结果的同一性,针对生成结果不同的情况应对算法进行优化。其次,引入混合模型,即结合生成式模型和判别式模型,提高数据的稳定性和准确性。生成式模型可以生成与原始数据相似但不同的数据,提高数据的生成质量;而判别式模型可以对数据进行分类和判断,提高数据分类的准确性。引入混合模型,生成式模型和判别式模型可以相互补充,从而提高司法数据的稳定性和准确性,确保输出结果的同一性。
第二,扩展生成式人工智能预训练司法数据的储备,建立司法机关内部的数据库。近年来,裁判文书公开率急剧下降,这阻碍了生成式人工智能在司法领域的应用。依据2021年和2022年《中华人民共和国最高人民法院公报》公布的民事案件的一审审结数量,以及中国裁判文书网上已公开的2021年和2022年民事一审法律文书数量,民事一审法律文书的公开率从2021年的51.57%下降至2022年的27.18%,这给生成式人工智能应用于司法造成了现实上的障碍。司法机关应建立统一的司法大数据平台,努力提升相关案件数据的数量和完整度。一方面司法机关自行建立司法大数据平台有司法机关做背书,有利于数据安全的保障;另一方面司法机关建立大数据平台更有利于丰富数据收集的途径,消除各地区之间的信息壁垒,使司法数据的收集更加全面和充分,使得生成式人工智能生成的内容更加具有实践意义,不流于形式。
第三,确保虚假数据的消除规则。无论是为了确保生成式人工智能运算结果的准确性,还是解决“算法歧视”问题,消除虚假信息都是重中之重。一方面,要求入库的司法数据必须经过司法机关的严格审核和法律规制,确保错案、假案的相关信息不入库或者及时删除,避免相关数据影响司法人工智能的使用;另一方面,确保裁判文书中论证说理部分的真实性。如果裁判文书的论证说理部分与事实情况不符,当生成式人工智能基于此种虚假的论证说理部分进行深度学习,那么其最终产出的结果也会出现偏差[17],这就要求法官加强裁判文书中论证和说理的准确性,不得为了追求效率而只注重判决结果,以增加司法大数据的真实性。
5 结语
在生成式人工智能高速发展的时代,司法与科技的融合已然成了时代发展的趋势,应当以开放的态度接受和吸收这些新兴技术。从目前的研究来看,尽管生成式人工智能展现出了一定的应用于司法的价值,但尚不足以让其获得直接参与司法的资格,应坚持将其定位为司法裁判的辅助性工具,并明确司法裁判权的归属,优化算法逻辑、提高算法的透明度,消除虚假数据、提升司法数据质量。“身披法袍的正义”终究是人的正义,而非机器的正义[18]。在生成式人工智能作为辅助工具的前提下,未来应继续努力推进算法技术的进步,以法律规制其权利,实现司法人工智能服务于人民的目标,推动我国司法人工智能的发展。
注释:
①Loomis v.Wisconsin,881 N.W.2d 749 (2016).