人工智能背景下法律推理模型建立探究
2024-04-13张舟刘文清
张舟 刘文清
(江苏师范大学 江苏 徐州 221116)
随着人工智能技术的迅猛发展,其在各领域的应用也日益广泛,在计算机视觉、自然语言处理、语音识别等领域取得了重要突破。法律领域作为检验人工智能理论价值与技术性能的有效领域之一,也自然而然地接入了人工智能技术。智慧法院、智慧检务建设等国家重大工程,便是法律人工智能的落地应用之一。我国还探索建立了一些法律人工智能模型,如:幂律智能和智谱AI 联合推出的基于中文千亿大模型的法律垂直大模型PowerLawGLM;清华大学自然语言处理实验室开发的OpenCLaP、LawFormer 等。这些垂直模型一定程度上规避了通用大模型应用于法律领域时由于专业知识及数据的欠缺而出现的法律知识错误、专业引用偏差等问题。此外,大数据和人工智能技术已经被广泛应用在自动定罪量刑、法律信息检索、法律依据推荐、类案推送、自动法律问答等若干领域,协助解决技术含量低且重复率高的工作,提升了法律实践的质量和效率。法律推理是由已知的法律命题或事实命题推导出未知法律命题(结论)的过程[1],是法律人工智能的核心论题,探索建立法律推理的模型有利于进一步发展法律人工智能。
一、法律人工智能的应用现状及挑战
“人工智能法律系统的发展源于两种动力:一是法律实践自身的要求。二是人工智能发展的需要。[2]”法律实践需要人工智能,人工智能技术的价值体现为提升法律实践的质效,法律实践对人工智能的渴求成为驱动两者融合的源动力。
(一)应用现状分析
现阶段人工智能在法律领域的应用多为辅助司法裁判、预测刑期及类案检索等辅助性工作,虽在一定程度上提升了法律任务执行的质效,缓解了“案多人少”的窘境,但仍无法步入司法审判核心领域。总体而言,法律人工智能的技术机理是由感知智能走向认知智能,再形成法律决策的过程。感知智能属于初阶智能,主要包含语音识别与合成、图像识别和视频智能化处理技术,意在模拟人类的语言表达、视觉和听觉感知能力。感知智能在法律领域的应用场景主要包括:庭审语音的转录,图像证据识别、庭审视频自动巡查等[3]。如在“北京菲林律师事务所诉北京百度网讯科技有限公司侵害作品信息网络传播权案”中,法院参考使用了人工智能技术来分析涉案作品的独创性等问题从而做出判决。认知智能是人工智能的高级阶段,旨在模拟人类的高阶智能,主要包括:自然语言表达、语义理解、知识表达、逻辑推理和自主学习等能力。认知智能在法律领域的应用主要是在法律文本分析、法律知识表达、法律推理和法律论证,以及多种依赖法律知识决策的多样化任务[3]。如北京市高级人民法院推出的“睿法官”人工智能系统,可以通过自然语言处理技术对大量的裁判文书进行分析和处理,帮助法官更快地找到相关的法律条款和案例,提高工作效率,但其处理结果仅能作为最终裁判的参考。
(二)应用挑战分析
法律人工智能的发展史经历了三次波峰,第一次波峰是以法律推理刻画法律人的理性思维和逻辑推理,第二次波峰是以法律专家系统支持法律任务决策,第三次波峰是当前由法律大数据所驱动的人工智能的全面应用[4]。整个发展过程不只是将大量的法律文本信息化、数据化,而是通过多轮多次高质量法律文本数据清洗及模型增量训练形成垂直应用模型,为法律实践提供所需的解决问题的理论、技术与方法。
尽管人工智能技术在法律领域具有广泛的应用前景,但在实际应用过程中仍面临挑战,主要包括以下几个方面:一是数据安全与隐私保护问题:人工智能技术的开发与应用中涉及到的海量数据的质量与隐私保护问题成为制约其发展的重要因素;二是法律法规滞后问题:随着人工智能技术的发展,可能出现一些新的法律法规无法适应的现象,这就需要及时关注并跟进相关法律法规的发展动态;三是技术成熟度与可靠性问题:目前,人工智能技术在法律领域的应用尚未完全成熟,部分技术可能存在误判的风险;四是人工智能伦理道德问题:随着人工智能技术的广泛应用,如何在保障技术发展的同时兼顾伦理道德问题成为亟待解决的问题。
二、基于人工智能的法律推理模型构建方法
随着人工智能技术的发展,现阶段人工智能的核心问题可归结为实现机器的自动推理[5],相应的,法律人工智能的核心问题也转变为自动法律推理的实现问题。从法律人工智能发展史来看,法律人工智能领域中自动法律推理建模有两种经典路径:一是规则推理路径;二是案例推理路径。然而,大数据时代的到来却催生了第三种推理建模路径,即大数据推理建模路径[6]。无论法律推理建模路径如何发展选择,其最终目的都是使人工智能可以通过分析大量的法律数据来识别相关的案例和法规,并将其应用于当前的案件中。在人工智能背景下建立法律推理模型需要充分了解现有的法律法规体系,搜集相关案例和数据,选择合适的算法和技术,并对模型的性能进行评估。人工智能法律推理模型作为一种垂直大模型,其构建方法同通用大模型构建的基础方法基本相同,但又有其独特之处。在建立法律推理模型时,要在确定模型目标与应用场景的基础上收集整理用于训练模型的相关法律数据,选择合适的算法和技术并对模型进行评估和优化。通过数据预处理、模型训练优化、模型选择应用等步骤,从基座层、对话层、应用层三层结构入手进行开发建构。
(一)数据预处理
人工智能法律推理模型构建中的数据预处理包括数据清洗、特征选择、数据融合等步骤,以提高数据质量和适用性。具体处理步骤如下:首先是数据清洗,指发现并纠正数据文件中可识别的错误,包括检查数据一致性,处理无效值和缺失值等,通过这一步骤以达成去除重复数据、缺失数据、异常数据的目的。其次是数据整合,即将不同数据源的数据收集整理后加载入新的数据源提供统一数据视图,提高数据质量和完整性,提升数据管理效率和利用率,从准确和相关的数据中更快获取有意义的见解。再次是数据转换,即将文本数据转化为可供模型输入的向量表示。数据转换的目的和方法包括数据类型转换、数据语义转换、数据粒度转换、图标或数据拆分、行列转换、数据离散化、提炼新字段、属性构造、数据压缩等。最后是数据标注,即对数据进行标准化标注的过程,用于提高数据的可用性和可比较性,以便计算机识别。在对大量的法律法规、案例资料等法律文本数据化、信息化的基础上,通过多轮高质量的数据清洗与标注整合,提高人工智能模型对法律文本的敏感度,同时确保模型的准确性和时效性。
(二)模型选择
要根据具体应用场景和需求,选择合适的人工智能模型,如基于知识图谱的法律推理模型、基于深度学习的法律推理模型等。法律人工智能推理模型的选择需要考虑多个因素,如模型的可解释性、模型的准确性、模型的效率等。一些研究表明,基于规则的推理模型在法律领域中表现出色,但是这种方法可能会导致模型过于复杂,难以解释和修改。另一种方法是使用机器学习技术,例如决策树、支持向量机等来训练模型。这种方法可以提高模型的准确性和效率,但是需要更多的数据和计算资源。在建立法律推理模型时,还需要选择合适的算法和技术并关注这些算法和技术在不同领域的应用效果,以便选择最适合的法律推理模型。
(三)模型训练与优化
通过机器学习算法对模型进行训练和优化,以提高模型的准确性和可靠性。包括模型参数调整、模型评估与验证等步骤。在训练阶段,可将法律数据大规模注入模型,并对这些知识进行特殊处理和加强,以确保模型在后续推理中具备法律先验知识并保持稳健。在训练好法律推理模型后,需要对模型进行评估和验证,确保其符合预期的性能要求。可以通过与专业律师的对比测试、实际案例的预测结果等方式对其进行性能评估。若模型性能不满足预期,则需对模型进行进一步调整和优化。
(四)模型应用
模型应用即将训练好的模型应用于实际案例中,尝试进行案例分析、法律问答与审判辅助等实践操作,并根据实际应用效果对模型进一步调整优化。法律推理模型的应用场景有其特殊性,对结果的准确性、可解释性要求较高,直接使用大模型来端到端生成回答会面临很多效果问题,例如引用失效法律、杜撰法条案例等“人工智能幻觉”现象。因此,为保证人工智能法律推理模型的应用效果,需要进行人工评测,法律从业者从专业角度对法律推理模型所生成的结果进行全方位、多维度的测评。评测的维度包括:对问题点的把握是否准确、对问题所含信息的分析是否全面准确、答案的操作可行性强弱、答案的法律专业性程度、法律依据有无,以及准确性全面性程度。
综上所述,法律推理模型的开发者应当设计一系列通用型及场景特定型的工程化优化方案,通过阅读投喂大量法律文本进行数据预处理的基座层、利用大量的法律领域对话数据进行模型选择训练与监督微调的对话层以及保证输出结果质量和可靠性的应用层这三层构建结构出发,提升大模型对法律专业文本的理解、推理与生成能力。
三、基于人工智能的法律推理模型应用前景及风险分析
从法律人工智能应用现状来看,其主要适用于证据搜集、法律文书撰写等司法辅助领域,从整体趋势上看,信息归类、法律检索等耗时长、重复性高的工作将完全由其代替。国内知名的大成律师事务所在2016 年就创建了自己的人工智能实验室Nextlaw Labs,并与IBM 公司的认知技术平台沃森(Watson)合作开发了法律人工智能产品ROSS[7]。使用法律人工智能具有显而易见的优势:通过自动化处理大量法律文书和案例,帮助法律从业者更快地找到相关信息,提高工作效率;利用人工智能技术,可以更准确地分析案件,提高法律服务质量;部分工作的自动化处理能够减少从业人员工作量从而降低法律服务成本。
(一)法律推理模型的应用前景
人工智能能否得到飞跃性发展,认知智能的突破是关键。认知智能可以帮助机器跨越模态理解数据,学习到最接近人脑认知的“一般表达”,获得类似人脑的多模感知能力[8]。人工智能法律推理要求将整个法律推理的过程都交给人工智能去处理,在建立全样本数据库的基础上通过算法的运行自动获得裁判结果[9]。但目前人工智能技术的发展水平显然无法完全模拟法律人的思维过程,法律推理模型对法律文本的处理分析结果仅能作为司法裁判过程中的辅助性参考,需要在“人机交互”的运行模式下进一步探索发展。随着人工智能技术的不断突破发展,法律推理模型具有广阔的应用前景,其将在基于大数据和自然语言处理的法律文书智能化处理、基于模型的法律信息检索、面向电子取证和其他应用的机器学习与数据挖掘以及多智能体系统中的法律推理等方面发挥重要作用。
基于大数据的法律文书智能化处理能够自动化处理大量法律文书,从海量数据中筛选提取出个案有关的信息,在节省人力与时间成本的同时,提高法规检索及类案查找的准确性与周严性,从而提升法律服务效率、降低法律风险。基于人工智能的法律推理模型通过机器学习和自然语言处理技术,对输入的数据进行分析和预测,挖掘出数据背后的规律和趋势,利于对类案进行总结归纳,实现法律推理模型的案例推理路径,从而提高判决的准确性,更好地促进司法公正、保障人权。法律推理模型还可以通过可视化技术将复杂的法律概念转化为简单易懂的形式,提高法律法规的可解释性,推动法律科技的发展,助力法治建设。此外,人工智能法律推理不同于传统法律推理,传统法律推理是在对法律规则及其文本解析的基础上通过人类思维活动将价值判断融入推理过程中,得出的裁判结果始终充斥法官个人主观利益衡量的影子。而人工智能法律推理则更注重通过对同案判决的深度学习自主挖掘法律外因素,以案例推理作为规则推理的补充,辅之以大数据推理吸纳法律文本外的裁判规则作为演绎的基础,能够为法官的司法裁判、律师等法律从业者对裁判结果的预测提供良好的参照。
(二)风险分析及应对措施
尽管基于人工智能的法律推理模型具有广阔的发展前景,但在实际应用过程中仍需关注以下风险并提出相应的应对措施:
一是技术风险,包括数据安全、隐私保护和算法公正性等方面。法律推理模型需要大量的法律数据进行训练,如何确保这些数据的安全及相关隐私权益是一个重要问题。首先要确保数据来源的安全性,除公开的数据资料外,涉及个人隐私、商业秘密的法律文本在获取时应同权利人签订保密协议,明确数据使用范围和保密责任。其次在数据处理时,应对收集到的数据进行去标识化处理,进一步保护所涉权益人的隐私,同时建立完善的数据备份和恢复机制,以防止数据丢失或泄露。最后应该明确规定数据使用范围和目的,严格遵守相关法律法规,建立完善的数据安全管理制度,确保数据在存储、传输和使用过程中的安全。此外,为了保证算法公正性,防止对某些特定群体产生不公平的影响,算法设计应该遵循平等机会、非歧视性、透明度等公平性原则,并建立完善的监督机制,以确保其公正性。
二是法律风险,包括法律法规滞后、法律适用准确度、法律责任界定等方面。一方面,为解决法律法规滞后同社会发展与技术更新之间的矛盾,需要模型开发者及时跟进相关法律法规的发展动态,推动法律法规的更新与完善以适应新技术、新社会现象。另一方面,技术发展也存在局限性,现有技术的局限同法律适用准确度之间存在矛盾,要化解这一矛盾必须突破技术发展局限,在充分发展人工智能技术的基础上寻求提高法律人工智能法律适用准确度的破局之策。此外,当法律推理模型出现错误时,如何界定其法律责任是一个复杂的问题。
三是其他风险,主要包括伦理道德风险与人工智能技术特性固有的风险,如人工智能工具属性与人工智能模型的可解释性问题。伦理道德风险主要体现为设计风险、算法风险和应用场景风险,具体而言开发者的个人道德准则、“算法黑箱”以及法律领域具体应用的道德问题都可能成为法律推理模型的应用风险。此外还需进一步研究以寻求人工智能工具属性的单一功能与法官办案充分运用法、情与理的矛盾之解决良策。
四、结语
目前的法律人工智能系统离真正意义上的“智能”仍有不小的距离,还属于“技术辅助”的范畴。由于技术条件的限制,人工智能还不能完全模拟法律从业者在面对具体个案时的全部思维过程,法律人工智能背景下的法律推理也受到算法和逻辑的掣肘,但其作为一种辅助性工具在司法裁判领域的应用,也具有不可小觑的价值与功用。应当充分重视法律推理模型的重要性,在分析其技术现状的基础上尝试性地提出模型构建方法并分析其应用前景与风险,力图以法律推理模型实现更加智能化的法律服务,推动审判体系和审判能力现代化。