智能化法律信息检索研究综述
2024-01-26李建平韩建军杨雅冰
李建平 韩建军 杨雅冰
摘要:人工智能已经影响到社会的各方面,成为生产力发展的重要推动力量。在法律领域,人工智能也逐渐发挥出重要作用。将人工智能技术运用于法律领域有助于满足社会对高质量法律服务的需要。文章梳理了国内外人工智能技术在法律信息检索的研究进展情况,并分析了智能化法律信息检索的发展趋势。指出建设工程领域的法律纠纷具有显著的技术特征,法律关系较为复杂,在这样的垂直领域,结合了知识图谱的人工智能技术将有助于建立更加客观、公正的类案检索系统,从而促进法律的统一适用。
关键词:人工智能;法律;类案检索;建设工程
中图分类号:TP391.1 文献标识码:A
文章编号:1009-3044(2023)35-0016-04
开放科学(资源服务)标识码(OSID)
0 引言
随着科技的发展,人工智能已经渗透到生产、生活的各方面,成为生产力发展的重要推动力量。在法律领域,人工智能也逐渐发挥出重要作用,国务院于2017年7月发布《新一代人工智能发展规划》提出要“建设集审判、人员、数据应用、司法公开和动态监控于一体的智慧法庭数据平台,促进人工智能在证据收集、案例分析、法律文件阅读与分析中的应用,实现法院审判体系和审判能力智能化。” 2021年3月,十三届全国人大四次会议通过的《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》明确提出要进行加强智慧法院建设。2021年12月,国家发改委印发《“十四五”推进国家政务信息化规划》,提出要构建以审判为中心的业务协同办理平台,提升“智慧法院”“智慧检务”“智慧司法”应用水平和协同能力,提高审判执行、多元解纷、司法公开、法律监督、刑罚执行、法律服务、协同办案的智能化水平。
人工智能应用于法律领域成为学科交叉融合的新热点,并且产生了将数量化方法及计算机应用于法律领域的新学科,即计算法学[1]。现阶段,我国司法领域的人工智能应用主要包括两方面:文书制作电子化及司法信息数据化[2]。2017年4月20日,最高人民法院印发《最高人民法院关于加快建设智慧法院的意见》,2018年1月3日,最高人民检察院印发的《最高人民检察院关于深化智慧检务建设的意见》,上述文件成为法检系统智能司法平台建设工作的指引。由此可見,随着我国人工智能产业的不断发展,人工智能与法律行业将更加深入地结合,在提高工作效率、维护社会公平、促进经济发展等方面发挥显著的作用。
另一方面,为统一法律适用,提升司法公信力,类案检索在我国司法实践中发挥出越来越重要的作用。2020年7月31日开始实施的《最高人民法院关于统一法律适用加强类案检索的指导意见(试行)》将类案检索定位为具有中国特色的、成文法体系下的具体制度,旨在实现法律的统一适用。2021年12月,《最高人民法院统一法律适用工作实施办法》开始实施,进一步规定了类案检索的适用情形和检索范围。
目前的案例检索系统多以标签的匹配进行类案搜索,匹配准确度和推送的案例质量尚不能满足实际要求,改进类案检索技术需要努力思考如何将人工智能领域先进的算法与法律行业的特性结合起来[2-4]。
1 智能化法律检索的国内外发展现状
法律的信息检索走向智能化是必然发展趋势[1]。国际人工智能与法律协会(IAAIL) 在1991年的成立,标志着法律人工智能逐步走向成熟,法律人工智能包括了概念上的或者基于模型的法律信息检索等十大主要议题[5]。
根据用户的请求,自动提取法律数据库信息并进行判例信息检索是对于正确处理各类案件具有重要意义[6]。基于人工智能的具有自然语言处理能力的检索系统不但能够提高律师的工作效率,而且可以极大地降低司法成本[7]。智能化、自动化的法律检索将成为“人工智能+法律”的重要趋势[8]。法律信息智能检索可以理解待决案案情并自动识别检索信息,从而能够较为精确地检索到匹配信息。整个工作全部自动化,可以提高法律工作者的工作效率。同时,精准高效的法律信息检索可以推动法律文件自动化分析、生成及基于判例的案件预测,给法律行业带来更深刻、更彻底的变革。
为实现高效精准的法律信息检索,传统的检索方式已经不能满足需要,随着信息技术的发展,诸多先进技术手段被应用于法律信息智能检索,主要进展包括:
1.1 相关性
在检索过程中,输入信息与输出信息的相关性对于判例信息检索具有关键作用,Opijnen等[9]提出了一种用于法律案例检索的概念框架,该框架采用了一般信息检索科学中使用的关联维度类型学,并结合了法律信息检索的特点,可以按照信息的相关性进行检索,从而快速准确地查找到所需的案例信息。
1.2 本体论
人工智能领域,本体就是一个概念化的过程,也即是描述世界上的对象、概念、其他实体(或实体的一部分)以及它们之间的联系[10]。法律本体专注于法律概念及其关系的知识表示,法律本体包含用于表示法律概念和规则的信息[11]。Asunción等[12]提出基于本体的法律检索方法EgoIR,这种方法是在电子政务环境中使用法律本体论开发的。Cornoiu等[13]提出了一个法律信息检索模型,该模型利用法律本体的功能,采用从维基百科中提取的法律本体。而一个混合了Eurovoc同义词表模式本体和法律本体的标签的模型被用来丰富法律领域的信息检索能力[14]。Rodrigues [15]等人提出了沿特定维度对法律本体进行分类的方法,进而利用法律本体建立起更高效的信息检索模型。张妮等人[16]采用ICTCLAS汉语语义识别系统,以医疗纠纷中的精神损害赔偿为例,建立了法律案例本体检索模型。
1.3 自然语言处理技术
在信息检索发展的过程中,不断有学者将自然语言处理相应技术应用到检索研究中[17],自然语言处理技术可以使计算机理解人类语言,并自动提取关键信息,从而提高信息检索的效率和准确性。可以采用自然语言处理技术来提取概念和概念之间的关系,并用于构建法律信息检索的本体[18]。Merchant等人[19]使用一种称为潜在语义分析(LSA) 的自然语言处理技术来捕获单个文本中的概念,该技术可以用于获得类案检索的关键词。自然语言处理可提取案情关键词,经过相关词扩展后,采用LUCENE全文检索开源框架进行类案信息检索,从而可以实现由自然语言表述的案情对类案信息的精确检索[20]。文献[21]将词语向量化,采用机器学习方法进行文本分类,并根据法律判例数据库检索结果进行律师推荐。
ChatGPT等大模型能够根据口语化的关键词等信息检索类案,目前这类大模型的检索结果贴合度不高,有时会给出错误结果[22]。
1.4 机器学习方法
机器学习是人工智能的一个分支学科,可以模拟人类的学习过程,通过建立各种计算机学习模型,使计算机系统在一定程度上获得识别自然规律的能力。智能检索将机器学习这样一种新型的人工智能技术应用于信息检索系统从而提高其智能性[23]。文献[24]研究了利用排序支持向量机和卷积神经网络进行判例信息抽取及信息检索的方法。Sansone等人[25]分析了法律领域的最新人工智能方法,重点关注基于自然语言处理、机器学习和知识提取技术的法律信息检索系统。Chalkidis等人[26]研究了深度学习在法律分析中应用,包括文本分类、信息提取和信息检索,其中语义特征表示是深层学习在自然语言处理中成功应用的关键工具,该研究使用Word2vec模型将法律语料库进行向量化。国内方面,李兰君等人[27]提出利用层级注意力机制来改进孪生网络结构中的文档表示,提出一种引入文档内容压缩的两步骤文档相似度计算方法,并将该方法用于法律案例检索。
1.5 知识图谱
知识图谱是结构化的语义知识库,其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互关联, 构成网状的知识结构[28]。知识图谱是一种语义网络,是结构化的知识表示方式。近年来,机器学习及自然语言向量化技术被应用于知识图谱构建与推理[29]。Ercan等人[30]提出的文本检索方法中,给定一个知识图谱和一个文本语料库,检索给定一组事实的最相关的文本段落。Hanke等人[31]利用文本挖掘技术的潜力从法律文件中提取有价值的信息,将这些信息存储在图形数据库中,从而获得这些文档与系统用户之间的关系,从而实现法律文书检索。Xiong[32]利用知识图谱中的实体及其结构化语义,通过丰富的文本表示、定制的语义结构、复杂的排序模型和神经网络,对文本检索进行了改进。秦永彬等人[33]提出了基于知识图谱的司法数据融合方法,构建了“智慧法院”应用中的司法大数据知识图谱。高翔[34]提出了在民事司法中法律知识图谱构建的实现路径。乔钢柱等人[35]提出了基于本体的盗窃案件法律文书知识图谱构建方法, 并且设计自定义推理规则, 实现了盗窃案件法律文书知识图谱在相似量刑类案推送测试功能。
目前,国内外有商业机构或司法部门推出了若干法律信息智能检索工具。基于 IBM 的Watson 系统的智能检索工具ROSS利用自然语言处理和机器学习技术可以向律师呈现最相关、最有价值的法律回答及判例[8];LUIMA法律检索系统包括了搜索引擎和案例数据库,以词语匹配进行案例搜索,并根据案例的相似度进行案例重排,以实现相关案例推送[36];LexisNexis则采用了四层元数据进行法律案例文本的语义注解,以实现更加智能的判例检索[36]。在国内,也出现了“法小陶”“法狗狗”“阿尔法法官”“睿法官”“类型化案件智能审判平台”等法律智能系统[37]。
人工智能与法律的融合成为新的技术演化趋势。但是,法律服务的专业化成为社会发展的必然要求,提供高质量的法律服务不仅需要掌握法律知识和技能,还需要专业知识的支持。目前,尚缺乏针对专业领域的类案检索智能系统,面向特定领域的类案检索系统将为法律工作的智能化、专业化提供有力的技术支撑。
2 发展趋势
国内外研究人员在法律信息智能检索方面进行了一定探索,主要集中于对文本关键信息的提取并匹配数据库信息,以达到精确检索的目的。
人工智能方面,深度学习及预训练模型在自然语言处理中取得了良好的效果[38],可以为法律文本解析提供有力支持;另一方面,知识图谱在实体和关系的提取、数据存储、知识推理等方面逐渐成熟,而自然语言处理在自动化构建大规模知识图谱中发挥了重要作用[39],为知识图谱在多个行业的应用建立了基础。知识图谱在司法领域也得到了日益广泛的应用,采用人工智能技术从法律文本中提取信息并自动化构建知识图谱成为技术发展趋势[40-41]。同时,ChatGPT等生成式大模型可以辅助法律信息检索,从而提高检索效率和准确性[42]。
人工智能在法律领域的应用将经历四个阶段[37],即:感知智能阶段,主要包括语音、视觉及情感识别;認知智能阶段,指对知识图谱和自然语言处理的应用;计算智能阶段,要采用高性能计算机处理大数据;决策智能阶段,即使用优化算法求解现实问题的数学模型。
法律人工智能将成为把知识图谱与深度学习相结合建立对法律信息进行处理的技术[43]。法律是一个高度专业化的领域,要实现从自然语言描述的案情到相关案例的精准匹配,除了高质量的结构化数据及先进的算法,还需要专业知识和专家经验的帮助。将机器学习技术用于法律案例信息检索,将有助于提高检索系统的性能[36]。知识图谱作为一种知识表达方式,在存储及查询专业知识方面具有优势,国内外尚未形成完整的基于垂直领域知识图谱的类案检索体系。
另一方面,用于类案检索的专业知识图谱对数据、模型的颗粒化程度要求较高,模型的精细度,数据量及对客观世界描述的详细程度,都会影响知识图谱的效果[43]。法律涵盖了社会生活的方方面面,而知识图谱的覆盖面与详细程度成反比关系,根据专业的特征,在某一领域构建高质量的知识图谱,利用自然语言处理和机器学习算法是实现法律信息精确高效检索的有效途径。
3 人工智能在建设工程领域法律纠纷中的应用
近年来, 我国基本建设投资持续高速增长,而建设工程领域法律纠纷也呈现逐年增加的趋势。根据中国裁判文书网数据统计,2010~2020年案由为建设工程合同纠纷的一审案件数量见图1:
工程建设项目的业主和承包人等利益相关者之间的法律关系比较复杂, 针对各方利益冲突引发的纠纷建立科学合理的解决机制,这一问题日益引起法学界、工程管理学界和监管部门的关注。当纷争超出当事方的掌控时,在法律框架下采取和解、争端评审、调解及仲裁与诉讼等方式是必然的选择[44]。
建设工程类纠纷往往具有鲜明的技术特征,法律关系较为复杂,对建设工程法律争端进行分析,不仅需要较高的法律素养,同时需要对建筑专业知识较为了解,法律服务专业化已经成为建设行业对法律共同体的迫切要求。将人工智能技术运用于工程法律领域可以有效提高类案检索的质量和效率,有助于满足社会对高质量法律服务的需要。
以知识图谱作为专业知识的存储载体,综合运用自然语言处理、深度學习、语义搜索等技术手段,使计算机更好地理解自然语言描述的案情,实现精准高效的类案检索将为解决建设工程法律纠纷提供较大便利。
4 结束语
法律信息检索在法律事务中占据重要地位,同时,法律人工智能将对司法领域产生深刻的影响,随着自然语言处理技术的不断发展,更加智能化的法律信息检索系统可以提高办案效率,降低司法成本,在维护社会公平正义、普及法律知识、理性预测法律后果等方面具有积极意义。
另外,通用的法律信息检索系统在建设工程这样的具有较强专业性的垂直领域难以很好地理解专业词汇,缺乏联想和推理能力,不能够很好地发挥作用, 开发具备专业知识的法律信息检索系统将成为法律人工智能的一个新方向。
参考文献:
[1] 张妮,蒲亦非.计算法学:一门新兴学科交叉分支[J].四川大学学报(自然科学版),2019,56(6)1187-1192
[2] 翁晓斌,吴宇琴.人工智能司法运用的技术效应与法理审思[J].自然辩证法通讯,2022,44(8):98-104.
[3] 左卫民.如何通过人工智能实现类案类判[J].中国法律评论,2018(2):25-32.
[4] 高尚.司法类案的判断标准及其运用[J].法律科学(西北政法大学学报),2020,38(1):24-35.
[5] 张清,张蓉.“人工智能+法律” 发展的两个面向[J].求是学刊,2018,45(4):97-106.
[6] Prakken H.On the problem of making autonomous vehicles conform to traffic law[J].Artificial Intelligence and Law,2017,25(3):341-363.
[7] Yang M X,Jiang Y Z,Tian Y,et al.Impact of big data on China smart river basin[C]//2014 7th International Conference on Intelligent Computation Technology and Automation.October 25-26,2014,Changsha,China.IEEE,2015:304-307.
[8] 曹建峰.“人工智能+法律” 十大趋势[J].机器人产业,2017(5):86-96.
[9] van Opijnen M,Santos C.On the concept of relevance in legal information retrieval[J].Artificial Intelligence and Law,2017,25(1):65-87.
[10] 赵忠君.国外法律本体研究综述[J].情报科学,2012,30(1):149-154.
[11] 邱昭继.人工智能、法律解析与未来法律实践[J].政法论丛,2022(4):83-93.
[12] Gómez-Pérez A,Ortiz-Rodriguez F,Villazón-Terrazas B.Ontology-based legal information retrieval to improve the information access in e-government[C]//Proceedings of the 15th international conference on World Wide Web.Edinburgh Scotland.New York,NY,USA:ACM,2006.
[13] Cornoiu S,Valean H.Improving legal information retrieval using the Wikipedia knowledge base,legal ontology and the Eurovoc Thesaurus[C]//2015 19th International Conference on System Theory,Control and Computing (ICSTCC).October 14-16,2015,Cheile Gradistei,Romania.IEEE,2015:111-116.
[14] Cornoiu S,Valean H.New development for legal information retrieval using the Eurovoc Thesaurus and legal ontology[C]//2013 17th International Conference on System Theory,Control and Computing (ICSTCC).October 11-13,2013,Sinaia,Romania.IEEE,2013:152-155.
[15] de Oliveira Rodrigues C M,de Freitas F L G,Barreiros E F S,et al.Legal ontologies over time:a systematic mapping study[J].Expert Systems With Applications,2019,130:12-30.
[16] 张妮,杨遂全,蒲亦非.我国法律本体检索模型的研究[J].法律方法,2015(2):104-117.
[17] 丁志均,杨青,张会兵,等.基于非结构化文本检索模型综述[J].计算机应用研究,2017,34(6):1601-1608,1612.
[18] Lame G.Using NLP techniques to identify legal ontology components:concepts and relations[J].Artificial Intelligence and Law,2004,12(4):379-396.
[19] Merchant K, Pande Y.NLP based latent semantic analysis for legal text summarization [C]//2018 International Conference on Advances in Computing, Communications and Informatics (ICACCI).September 19-22,2018,Bangalore,India.IEEE, 2018:1803-1807.
[20] 楊丽萍.面向自然语言的法律检索系统的研究与实现[D].南昌:南昌大学,2016.
[21] 王海亮.基于文本挖掘的法律咨询系统研究和实现[D].北京:北京化工大学,2017.
[22] 张恒.GPT模型下法律人工智能的风险与对策研究[J].西昌学院学报(社会科学版),2023,35(2):87-91.
[23] 杨月华,杜军平,平源.基于本体的智能信息检索系统[J].软件学报,2015,26(7):1675-1687.
[24] Do P-K, Nguyen H-T, Tran C-X, et al. Legal Question Answering Using Ranking SVM and Deep Convolutional Neural Network [arxiv] [J].arXiv,2017:15.
[25] Sansone C,Sperlí G.Legal Information Retrieval systems:state-of-the-art and open issues[J].Information Systems,2022,106:101967.
[26] Chalkidis I,Kampas D.Deep learning in law:early adaptation and legal word embeddings trained on large corpora[J].Artificial Intelligence and Law,2019,27(2):171-198.
[27] 李兰君,周俊生,顾颜慧,等.基于改进孪生网络结构的相似法律案例检索研究[J].北京大学学报(自然科学版),2019,55(1):84-90.
[28] 刘峤,李杨,段宏,等.知识图谱构建技术综述[J].计算机研究与发展,2016,53(3):582-600.
[29] Antoine B, Nicolas U, Alberto G-D, et al. Translating Embeddings for Modeling Multi-relational Data[C]//Proceedings of the 27th Annual Conference on Neural Information Processing Systems, NIPS 2013, December 5, 2013 - December 10, 2013, Lake Tahoe, NV, United states, F, 2013 . Neural Information Processing Systems Foundation.
[30] Ercan G, Elbassuoni S, Hose K. Retrieving Textual Evidence for Knowledge Graph Facts[C]//Proceedings of the 16th International Semantic Web Conference, ESWC 2019, June 2, 2019 - June 6, 2019, Portorož, Slovenia, F, 2019 . Springer Verlag.
[31] Hanke J, Thiesse F. Leveraging Text Mining for the Design of a Legal Knowledge Management System[C]//Proceedings of the 25th European Conference on Information Systems, ECIS 2017,June 5,2017 - June 10,2017,Guimaraes, Portugal, F, 2017.Association for Information Systems.
[32] Xiong C Y.Text representation,retrieval,and understanding with knowledge graphs[J].ACM SIGIR Forum,2019,52(2):180-181.
[33] 秦永彬,冯丽,陈艳平,等.“智慧法院”数据融合分析与集成应用[J].大数据,2019,5(3): 35-46.
[34] 高翔.人工智能民事司法应用的法律知识图谱构建:以要件事实型民事裁判论为基础[J].法制与社会发展,2018,24(6):66-80.
[35] 乔钢柱,冯婷婷,张国晨.基于知识图谱的盗窃案件法律文书智能推理研究[J].计算机系统应用,2019,28(7):206-213.
[36] [美]凯文·D.阿什利.人工智能与法律解析[M].邱昭继译.北京:商务印书馆,2020.
[37] 莊志刚.“法律+人工智能”的应用新版图[J].检察风云,2018(7):11-13.
[38] 车万翔,郭江,崔一鸣.自然语言处理:基于预训练模型的方法[M].北京:电子工业出版社,2021.
[39] 肖仰华,徐波,林欣.知识图谱:概念与技术[M].北京:电子工业出版社,2020.
[40] 洪文兴,胡志强,翁洋,等.面向司法案件的案情知识图谱自动构建[J].中文信息学报,2020,34(1):34-44.
[41] 张妮,徐静村.计算法学:法律与人工智能的交叉研究[J].现代法学,2019,41(6):77-90.
[42] 周可婧.自然语言处理模型辅助法律检索的限度及应对:以ChatGPT为例[J].浙江万里学院学报,2023,36(3):53-59.
[43] 左卫民.关于法律人工智能在中国运用前景的若干思考[J].清华法学,2018,12(2):108-124.
[44] 谭敬慧.中国工程法律与工程纠纷解决年度观察[J].建筑经济,2013,34(12):66-68.
【通联编辑:李雅琪】