APP下载

中文法律条文推荐深度学习方法综述

2024-01-02彭亚男贺敏伟

软件导刊 2023年12期
关键词:法条法律条文案情

彭亚男,尹 华,2,贺敏伟

(1.广东财经大学 信息学院;2.广东省智能商务工程技术研究中心,广东 广州 510320)

0 引言

在司法判决中,法官根据案情描述查找相关的法律条文,再根据法律条文和案情描述确定罪名,最后根据法律条文、罪名以及案情描述确定刑罚。法律条文推荐(法条推荐,法条预测)对确定罪名和量刑至关重要。法条推荐根据案情描述(定义为事实)预测所适用的法律条文,可作为法院判决的依据[1],是辅助法官进行司法判决的重要实践,也是智慧法院的关键技术与应用之一。近年来,涌现出大量关于我国智能司法应用的文献,研究者们主要从宽泛的人工智能法律应用以及判决预测任务等角度对当前的研究进行综述[2-4],但较少针对性地系统梳理中文法条推荐方法。法条推荐任务的本质是对案情描述和法律法规进行表示,提取出关键特征信息用于模型的训练和预测。相比传统的法条推荐算法,基于深度学习的方法利用逐层学习的方式,提取案情描述的深层语义特征,是当前的主流方法。本文从中文法条推荐任务的模型构建模式出发,首先将其分为基于分类任务、多任务学习以及基于匹配的法条推荐三类;然后,根据所采用的深度神经网络模型,深入分析当前中文法条推荐算法研究进展;并从实际应用角度进一步分析复杂场景下中文法条推荐算法研究;最后,归纳整理中文法条推荐数据集、评价指标以及实验数据,并对未来的研究方向和重点进行展望。

1 法条推荐

法条推荐任务的输入通常为案情描述,辅以法律法规等法律知识,采用不同的模式构造法条推荐模型。根据采用的模式,我们将法条推荐方法划分为基于分类任务的法条推荐、多任务学习的法条推荐以及基于匹配的法条推荐三类。

1.1 基于分类任务的法条推荐

此类方法将法条推荐任务转化为文本分类任务,法律条文作为类标签,结合案情描述构建分类器,预测的类别即推荐的法律条文。根据特征抽取方法将其分为基于传统机器学习的方法(如图1a 所示)和基于深度学习的方法(如图1b所示)。

Fig.1 Framework for law articles recommendation based on classification tasks图1 基于分类任务的法条推荐框架

传统机器学习方法需要人工提取特征,包括字符、词以及短语级别的浅层语义特征[5]。此类浅层语义特征缺乏深层语义信息,难以区分相似法律条文。例如,Lin 等[6]通过人工的方法定义特殊法条之间的不同因素,从而获得案情描述的深层次表示,但该方法需要大量的人工标注;Liu 等[5,7]提出将法律条文信息加入预测模型中,只考虑了少量的法律条文信息,不适用大规模的法条推荐。传统机器学习方法的特征提取需要专业人员参与,标注成本高且具有数据特异性,难以适应不同场景。基于深度学习的方法通过深度神经网络模型进行文本表示,自动提取案情描述的文本特征,具有抽取深层特征的优势,具体在第2 节详细展开描述。

1.2 多任务学习的法条推荐

现实司法判决中,法条推荐与罪名预测、刑期预测并非独立存在。因此有研究者采用多任务学习方法进行法条推荐。多任务学习包括多任务学习框架选择和子任务依赖关系的确定两部分,其中多任务学习框架有参数硬共享和软共享两种模式。参数硬共享通过在相关任务之间共享表示层或某些编码层来实现参数共享,参数软共享为每个任务学习一个网络,但每个任务的网络都可以访问其他任务对应网络中的信息。Zhong 等[8]将子任务之间的依赖关系形式化为有向无环图,将所有子任务都按照拓扑顺序进行排列,其中最典型的就是无依赖关系(图2a)和序列依赖关系(图2b)。无依赖关系的多任务学习将子任务独立考量,但在学习模型的不同位置共享参数。范阿曼等[9]对3 个子任务使用了相同的基于BERT[10]特征提取子网络,并共享了相应的特征提取子网络权重;潘瑞东等[11]对于罪名预测和法条推荐两个子任务在使用BERT 模型和知识蒸馏策略提取相应特征的时候共享参数,降低模型计算复杂度并且提高模型推理速度。序列依赖的多任务法条推荐中,罪名预测依赖于法条预测,刑期预测依赖于法条预测和罪名预测;张春云等[12]在此基础上加入基于自注意力机制的过程监督层,通过引入过程监督来获取有效的先行任务相关依赖信息,从而为后续序列多任务依赖信息融合层抽取提供重要的特征保障;Yang 等[13]将每个任务的中间预测结果映射到潜在空间状态,再将潜在空间向量与案情语义向量合并,并将其用于前向任务预测(FP),同时建立后向任务验证(BV),最后将前向预测和后向验证结合得到最终的预测结果,解决了法条缺少依赖任务提升效果的问题。

Fig.2 Multi-task law articles recommendation framework图2 多任务法条推荐框架

1.3 基于匹配的法条推荐

目前主流的法条推荐方法是将法条当作类别标签,采用分类的思想将案情描述归类到相关的法条中,但是法律条文是具有规范的表述形式,而现有的分类方法简单的将法条作为类别标签的索引,未深度利用法条的语义信息从而影响法条推荐质量。因此,研究者们提出将法条推荐视为匹配任务,基于匹配的方法将法条推荐任务视为语义匹配任务,计算案情描述和法条的匹配程度,按照匹配程度进行推荐。该任务分为法条的嵌入表示层、案情嵌入表示层以及语义匹配层3个部分,具体如图3所示。

Fig.3 Law articles recommendation based on matching图3 基于匹配的法条推荐

在嵌入表示时,李琳等[1]从深层语义匹配出发,从案情描述中提取与法条语义匹配的重要局部特征,再联合案情描述和匹配概率分布,通过回归树输出最终的推荐结果,并且具有一定的可解释性;Wang 等[14]针对法条知识和结构信息,将罪名和法条结构以树形进行表示,通过分解层将法律条文(子标签)分解为对齐分量和剩余分量。对齐分量是同一罪名(父标签)的子标签的相似语义,进行聚合得到罪名表示;剩余分量表示每个子标签的唯一特征,并将其聚合为子标签的表示。将事实标签之间的共同注意机制来生成有效的语义输入匹配层得到法条和罪名预测结果;Fan 等[15]考虑现实中一个案情可能违背了多条法律条文,然而这些法律条文并非独立的存在,它们之间存在着关系等问题,根据构建先验知识和外部知识构建法律条文图,用图神经网络(Graph Neural Network,GNN)得到法条嵌入表示,并对案情描述进行编码,将法条和案情描述的嵌入表示输入到匹配层得到法条推荐的结果;

2 基于深度学习的中文法条推荐

深度学习方法不依赖于人工获取的文本特征,可以直接对文本内容进行学习、建模[16],对文本表示具有天然的优势,本节从卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(Recurrent Neural Network,RNN)、GNN 以及混合模型等具有代表性的深度学习模型出发,对中文法条推荐算法进行归纳总结。

2.1 CNN

CNN 通过卷积和池化操作进行特征提取[17],卷积层的作用是从句子中提取出语义组合信息,池化层进行降维,保留主要特征的同时减少参数和计算量,防止过拟合。TextCNN[18]是最早用于文本分类的卷积神经网络模型,结构如图4 所示。在CNN 的基础上,DPCNN[19]、VDCNN[20]等算法相继被提出。

Fig.4 Structure of TextCNN图4 TextCNN结构

在法条推荐研究中,Yan 等[21]在TextCNN 的卷积层提取案情特征时首先计算一些关键字间的相似性,并建立反向网络,以充分利用法律法规信息。CNN 用于文本分类时具有从全局信息中提取局部特征的能力,但其无法捕获长距离依赖关系[22]。为此,Zhong 等[8]提出一个判决预测框架TOPJUDGE,该方法使用CNN 编码层对案情描述进行编码,每个任务使用一个特定的LSTM 单元格,并以拓扑顺序获得每个任务的输出,该方法利用了任务之间的相关性,相较于传统的CNN、HLSTM 等单任务模型取得了更好的结果;Zhang 等[23]针对案情描述具有长距离依赖关系的特征,将DPCNN 用于法条推荐模型中,DPCNN 模型使用两级等长卷积和最大池化,并在每次卷积后执行最大池化。重复执行卷积池循环块可以捕获合法文本的长距离依赖关系,该方法也可以克服CNN+LSTM 模型的时间复杂度高的问题。程豪等[24]提出基于分层学习的易混淆法条预测模型HLCLPM,该模型使用两个CNN 分类器对法条进行分层预测,对易混淆法条完成第二层预测从而解决易混淆法条推荐问题,其中卷积层负责抽取文本的特征,最大池化层负责选择最主要的特征值,SoftMax 用于预测在各个类别上的概率。基于CNN 的法条推荐主要通过卷积核从案情描述向量中提取特征,卷积核捕获的特征数量与卷积核大小相关。CNN 具有较强的并行能力,并且由多层神经网络组成,理论而言,只要层次够深就可以捕获远距离特征。

2.2 RNN

RNN 由输入层、隐藏层和输出层组成[25],结构如图5所示。RNN 在处理序列数据上有着良好的性能,具备处理变长输入和长距离依赖的能力,但对长期的记忆影响较小,不能应对输入很长的情况,面临梯度爆炸和梯度消失等问题。针对该问题,研究者提出多种变体RNN,如 LSTM[26]、GRU[27]等,他们都可以有效解决长期记忆依赖和反向传播中的梯度消失等问题。RNN 及其变体在文本分类中也取得了显著的成果。例如,Wang 等[14]将法条预测视为标签匹配问题,把标签(罪名和法条)结构以树形进行表示,在编码层利用GRU 将标签和事实嵌入到低嵌入空间中,提出一种融合标签的层次结构和语义的分层匹配网络。基于RNN 的法条推荐可以解决案情描述的长文本依赖以及序列信息问题,然而循环神经网络是顺序计算,不能并行计算,存在计算效率问题。

Fig.5 Structure of RNN图5 RNN结构

2.3 GNN

GNN 是一种直接对图结构数据进行学习的框架[28]。GNN 通过节点及其周围的邻居信息不断聚合,以学习到节点的高层表示。基于GNN 的法条推荐分为3 个步骤:首先进行案情描述的文本嵌入表示;然后按照法条共现信息、法条词汇共现以及法条相似多等信息构建法条图,通过GNN 得到法条的嵌入表示;最后通过匹配层实现法条推荐,或通过融合层将法条知识与案情描述融合后分类获得法条推荐模型。具体如图6所示。

Fig.6 Law articles recommendation based on GNN图6 基于GNN的法条推荐流程

在基于GNN 的法条推荐研究中,Fan 等[15]提出基于图的标签匹配模型GLAM,通过建立语义法条图、案情法条图、词汇图以及法条—词汇关联图构造标签异构图(即法条图),然后采用GNN 对异构图进行编码得到法条底层嵌入,同时对案情描述进行编码,将得到的底层嵌入表示输入到匹配层得到法条推荐的结果;Xu 等[29]提出一个端对端的法条推荐方法LADAN,该方法将GNN 中的聚合方案改为蒸馏操作,以提取相似法条之间的可区分特征。案情描述特征的基础表示采用CNN 和Bi-RNN 编码,易区分表示则是通过TF-IDF 建立法条关系图,根据阈值将其划分为子图,经过图蒸馏层获得各个子图的区分向量,根据子图的区分向量对案情描述进行注意力加权得到区分特征,该方法将案情描述作为整体进行特征表示;Yue 等[30]提出NeurJudge+方法,结合司法实际将案情描述事实分为不同部分,构建法条和罪名两个标签相似图,然后通过图分解学习得到标签的特有特征,使用CNN 和Bi-RNN 编码案情描述、法律条文和罪名描述的语义向量,采用注意力机制得到关注标签特性的案情表示。GNN 以图的形式表示文本,直观表达文本各元素之间丰富的关系,并且能够利用节点间的连接关系保留全局图信息。基于GNN 的法条推荐可以从多维度建立法条图,当设计的图结构足够有效时,其可以更好地捕捉结构信息,从而更深入地融入法条知识。

2.4 混合模型

单一深度学习模型各有优劣,混合模型则综合考虑各个单一模型的优势,例如CNN 可以从全局信息中提取局部关键信息,RNN 擅长处理长距离依赖关系。在混合模型研究中,陈文哲等[31]使用TextCNN 对案情进行编码,采用Bi-LSTM 对犯罪序列编码,然后将案情描述与犯罪序列拼接后经过全连接层得到法律条文推荐;张青等[32]引入BiLSTM 模型解决案情描述长文本依赖问题,设计CNN 不同的卷积核尺寸提取不同粒度的专业术语特征信息。注意力机制允许编码器回顾输入序列,即编码器会基于一个上下文向量来调节输出从而使特征提取更为全面,因此有研究者提出融合CNN 与注意力机制的组合方法。例如,Yang等[13]在CNN 编码器的基础上提出一种基于任务间拓扑结构的多视角双反馈词搭配注意机制网络MPBFN-WCA;Wang 等[33]在基于CNN 对案情描述和法条定义进行嵌入表示的基础上提出动态成对注意力模型DPAM。亦有研究者将RNN 与注意力机制组合,在关注案情描述文本序列信息和长距离依赖关系的同时使用注意力机制关注案情描述中法律规定的关键信息。例如,Yang 等[34]提出一个循环注意力模型RAN,首先使用LSTM 和自注意力机制对法条和案情描述进行编码;然后在重复注意力模块多次捕捉法条与案情描述之间的重复交互信息;最后输出基于法条注意力的案情表述推荐结果。GNN 可有效处理长距离与非连续单词的交互,其与其他神经网络融合的法条推荐模型在“2.3”节已经详细阐述。

法律案情描述以及法条定义通常包含大量法律专属名词,将知识整合到预先训练的模型中,有助于提高法律概念之间的推理能力。例如,杨超群等[35]以迁移学习的思想训练法律词向量,使用FastText[36]预训练4.2 G 通用中文词向量作为初始向量,采用FastText 词嵌入方法在初始向量的基础上对法律词向量进行分类;张青等[32]使用BERT预训练模型获取案件词向量,唐光远等[37]利用BERT 预训练模型对案情描述和法条知识进行编码。然而BERT 模型512 的字数限制会导致长案件文本相关信息丢失的问题,为此张青等[38]采用XLNET[39]预模型获取案件丰富的语义信息;杨通超等[40]在KG-Bert 算法[41]和Lawformer 预训练模型(采用法律领域真实的民事和刑事案件数据作为预训练语料库)[42]的基础上提出KG-Lawformer 算法,将案情描述和法条文本分别看作三元组中的头实体和尾实体描述信息,对其之间连接关系的进行学习,预测出案情与法条之间的对应关系。

3 复杂场景下的中文法条推荐

3.1 低频法条推荐

低频法条推荐是判决预测的重大挑战,因为法律领域的文本数据常常是不平衡的、缺失的,如何在有限的案例中训练出一种稳健且有效的低频法条推荐方法成为研究者们关注的重点。例如,Wang 等[33]将每个法条集枚举到一个成对的标签集,将法条语义融入到成对标签注意矩阵中意关注更为关键的信息,并将精确的标签集扩展到所有可能标签上的一个软注意矩阵中,用于实现标签概率预测,缓解标签不平衡问题;张青等[38]通过引入法条的司法解释来丰富案件向量表征,然后通过CNN 模型提取案件与法条的特征信息,加深案件与法条之间的潜在联系,最后通过余弦相似距离法计算法条之间的相似性,解决低频法条被忽略的问题;Chen 等[43]将迁移学习的思想应用于低频法条推荐任务中,将数据分为低频数据集和高频数据集,在高频数据集上训练模型,并将分类器权重共享在低频数据集中,实现了低频数据集法条预测。

3.2 易混淆法条推荐

在司法实践中,易混淆法条是影响法条推荐准确性的主要问题之一。程豪等[24]将法条划分为136 条易区分法条和11 个易混淆法条集,第一层采用CNN 分类器预测出易混淆法条集或易区分法条结果,将输出结果为易混淆法条集的案情描述输入第二层分类器得到法条预测结果;Xu等[29]将案情描述的特征分为基础表示和易区分表示,基础表示采取CNN 和Bi-RNN 进行编码;对于易区分部分建立法条关系图,根据阈值将其划分为各个子图,经过图蒸馏层获得各个子图的区分向量;Yue 等[30]构建两个标签相似图(法条、罪名),通过图分解学习得到标签的特有特征,采用注意力机制得到关注标签特性的案情表示,从而捕获案情描述中的可区分部分;Hu 等[44]通过定义10 个易区分的属性来解决易混淆的罪名,但该方法过于依赖专家从而难以大范围推广;Liu 等[45]提出融入罪名关键词的法律判决预测多任务学习模型,判决结果包括法条推荐和罪名预测,该方法随着数据量的增加同样需要投入大量人工标注工作。

4 模型性能分析

法条推荐的数据集通常由法律专家采集和标注,因此数据集获取具有一定的难度。常用法条推荐数据集见表1。

Table 1 Common law articles recommendation datasets表 1 常用法条推荐数据集

现有基于深度学习的典型法条推荐模型研究通常基于上述数据集,其实验结果也是后续研究的基准。为便于实验比较,本文对这些模型在数据集上的性能表现进行统计,结果见表2。算法性能散点图如图7 所示。可以看出,法条推荐的准确率最高达到0.954,精确率区间为0.539~0.913,召回值区间为0.371~0.906,F1 区间为0.452~0.894。表明后续研究需要进一步提升模型性能,以辅助判决预测任务的深入研究。

Table 2 Performance of the law articles recommendation model on the data sets表2 法律条文推荐模型在数据集上的性能表现

Fig.7 Scatter plot of algorithm performance for bar recommendation图7 法条推荐算法性能散点图

5 结语

法条是司法判决的重要依据,精准地推荐适用法条成为判决预测的前期任务。早期判决预测研究侧重于直接进行罪名预测。在中国智慧司法建设的持续推进下,研究者们逐渐关注法条推荐的研究,形成了一系列研究成果,然而有关中文法条推荐的研究综述较少。为系统总结中文法条推荐研究成果,快速推进该领域发展,本文从法条推荐模型构建模式、基于深度学习的法条推荐算法和复杂场景下的法条推荐等3 个角度系统梳理了当前主要研究成果;重点以深度学习方法为切入点,总结分析基于CNN、循RNN、GNN 以及混合模型等的中文法条推荐方法;并在公开数据集基础上总结比较了这些典型算法的性能。分析发现,深度学习在法条推荐算法中的实践应用已经取得了一定成效,但仍然存在以下问题:①数据集构造问题。目前法条推荐的数据集来源于法研杯比赛数据集和研究者个人构造的数据集,缺少公认的评价标准。此外,目前公开的数据集主要集中在刑事案件方面,缺少民事、行政等其他方面的数据集,造成模型主要集中在刑事领域二难以迁移到其他领域;②复杂场景的中文法条推荐问题。复杂场景下法条推荐中低频、易混淆法条推荐研究不够充分。在实际情况下,低频法条通常需要大量时间和人力查阅相关信息,易混淆法条描述通常极为相似,例如抢劫罪和盗窃罪等,而现有模型在识别与分辨低频类和混淆罪名方面性能并不是很突出,因此在未来研究中迫切需要加强复杂场景下的法条推荐研究;③可解释性问题。司法领域中每一项判决对司法的公正和当事人都具有重大影响,需要高度严谨,而深度学习是一种黑盒模型,训练过程难以重现,可解释性较差。未来需对深度学习框架下的中文法条推荐可解释性进行深入研究。

猜你喜欢

法条法律条文案情
实质判断如何结合法律条文——“德发案”再审判决中的利益衡量评析
论民法对人身权的保护
西夏武器装备法律条文与唐宋法律条文比较研究
刑法“从业禁止”法条的法律性质及改革方向
“两高”刑事指导性案例的文本分析及改进
情景剧教学在高校法律课程实践教学中的应用探讨