基于涉诉信访案件风险识别的知识元自动抽取技术
2021-08-13刘晓蒙单清龙周萌枝张俊娜杨闪闪
刘晓蒙 单清龙 周萌枝 张俊娜 朱 骞 杨闪闪
(1.同方知网数字出版技术股份有限公司,北京 100000;2.山西同方知网数字出版技术有限公司,山西 太原 030000)
知识抽取(Knowledge Extraction)是对蕴涵于文本文献中的知识进行识别、理解、筛选和格式化,从而把文本文献中的各类知识(包括常识知识、专家知识、行业领域知识等)抽取出来,即基于给定的本体从文本中抽取与既定本体相匹配的知识内容,并以一定形式存储形成知识元库。知识抽取是信息资源建设中的关键环节,因此知识抽取在涉诉信访案件知识库构建过程中发挥着举足轻重的作用[1-2]。
目前知识抽取通常有两种实现方法,一种是基于规则的知识元抽取方法[3],另一种是基于统计算法的知识元抽取方法[4-7]。其中基于规则的方法替换功能性较差且容易产生性能问题;基于统计算法的方法,常用的有隐马尔可夫HMM[8-9]、条件随机场CRF[10-12]等序列标注方法,通常对语料的依赖很强,需要进行大量的语料标注。
然而标注数据,可以说是AI模型训练里最艰巨的一项工作。自然语言处理的数据标注更是需要投入大量人力。相对计算机视觉的图像标注,文本的标注通常没有准确的标准答案,对句子理解也是因人而异,让这项工作更是难上加难。
实验发现,Bert在多个自然语言处理任务中,都能在极小的语料数据下带来显著的准确率提升[13-16]。实验结果对比,Bert在极少的数据集上表现非常出色。
一、基于涉诉信访案例的知识元抽取构建方法
(一)知识元抽取算法构建方法
首先,在Bert向量模型的基础上通过分析涉诉信访案件的主要内容和案件要素特点进行方法设计,提出方法Bert-PMC(基于Bert的篇章段落标引方法),如图1所示。
图1
Bert-PMC利用Bert中文向量模型,将文书的篇章段落结构划分为多种特征类别,以自然段落为单位对整篇文书所有段落构建基于Bert的篇章段落多分类模型。
在Bert向量模型的基础上考虑涉诉信访案件的案件要素特点,并融合双向递归神经网络BiLSTM和条件随机场CRF,通过组合优化设计,提出方法Bert-BiLSTM-CRF(基于Bert-PMC+Bert-BiLSTMCRF的知识元自动抽取方法),见图1。
根据办案知识框架,并结合涉诉信访案件的案件要素特征,以句子为单位对整篇文书所有段落进行知识元语料标注。通过不断地进行参数组合调优,最终得到Bert-PMC和Bert-BiLSTM-CRF所有参数的最佳值。
(二)知识元抽取算法实现方案
本文实现的是一种基于Bert+BiLSTM+CRF的知识元抽取方法,综合考虑知识元所在篇章段落的特征信息,先对涉诉信访案件的篇章段落进行多分类获取篇章段落的特征类别,再根据不同类别的篇章段落进行差异性知识元抽取。
其中基于Bert的篇章段落标引模型,是根据涉诉信访案件的自然段进行建模,自然段可包含一个或多个自然句。利用Bert向量模型,对涉诉信访案件所有的自然段进行分类标引,主要目的是为法律知识元的抽取段落进行准确定位,提高知识元的抽取准确率。
其中基于Bert-BiLSTM-CRF的涉诉信访案件知识元抽取模型,是根据涉诉信访案件的自然句进行建模,每一个自然句都是一个独立完整的句子。由篇章段落标引得到的自然段,在进行知识元抽取时需先进行分句,再对每一个自然句独立进行知识元抽取。再次利用Bert向量模型,再依次结合BiLSTM模型和CRF模型,集合多个算法优势对所有有效自然段的所有自然句进行知识元抽取,提高知识元抽取准确率。
方法实现共分为两个阶段:模型训练阶段和知识元抽取阶段。
图2
图3
1.模型训练阶段
第一个阶段是模型训练阶段,根据Bert模型的特点和数据集的特征进行基于Bert的篇章段落标引模型和基于Bert+BiLSTM+CRF的知识元抽取模型设计和训练。
基于Bert的篇章段落标引模型:
步骤一、通过分析涉诉信访案件的主要内容和案件要素特点,将文书的篇章段落结构划分为7种特征类别,以自然段落为单位对整篇文书所有段落进行语料标注。
步骤二、利用Bert中文向量模型(chinese_L-12_H-768_A-12),训练基于Bert的篇章段落标引模型,主要的调控参数有输入向量的最大长度max_seq_length、训练批量大小train_batch_size、学习率learning_rate和训练轮次num_train_epochs。
基于Bert+BiLSTM+CRF的知识元抽取模型:
步骤一、根据办案知识框架,并结合涉诉信访案件的案件要素特征,以句子为单位对整篇文书所有段落进行知识元语料标注:
步骤二、利用Bert中文向量模型(chinese_L-12_H-768_A-12),训练基于Bert-BiLSTM-CRF的知识元抽取模型,主要的调控参数有输入向量的最大长度max_seq_length、训练批量大小train_batch_size、学习率learning_rate和训练轮次num_train_epochs、LSTM的隐含单元个数lstm_size、LSTM的层数num_layers、droupout_rate等。
2.知识元抽取阶段
第二个阶段是知识元抽取阶段,依次调用训练好的基于Bert的篇章段落标引模型和基于Bert+BiLSTM+CRF的知识元自动抽取模型进行法律知识元抽取。
步骤一、输入一篇涉诉信访案件,整篇文书以自然段为单位作为Bert模型输入向量进行篇章段落标引,获取所有自然段的篇章段落特征。
步骤二、根据知识框架和篇章段落结构特点,得到整篇文书最终有意义的目标抽取段落,其他非目标段落不再继续下一步的知识元抽取。
步骤三、对于所有目标抽取段落,以句子为单位作为Bert-BiLSTM-CRF模型的输入向量进行知识元序列标注,最终得到目标抽取段落的知识元。
图1中,Paragraph代表涉诉信访案件中自然段落,可包含一个或多个语句;篇章段落标引模型的输入向量为一句或多句的自然段,Sentence是自然段Paragraph分句之后完整句子;知识元抽取模型的输入向量为独立的句子。
二、实验结果与分析
本文提出的知识元抽取方法能够在极小的语料数据下带来很好的知识元抽取准确率。本文在Bert向量模型的基础上不仅融合了涉诉信访案件篇章段落结构特点,更融合了双向递归神经网络BiLSTM的长短记忆优势和条件随机场CRF转移矩阵可规避非法标注优势,获得了较好的知识元抽取准确性。
从实验结果中可以看出,Bert-PMC获得了较好的标引准确率,Bert-BiLSTM-CRF也获得了较好的知识元抽取准确率,能够适应实际项目的需求。
三、结论
本文通过基于Bert的案件要素划分方法和基于Bert+BiLSTM+CRF的知识元自动抽取方法,利用法律裁判文书或起诉文书的段落案件要素特点,对整篇文书所有段落进行特征建模,根据行业特点与应用需求,将知识元与案件要素特征建立关联,再基于篇章段落特征进行法律知识元抽取。由于Bert模型能在极小的语料标注集上获得较好的效果,该方法大大削弱了标注语料集对知识元抽取的制约。
BiLSTM为双向LSTM层,负责自动提取句子的特征;CRF层,进行句子集的序列标注,在解码过程中使用动态的Viterbi算法来求解最优路径。虽然BiLSTM加上Softmax层后就可以直接用来做知识元序列标注,但考虑到文本语义中上下文转换的合法性,引入CRF层对BiLSTM网络层输出的结果做一定的约束限制,解决知识元标签顺序不合法问题,进而提高知识元抽取的准确性。