中文重叠关系抽取的动态分层级联标记模型
2024-01-01张利张欢欢袁玉波
摘要:构建了动态分层级联标记中文重叠关系抽取(RWG-LSA)模型:首先基于预训练语言模型和gated 机制构建了动态字词融合特征学习模型(RWG),有效避免了主体标记模块的特征缺失和无法并行计算等问题;其次引入动态权局部自注意力(LSA),自主学习到主体层面的语义特征;最后在有效融合了输入序列的全局和主体局部特征的基础上,实现RWG-LSA 模型对文本中实体对和关系的抽取。在SKE 中文数据集上的实验表明,本模型对重叠关系抽取有显著效果,F1 值达到了82.44%。
关键词:文本挖掘;中文重叠关系抽取;动态字词融合;预训练语言模型;gated 机制;局部自注意力机制
中图分类号:TP391.1 文献标志码:A
在文本数据爆炸式增长的今天,如何从海量文本数据中挖掘出重要信息成为自然语言处理领域的主流方向,关系抽取是其中的一项重要方式。关系抽取任务是从非结构化文本数据中抽取出结构(主体、关系、客体)的三元组数据,以此表达实体以及实体间的语义关系。由三元组数据作为基本构成单元的知识图谱和智能问答系统,可以协助司法案件处理、企业合同智能管理等方面的相关人员更好地掌握信息情报、识别相关风险,实现智能化辅助决策。因此,关系抽取作为这些下游任务的数据来源,具有较高的应用价值和研究价值。
目前,联合抽取实体和关系的方法是关系抽取中的主流方法。许多新颖的联合抽取方法被提出[1-2],其效果优于基于流水线[1] 的方法。然而,大多数现有的方法并不能有效处理实体间存在重叠语义关系的情况。现有的解决关系重叠问题的联合抽取方法大致可分为3 种:(1)基于分层级联标记的方法通常使用二进制(0/1) 标记序列来确定主体的开始和结束标记,以及每种关系下客体的开始和结束标记。Wei 等[3]基于BERT[4](Bidirectional Encoder Representationsfrom Transformers) 提出分层级联标记(CasRel)的方式解决关系重叠问题,在数据集NYT 和WebNLG 上取得了显著效果;Ren 等[5] 针对关系类别不均衡的问题,构建了基于BERT 和交叉熵损失的置信度阈值的级联标记模型(ConCasRTE)。(2)基于表格填充的方法为每种关系维护一个拥有该关系的实体开始位置和结束位置的表。Wang等[6] 采用单阶段标记对链接(TPLinker)方式实现关系表填充,并解决了暴露偏差问题。(3)基于Seq2Seq 的方法将三元组视为序列数据,按一定顺序生成三元组。Zeng等[7] 按照先生成关系再生成实体的顺序,提出了复制机制(CopyRE)解决关系重叠问题;Nayak 等[8] 针对复制机制无法识别完整实体的缺点改进解码方式,一种方法以字逐个预测,即WDec( Word-based Decoding) ,另一种方法是解码生成实体头尾位置, 即PNDec( PointerNetwork-based Decoding)。除上述方法外,Fu 等[9] 还引入图卷积网络(Graph Convolutional Network,GCN)将文本建模作为关系图来预测每个实体对的潜在关系。