APP下载

基于实体级联类型的中文关系抽取管道模型

2024-11-04饶东宁吴倩梅黄观琚

计算机应用研究 2024年9期

摘 要:

端到端实体关系抽取任务可以被分解成命名实体识别和关系抽取两个子任务,最近的工作多将这两个子任务联合建模。现有的流水线方法验证了在关系模型中融合实体类型信息的重要性和管道模型的潜力,但是它们忽略了文本中的某些实体可能同时具有多个类型,这种多义性的情况在中文数据集中尤为常见。为解决上述问题,提出了一种实体级联类型机制,并在此基础上开发了一个更适合中文关系抽取的管道模型,取名为CENTRELINE。这一流水线方法的实体模块是一个词-词关系分类模型,它以BERT和双向LSTM作为编码器、经过条件层归一化后引入空洞卷积,最后通过级联类型预测器输出实体及其级联类型。关系模块的输入仅由实体模块构建。该方法在DuIE1.0、DuIE2.0和CMeIE-V2数据集上的F1值分别比基线方法提高7.23%、6.93%和8.51%,并在DuIE1.0和DuIE2.0数据集上都实现了最先进的性能。消融实验表明,提出的级联类型机制和根据中文语言特征改进的管道模型,均对关系抽取性能具有明显的促进作用。

关键词:中文关系抽取;管道模型;空洞卷积;实体级联类型

中图分类号:TP391 文献标志码:A 文章编号:1001-3695(2024)09-017-2685-05

doi:10.19734/j.issn.1001-3695.2023.12.0621

Chinese relation extraction pipeline model based on entity cascading types

Rao Dongning, Wu Qianmei, Huang Guanju

(School of Computers, Guangdong University of Technology, Guangzhou 510006, China)

Abstract:

End-to-end entity relation extraction can be decomposed into named entity recognition and relation extraction, most recent works model these two subtasks jointly. Existing pipelined approaches validate the importance of fusing entity type information in the relation model and the potential of pipeline models, but they ignore the possibility that certain entities in the text may have multiple types at the same time, which is particularly common in Chinese datasets. This paper proposed an entity cascading type mechanism to address the aforementioned issues and developed a pipeline model named CENTRELINE, which was more suitable for Chinese relation extraction. This pipelined approach incorporated an entity module, which was a word-word relation classification model. It employed BERT and bi-directional LSTM as encoders, introduced dilated convolution after conditional layer normalization, and finally generated outputs for entities and their cascading types using a cascading type predictor. The input of the relation module was only constructed by the entity module. Surpassing the baseline by 7.23%, 6.93%, and 8.51% on DuIE1.0, DuIE2.0, and CMeIE-V2 datasets, respectively. This method demonstrates improvements in F1 values and achieves state-of-the-art performance on both DuIE1.0 and DuIE2.0 datasets. The results of ablation experiments indicate that both the proposed cascading type mechanism and the pipeline model refined based on Chinese language characteristics can enhance the performance of relation extraction.

Key words:Chinese relation extraction; pipeline model; dilated convolution; entity cascading type

0 引言

实体关系抽取是信息抽取的关键任务之一,它对于知识图谱、智能问答等自然语言处理应用都十分重要[1]。它是指在文本中找出主体与客体之间存在的关系,并将其表示为实体关系三元组,即(主体,关系,客体)。实体关系抽取可以分为流水线方法和联合式方法,对应管道模型和联合模型。管道模型存在交互缺失和误差累积的问题,而联合模型可以充分利用实体和关系之间的交互信息[2],所以目前的研究大多采用联合模型。然而Zhong等人[3]提出使用简单的管道模型也可以获得比联合模型更好的效果,这一实验证明了管道模型具有潜在的优越性。具体来说,通过在实体识别阶段取得足够好的效果,可以减少误差累积对管道模型性能的影响,从而提高模型的整体性能。

现有的一种提升流水线方法性能的方式是引入实体的类型信息作为输入。例如,Zhong等人[3]在句子中显式插入实体类型标记。Ye等人[4]提出了一种基于悬浮标记的片段表示方法。但是它们都默认一个句子中的某个实体只对应一个实体类型,忽略了同一个实体在不同的三元组中可能有不同的实体类型,尤其是中文数据集中存在实体多义性的情况,如表1所示。

由于实体类型在关系抽取阶段扮演着重要的角色[3],单一而固定的实体类型可能对关系的准确预测产生限制,所以给模型提供更丰富、完整的实体类型信息将有助于优化三元组的抽取过程。

受文献[3,5]的启发,本文在管道模型上预测和应用更详尽的实体类型,并提出了基于实体级联类型的中文关系抽取管道模型(Chinese relation extraction pipeline model based on entity cascading types,CENTRELINE)。具体而言,本文方法首先在实体识别阶段使用了根据中文数据集的特点改进的命名实体识别模型,它以BERT[6]和双向LSTM[7]作为编码器、经过条件层归一化(CLN)[8]后引入空洞卷积[9],最后通过级联类型预测器输出实体及其级联类型。随后在关系抽取阶段,将级联类型作为关键输入以预测文本的三元组集合。这一流水线方法的设计充分考虑了中文语境下的实体识别特征和实体类型的多样性,为关系抽取任务提供了更为精准和全面的信息支持。

本文的主要贡献是提出了一种实体级联类型机制,并把它应用到根据中文数据集特点改进的实体识别模块上,在DuIE1.0、DuIE2.0和CMeIE-V2数据集上取得了优于基线PURE[3]、ChatIE[10]和BiTT-BERT[11]的抽取结果,其中在DuIE1.0、DuIE2.0数据集上可以实现最先进的性能。

1 相关研究

实体关系抽取是构建知识库的重要步骤,也是许多自然语言处理下游任务的基础。经典的实体抽取方法主要分为有监督、半监督和无监督这三类[12],随着近年深度学习的崛起,关系抽取任务研究的重点转向了使用深度学习方法[13]。基于深度学习实体关系抽取主要分为有监督和远程监督两类,其中有监督实体抽取根据实体识别(NER)和关系抽取(RE)两个子任务完成顺序的不同,可细分为流水线方法和联合抽取方法[13]。

联合抽取方法指建立统一的模型使得两个子任务彼此交互,它可以分为共享参数的联合抽取模型和联合解码的联合抽取模型。例如,王景慧等人[14]提出融合了依存句法信息的关系导向实体抽取的策略,先确定关系,再确定关系相关的实体对。Zhao等人[15]提出融合两阶段的流水线方法,同时进行聚类学习和关系标注。Luo等人[11]受医学文本中树状关系结构的启发,提出了一种称为BiTT的新方案并建立了一个联合关系提取模型,将医学关系三元组形成两个二叉树,并将树转换为词级标签序列。最近,大型语言模型如GPT-3[16]、ChatGPT在信息抽取任务上展现了卓越性能。因此,Wei等人[10]通过直接提示大型语言模型来构建强大的信息抽取模型ChatIE,它将信息抽取任务转换为一个多回合的问答问题。然而,共享参数的联合抽取模型学习过程仍然类似流水线方法,并没有实现真正的联合;联合解码的联合抽取模型需要设计复杂的标签或者解码过程,而且它对重叠的关系三元组的识别效果不是很好。

流水线方法指先抽取实体,再抽取关系,近几年已有实验证明了流水线方法取得了比联合方法更好的结果。例如,Zhong等人[3]提出了PURE,它将两个独立的编码器分别用于实体抽取和关系识别,关系模型只依赖实体模型来提供输入特征。尽管它的设计和训练模式很简单,但实验证明这个管道模型在其实验数据集上优于所有以前的联合模型。Ye等人[4]提出了一种基于悬浮标记的片段表示方法,在编码过程中通过特定策略打包标记来考虑片段之间的相互关系。在命名实体识别任务上,Li等人[5]提出了W2NER,通过将命名实体识别任务建模为词-词关系分类解决了统一NER的内核瓶颈,在14个广泛使用的基准数据集上超越了所有当前表现最好的基线模型。

中文实体关系抽取研究相对于英文研究起步更晚,且进展有限,这可能是因为中文语境下的语言特点不同[17]。关系抽取领域中,中文与英文的不同主要体现在三个方面[18]:首先,中文字符之间通常没有明确的边界[17],这使得识别实体边界变得更为困难;其次,中文句法结构与英文存在显著差异,这增加了在分析中文文本时的复杂性;最后,中文中句子成分之间的关系通常缺乏显性的语法标记,需要深入理解上下文语境以正确捕捉实体之间的联系。近年来一些学者开始致力于构建更多样化且贴近实际应用场景的中文关系抽取数据集,以促进该领域的研究和发展。例如,Li等人[19]构建了第一个大规模的高质量数据集DuIE1.0,其中的数据均来源于百度百科和百度新闻摘要。为了进一步推动中文关系抽取的发展,Li等人[19]随后推出了DuIE2.0,扩展了数据集的规模、多样性和复杂性。Guan等人[20]提出了中文医学信息抽取数据集CMeIE,数据来自医学教科书和临床实践,经过多轮手动注释构建。综合来看,中文关系抽取领域展现出广阔的发展前景。

2 CENTRELINE

本文提出一种基于实体级联类型的中文关系抽取管道模型,该模型主要由NER模块和RE模块组成。其中,NER模块接受输入句子并为每个片段预测实体级联类,见图1上NER部分。对NER模块预测出的所有实体进行两两配对并在句子中插入实体对的级联类型信息之后,RE模块将会独立处理每一对候选实体,为每对实体对预测关系类型,见图1下RE部分。

之前的工作中在训练实体模型的时候每个片段的训练目标类型只有一个,本文考虑到实体的多类型情况,所以在NER模块的训练阶段和预测阶段将实体类型的数量扩展到了两个。具体来说,如果实体的标注类型只有一个,则复制为两个一样的类型进行训练;如果预测出两个类型是一样的,解码的时候则合并为一个。过去的工作在训练关系模型时,模型输入所携带的实体类型信息也只有其中一个,而本文在RE模块的训练阶段把实体的所有类型信息都插入到了输入序列中。此外,在训练RE模块时,选择将模块的输入设定为训练集中的所有标注实体,而在验证和测试阶段则采用NER模块预测出的实体。这一设计决策试图最小化管道模型中两个子任务顺序执行带来的误差传播。在训练阶段使用训练集中的真实标注实体作为输入,模型可以更好地适应已知实体关系,提高模型在训练数据上的拟合效果。在验证和测试阶段使用NER模块预测的实体是出于对模型在真实场景中的泛化能力的关注,使用NER模块预测的实体可以更好地模拟实际应用环境,提高模型对未知实体的处理能力。

3 实验结果及分析

3.1 数据集

本文实验在DuIE1.0、DuIE2.0、CMeIE-V2三个中文数据集上进行,表2显示了每个数据集的数据统计信息。DuIE1.0和DuIE2.0是来自2021年百度举办的语言与智能技术竞赛信息抽取赛道的公开数据集[19],为了方便与其他模型对比并测试最新的数据集,本文使用了两个版本的DuIE数据集。CMeIE-V2数据集是中文医疗信息处理挑战榜CBLUE发布的医疗数据集[20],包含儿科训练语料和百种常见疾病训练语料。

3.2 实验设置

本文使用BERT-base-Chinese作为基本编码器。在NER模块上不设置句子最大长度限制;在RE模块上,设置DuIE1.0、DuIE2.0数据集句子最大长度为256,CMeIE-V2数据集句子最大长度为300。实验在显卡设备RTX3090上进行,用PyTorch作为编码框架。

本文采用F1值、查准率precision和查全率recall作为评价标准。对于命名实体识别子任务,如果预测实体的边界和预测实体类型都正确,则认为预测实体是正确的;对于关系抽取子任务,如果两个片段的边界正确且预测关系类型正确,则认为预测关系是正确的。

3.3 实验结果分析

为了评估本文模型在流水线方式上的提升效果,将同为流水线模型的PURE作为基线模型之一。除此之外,本文还将在各个数据集上表现突出的模型作为基线进行比较。本文基线模型如下:a)BiTT-BERT[11],使用双向树标记的关系抽取联合模型;b)RODP[14],融合了依存句法信息的关系导向实体抽取的策略;c)ChatIE[10],通过与ChatGPT对话进行信息抽取;d)PURE[3]。本文方法与基线模型的实验结果对比如表3所示,表中部分数据直接来自原文,所以有空缺值。

本文在三个不同的数据集上进行了实验验证,其中DuIE2.0比DuIE1.0更倾向于口语,并进一步引入了复杂的关系。实验在没有标注的测试集上得到的结果如表3所示,本文方法在三个数据集上的F1值均有显著提升。其中,本文方法较PURE在三个数据集上分别提升了7.23%、6.93%和8.51%。相较于在DuIE1.0和DuIE2.0数据集表现突出的基线模型,本文方法在DuIE1.0和DuIE2.0数据集上的F1值提升了2.94%和4.37%。这表明本文模型在不同领域的数据集上都表现良好,具有出色的泛化能力。尤其值得注意的是在两个DuIE数据集上,本文模型表现明显超越了当前处于领先地位的模型,进一步突显了其卓越的性能和优越性。

3.4 消融实验

本文以PURE为基线模型,对本文方法进行消融实验,结果如表4所示。表4的第1行是基线模型的结果,第2行是将基线模型的实体模型替换成W2NER命名实体识别模型后的实验结果,第3行是将基线模型的实体模型替换成本文改进过后的命名实体识别模型(即NER模块)后的实验结果,第4行是在第3行的基础上加上级联类型机制的实验结果。

如表4所示,如果只是将PURE的实体模型部分替换成W2NER命名实体识别模型,那么实体识别子任务的结果将明显下降,而关系抽取子任务的结果下降更显著。但是如果将PURE的实体模型部分替换成本文的NER模块,关系模型的结果将会提升6.91%、5.21%和8.62%,这表明本文对命名实体识别模型的改进是十分关键的。此时NER模块的结果与基线模型实体模型结果相近,但是关系抽取的结果却提升了,可能是因为改进后的NER模块提供了更准确的实体类型信息给RE模块。

改进后的NER模块加上级联类型机制后,实体识别子任务在DuIE1.0、DuIE2.0数据集上的结果较未加上级联类型机制时提升了2.01%和0.95%;关系抽取子任务在DuIE1.0和DuIE2.0数据集上的结果提升了0.32%和1.72%。表明本文提出的级联关系机制在DuIE1.0和DuIE2.0数据集上可有效提升三元组抽取性能。关系抽取子任务在CMeIE-V2数据集上的结果略微下降了0.11%,可能是因为医学数据集的结构复杂,所以性能不能取得提升。

3.5 RE模块对标记进行预处理的方法对比

在本文的NER模块中,最终会输出预测实体及其级联类型给RE模块,然而如何在RE模块通过预处理数据把级联类型融合到数据中是一个问题。本文尝试了三种方式,如图2所示。图2(a)是预处理前的句子,(b)到(d)是三种预处理方式后的句子。

第一种预处理方式是扩展RE模块生成的例子, 如图2(b)所示。NER模块输出实体及其级联类型后,把同一实体的不同类型当成各自只有一个类型的多个同名实体,然后将这些同名实体与其他实体一起进行两两配对输入到关系模型。示例句子预测出的实体“千梦轮回”有两个类型“网络小说”和“图书作品”,这个实体在关系抽取阶段将会被当成两个实体,一个是类型为“网络小说”的实体“千梦轮回”,另一个是类型为“图书作品”的实体“千梦轮回”。这两个同名不同类型的实体分别和另一个实体配对,最终生成两个例子。

第二种和第三种预处理方式都是在句子上联合标记实体对的所有类型。第一种联合标记方式是交叉标记,即实体的类型1与类型2的头尾标记彼此交叉,生成实例如图2(c)所示。第二种联合标记方式是包含标记,即实体的一个类型的头尾标记包含另一个类型的头尾标记,生成实例如图2(d)所示。

不同预处理方式下的实验结果如表5所示。在关系模型只生成一个例子的预处理方式比扩展例子的方式能取得更好的结果,分析其原因是扩展例子使得管道模型的实体冗余缺陷更加明显,从而降低了模型的性能。另外在两种不同的联合标记方式中,DuIE1.0数据集上的包含标记方式比交叉标记方式提升了0.2%,而DuIE2.0数据集上并无差别。这说明了不同的联合方式对不同数据集的效果不一样,而且两种联合标记方式的效果相差不大。

4 结束语

针对中文实体关系抽取任务,提出了一种基于实体级联类型的中文关系抽取管道模型。它的RE模块是一个基于卷积神经网络的把命名实体识别任务转换为词-词关系分类任务的模型,并生成了预测实体及其级联类作为关系模型的输入,最终由RE模块生成三元组。实验表明,它在DuIE1.0、DuIE2.0、CMeIE-V2三个数据集上取得了比基线模型更好的结果,其中在DuIE1.0和DuIE2.0数据集上可以达到最好的性能。实验表明了管道模型具有不逊于联合模型的良好性能和潜力。下一步将深入研究预处理级联类型的方式,以更好地发挥丰富后的实体类型信息的作用。

参考文献:

[1]Xia Zhentao,Qu Weiguang,Gu Yanhui,et al. Review of entity relation extraction based on deep learning [C]// Proc of the 19th Chinese National Conference on Computational Linguistics. Haikou,China: Chinese Information Processing Society of China,2020: 349-362.

[2]王传栋,徐娇,张永. 实体关系抽取综述 [J]. 计算机工程与应用,2020,56(12): 25-36. (Wang Chuandong,Xu Jiao,Zhang Yong. Survey of entity relation extraction [J]. Computer Engineering and Applications,2020,56(12): 25-36.)

[3]Zhong Zexuan,Chen Danqi. A frustratingly easy approach for entity and relation extraction [C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg,PA: Association for Computational Linguistics,2021: 50-61.

[4]Ye Deming,Lin Yankai,Li Peng,et al. Packed levitated marker for entity and relation extraction [C]// Proc of the 60th Annual Meeting of the Association for Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2022: 4904-4917.

[5]Li Jingye,Fei Hao,Liu Jiang,et al. Unified named entity recognition as word-word relation classification [C]// Proc of AAAI Conference on Artificial Intelligence,2022: 10965-10973.

[6]Devlin J,Chang M W,Lee K,et al. BERT: pre-training of deep bidirectional transformers for language understanding [C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg,PA: Association for Computational Linguistics,2019: 4171-4186.

[7]Lample G,Ballesteros M,Subramanian S,et al. Neural architectures for named entity recognition [C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg,PA: Association for Computational Linguistics,2016: 260-270.

[8]Liu Ruibo,Wei J,Jia Chenyan,et al. Modulating language models with emotions [C]//Proc of Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021. Stroudsburg,PA: Association for Computational Linguistics,2021: 4332-4339.

[9]Yu F,Koltun V. Multi-scale context aggregation by dilated convolutions [C]// Proc of the 4th International Conference on Learning Representations. Piscataway,NJ:IEEE Press,2016.

[10]Wei Xiang,Cui Xingyu,Cheng Ning,et al. Zero-shot information extraction via chatting with ChatGPT [EB/OL]. (2024-05-27). https://arxiv.org/abs/2302.10205.

[11]Luo Xukun,Liu Weijie,Ma Meng,et al. A bidirectional tree tagging scheme for joint medical relation extraction [C]// Proc of International Joint Conference on Neural Networks. Piscataway,NJ: IEEE Press,2023: 1-8.

[12]Zhou Zhihua. A brief introduction to weakly supervised learning [J]. National Science Review,2018,5(1): 44-53.

[13]鄂海红,张文静,肖思琪,等. 深度学习实体关系抽取研究综述 [J]. 软件学报,2019,30(6): 1793-1818. (E Haihong,Zhang Wenjing,Xiao Siqi,et al. Survey of entity relationship extraction based on deep learning [J]. Journal of Software,2019,30(6): 1793-1818.)

[14]王景慧,卢玲,段志丽,等. 融合依存信息的关系导向型实体关系抽取方法 [J]. 计算机应用与研究,2023,40(5): 1410-1415,1440. (Wang Jinghui,Lu Ling,Duan Zhili,et al. Relationship-oriented entity relationship extraction method combining dependent information [J]. Application Research of Computers,2023,40(5): 1410-1415,1440.)

[15]Zhao Jun,Zhang Yongxin,Zhang Qi,et al. Actively supervised clustering for open relation extraction [C]// Proc of the 61st Annual Meeting of the Association for Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2023: 4985-4997.

[16]Brown T B,Mann B,Ryder N,et al. Language models are few-shot learners [C]// Proc of the 34th International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc. 2020: 1877-1901.

[17]Li Wenjie,Zhang Peng,Wei Furu,et al. A novel feature-based app-roach to chinese entity relation extraction [C]// Proc of ACL-08: HLT,Short Papers. Stroudsburg,PA: Association for Computational Linguistics,2008: 89-92.

[18]邢百西,赵继舜,刘鹏远. 中文关系抽取的句级语言学特征探究[C]// 第二十届全国计算语言学会议论文集. 北京:中国中文信息学会,2021: 643-654. (Xing Baixi,Zhao Jishun,Liu Pengyuan. A probe into the sentence-level linguistic features of chinese relation extraction [C]// Proc of the 20th Chinese National Conference on Computational Linguistics. Beijing: Chinese Information Processing Society of China,2021: 643-654.)

[19]Li Shuangjie,He Wei,Shi Yabing,et al. DuIE: a large-scale Chinese dataset for information extraction [C]// Proc of the 8th CCF International Conference on Natural Language Processing and Chinese Computing. Berlin: Springer-Verlag,2019: 791-800.

[20]Guan Tongfeng,Zan Hongying,Zhou Xiabing,et al. CMeIE: construction and evaluation of Chinese medical information extraction dataset [C]//Proc of Natural Language Processing and Chinese Computing. Cham: Springer,2020: 270-282.

收稿日期:2023-12-10;修回日期:2024-02-04 基金项目:广东省自然科学基金面上项目(2021A1515012556)

作者简介:饶东宁(1977—),男,广东兴宁人,副教授,硕导,博士,主要研究方向为智能规划、自然语言处理(raodn@gdut.edu.cn);吴倩梅(1998—),女,江西赣州人,硕士研究生,主要研究方向为自然语言处理;黄观琚(1996—),男,广东湛江人,硕士研究生,主要研究方向为自然语言处理.