基于同义词词林和规则的中文远程监督人物关系抽取方法*
2021-09-23谢明鸿王红斌
谢明鸿,冉 强,王红斌
(1.昆明理工大学信息工程与自动化学院,云南 昆明 650500; 2.昆明理工大学云南省人工智能重点实验室,云南 昆明 650500)
1 引言
随着互联网大数据时代的到来,各式各样的数据以一种近乎爆炸的方式不断地增长。面对五花八门、分类多样的数据,尤其是文本数据,如何快速且有效地发掘抽取其中的实体及实体关系就成为了一个亟待解决的问题。关系抽取是信息抽取和自然语言理解中的一个核心任务。关系抽取的目标是从一个或多个句子中预测其中的实体与实体对应的关系[1 - 3]。同样地,人物关系抽取的目的是利用从样本数据集中提取到的特征对人物实体对间的关系进行预测,由此得到的人物实体对-关系三元组〈en1,rel,en2〉可进一步用于构建高质量、大规模的人物关系知识图谱[4]和知识库,并应用于自动问答系统等任务,帮助人们快速获取有效的信息。
用于关系抽取的大规模标注数据集的获取是关系抽取的一大难题。有监督方法的关系抽取数据集,通常需要人们花费大量的时间和精力去整理收集并人工添加标签,无疑代价巨大。因此,远程监督的思想应运而生。远程监督最早是由Mintz等人[5]于2009年国际计算语言学协会年会(ACL2009)上提出的,是一种用知识库去自动对齐朴素文本实体并标注的方法。但是,受远程监督思想假设性太强的影响,由此构建的数据集存在标签噪声问题。人们发现多示例学习的思想比较契合远程监督的噪声问题,因此,在多示例学习的基础上结合神经网络代替传统机器学习方法进行关系抽取成为了一大研究热点。然而,一般的神经网络虽然能从训练数据集中通过迭代训练自动学习和提取特征,但标签噪声以及远程监督语料质量等问题的存在使得利用一般神经网络进行关系抽取的效果并不尽人意,并且需要消耗大量时间和计算资源。
本文针对远程监督人物关系抽取数据集中存在的标签噪声问题,借助同义词词林统计能表达人物关系的人物关系触发词的词频确定候选关系,结合中文人物关系的特定句式搭配等规则在多示例学习思想下判断人物关系。在远程监督人物关系数据集IPRE(Inter-Personal Relationship Extraction)[6]上进行实验验证,结果表明本文提出的方法具有较好的F1值,并且关系抽取效果受远程监督数据集噪声的影响较小,能进一步识别一些数据集没有标注出的人物关系。
2 相关工作
人物关系抽取是关系抽取中的一个子任务。传统的有监督关系抽取方法存在缺少大量人工标注好的数据集问题。因此,运用远程监督思想快速获取大规模有标注语料的方法成为了一个可行的思路。远程监督的主要思想是根据知识库中已有的实体对与对应关系的三元组〈en1,rel,en2〉,假设在朴素文本中检测到具有和知识库中相同的2个实体en1和en2,就认为这样的句子具有知识库中的关系,利用这一假设在大规模朴素文本中去自动对齐实体对,并给该句子中的实体对赋上对应的关系标签。这样的方法在构建大规模的关系抽取语料时具有省时省力的优点,但这样的假设太过理想化,许多具有同一实体对的句子可能并没有体现知识库中对应的关系,甚至并不存在任何关系,因此,这种方法在构建数据集的过程中会引入大量的标签噪声问题。例如,在表1中,例句1人物实体叶莉是姚明的“妻子”,而例句2则不能反映任何人物关系(用NA表示)。
Table 1 Example of label noise表1 标签噪声例子
针对远程监督数据集假设过强导致的标签噪声问题,Surdeanu等人[7]通过多示例学习的思想缓解噪声问题。多示例学习的主要思想是数据集由多个包(bag)组成,每个bag由一个或多个示例(instances)所构成。特别地,bag中单个的instance没有标签,而bag作为多个instances的集合具有标签。当一个bag中存在至少一个或多个正标记的instances时,就认为该bag具有正标签;相反,当一个bag中所存在的所有instances都为负示例样本时,该bag被赋予负标签。多示例学习在训练过程中通过学习一个bag中的正示例特征并削弱负示例特征的影响,能从一定程度上缓解远程监督噪声数据带来的影响。
利用神经网络的方法处理远程监督数据集噪声问题成为了一大热点。Zeng等人[8]在多示例学习的基础上提出了PCNN(Piecewise Convolutional Neural Networks)神经网络,将词向量与位置向量相结合,在句子特征向量卷积后根据实体位置分为3段池化进行特征抽取,提高了神经网络关系抽取的性能。Lin等人[9]在文献[8]的基础上增加了attention机制,依据计算得到的标签向量和句子向量间的注意力权重得分给bag中的各个句子赋予不同的权重,抑制了噪声示例的影响。Feng等人[10]提出利用强化学习方法在句子级上提取关系,提高了模型对噪声的忍受能力。Shen等人[11]利用基于BERT (Bidirectional Encoder Representation from Transformers) 模型的分类器和对bag数据集进行语料重构的方法去噪,取得了不错的效果。
虽然神经网络运用在远程监督数据集上取得了不错的效果,但面对标签噪声问题,现有的方法只是在模型对特征的提取能力和噪声缓解能力上做出了一定的改进,并且受模型训练时长和计算资源的影响,神经网络方法的推广与运用具有较高门槛和限制。此外,中文文本句式结构复杂,因此运用传统机器学习方法或基于规则的方法进行远程监督中文人物关系抽取任务也成为了一种可行的思路。
Figure 1 Chinese distant supervised personal relationship extraction method 图1 中文远程监督人物关系抽取方法
刘丹丹等人[12]将同义词词林运用到中文关系抽取任务上,利用中文语义信息提高关系抽取性能。《同义词词林》最早是由梅家驹等人[13]编纂的,编写此书的目的是希望找到一些可以表示同种意思或语境的词语,为翻译或者创作工作提供帮助。中文表达关系的词语种类繁多,仅凭人力很难在短时间内将各种关键性词语归纳完全。对于人物关系抽取,借用同义词词林可以较为方便快捷地得到代表各种人物关系的人物关系触发词,覆盖面广,准确率高。潘云等人[14]首次利用中文在线资源人物关系知识库构建中文人物关系抽取系统,结合标签传播算法进行远程监督人物关系抽取。黄蓓静等人[15]提出了一种利用句子模式聚类及模式评分对远程监督训练集进行去噪的方法,提升了远程监督关系抽取准确率。黄杨琛等人[16]提出了一种可以对远程监督自动生成的训练数据去噪的人物实体关系抽取模型,融合词法特征和句法特征并根据关系指示词的过滤算法提高了远程监督关系抽取的准确率。以上基于机器学习或基于规则的方法从不同角度提升了人物关系抽取模型的性能,虽然借用了知识库等外部知识提升性能,但是没有处理标签噪声问题,有些还需要繁琐的算法来缓解噪声问题。本文结合多示例学习思想和同义词词林,仅根据中文数据集本身固有信息和同义词词林等少量外部知识,融合中文人物关系特有的句式在多示例学习思想下对远程监督人物关系数据集进行人物关系分类。实验结果表明,本文方法受噪声干扰小,效果良好。
3 基于同义词词林和规则的中文远程监督人物关系抽取方法
3.1 人物关系抽取方法思想
本文方法利用同义词词林和固定句式搭配规则在多示例学习思想下完成对远程监督人物关系数据的关系抽取,主要思想如图1所示。具体可分为人物关系触发词扩展、根据人物关系触发词词频确定主要候选关系和次要候选关系、人物关系判别规则构建和多关系预测4个步骤,具体如下所示:
步骤1人物关系触发词扩展。人物关系触发词对基于规则的人物关系抽取具有重要作用。因此,本文方法首要步骤便是扩展人物关系触发词。首先得到根据多示例学习思想划分好bag的远程监督人物关系语料集,利用训练集中的正示例,选取人物关系触发词(能表达某种人物关系的词,多为名词或动词,例如父亲、母亲、嫁、娶等)来扩展同义词词林中对应类别的同义词词簇。
步骤2候选关系确定。根据步骤1扩展后的人物关系触发词来协助确定bag的候选关系。统计语料集中每个bag扩展后的人物关系触发词数量,进行人物关系触发词词频统计,选取触发词词频高的前2个词来确定最大词频关系候选和次大词频关系候选。
步骤3人物关系判别规则构建。得到bag的候选关系后,根据多示例学习思想对bag中的每个句子示例依次进行主要关系候选判断和次要关系候选判断:若一个bag中有1个以上的句子满足关系判定条件,则给该bag赋予对应关系正标签,若没有一个句子满足关系判定条件,给该bag赋予NA,即负标签。关系判定条件具体方法包含实体人物性别判断、重复人物实体处理和固定句式搭配等,若满足判断条件,则确定bag人物关系为主要关系候选或次要关系候选中的一种,否则判断bag人物关系为NA,即没有关系。
步骤4多关系预测。由于bag存在多标签的情况,因此在步骤3得到对应bag的某种关系预测结果后,还需要进行多关系预测,最后得到关系预测结果。
3.2 人物关系抽取方法实现
3.2.1 人物关系触发词扩展
人物关系触发词对基于规则的人物关系抽取具有重要意义。本文将用于判断人物关系的一些重要词汇定义为人物关系触发词。这样的词汇在中文表达中有多个类似的词,例如,表达恋人关系的“恋爱”一词,就有“相恋”“交往”“恋情”等多个词与之类似。因此,本文将可以表达某种人物关系的同类触发词归在一个簇下,形成表达某种候选人物关系的触发词集。《同义词词林》原本已包含了一定数量的人物关系触发词的同义词。但是,由于《同义词词林》提供的和人物关系相关的同义词不能完全涵盖远程监督语料中表达人物关系的触发词,为了尽可能完善人物关系触发词的覆盖范围,以提升人物关系抽取模型的性能,本文利用word2vec预训练的词向量模型,通过计算《同义词词林》中关系触发词词向量与训练集中所有词语词向量的余弦距离,选取余弦距离小于0.5、与关系触发词相关性较大的词语,用于扩展《同义词词林》中对应簇下的同义词。余弦距离计算公式如式(1)所示:
cos_dis=1-cosθ=
(1)
其中,N代表词向量维度,xi、yi分别代表2个词向量第i维的值。
3.2.2 人物关系判别规则构建
(1)构建固定句式搭配。
根据扩展的人物关系触发词和中文固定的句式搭配可以较快确定大部分人物实体之间的关系。人物关系触发词一般以名词或动词居多,并且常常与人物实体中的1个或2个在相对位置上靠得很近。本文根据人物关系触发词与实体对的相对位置确定人物关系,因此构建能判断各种人物关系的搭配句式尤为重要。本文构建的固定句式如表2所示。
Table 2 Fixed sentence patterns表2 固定句式搭配
表2中,en1代表人物实体1,en2代表人物实体2,“+”代表句子中实体与触发词之间的相对位置距离。根据表2给出的固定句式即可简单确定句子中人物实体对关系,图2所示为根据固定句式搭配判断人物关系的例子。
Figure 2 Judging relationship by fixed sentence patterns图2 固定句式搭配判断关系
如图2所示,人物实体en1和人物实体en2已经给出,en1“姚明”在句子中的位置下标是4,人物关系触发词“妻子”位置下标是6,en2“叶莉”位置下标是11,满足编号3“en1(+1/+2)触发词en2”的句式搭配。故根据人物关系触发词“妻子”和固定句式搭配可以得到实体对-关系三元组〈en1,现妻,en2〉。值得注意的是,在同一固定句式搭配中,实体1和实体2的顺序发生变化,相应的关系预测结果也会不同。对于图2中的句子,如果实体1变成了“叶莉”,实体2变成了“姚明”,则预测的结果就成了〈en1,现夫,en1〉。此外,当一个句子中出现多个有关联的人物关系触发词时,则需要关联人物关系触发词句式判断人物关系。关联人物关系触发词句式如表3所示。
Table 3 Trigger word sentence patterns of related personal relation表3 关联人物关系触发词句式
由于篇幅有限,表3仅展示了部分关联人物关系触发词句式。当有多个关联的人物关系触发词出现在一个句子中时,如果仅根据其中一个触发词判断人物实体间的关系,忽视另外一个人物关系触发词,则大概率会出错。例如,对于满足句式“祖父(+1/+2)en1+父亲(+1/+2)en2”的句子,句子中en1和en2的关系为“儿子”。如果在判断句式的时候忽略“祖父”,则句式为“en1+父亲(+1/+2)en2”,判断en1和en2之间关系为“父亲”,显然这个判断是错误的。因此,对于一个句子含有多个关联人物关系触发词的情况需要根据表3的关联人物关系触发词句式进行人物关系判断。此外,除了以上句式外,还需要进行一些其他处理,以进一步提升远程监督人物关系抽取的准确性和可扩展性。
(2)重复人物实体处理。
根据人物关系触发词和固定句式搭配能正确识别出一部分语料所包含的人物关系,但通过对语料进行重复人物实体处理能进一步提升人物关系抽取的效率与准确性。远程监督产生的数据集是由知识库自动对齐互联网文本产生的,可能会出现一句话中存在多个重复人物名的情况。例如“张充和人物经历:张充和的曾祖是晚清名臣张树声,曾任两广总督。”中,人物实体名“张充和”在句子中出现了2次。本文发现保留距离触发词“曾祖”更近的实体有助于确定对人物关系抽取有帮助的区域,使得分类效果更好。因此,针对重复人物实体的情况,本文选取离触发词较近的实体确定位置下标进行关系抽取。
(3)实体人物性别判断。
根据触发词和固定句式搭配识别人物关系可能会出现不知道人物性别,从而无法准确判断实体人物关系的情况。因此,实体人物性别的判断在一些不能直接依据触发词和固定句式搭配确定人物关系的情况下显得尤为重要。本文根据人物性别关键词与人物实体的相对位置确定人物性别,表4所示为本文中使用的一部分人物性别关键词同义词簇。利用同义词词林中这些能表达人物性别的词簇,结合句式搭配判断句子中人物实体性别,在一些特殊情况下能准确地判断人物关系。表4和表5所示为人物性别判断词簇和人物性别判断句式。
Table 4 Personal gender cluster表4 人物性别词簇
Table 5 Sentence patterns of judging personal gender表5 人物性别判断句式
如表5所示,判断人物性别需要关键词的性别属性和人物实体与关键词的位置关系。当句子具有人物关系触发词并满足一定句式,但不确定人物实体性别无法进一步判断人物实体间的关系时,就需要借助实体人物性别判断去正确地识别人物关系。图3所示为根据实体人物性别判断和句式搭配判断人物关系的例子。
Figure 3 Judging relationship by the gender of personal entity图3 实体人物性别判断关系
如图3所示,已知en1“马志明”,en2“马三立”,根据人物关系触发词“长子”结合句式搭配“en1en2(+2)触发词”可以判断en2“马三立”的儿子是en1“马志明”,但在没有外部知识,即不知道人物实体性别的情况下,无法判断en1“马志明”和en2“马三立”的确切人物关系,因为仅凭“en1en2(+1/+2)儿子”无法判断en2“马三立”是父亲还是母亲。但是,运用人物性别判断句式,由表5可根据“先生”一词得到en2“马三立”的身份是男性,因此得到实体对-关系三元组〈en1,父亲,en2〉。
3.2.3 多关系预测
前面几节的方法主要针对单关系预测,而多示例学习存在“多样本多标签”的情况,即对含有多个句子示例的bag来说,一个bag可能具有多个人物关系标签。因此,本节主要讨论如何对bag进行多关系预测。本文所使用的远程监督数据集具体分为3大类:亲属关系、社交关系和师生关系,具体又分为35类关系(包含NA)。除了亲属关系中前夫/妻、现夫/妻、未婚夫/妻存在多关系的情况,同一大类中不可能出现多关系标签。因为一个bag中的多个句子可能存在一对人物实体的关系是未婚夫/妻、现夫/妻、前夫/妻的情况,但他们的关系不可能是父亲、爷爷并存,这样的关系是有悖常理的。因此,多关系预测的一般是亲属、社交或师生关系交叉存在的情况。本文采用的多关系预测方法是首先在主要关系候选或次要关系候选中预测出bag中存在的某一大类关系,接着再判断bag中是否还存在其他大类关系,最后得到尽可能详尽的关系预测结果。图4所示为人物关系预测流程,其中包含多关系预测。
如图4所示,句子①~句子⑤是一个bag中包含同一实体对“周森锋”和“霍焰”的句子示例。根据人物关系触发词对这些句子进行词频统计,得到最大词频关系候选和次大词频关系候选;接着根据人物关系判别规则对候选关系进行人物关系判别,预测出其中一个关系为“妻子”;随后进行多关系预测,根据之前的“妻子”关系结合句子③中的“恋情”一词可判断实体对可能存在“恋人”关系,而“妻子”和“恋人”分属于3大关系中的亲属关系和社交关系,故做出“恋人”关系预测。综上,最终对实体对“周森锋”和“霍焰”的关系预测为“妻子”和“恋人”。
Figure 4 Process of personal relationship prediction图4 人物关系预测流程
4 实验结果与分析
4.1 数据集
实验采用的是CCKS 2019 eval Task3提供的人物关系远程监督数据集IPRE[6]。该数据集是通过爬取中文百度百科网页资源中的人物关系三元组,利用远程监督的方法构建而成。IPRE有35类人物关系,其中NA表示没有关系,为关系负例,其余34类关系为关系正例。IPRE总共有超过410 000个句子,其中大约有9 000个句子的标签是人工标注的。数据集分为训练集(70%)、验证集(10%)和测试集(20%),仅验证集和测试集的正例标签是人工标注,其余标签均为远程监督生成。
4.2 评价指标
采用对预测结果计算F1值进行实验评价,由于远程监督包含大量的负样本,因此仅计算正例预测结果的F1值。具体计算如式(2)~式(4)所示:
(2)
(3)
(4)
其中,Nr表示正例关系预测正确的bag的数目,Nsys表示预测结果中正例关系bag的数目,Nstd表示验证集中给出的正例关系bag的数目。
4.3 实验结果与分析
运用本文方法对IPRE数据测试集进行人物关系分类。将本文方法(同义词词林+固定句式搭配)与作为baseline的CNN+ATT(Convolutional Neural Networks+ATTention)[9],PCNN+ATT(Piecewise Convolutional Neural Networks+ATTention)[9]以及Shen等人[11]提出的Bert with Reconstructing在bag任务上的分类结果进行对比分析,人物关系分类结果如表6所示。
Table 6 Comparison of classification results of each method表6 各方法的分类结果对比
从表6可以看出,本文方法的F1值对比CNN+ATT和PCNN+ATT等方法有了较为明显的提升,但与Bert with Reconstructing相比仍有一定的差距。对于IPRE数据集中存在大量的标签噪声、正负样本失衡并且语料质量良莠不齐等问题,CNN+ATT和PCNN+ATT虽然利用神经网络自动提取文本中的特征,利用分段卷积池化试图提取更细节的句法和语法信息,甚至利用注意力机制尽可能消除bag中无关示例的影响,但对噪声的缓解能力始终有限。Bert with Reconstructing利用BERT模型进行特征抽取和分类,并对语料中的句子进行重构,去噪效果较好,但是,基于BERT的神经网络模型包含大量参数训练并且需要消耗大量的GPU计算资源。本文提出的基于同义词词林和规则的方法仅根据正例标签示例扩展人物关系触发词,采用规则的方法不需要进行模型的训练,所以基本不受标签噪声和正负样本失衡的影响;同时提出的的重复人物实体和实体人物性别判断等处理方式都从一定程度上缓解了语料质量问题。综上所述,本文方法相比CNN+ATT和PCNN+ATT对噪声的容忍度更强。在F1值上本文方法相比Bert with Reconstructing仍有一定差距,但在整个关系抽取过程中本文方法所耗的时间与计算资源要低很多。
在前面的实验基础之上,还进行了正样本预测数量的实验,得到的结果如表7所示。通过对表7的分析,将本文方法的关系预测结果与数据集给定的标签进行了人工校验比对,得到了部分假阴性示例,如表8所示。
Table 7 Prediction result of positive samples表7 正样本预测结果
Table 8 Part of false negative instances表8 部分假阴性示例
表7所示为本文方法对正样本预测的结果数量。从预测的结果可以看出,本文方法预测的正样本数量远大于验证集所标注的正样本数量。通过对预测结果为正样本而测试集标签为负样本的数据进行人工校验发现,测试集中的一部分数据为假阴性样本。由于篇幅有限,表8仅展示了部分对预测结果为非NA而测试集关系标签为NA的句子进行人工校验得到的假阴性示例句子。这一部分假阴性数据说明本文方法具有识别假阴性样本人物关系的能力,受噪声的干扰较小。
5 结束语
本文针对远程监督人物关系抽取数据集IPRE中存在的标签噪声问题,提出了一种基于同义词词林和规则的远程监督人物关系抽取方法。该方法首先根据训练集中正样本示例扩展同义词词林中的人物关系触发词词簇;随后对每一个bag统计人物关系触发词词频确定候选人物关系,根据固定句式搭配规则和重复人物实体处理、实体人物性别判断等处理方法在多示例学习思想下确定人物关系类别;最后根据各个大类间关系并存的可能性进行多关系的预测判断。虽然本文提出的固定句式搭配规则能识别出一定数量的人物关系,但因为中文表达方式的丰富多样,所以存在一部分满足句式搭配但实际人物关系并不和本文方法预测的结果一致的情况,下一步将引入更加完善、严谨的规则进行改进。