APP下载

融合词性位置的无监督老挝语实体关系抽取

2022-11-18马霄飞周兰江周蕾越

小型微型计算机系统 2022年11期
关键词:聚类向量实体

马霄飞,周兰江,周蕾越

1(昆明理工大学 信息与自动化学院,昆明 650500)2(昆明理工大学津桥学院 电子与信息工程学院,昆明 650160)

1 引 言

东南亚是全球增长速度最快的互联网地区,是世界第4大互联网市场(1)https://www.sohu.com/a/329453816_515969.老挝作为东南亚国家之一,是中国推进“一带一路”倡议的重要舞台,因此,针对老挝语自然语言处理研究有着十分重要的意义.

目前,实体关系抽取根据对人工语料的依赖程度[3],可分为:基于有监督的实体关系抽取,基于半监督的实体关系抽取、基于远程监督的实体关系抽取和基于无监督的实体关系抽取4大类.

有监督实体关系[4-6]抽取将大量已标注关系类别的数据集投入到分类器模型中进行训练,然后利用训练好的分类器模型对未标记的语料进行抽取任务,虽然有监督实体关系抽取取在现有方法中取得了最好的抽取性能,但是使用有监督方法首先需要大规模人工标注的语料集作为支撑.半监督实体关系抽取[7-9]能极大地减少有监督方法对大规模标注语料的依赖,其主要问题是对初始种子的质量要求高、选择合适的种子较为困难,并且仍需事先定义抽取的关系类型.远程监督方法[10-12]通过将未处理的文本与现有的大型知识库进行对齐,以此实现自动生成大量训练文本,来降低对人工语料的依赖,但却造成了对已有大型知识库的依赖.无监督方法不需要事先定义关系类型,也不需要对语料进行人工标注,并且不依赖大型知识库,它的主要思想是利用句子的上下文特征进行聚类,将相似的句子聚在一起,并通过某种方法对该簇标记一个关系标签.

虽然无监督实体关系抽取相对于其他方法,它的准确率较低并且无法自动衡量抽取性能[13],但是它对于像老挝语这样的低资源语言较为友好,因此无监督实体关系抽取是一个值得研究的方向.

在英文无监督实体关系抽取领域,Hasegawa等人[14]首次提出基于无监督的方法进行关系抽取,在英文的ACE(Automatic Content Extraction)语料集上采用层次聚类算法验证了该方法的有效性.Rozenfeld等人[15]提出将具有多元关系的候选实体对剔除,只对具有二元关系的实体对进行抽取,极大地提高了实体关系抽取的性能.Yan等人[16]融合浅层模板(Surface pattern),旨在丰富文本的语义信息,并利用K-Means聚类模型在大规模的语料库中抽取实体所有的语义关系;Chen等人[17]在选择上下文特征时设置了不同的窗口进行对比实验,实验证明当实体之间的特征词为10时效果最好.

在中文无监督实体关系抽取领域,黄晨等人[13]首先在中文上进行实体关系抽取研究,并借鉴英文的研究,提出了一种基于卷积树核的方法,该方法融合了句法树结构特征,通过层次聚类实现实体关系的抽取.李明耀等人[18]针对中文语法复杂、表达灵活等问题,采用依存分析的方法进行中文实体关系抽取,其F值提高了16.68%;秦兵等人[19]使用实体之间的距离限制获取候选关系三元组,该方法在获取大量关系三元组的同时,还保证了80%的平均准确率.

在自然语言处理领域,针对老挝语的相关研究正处于起步阶段,研究成果较少,大多只是针对分词[20]、词性标注[21,22]和命名实体识别[23,24]等基础任务的研究.针对老挝语的实体关系抽取目前还没有相关研究,而中文和英文的无监督实体关系抽取技术已经相对比较成熟,中英文的方法在理论上是可以应用于老挝语实体关系抽取研究上的,但老挝语与英文、中文在构词和句法结构等方面有诸多不同,不能将中英文的方法完全复制到老挝语上,不过仍然可以在老挝语实体关系抽取上有所借鉴.

鉴于老挝语研究在实体关系抽取领域比较薄弱,且无相关句法分析工具,本文研究对象只针对句子级别的二元关系进行实体关系抽取.

本文主要贡献如下:

1)通过研究老挝语的语言特点,本文提出了一种适用于老挝语的新特征,即词性位置特征;

2)改进KANN-DBSCAN聚类模型.本文将该方法中的距离矩阵计算公式进行改进,用余弦距离替换欧氏距离.

3)引入词嵌入模型(word2vec)代替传统无监督方法中使用的词袋模型(one-hot)来表示上下文特征;

4)改进DCM方法,引入词的词性信息,优化了DCM方法缺少语义分析的缺点.

本文结构如下:第1部分为引言,介绍了本文研究对象的背景及意义;第2部分为本文方法,介绍了上下文窗口、特征构造、聚类模型及判别类型匹配;第3部分为试验部分,介绍了对比试验及结果分析;第4部分为总结与展望.

2 融合词性位置的老挝语无监督方法

本节将详细描述本文使用方法,包括上下文窗口的选择、向量特征的构造、聚类模型以及判别类型匹配方法.图1为老挝语无监督实体关系抽取方法的流程图.该方法首先通过爬虫技术在中国国际广播电台网(CRI(2)http://laos.cri.cn/,China Radio International)上爬取老挝语新闻3000篇;其次,对爬取的新闻文本进行预处理,包括分句,分词,命名实体识别以及词性标注;然后,使用融合了距离特征、TF-IDF特征和词性位置特征的词的分布式表示上下文特征,将其作为聚类模型的输入;之后,使用改进的KANN-DBSCAN聚类模型在预处理后的语料集上进行聚类试验;最后,采用优化的DCM方法对聚类结果进行关系标注,选出簇的关系标签,最终得到关系三元组.

图1 老挝语无监督实体关系抽取方法流程图

2.1 上下文窗口

无监督实体关系抽取在选择特征时使用实体对的周围词作为表达句子语义关系的特征,这些周围词也可以叫做上下文,上下文选择的好坏对后续的特征向量聚类有很大的影响,上下文窗口设置过小,提取的上下文特征所包含的信息量不足,窗口设置过大,又会引入噪音.

Chen等人[17]对ACE的3个子集(PER-ORG、ORG-GPE、ORG-ORG)进行无监督关系抽取时,通过设置不同的上下文窗口进行对比实验,实验证明当实体之间的特征词为10时效果最好,特征词小于5时,不足以推断上下文信息.车万翔[25]使用两种基于特征向量的机器学习算法在ACE评测的训练集上进行了实体关系抽取,证明了当周围词为2时,效果最好.文献[17,25]使用不同语料集得到的最优上下文窗口并不一致,且由于老挝语与中、英文在构词方法和句子结构等方面有很大不同,因此在对老挝语进行实体关系抽取时,理应考虑上下文窗口的合适范围,具体设置见实验部分的3.3.1小节.

2.2 特征构造

2.2.1 上下文特征

上下文特征是指实体对周围的词汇特征,也是无监督实体关系抽取中最基本、最常用的特征.在提取到实体对的上下文后,需要语言模型将上下文数学化,因为机器无法识别人类使用的自然语言,只能识别数值向量.目前,主要采取两种方法:1)词袋模型(Bag of Words,BoW);2)词的分布式表示.

1)BoW模型

传统的基于无监督的实体关系抽取[13-17]通常使用的是BoW模型.BoW模型是一种局部表示,即用一个很长的向量来表示一个词,向量的长度为词典(由文本语料中所有不重复的单词构成)大小,向量的分量只有一个1,其他全为0,1的位置对应词在词典中的位置,并且只有1所在的这个维度表达了语义信息.

BoW模型虽然使用方便且简单,但是它有两个很大的缺点:①由BoW模型得到的词向量都是离散稀疏的,经常出现维数灾难的问题;②由BoW模型得到的词向量,任意两个词之间都是互相孤立的,并未考虑词的语义信息和词的上下文语境信息.

2)词的分布式表示

为了克服BoW模型的缺点,Hinto[26]提出了分布式表示词向量的思想.与BoW模型只使用向量的一个维度表达词信息不同,词的分布式表示是使用一个连续稠密的向量来表示一个词的语义信息,这些词信息被分布式的存储在向量的各个维度当中,当两个词具有相似的上下文时,会得到两个相似的词向量,这样就能很好的刻画词与词之间的相似程度,也可以深刻理解词的语义信息[27].

分布式思想自提出以来,已广泛应用于自然语言处理的各个领域.其中较为出众的是Mikolov提出的word2vec模型.该模型是在神经网络语言模型(neural network language model,NNLM)基础上建立的,它训练出的词向量考虑了词与词之间的语义信息[28],利用该模型进行的聚类在效果上得到了显著提升[29].

2.2.2 额外特征

由于老挝语语料稀缺,因此除了使用word2vec模型来训练词汇向量外,还引入了额外特征来增强词汇向量的语义表征.

1)距离特征

距离特征[30]表示的是句子中其他单词和实体对之间的距离,它考虑了两个实体在句子中的位置信息和与其他单词的相对距离信息.

2)TF-IDF

考虑到每个单词对句子的贡献度是不同的,这个贡献度由单词的词频决定[31].贡献度与单词在句子中的词频成正比,同时与它在所有语料中出现的频率成反比,因此引入TF-IDF特征,如计算公式(1)所示:

(1)

其中,word_fi是单词在上下文中出现的次数,N是语料集中句子的总数,ni是包含该单词的句子个数.

3)词性位置特征

通过研究老挝语的句子结构,发现老挝语与中文的主要成分有着同样类似的主谓宾(SVO)结构[32].在老挝语中,主语位于谓语动词之前,宾语位于谓语动词之后,具有普遍性.此外,主语通常由名词和代词等充当,宾语由动词和形容词等具有核心语义解释的词充当,宾语由名词和主谓句等充当.根据文献[32]的研究成果,老挝语句子成分的排列顺序是“(时间/地点状语)主语(定语)+谓语<状语或补语>”或“(时间/地点状语)主语(定语)+谓语+宾语(定语)”.

显然,句中的修饰成分,如定语、状语,相对于主语和宾语是置后的.本文将主语视为头实体,宾语视为尾实体,那么上下文可以被分为3部分:头实体左边(left)部分、头实体与尾实体之间(mid)部分,尾实体右边(right)部分.

本文针对老挝语的语言特点,根据单词与实体对的相对位置不同,获取带有位置信息的老挝语词性特征.图2反映了单词词性出现在句中不同位置时所占的比例.其中,名词、动词在所有情况中所占比例均在第1位和第2位,代词除了在left位置所占比重较高,其余情况所占比重几乎相同,动词在所有情况中所占比例为:mid>right>all>left,形容词在所有情况中所占比例为:right>left>all>mid.

图2 单词词性出现在句中不同位置时所占的比例

在实体关系抽取中,实体之间的语义关系多是由能够表达实际含义的实词来表示,如名词(n.)、代词(pron.)、动词(v.)、形容词(adj.)等,同时这些词也可以在老挝语文本中标识文本特征,而对于其他词性(如连词(conj.),动态助词(aux.v)等)的单词在标识文本特征时会产生一部分的噪音.因此,结合图2所分析的结果,名词、代词、动词和形容词可赋予较高的权重系数,其他词性赋予较低的权重,以降低噪音干扰.具体权重设置如表1所示.

表1 词性位置及词性权重表

2.2.3 特征拼接

由word2vec模型直接训练出的上下文向量表达的是词汇信息,而不是对应每条句子的信息.因此无法直接作为聚类算法的输入,所以需要进行特征拼接,将单个的上下文向量拼接成句子向量.

图3 特征向量构造示意图

(2)

其中,vwi表示加权表征后的上下文向量;i表示该上下文向量是第i个;m表示句子中共包含m个上下文向量;C表示拼接后的句子向量.

2.3 聚类模型

本文方法采用KANN-DBSCANN聚类模型进行老挝语无监督实体关系抽取研究.传统的无监督实体关系抽取常采用K-Means聚类和基于层次的聚类模型.K-Means聚类和层次聚类使用简单,但是K-Means聚类对初始中心敏感,易导致每次聚类结果间的误差较大,且在计算相似度时只能使用欧式距离,而层次聚类对于高维数据的聚类效果欠佳.孙勇亮[33]首次在中文实体关系抽取中应用DBSCAN聚类模型,并获得了不错的效果.DBSCAN[34]聚类模型是一种基于密度的聚类模型,适合针对高维空间的数据进行聚类.但是DBSCAN有两个参数,Eps(邻域半径)和MinPts(聚类簇最小聚类点数),这两个参数的确定相比较于K-Means算法中的K值更加难于确定.文献[33]使用遍历的方法逐个测试,但是这样既不省时,也不精确.李文杰[35]等人提出了KANN-DBSCAN的方法,它能够自适应确定DBSCAN聚类模型的两个参数,但是该方法在计算距离矩阵时使用的是欧氏距离计算,有相关文献[36]证明,在文本聚类时,使用余弦距离要优于欧氏距离.因此本文在采用KANN-DBSCAN聚类模型的同时,对其中的距离矩阵计算公式进行改进,使用余弦距离替换KANN-DBSCAN方法中的欧氏距离.

2.4 判别类型匹配

在无监督实体关系抽取中,并未事先定义关系的类型,因此需要在聚类之后,对聚类结果进行关系标注,以此筛选出一个具有代表性的词汇作为该簇的簇标签,这类词汇也被称为关系指示词.一般来说,在文本分类和衡量特征权重领域,通常使用的是判别类型匹配(DCM,Discriminative Category Matching)方法.该方法分为两部分:

1)计算词汇在簇内的相对重要性;

2)计算词汇在其他簇(簇外)的相对重要性.

2.4.1 簇内相对重要性

在该簇中,如果某个关系指示词频繁出现,说明这个关系指示词在该簇中占据更重要的信息量,其相对重要性更高,如公式(3)所示:

(3)

其中,nwi,k表示在聚类结果k簇中,包含了关系指示词wi,k的实体对个数;Nk表示在k簇中包含的实体对总数.

2.4.2 簇外相对重要性

一个关系指示词如果只考虑在簇内的相对重要性,并不能代表它在所有簇中的重要性,若这个词在其他簇中仍占据很高的重要性,那么这个关系指示词无法将该簇与其他簇进行区分.因此需要计算这个关系指示词在跨簇中的相对重要性,如公式(4)所示:

(4)

其中,Cwi表示在聚类结果中包含了关系指示词wi的簇的集合,N表示聚类结果簇的总数.

在得到这个关系指示词的簇内相对重要性及簇外相对重要性后,需要对其进行合并,合并后的重要性Wi,k包含了它在簇内和跨簇的所有信息.Wi,k的值最大的关系指示词将作为该簇的关系标签,如公式(5)所示:

(5)

但是,DCM方法是建立在一个词的出现频率代表其对该簇贡献大小的基础之上,因此并没有引入相应的语义分析[37].

2.4.3 优化DCM

针对DCM方法的缺点,本文通过将DCM与单词的词性信息相融合的办法,对关系指示词的语义进行分析.在与老挝语语言专家共同研究本文语料集后发现,对于存在关系的候选关系三元组,关系指示词的词性均为名词和动词,因此本文通过设置权重系数,来突出动词和名词的语义信息,具体是通过将关系指示词的重要性与词性权重加权的方式重新获得一个新的重要性,词性权重的具体设置如表2所示.

表2 DCM融合词性信息权重表

在表2中,针对词性为名词和动词的关系指示词,词性权重施加了一个较大的权重,目的在于突出它们的语义信息,其他词性的关系指示词施加一个较小的权重,是为了降低其他词的干扰作用.

3 实验结果与分析

3.1 数据处理及评价指标

3.1.1 数据处理

本文数据通过爬虫技术在CRI网站上获取老挝新闻,总计3000篇.在对老挝语新闻文本进行分句之后,共获得27831个老挝语句子.然后本文使用实验室开发的分词工具[20]对老挝语句子进行分词处理,并滤除标点符号,老挝语停用词及干扰词.在进行完上述处理后,还需对语料进行词性标注[21,22]及命名实体抽取[23,24],为后续工作做准备.

表3 人工标注实体类型的部分实例

在预处理阶段,本文对这27831个老挝语句子进行进一步的处理.首先滤除老挝语句子中实体个数为1或实体个数在2个以上的句子,保留句中只有2个实体的句子作为候选关系三元组,共获得3961个句子.在这些候选关系三元组中包含了可能含有关系和无关系的老挝语句子,通过人工筛选,将没有关系的候选关系三元组滤除,共筛选出2506个可能包含关系的候选关系三元组.然后借鉴了文献[19]的思想,使用实体之间的距离限制,即如果两个实体之间的单词个数大于某个阈值threshold时,则认为该实体对之间的关系脆弱,理应去除,本文threshold设置为10.至此,共获得候选关系三元组2378句,通过统计,实体对类型共包含12类,具体分布如表4所示.

表4 实体类型具体分布表

3.1.2 评价指标

本文所用方法属于无监督方法,事先未定义实体关系类型,也没有使用人工对语料集进行实体间的关系标注,故无法通过程序直接对抽取结果进行判别对错,因此本文采用人工判断的方式决定候选关系三元组是否被正确分类,同时,无监督实体关系抽取方法的抽取结果也很难直接评价召回率[19],因此本文使用准确率来评价方法的性能.

在本文获取的候选关系三元组中,实体对类型包含12类,针对每一类实体类型分别聚类,并且在聚类过程中,每一类都会被分成若干个簇,因此,本文使用P来表示聚类中每个簇的准确率,PC表示每个类的准确率,并用平均准确率Pavg作为本文方法的最终评价指标.本文采用的Pavg可等同于领域内通用的准确率计算方式[13],具体如公式(6)-公式(8)所示:

(6)

式中,TP表示该簇中被正确分类的样本个数,FP表示该簇中被错误分类的样本个数.

(7)

式中,Vi为第i簇的实例的个数,Pi为第i簇的准确率.

(8)

式中,j表示12类实体对类型中的第j类.

3.2 试验设置

本文模型由python语言构建,模型参数为默认值.

KANN-DBSCAN算法(3)https://github.com/412702/kann-dbscan/blob/master/KANN-DBSCAN/ClusterWay/KANN_DbScan.py由github上的开源代码提供.

3.3 对比实验

本文共设置3组对比实验:1)上下文窗口对比实验;2)聚类模型对比实验;3)不同特征对比实验.

3.3.1 上下文窗口对比实验

1)实验准备

针对上下文窗口的大小该如何设置的问题,本文根据文献[17]的研究成果,将实体对之间(mid)的窗口设置为固定值10.图4反映了在2378个候选关系三元组中单词在不同区间的分布情况,图中共包含3组数据(left、mid和right),具体分布如图4所示.

图4 候选关系三元组中单词在不同区间的分布情况

其中w表示单词个数,以区间0≤x≤2为例,表示单词个数在0和2之间的候选关系三元组个数占总数的百分比.在left中,分布于单词区间0≤x≤2的句子占据多数,在right中,在不同单词区间句子分布相对比较平滑,除单词区间0≤x≤2外,其他区间句子分布均在20%左右,由此可推断出,位于right位置的信息可能多于left位置.综上分析,本文设置了6个窗口大小进行对比实验,分别为“0-10-0”、“0-10-2”、“0-10-5”,“2-10-0”、“2-10-2”、“2-10-5”.

2)对比实验

在上下文窗口对比实验里仅使用本文方法进行试验.表5为不同上下文窗口对老挝语实体关系抽取效果的影响.从抽取结果可以看出,窗口“0-10-0”的抽取效果是最好的,明显优于其他窗口的结果.这说明“0-10-0”能更好的反映上下文背后隐藏的语义信息,而对于超出实体的部分(即left和right)更倾向于是关系抽取的噪音特征,可以看出,将它们考虑在内时关系抽取性能是降低的.

表5 不同上下文窗口对老挝语实体关系抽取效果的影响

3.3.2 聚类模型对比实验

1)试验准备

为了验证本文改进聚类模型的有效性,将本文采用的改进KANN-DBSCAN聚类模型与传统无监督实体关系抽取中使用的K-Means聚类模型和层次聚类模型、文献[33]使用的DBSCAN模型以及文献[35]使用的KANN-DBSCAN聚类模型进行了对比试验.

2)对比实验

由表6实验结果可知,与前人使用的聚类模型相比,本文使用的聚类模型效果最好.模型1相比于本文模型结果低了4.13%,这是由于模型1对噪音数据敏感,将噪音实例与正确实例分到一个簇中,降低了簇的结果;模型2与本文模型相比降低了4.60%,这是由于模型2对于高维空间数据的聚类效果较差引起的;模型3相较于本文模型准确率低了1.65%,原因是对两个参数使用遍历的方法进行最优值的筛选,但是这容易导致参数筛选不均,仅得到局部最优值;模型4使用自适应确定参数值的方法比模型3提高了0.25%,证明了自适应确定参数值的有效性;本文模型(模型5)相较于模型4提高了1.4%,验证了余弦距离在聚类模型上优于传统的欧氏距离.

表6 不同聚类模型对比结果

3.3.3 选用不同特征对比实验

本文为了验证特征的有效性,设置了以下10组实验:

1)仅使用上下文特征(CONTEXT),不融合其他任何额外特征及DCM方法,并作为本文实验的基准(BASE);

2)使用融合距离特征(DISTANT)的上下文向量及DCM方法;

3)使用融合TF-IDF特征的上下文向量及DCM方法;

4)使用融合传统的词性特征(POS1)的上下文向量及DCM方法;

5)使用融合词性位置特征(POS2)的上下文向量及DCM方法;

6)使用融合DISTANT和TF-IDF的上下文向量及DCM方法;

7)使用融合DISTANT和POS2的上下文向量及DCM方法;

8)使用融合TF-IDF和POS2的上下文向量及DCM方法;

9)使用融合DISTANT、TF-IDF和POS2的上下文向量及DCM方法;

10)使用融合DISTANT、TF-IDF和POS2的上下文向量及优化的DCM(POS_DCM)方法.

该对比实验通过融合不同特征来验证特征对实体关系抽取的性能影响,最终结果如表7所示.从表7中观察可知,本文方法(OUR)较基准方法(BASE)的平均准确率得到较大提升,提升了10.91%.试验(4,5)对比,试验性能提升了4%,这说明本文提出的词性位置特征相较于传统的词性特征,在老挝语实体关系抽取中可以获得更多的老挝语语义信息;在试验(2,3,5)的对比实验中,试验性能相较于BASE分别提升了4.50%、2.46%和4.97%,证明了在融合单一特征时,本文提出的词性位置特征的有效性;在融合多特征的试验中,试验(6~9)的抽取效果均好于融合单一特征的老挝语实体关系抽取,这表明融合多个特征比融合单一特征能够引入更多的上下文信息,从而有利于获取正确的关系三元组.试验(9,10)验证了本文优化的DCM方法(POS_DCM)的有效性,在DCM中引入词性信息后,抽取结果提升了0.83%.

表7 融合不同特征对试验方法的性能影响

综上,本文通过融合多特征及改进KANN-DBSCAN聚类模型,在老挝语无监督实体关系抽取的研究中,获得了不错的性能提升.

4 总结与展望

考虑目前老挝语在实体关系抽取领域还没有相关研究,本文在老挝语无监督实体关系抽取领域进行了探索,提出了一种融合词性位置的无监督老挝语实体关系抽取方法.该方法不仅使用上下文特征,还融合了距离特征、TF-IDF特征和词性位置特征来加强表征上下文的语义信息,同时,对聚类模型进行了一定的改进,在计算两个实例是否相似时,使用余弦距离替换传统的欧氏距离,最后,在关系标注时,优化了DCM,引入词性信息,实验证明本文方法在一定程度上具有不错的效果.下一步将考虑对无监督老挝语实体关系抽取方法的准确率进行进一步的提升.

猜你喜欢

聚类向量实体
一种傅里叶域海量数据高速谱聚类方法
向量的分解
一种改进K-means聚类的近邻传播最大最小距离算法
聚焦“向量与三角”创新题
前海自贸区:金融服务实体
实体书店步入复兴期?
改进K均值聚类算法
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”
向量垂直在解析几何中的应用