APP下载

基于特征加权重叠度的中文实体协同消歧方法

2017-06-01线岩团余正涛洪旭东郭剑毅

中文信息学报 2017年2期
关键词:知识库命名聚类

线岩团,余正涛,洪旭东,张 磊,郭剑毅

(昆明理工大学 信息工程与自动化学院,云南 昆明 650500)

基于特征加权重叠度的中文实体协同消歧方法

线岩团,余正涛,洪旭东,张 磊,郭剑毅

(昆明理工大学 信息工程与自动化学院,云南 昆明 650500)

该文针对中文实体消歧中的特征项部分匹配和协同消歧问题,提出基于特征加权重叠度的中文实体协同消歧方法。该方法利用实体指称上下文中多种特征的加权重叠度计算实体指称相似度,针对实体链接与消歧聚类约束,分类定义实体指称相似度计算方法,构建待消歧实体相似度矩阵,采用近邻传播聚类算法实现中文实体协同链接与消歧。基于CLP-2012评测数据的实验表明,提出的方法取得了较好的消歧效果,准确率、召回率和F值分别达到了84.01%、87.75%和85.65%。

实体消歧;实体链接;加权重叠度;近邻传播聚类

1 引言

命名实体识别与消歧是自然语言处理的重要研究点,其主要任务是发现文本中的命名实体,并将实体指称关联到已有真实实体。命名实体识别与消歧已成为知识库构建、信息抽取、机器翻译,以及话题发现与追踪等研究领域的重要支撑技术[1]。

命名实体普遍存在重名和歧义现象,即同一实体指称在不同上下文中可对应不同的实体,例如,“高峰”一词可表示普通的名词,也可能表示不同的人名、机构名,或是地名。针对命名实体消歧已有许多相关的研究,在英文评测方面主要有TAC KBP的Entity Linking 评测[2-3]和WePS(Web People Search)评测[4],以及针对中文的CLP-2012汉语命名实体识别与歧义消解[5]和NLP &CC中文微博实体链接评测。

实体消歧可利用的知识主要有两类,一是实体指称的上下文信息,如实体指称周围的词语、实体等;二是外部知识库,如Wikipedia、百度百科、DBpedia[6]和Freebase[7]等。实体消歧方法的核心是计算实体指称和目标实体之间的相似度,并根据实体相似度实现消歧和链接。主要方法有: 基于文本向量空间的聚类方法、基于分类的方法和基于图的实体消歧方法。基于文本向量空间的聚类方法通过实体指称的上下文信息构建文本向量,计算文本向量间的距离,最后利用该距离进行聚类,确定实体指称对应的实体概念[8-11]。该类方法在计算相似度时,通常不考虑特征项部分匹配的问题,对相似度计算造成了不利的影响。基于分类的方法利用上下文特征构建分类器,将待消歧实体链接到知识库[12-14]。该方法存在的主要问题是分类的确定和待消歧的数据紧密相关,难以构建通用的分类模型适应不同的消歧问题。Peng等人提出了结合分类和聚类算法的实体链接消歧方法[15]。该方法利用分类算法将待消歧实体划分为知识库实体、未知实体和普通词三类,然后,选取命名实体、职业和名词等特征构建特征向量,计算特征向量余弦相似度,采用分类方法完成实体链接,最后,利用合成聚类(Agglomerative Hierarchical Clustering,AHC)方法完成未知实体消歧,取得了较好的效果。基于图的实体消歧方法将实体指称看作图中的节点,利用实体指称间的关联关系(链接、实体共现等)构建实体关联图,通过图聚类算法或是阈值过滤得到实体消歧结果[16-18]。该类方法对于具有较多关联关系的实体消歧问题有较好的效果,但对于缺乏关联关系的实体消歧问题,难以构建有效的实体关联图。

目前,已有的实体消歧方法通常依据特征项的共现信息,在计算实体相似度时忽视了特征项部分匹配的问题。针对这一问题,Hoffart 等人提出了基于关键短语集合重叠度的实体指称相似度计算方法[19]。Ikeda等人提出了利用实体、组合关键词、链接等特征,通过重叠系数计算各类特征的相似度,最后线性加权方式获取人名实体间的关联度[20]。另一方面已有的方法大多将实体链接和未知实体消歧分作两个步骤处理,忽略了多个实体指称之间关联关系对实体消歧的影响。本文针对以上两方面的问题,提出基于特征加权重叠度的中文实体协同消歧方法。该方法利用实体指称上下文中的多种特征的加权重叠度计算实体相似度,针对实体链接与消歧聚类约束,分类定义实体指称相似度计算方法,采用近邻传播聚类算法实现中文实体协同链接与消歧。

2 基于特征加权重叠度的中文实体协同消歧方法

2.1 实体消歧问题定义

2.2 特征选择与提取

命名实体能够简洁的表示与待消歧实体关联的真实概念,Elmacioglu 等人的研究表明上下文中的命名实体是有效的消歧特征[21]。WePS系列评测中大部分排名靠前的系统都采用命名实作为主要特征,也从另一个侧面验证了这一点。但是只用命名实体作为消歧特征是远远不够的,主要原因有两个方面。一是待消歧实体上下文中不一定出现命名实体,二是命名实体识别准确度难以保证。本文在分词、词性标注和实体识别基础上,结合职业和职称词典,获取专有名词、人名、机构名、地名、作品名称、职业和职称作为主要的消歧特征。此外,上下文中的概念通常以名词词组形式出现,描述了待消歧实体的属性和特点,能很好的表征实体间的语义关系;所以,本文还选取与前述特征不重叠的名词词组作为特征,计算实体间的语义关联度。获取到的特征项集合由{w}表示,特征项w={w1,w2,…,wi,…,wL},其中wi是特征项中的词语,L是特征项的长度。

2.2.1 特征项重叠相似度计算

命名实体和名词词组特征通常由多个词语构成,所以,这些特征项之间的部分匹配就显得十分重要,例如“退役足球运动员 ”和“足球运动员”的相似度应高于它和“蓝球运动员”的相似度。为了解决这一问题,本文借鉴Hoffart等人提出的短语相似度的计算方法[19]分别计算命名实体和名词词组之间的重叠相似度。

设(e,f)表示待消歧的实体对,Pe={p1,p2,…},Pf={q1,q2,…}分别表示实体e和f的特征项集合。特征项由词语构成,即pi={w1,w2,…},wi具有相对于实体e的权重γe(wi)。为了简化公式,文本用p和q表示不同实体的特征项,w表示特征项中的词,则基于加权Jaccard相似性系数的特征项重叠相似度如式(1)所示。

(1)

特征项词语权重γe(w)和γf(w)由实体上下文中的逆文档频率(IDF,Inverse Document Frequency)确定,即γ(w)=log2(Z/df(w)),Z表示待消歧实体和目标实体的总数,df(w)表示包含w的特征项出现的次数。

在特征项重叠相似度po(p,q)基础上,计算实体对(e,f)的关联度如式(2)所示。

(2)

其中φe(p)表示特征项p相对于实体e的权重,由p的TF-IDF值确定。ψ(p)表示不同类型的特征的权重。式中分子选择较小的特征项权重和特征类型权重,对po(p,q)再加权。分母通过实体特征项权重之和,对sim(e,f)进行正规化。在此,分母不采用特征项交集的最大权值求和,以避免对特征项的迪卡尔集进行计算,降低计算复杂度。考虑到不同类型的特征对实体消歧结果的贡献存在差异,本文针对不同类别特征类型定义不同的权重。权重值基于少量数据采用最小错误率训练算法[22]得到,得到的具体仅值参见表1,权重调优公式参见式(3)。

(3)

表1 特征类型权重

2.3 基于近邻传播的协同实体链接消歧

本文基于近邻传播聚类算法[23](Affinity Propagation cluster algorithm,AP)实现协同实体链接与消歧。实体链接与消歧可看作是针对实体知识库E和待消歧名字集合N的聚类问题,针对实体链接与消歧任务要求,聚类应满足以下的约束条件:

a. 由于待消歧名字集合对应的真实概念是不确定的,故聚类数目k也是不确定;

b. 实体知识库E中的实体表示独立的含义,所以它们之间的关联度为零;

c. 实体知识库E中的实体通常包含更准确、更丰富的上下文信息,应具有更大机会成为聚类代表结点(Exemplar);

d. 聚类过程应协同考虑多个待消歧实体间的关联度和相互作用,从而更好地对多个实体进行消歧。

(4)

3 实验结果及分析

本文采用CLP-2012“汉语命名实体识别与歧义消解”评测任务提供的训练数据开展实验。该评测任务提供的数据包含16个实体指称,每个实体指称对应50~200篇文本。

CLP-2012评测提供的实体知识库包含实体指称Name的多个不同定义,每个定义由一段文字描述。针对每个实体指称Name,有一个包含Name的文本集合T。要求判断T中的实体指称Name是实体名,还是普通词。如果Name是实体名,则进一步判断它是否对应于知识库中的定义;如果Name未对应到知识库中的定义,则将按其含义将实体指进行归类。如Name是普通词,则将其归入Other类中。

为了避免Other类的判别问题,实验过程中借助于Peng等人提出的方法[15],将Name作为检索词,利用互联网搜索引擎获检索结果中的前50个页面,获取与Name共现度最高的20个名词词组。利用获取的词组在实体知识库中加入与Other类对应的伪实体定义,则Other类的判别转化为在实体知识库寻找对应定义的问题。词语与Name共现度按式(5)计算。

(5)

式中,d(name,word)表示同时包含Name和Word的文档数,d(name)表示包含Name的文档数量,d(word)表示包含Word的文档数。

本文将实体链接与消歧看作是以实体指称为结点的聚类问题,聚类结果中同一个聚类簇的实体指称具有相同含义。实验过程主要包含以下三个步骤。首先利用词法分析工具[24]对知识库中的实体定义和文本集合T进行分词、词性标注和命名实体识别,并抽取实体特征和名词词组特征。然后,利用特征值计算结点似度矩阵。其中,不同实体指称间的相似度基于特征加权重叠度方法计算,即公式(1)和(2);其它情况按公式(4)进行计算。最后,采用近邻传播聚类工具[25]对实体指称进行聚类,从而得到实体链接与消歧结果。

实验结果的准确率和召回率按CLP-2012评测任务提供的公式计算,实验结果见表2。

表2 CLP-2012训练数据实验结果

续表

实验结果表明本文提出的方法在准确率、召回率和F值上取得了较好的效果。实验结果与CLP-2012评测结果比较参见表3。实验结果与Peng等人提出的两阶段实体消歧方法[15]结果相近。该方法首先利用分类算法将待消歧实体指称划分已有实体、未知实体和普通词三类;然后,利用层次聚类算法对未知实体进行消歧。相比于前述的两阶段实体消歧方法,本文方法只采用近邻传播聚类算法实现消歧,在简化方法的同时实现了实体指称的协同消歧。

表3 实体消歧方法结果比较

注: KMUST-LIIP表示本文提出的方法,UM和UM-1表示来自文献[12,26]针对部分训练数据得到的结果,ZZU、HITSZ、BUPT和SIR-NERD结果分别来自文献[10-15]。

通过对实验过程分析发现,命名实体识别工具针对CLP-2012评测数据中的实体识别准确率低是影响实验结果的主要因素之一。究其原因是评测试数据中出现的许多命名实体和普通词语重名,导致了较多的识别错误,最终影响了实验结果的准确度。另外,职业、职称和作品名等特有特征对人名实体消歧具有很好的效果,其平均准确率、召回率和F值高于其它的实体消歧结果7.2%,4.0%和5.7%。

4 结论

本文针对中文实体消歧中的特征项部分匹配的问题,提出基于特征加权重叠度的中文实体协同消歧方法。实验结果表明该方法针对面向文本中文实体链接与消歧问题具有较好的效果。本文利用实体指称上下文中的多种特征的加权重叠度计算实体相似度,能较好具体现实体间的语义关联,但由于待消歧实指称上下文信息量有限,而外部知识库(Wikipedia、百度百科和互动百科等)含有大量的实体信息,所以,我们将进一步研究融合外部知识库语义相似度计算方法,提高中文实体消歧的性能。

[1] 赵军. 命名实体识别, 排歧和跨语言关联[J]. 中文信息学报, 2009, 23(2): 3-17.

[2] Ji H, Grishman R. Knowledge base population: Successful approaches and challenges[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1. Association for Computational Linguistics, 2011: 1148-1158.

[3] Ji H, Grishman R, Dang H T, et al. Overview of the TAC 2010 knowledge base population track[C]//Proceedings of Third Text Analysis Conference (TAC 2010). 2010.

[4] Artiles J, Gonzalo J, Sekine S. The semeval-2007 weps evaluation: Establishing a benchmark for the web people search task[C]//Proceedings of the 4th International Workshop on Semantic Evaluations. Association for Computational Linguistics, 2007: 64-69.

[5] Wang Z H H, Li S. The Task 2 of CIPS-SIGHAN 2012 Named Entity Recognition and Disambiguation in Chinese Bakeoff[C]//Proceedings of The 2nd CIPS-SIGHAN Joint Conference on Chinese Language Processing (CLP-2012). 2012: 108-114.

[6] Auer S, Bizer C, Kobilarov G, et al. Dbpedia: A nucleus for a web of open data[M]//The semantic web. Springer Berlin Heidelberg, 2007: 722-735.

[7] Bollacker K, Evans C, Paritosh P, et al. Freebase: a collaboratively created graph database for structuring human knowledge[C]//Proceedings of the 2008 ACM SIGMOD international conference on Management of data. ACM, 2008: 1247-1250.

[8] Cucerzan S. Large-Scale Named Entity Disambiguation Based on Wikipedia Data[C]//Proceedings of the EMNLP-CoNLL. 2007, 7: 708-716.

[9] Milne D, Witten I H. Learning to Link with Wikipedia[C]//Proceedings of the 17th ACM conference on Information and knowledge management. ACM, 2008: 509-518.

[10] Fan Q, ZAN H, CHAI Y, et al. Chinese personal name disambiguation based on vector space model[C]//Proceedings of The 2nd CIPS-SIGHAN Joint Conference on Chinese Language Processing (CLP-2012). 2012: 152-158.

[11] Cilibrasi R L, Vitanyi P M B. The google similarity distance[J]. Knowledge and Data Engineering, IEEE Transactions on, 2007, 19(3): 370-383.

[12] Wang L, Li S, Wong D F, et al. A joint chinese named entity recognition and disambiguation system[C]//Proceedings of The 2nd CIPSSIGHAN Joint Conference on Chinese Language Processing (CLP-2012). 2012: 146-151.

[13] Liu J, Xu R, Lu Q, et al. Explore chinese encyclopedic knowledge to disambiguate person names[C]//Proceedings of The 2nd CIPS-SIGHAN Joint Conference on Chinese Language Processing (CLP-2012). 2012: 138-145.

[14] Han W, Liu G, Mao Y, et al. Attribute based Chinese Named Entity Recognition and Disambiguation[C]//Proceedings of The 2nd CIPS-SIGHAN Joint Conference on Chinese Language Processing (CLP-2012) . 2012: 127-131.

[15] Peng Z, Sun L, Han X. SIR-NERD: A Chinese Named Entity Recognition and Disambiguation System using a Two-Stage Method[C]//Proceedings of The 2nd CIPS-SIGHAN Joint Conference on Chinese Language Processing (CLP-2012). 2012: 114-120.

[16] Minkov E, Cohen W W, Ng A Y. Contextual search and name disambiguation in email using graphs[C]//Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 2006: 27-34.

[17] Bekkerman R, McCallum A. Disambiguating web appearances of people in a social network[C]//Proceedings of the 14th international conference on World Wide Web. ACM, 2005: 463-470.

[18] 郎君, 秦兵, 宋巍, 等. 基于社会网络的人名检索结果重名消解[J]. 计算机学报, 2009, 32(7): 1365-1374.

[19] Hoffart J, Seufert S, Nguyen D B, et al. Kore: Keyphrase overlap relatedness for entity disambiguation[C] //Proceedings of the 21st ACM international conference on Information and knowledge management. ACM, 2012: 545-554.

[20] Ikeda M, Ono S, Sato I, et al. Person name disambiguation on the web by two-stage clustering[C]//Proceedings of the 2nd Web People Search Evaluation Workshop (WePS 2009), 18th WWW Conference. 2009.

[21] E Elmacioglu, Y Tan, S Yan, et al. PSNUS: Web People Name Disambiguation by Simple Clustering with Rich Features[C] //Proceedings of The SemEval-2007, 2007: 268-271.

[22] Och F J. Minimum error rate training in statistical machine translation[C]//Proceedings of the 41st Annual Meeting on Association for Computational Linguistics-Volume 1. Association for Computational Linguistics, 2003: 160-167.

[23] Frey B J, Dueck D. Clustering by passing messages between data points[J]. Science, 2007, 315(5814): 972-976.

[24] 刘挺, 车万翔, 李正华. 语言技术平台[J]. 中文信息学报, 2012, 25(6): 53-62.

[25] http://genes.toronto.edu/index.php?q=affinity%20propagation[OL].

[26] Hao Zong, Derek F Wong, Lidia S Chao. A template based hybrid model for chinese personal name disambiguation[C]//Proceedings of The 2nd CIPS-SIGHAN Joint Conference on Chinese Language Processing (CLP-2012).2012: 121-126.

Collaborative Entity Disambiguation Method Based on WeightedFeature Overlap Relatedness for Chinese

XIAN Yantuan, YU Zhengtao, HONG Xudong, ZHANG Lei, GUO Jianyi

(Faculty of Information Engineering and Automation,Kunming University of Science andTechnology, Kunming, Yunnan 650500, China)

A collaborative entity disambiguation method based on weighted feature overlap relatedness is proposed in this paper. This method make use of weighted feature overlap relatedness for computing the similarity between entity names. We define some deferent similarity formulas for computing entity similarity matrix, then the affinity propagation clustering algorithm is used to get the disambiguation results. Evaluation on the CLP-2012 corpus shows that our method can achieve competitive performance, attains 84.01% precision, 87.75% recall and 85.65% F-score.

entity disambiguation; entity linking; weighted overlap relatedness; affinity propagation clustering

线岩团(1981—),博士研究生,讲师,主要研究领域为自然语言处理、信息抽取。E⁃mail:xianyantuan@qq.com余正涛(1970—),通信作者,博士,教授,博士生导师,主要研究领域为自然语处理、信息检索、机器翻译、机器学习等。E⁃mail:ztyu@hotmail.com洪旭东(1989—),博士研究生,主要研究领域为自然语言处理、信息检索。E⁃mail:459102534@qq.com

2015-03-10 定稿日期: 2015-09-10

国家自然科学基金(61363044, 61175068, 61365010, 61462054, 61462055)

1003-0077(2017)02-0036-06

TP391

A

猜你喜欢

知识库命名聚类
汉语近义词辨析知识库构建研究
命名——助力有机化学的学习
基于K-means聚类的车-地无线通信场强研究
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
有一种男人以“暖”命名
为一条河命名——在白河源
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现
基于加权模糊聚类的不平衡数据分类方法
卫星状态智能诊断知识库设计方法