一种基于图模型的维基概念相似度计算方法及其在实体链接系统中的应用
2015-04-21张涛,刘康,赵军
张 涛,刘 康,赵 军
(中国科学院自动化研究所 模式识别国家重点实验室,北京 100190)
一种基于图模型的维基概念相似度计算方法及其在实体链接系统中的应用
张 涛,刘 康,赵 军
(中国科学院自动化研究所 模式识别国家重点实验室,北京 100190)
实体链接是指将文本中具有歧义的实体指称项链接到知识库中相应实体的过程。该文首先对实体链接系统进行了分析,指出实体链接系统中的核心问题—实体指称项文本与候选实体之间的语义相似度计算。接着提出了一种基于图模型的维基概念相似度计算方法,并将该相似度计算方法应用在实体指称项文本与候选实体语义相似度的计算中。在此基础上,设计了一个基于排序学习算法框架的实体链接系统。实验结果表明,相比于传统的计算方法,新的相似度计算方法可以更加有效地捕捉实体指称项文本与候选实体间的语义相似度。同时,融入了多种特征的实体链接系统在性能上获得了达到state-of-art的水平。
实体消歧;实体链接;语义相似度计算;排序学习;随机游走
1 介绍
近年来,随着互联网的快速发展,大规模知识库(如DBpedia[1],Wikipedia[2])在互联网中出现并得到了快速发展。这些知识库富含丰富的关于实体的各种信息,如实体的属性,实体之间的语义关系等。它们的出现使得互联网用户可以十分便利地获取相关信息。在学术研究领域和工业领域中,知识库的运用使得各种依赖于自然语言处理技术的实际系统在性能上得到了显著提升[3-5],提高了学术价值和用户体验度。随着真实世界的不断发展,关于实体的各种信息在互联网中不断地进行更新和补充,因此,如何利用信息抽取系统自动地维护和更新知识库的内容变得非常重要。然而,在利用信息抽取系统更新知识库的过程中,我们面临的首要任务是确定出存在于文本中的实体指称项与知识库中实体的对应关系,这个任务被称作实体链接。为了推动实体链接任务的研究,国际上在TAC(Text Analysis Conference)会议中组织了关于该任务的评测KBP.(Knowledge Base Population)。在KBP-09中[6],该任务被定义为: 给定一个query, 其中包含有实体指称项(人名,地名,机构名)以及它所出现的上下文文本,实体链接系统需要根据实体指称项的上下文以及知识库中实体的相关信息确定出该实体指称项所对应的知识库中的实体。如果该指称项所对应的实体没有存在于知识库中,系统需要返回NIL,代表空实体。
实体链接系统所面临的最主要问题是实体歧义问题。实体歧义指的是同一个实体指称项在不同的上下文中对应知识库中不同实体的语言现象。例如,给定如下两个包含有实体指称项“苹果”的句子:
1) 苹果,落叶乔木,叶子椭圆形,花白色带有红晕,果实圆形,味甜或略酸,是常见的水果。
2) 2006年苹果将原本使用的IBM POWERPC处理器更换为INTEL基于CORE架构的处理器。
在上面的例子中,同一实体指称项“苹果”在不同的上下文中分别对应着“苹果(一种水果)”和“苹果公司”这两个实体。实体链接系统需要根据实体指称项的上下文信息以及知识库中实体的信息来进行选择。
为了解决实体歧义问题,我们需要度量实体指称项上下文与候选实体文本的语义相似度。通过相似度的计算来选择候选实体或者将此相似度作为一个重要特征来训练分类器,然后利用分类器对候选实体进行选择。因此,如何选择一个好的相似度计算方法是实体链接系统中最为关键的问题。传统的相似度计算方法采用词袋子模型(BAG-OF-WORDS)。该方法将实体指称项文本与候选实体文本分别表示为词袋子向量的形式,通过计算向量与向量之间的夹角来确定相似度,词袋子向量中词的权重通常由TF-IDF方法确定。该方法的主要缺点是仅仅考虑了词的共现信息,忽略了词与词本身之间的语义关联。当两个形式上不同的词在描述同一个语义概念时,这种基于词匹配的相似度计算方法往往会计算得不准确,该问题被称作词汇鸿沟问题。举例来说,假设知识库中存在两个关于“迈克尔·乔丹”的实体:
1) 迈尔克·乔丹是著名的篮球运动员。
2) 迈尔克·乔丹是美国伯克利大学的研究机器学习的教授。
给定实体指称项“迈尔克·乔丹”及它所出现的文本“迈尔克·乔丹获得了NBA的MVP”。通过词袋子模型方法,我们可以计算该query和两个实体的相似度均为0。原因是query中文本的词语与实体中文本的词语是不相同的,尽管它们之间具有很强的语义关联,如“NBA”和“篮球”。
为了解决词汇鸿沟问题,其中一种解决思路是借助于百科知识,将文本内容映射到百科概念空间中,进而使得相似度的计算从词的维度转换到了概念的维度。 概念与概念的相似度的计算可以借助于百科知识的各种资源,而不是仅仅考虑它们的共现信息,进而解决传统方法中存在的词汇鸿沟问题[7-8]。Wikipedia Miner[9]提供了一种维基概念之间相似度的计算方法。在Wikipedia Miner中,维基概念之间的相似度与这两个维基概念之间共有的链接条目相关联。共有的链接条目越多,代表它们之间的语义关联性越强。这种方法取得了较好的效果。但是该方法仅仅考虑了维基百科的链接关系,忽略了存在于维基百科中的类别关系。类别关系也是存在于维基百科中的很重要的语义信息,如何更好的将链接关系与类别关系相融合进而获得更加准确的维基概念间的语义相似度是我们主要考虑的问题。
在这篇文章中,基于以上的相关工作,我们提出了一种可以融合类别关系与链接关系的维基概念相似度的计算方法。我们首先根据维基概念之间的关系定义了维基概念图模型。图中的每一个节点表示一个维基概念或者一个维基类别,图中边的关系则表示维基概念之间的链接关系或者维基概念和维基类别的从属关系。这样,根据定义好的维基概念图,我们利用图模型中的随机游走算法来确定维基概念之间的相似度。在此基础上,我们设计并实现了一个基于排序学习算法框架的实体链接系统,将该相似度特征融入到我们的系统中,取得了很好的效果。实验结果表明,相比于其他state-of-art的方法,我们的实体链接系统取得了有竞争力的结果。
本文的结构组织如下: 第二章介绍我们的基于维基图模型的语义相似度计算方法;第三章介绍基于排序学习算法框架的实体链接系统;实验部分在第四章进行介绍;第五章总结了全文并对未来工作进行了展望。
2 维基概念图模型的建立及相似度计算方法
在这一章中,我们将首先介绍如何构建维基概念图模型,在此基础上,介绍基于维基概念图模型的相似度计算方法。
2.1 维基概念图模型的建立
维基百科(Wikipedia)是一个内容自由,任何人都能参与,并有多种语言的百科全书写作计划。根据知名网站Alexa网络流量统计的排名,Wikipedia为目前世界网站流量排名第七的网站。每一个维基百科中的一篇文章表示一个概念,维基概念之间通过链接关系进行关联。同时每一篇百科文章至少含有一个维基类别。每一个维基类别可以认为是具有某些相同属性的维基概念的集合。
链接关系: 每一个维基概念都有一篇文章对其进行描述,在描述该概念的条目的文本中,存在另外一些维基概念,编写维基百科的作者如果认为这些维基概念对读者理解该维基概念有帮助,则对这些存在于文本中的维基概念进行链接,从而使得读者可以更好的理解该维基概念。可以认为该维基概念与和它有链接关系的维基概念有一定的语义关联。根据统计[9],平均每篇维基百科条目含有34个到其他条目的链接,同有34个条目链接到该维基百科条目。图1表示了其中一个维基百科条目和它的部分链接关系。
图1 维基概念“Yao Ming”与它的链接关系
类别关系: 每一个维基概念都至少有一个类别标签与之相对应。该类别标签描述了具有同一类别属性的维基概念的集合。通过类别标签,可以获得和维基概念在类别属性中相似的维基概念,如维基概念“姚明”通过维基类别标签“篮球运动员”可以获得和维基概念“王治郅”的关系。通过类别关系关联的两个维基概念也可以认为具有一定的语义关联度。图2显示了维基概念“Basketball”的类别标签。
图2 维基概念“Yao Ming”与它的类别关系
维基概念图模型的建立: 我们可以根据以上所描述的维基概念之间的类别关系和链接关系来构建维基概念图模型。这个图中的每一个节点表示一个维基概念条目或者类别标签,如“Yao Ming”或者“Basketball Player”。图中的边表示概念与概念的链接关系或者概念与类别的从属关系。为了缩小维基概念图模型的规模,只有当两个维基概念之间互有链接关系时,它们之间才有边相连。同时,我们也对类别标签中条目数大于10 000或者小于50的类别标签进行了过滤。我们认为这些类别标签对于维基概念相似度的计算作用有限。这样,在经过预处理之后,我们获得了一个维基概念图模型,它的节点数目大约是260万,边的数目是5 100万。图3显示了该维基概念图模型的部分结构。
图3 维基概念图模型的部分结构
2.2维基概念之间相似度的计算
在这一小节中,我们将介绍如何利用随机游走算法来计算维基概念之间的相似度。我们首先介绍使用随机游走算法进行相似度计算的出发点。图的随机游走算法用来捕捉图模型中两个节点之间的相似度,通过2.1节的内容我们知道,通过链接关系和类别关系关联的两个维基概念通常具有某种语义相似度,例如,在图3中,维基概念“Michael Jordan”通过链接关系与“Basketball”之间具有某种语义关联。维基概念“Yao Ming”与“Basketball”具有某种语义关联,这样我们可以认为维基概念“Michael Jordan”和“Yao Ming”之间也具有某种语义关联,只是因为这种关联方式是通过中间节点“Basketball”的,所以关联强度要减弱一些。图模型上的随机游走算法可以将这种语义关联性的强度进行定量的捕捉。
我们用一个(m+n)*(m+n)的矩阵W表示维基概念图模型。其中m为矩阵中维基概念的数目,n为矩阵中类别标签的数目。如果节点i和节点j之间有边相连,那么矩阵中对应元素wi,j等于1,否则该元素为0。因为我们的维基概念图是一个无向图,因此矩阵W是一个对称矩阵,也就是说wi,j=wj,i。
我们定义从节点j到节点i的随机游走转移概率为p(i|j),它的大小为从节点j到节点i的边的权重的归一化值,由公式(1)确定。
(1)
(2)给定了该初始分布后,我们可以从该节点开始以概率矩阵P中的值为概率在图模型中进行随机游走,直到概率分布达到稳定或者迭代次数大于某个给定的阈值。稳定的概率分布值表示了图模型中的节点与初始节点语义关联性的强度。图的随机游走算法如图4所示。
图4 图模型的随机游走算法
(3)
节点i与节点j之间的语义相关性由两次随机游走算法确定,其中一次随机游走从节点i开始,另外一次从节点j开始。
例如,我们可以从图3所示的维基概念图模型得出以下计算公式,参数α在该例子中设为0.5,随机游走从一号节点“Michael Jordan”出发,第一次迭代由以下公式确定:
在迭代20次以后,节点进入稳定状态,概率分布满足以下关系:
同样地,我们可以计算节点从五号节点“Scottie Pippen”随机游走出发,到达稳定状态时各个节点的概率分布:
这样,根据计算得出的概率,我们可以得出维基概念“Michael Jordan”与“Scottie Pippen”之间的语义相似度为0.057 3。我们同样可以看出,尽管维基概念“Yao Ming”与“Michael Jordan”之间的距离与“Scottie Pippen”和“Michael Jordan”之间的距离在图模型中同为2,但是由于“Scottie Pippen”和“Michael Jordan”之间的路径数目更多,所以“Michael Jordan”与“Scottie Pippen”之间的相似度大于它与“Yao Ming”之间的相似度,这一点与我们采用该算法的出发点相一致。
3 实体链接系统
在这一节中,将介绍我们的基于排序学习算法框架的实体链接系统。它由两个模块组成,候选实体获取模块和候选实体选择模块。
3.1 候选实体获取模块
知识库中实体的数目是非常庞大的,如果对每一个实体都进行考虑,显然会影响系统的性能,同时也是没有必要的。所以实体链接系统的第一个模块就是首先选择出实体指称项可能指向的知识库中的实体有哪些,该模块被称为候选实体获取模块。我们通过维基知识资源获取实体的各种指称项,从而构建指称项与实体对应关系的词典。通过该词典来发现给定指称项可能指向的候选实体。详细的过程和方法可以参考文献[11]。根据给定的指称项词典,如给定实体指称项“Michael Jordan”,我们认为它可能指向的实体有{Michael Jordan (footballer); Michael Jordan (mycologist); Michael I. Jordan; Michael Jeffrey Jordan}。
3.2 候选实体选择模块
我们对候选实体的选择基于一个有监督的排序学习分类器。对于一个实体指称项,排序学习分类器的输入是n个d维空间向量,其中n表示的是该实体指称项的候选实体的数目,每一对候选实体与实体指称项会根据特征函数确定出一个d维空间的向量,这些特征充分考虑了候选实体自身的特征以及指称项文本内容与候选实体的语义相似度等特征。我们通过最大边缘化的方法来选择候选实体,即正确的实体所获得的分数应该高于其他的候选实体的分数同时加上一定的余量。这个约束条件等同于SVM排序学习算法[12]。
我们共使用了七种特征对候选实体进行选择,下面进行详细介绍。
实体指称项与候选实体名称之间的字符串DICE距离 直觉上,如果一个实体指称项与候选实体名称之间在字符串表面具有很高的相似度,那么说明这个实体指称项很有可能指向该候选实体。我们采用表示字符串之间表层特征关系的DICE距离作为我们分类器的其中一个特征。例如,候选实体名称“Michael Jeffrey Jordan”与实体指称项“Michael Jordan”之间的字符串DICE距离为0.788,而与实体指称项“Jordan”之间的距离为0.4。
候选实体的先验概率 候选实体的先验概率指的是该候选实体在整个维基百科数据中被以候选实体指称项作为锚文本时链接的概率,它反映了该候选实体在真实世界中的流行程度,由公式(4)给出。
(4)
其中,count(e,m)表示在整个维基百科数据中实体指称项m链接到候选实体e的次数。当给定实体指称项“Michael Jordan”时,候选实体“Michael Jeffery Jordan”的先验概率为0.857,而候选实体“Michael I. Jordan”的概率为0.023,它反映了实体在整个真实世界中的流行度。也就是给定指称项“Michale Jordan”,人们主观上的第一反应是篮球运动员而不是机器学习的教授。这就是这个特征的主要作用。
候选实体的名称是否在指称项文本中出现过以及指称项是否在候选实体文本中出现过 这是两个01特征。主要的作用是判断候选实体的名称是否在指称项文本中出现过以及实体指称项是否在候选实体的维基百科文本中出现。出现则相应特征为1,否则为0。主观感觉上,如果实体指称项在实体文本中出现或者实体名称在指称项文本中出现,那么实体指称项与候选实体相关联的概率会大一些。
候选实体文本内容与指称项文本内容之间词袋子向量的夹角 该特征反映了实体指称项文本内容与候选实体文本内容在词的维度上的重合度。具体的计算公式如式(5)所示。
(5)
词袋子向量中的每一个元素表示一个词,我们去除了一些停用词,词的权重由TF-IDF确定。具体地,我们由公式(6)得出一个Term在一个文档d中的权重。
(6)
其中,TF(Term-Frequency)表示的是该词在这篇文档中出现的频率,出现频率越高,表示该词和这篇文档的相关性越大。DF(Document-Frequency)表示的是该词在整个文档集中出现的频率,出现的频率越高,表示该词对于某一篇文档越不重要,这个词可能是一些比较泛化的词,在大多数的文档中都会出现。
候选实体与指称项文本中出现的维基概念之间的语义相似度 上一个特征采用词袋子模型计算文本相似度,词袋子中的每一个词被单独考虑,没有考虑词与词之间的语义关联,容易使得语义上很相近的两段文本内容仅仅由于表达方式不一样而得到相对较低的相似度。这一特征主要是为了解决该问题。我们认为出现在实体指称项文本中的维基概念是对该实体指称项所在文本语义表述,我们抽取出这些维基概念,通过上一章提出的方法计算出这些出现在实体指称项文本中的概念与候选实体的语义相似度,我们认为该相似度可以作为一个语义相关性指标来表示实体文本与指称项文本的语义相似度。
具体来说,给定一段实体指称项文本,我们首先利用wikipedia-miner工具抽取出文本中出现的维基概念。Wikipedia-miner是新西兰大学开发的用于检测识别维基概念的工具。它使用机器学习方法,可以对输入的文本自动识别并检测出重要的维基概念。如图5所示,利用Wikipedi-miner抽取出的维基概念为commerical broadcasting,Blue radio network,The Walt Disney Company。我们认为这些维基概念可以作为实体指称项文本的语义表示。
图5 实体指称项文本与出现在文本中的维基概念
根据这些识别出的维基概念和我们上一章提出的维基概念的相似度计算方法,我们使用公式(7)计算候选实体与指称项所在文本的语义相似度。
(7)
其中,n表示指称项文本中维基概念的个数,sr(e,c)是利用维基概念图模型计算得出的实体与维基概念的语义相似度。
空实体特征 在前面的文章中,我们都做出了一个假设,即实体指称项在知识库中总是存在目标实体的,也就是说知识库是一个完整的知识库。但是实际情况往往不是如此。随着世界的不断变化和发展,会有一些新的实体出现在我们的生活中,在这种情况下,知识库还没有来得及更新,导致实体指称项所指向的实体可能会在知识库中不存在,这种现象被称为空实体现象。如何确定哪些实体指称项所指向的实体为空实体对丰富知识库内容,完善知识库体系具有非常重要的意义。传统方法[6]对空实体的处理往往人为设定一个阈值,通过实体指称项文本与候选实体文本相似度大小与阈值的比较确定该实体指称项是否为空实体。这种方法主要的不足是: (1)人为确定阈值是比较困难的。常规的方法往往是由实验和人们的经验所确定;(2)对所有的实体指称项人为设定一个单一且固定阈值的效果往往是不好的,因为空实体的阈值往往是与实体指称项以及它的文本内容关联在一起的,不同的实体指称项的阈值往往也不相同。
为了解决人为设定空实体阈值方法的不足,我们加入了一个空实体到知识库中,并且假设所有的实体指称项的候选实体集都包含有该空实体。并且加入了一个维度的特征来表示该候选实体是否为空实体。如果为空实体,则该维度特征为1,否则该维度特征为0。对于空实体而言,除了该维度的特征以外,其它维度的特征均为0。这样做的目的是可以通过训练数据,学习到一个关于空实体维度特征的权重,该特征的权重与其他特征相关联,相当于人为学习到了一个关于空实体的自适应的阈值,从而
可以有效避免人为设定阈值所带来的问题。
4 实验
在这一章中,为了验证我们实体链接系统的有效性,我们对系统进行了测试。并进行如下讨论: 1)基于维基概念图模型的相似度计算方法是否可以提高实体链接系统的性能?2)空实体处理方法是否有效?3)基于排序学习算法的实体链接系统和其他系统在性能上相比效果如何?
4.1 实验数据与评测指标
由于实体链接系统中的模块依赖于排序算法,需要构建训练数据训练排序学习分类器。因此,我们利用了KBP 2009与KBP 2010中的英文实体链接数据作为的训练和开发语料。其中,KBP 2009语料含有3 904个query,这些query中的实体指称项包含有15%的人名实体指称项(PER),70%的机构名实体指称项(ORG),15%的组织名实体指称项(GRE)。在这些query中,32.5%的实体指称项在知识库中含有相对应的实体,67.5%的实体指称项的目标实体不在知识库中。KBP 2010语料中含有2 250个query,三种不同类型的实体指称项在该语料中各占33%。KBP2009的所有语料来自于新闻语料,KBP2010的语料有部分来自于网上的博客内容。我们用KBP 2009的数据作为分类器的训练语料,KBP 2010的数据作为开发语料。测试数据选用KBP 2011的标准测试集。它含有2 250个query。
我们采用Micro-averaged accuracy作为系统的主要评测指标,即所有链接结果的平均准确率,计算公式如式(8)所示。
(8)
4.2 参数设置
为了使系统更加实用并且高效,SVM算法中核函数选择为线性核函数。这样,我们的系统仅有一个参数需要进行确认,即惩罚因子C。我们采用KBP2009数据作为训练语料,在开发集KBP2010上进行了针对不同参数C的实验性能的测试,选取全部特征,结果如图6所示。
图6 系统性能与惩罚因子参数C之间的关系
从图6中可以看出,惩罚因子C对系统性能的影响不是很大。当C为30时,系统在开发集上的Micro指标为0.758;当C为120时,系统在开发集上的性能指标Micro为0.788;当参数C选为80时,系统在开发集上的性能指标Micro达到最优,达到了0.808。因此,我们将分类器中惩罚因子C的值设为80。
4.3 特征有效性分析
为了验证提出的基于维基概念图模型相似度算法的有效性,我们构建并实现了如下几个系统,进行了特征有效性分析。
1) Dice: 仅考虑实体指称项与候选实体名称之间的字符串DICE距离特征;
2) Dice+Prior probability: 加入候选实体先验概率特征;
3) Dice+Prior probability+Appear: 加入指称项是否在实体文本中出现和实体的名称是否在指称项所在文本中出现两个01特征;
4) Dice+Prior probability +Appear +BOW: 加入由词袋子模型计算得到的指称项文本与候选实体文本相似度特征;
5) Dice+Prior probability +Appear +BOW+Wikipedia semantic relatedness: 加入由维基概念图模型计算得到的指称项文本与候选实体语义相似度特征;
6) Dice+Prior probability +Appear +BOW+Wikipedia semantic relatedness +NIL: 加入空实体特征。
我们采用KBP2009数据作为训练数据,在KBP2011数据集上进行了测试,具体结果如表3所示。
表3 不同的特征对系统性能的影响
通过表3中的结果我们发现,加入候选实体先验概率与实体指称项是否在候选文本中出现特征后,系统性能分别有1%和1.2%的提升,有一定的效果,但是作用不大。分析发现是由于这些特征仅仅考虑了实体指称项与候选实体本身的一些特征,没有考虑实体指称项文本内容与候选实体文本内容,导致性能相对较低。在加入基于词袋子模型的文本相似度特征后,系统性能有较大幅度的提升,达到了4.8%。这种性能的提升符合我们的预期,词袋子模型捕捉到了指称项文本内容与实体文本内容在词这一个维度上的相似程度。在加入基于维基图模型的语义相似度以后,系统性能进一步提升,幅度达到了3.8%,说明该特征可以更好的捕捉词袋子模型以外的语义相关信息,更加准确的表示实体指称项文本与候选实体之间的语义相似度。加入空实体特征以后,系统性能有了进一步提升。前面这些特征特征都没有考虑到空实体的处理情况。在候选实体集中加入空实体以后,系统对空实体这一情况的处理能力得到了加强,系统的性能指标得到了提高。
我们还对比分析了两种语义相似度计算方法对系统性能的影响程度。为此,构建了两个系统:
1) Dice+Prior probability+Appear+BOW+ Wikipedia miner+Nil: 语义相似度特征的计算方法由Wikipedia miner提供,具体地,两个维基概念x、y之间的语义相似度为式(9)。
(9)
其中X、Y分别是链接到这两个条目的其他条目的集合,W指整个Wikipedia。这种相似度计算方法仅仅考虑了链接关系。
2) Dice+Prior probability+Appear+BOW+Wikipedia semantic relatedness+Nil: 语义相似度特征的计算方法由图模型提供,即同时考虑链接关系与类别信息
我们采用KBP2009数据作为训练数据,在KBP2011数据集上进行了测试,具体结果如表4所示。
表4 基于词袋子模型相似度特征与基于维基概念图模型相似度特征的对比
从表4的结果中可以看出,使用基于维基概念图模型语义相似度特征的系统实际效果要优于仅仅使用链接关系相似度特征的系统。这表明相比于传统的相似度计算方法,基于维基概念图模型的语义相似度特征能够更好地捕捉到实体指称项文本与候选实体文本之间的语义相似度。
4.4 与State-of-Art系统性能的比较
除此之外,我们还与参加KBP2010评测的前五名系统的性能进行了比较。表5展示了比较的结果。我们的系统达到了state-of-art的水平。
表5 与state-of-art系统性能的比较
5 总结和展望
本文针对传统文本相似度计算方法存在的不足,提出了一种基于维基图模型的维基概念相似度计算方法。在此基础上,设计了一个基于排序学习算法框架的实体链接系统。实验结果表明,相比于传统的计算方法,新的相似度计算方法可以更加有效地捕捉实体指称项文本与候选实体间的语义相似度。同时,融入了多种特征的实体链接系统的性能获得了state-of-art的效果。
下一步的工作主要包括: 1)实体链接系统对空实体的处理还不完善,仅仅是指出该实体指称项所表示的实体在知识库中不存在,我们还需要将这项工作进行细化,如将空实体进行聚类并且将聚类后的空实体加入到知识库中;2)研究跨语言的实体链接系统,如将汉语实体指称项链接到英文知识库中。
[1] S Auer, C Bizer, G Kobilarov, et al. Dbpedia: A Nucleus for Web of Open Data [C]//Proceedings of ISWC, 2007:11-15.
[2] http://www.wikipedia.org/
[3] Marius Pasca. Outclassing Wikipedia in Open-domain Information Extraction: Weakly-supervised Acquisition of Attributes over Conceptual Hierarchies[C]//Proceedings of the 12th Conference of the European Chapter of the ACL, 2009: 639-647.
[4] Simone Palo Ponzetto, Michael Strube. Knowledge Derived from Wikipedia for Computing Semantic Relatedness[J]. Journal of Artificial Inteeligence Research, 2007: 181-212.
[5] Angela Fogarolli. Word Sense Disambiguation based on Wikipedia link structure [C]//Proceedings of International Conference on Semantic Computing, 2009: 77-82.
[6] P McNamee, H Simpson, H T Dang. Overview of the TAC 2009 Knowledge Base Population Track [C]//Proceedings of TAC, 2009.
[7] X Han, J Zhao. Named Entity Disambiguation by Leveraging Wikipedia Semantic Knowledge [C]//Proceedings of CIKM, 2009: 215-224.
[8] E Gabrilovich, S Markovitch. Computing Semantic Relatedness using Wikipedia-based Explicit Semantic Analysis [C]//Proceedings of IJCAI, 2007: 1606-1611.
[9] David Milne, Ian H Witten. Learning to link with Wikipedia [C]//Proceedings of CIKM 2008.USA: ACM, 2008:509-518.
[10] Jian Hu, Gang Wang, Fred Lochovsky, Jian-Tao Sun, and Zheng Chen. Understanding User’s Query Intent with Wikipedia [C]//Proceedings of WWW, 2009: 471-480.
[11] Y Guo, W Che, T Liu, et al. A Graph-based Method for Entity Linking. [C]//Proceedings of IJCNLP, 2011: 1010-1018.
[12] T Joachims. Optimizing Search Engines Using Click through Data [C]//Proceedings of the ACM Conference on Knowledge Discovery and Data Mining (KDD), ACM, 2002.
A Graph-based Similarity Measure between Wikipedia Concepts and Its Application in Entity Linking System
ZHANG Tao, LIU Kang, ZHAO Jun
(National Laboratory of Pattern Recognition, Institute of Automation, Chinese Academy of Science, Beijing 100190, China)
Entity linking is the task of map entity mentions in a document to their entities in a knowledge base (KB). In this paper, we briefly introduce the traditional entity linking system and point out the key problem of entity linking system-the semantic similarity measure between the content of entity mention and the document of the candidate entity. And then, we propose a novel semantic relatedness measure between Wikipedia concepts based on the graph structure of Wikipedia. With this similarity measure, we present a novel learning to rank framework which leverage the rich semantic information derived from Wikipedia to deal with the entity lining task. Experiment results show that the performance of the system is comparable to the state-of-art result.
entity linking; similarity measure between wikipedia concepts; learning to rank; random walk
张涛(1983—),博士研究生,博士,主要研究领域为自然语言处理,实体识别与实体链接。E⁃mail:158451325@qq.com刘康(1981—),副研究员,博士,主要研究领域为自然语言处理,信息抽取,问答系统。E⁃mail:kliu@nlpr.ia.ac.cn赵军(1966—),研究员,博士,主要研究领域为自然语言处理,信息抽取与知识工程,问答系统等。E⁃mail:jzhao@nlpr.ia.ac.cn
1003-0077(2015)02-0058-10
2013-03-19 定稿日期: 2013-11-25
TP391
A