基于分布的词汇级语义相关度计算综述
2014-04-29孙叔琦杨沐昀
孙叔琦 杨沐昀
摘 要:在数字化智能信息处理领域,词汇级语言对象在语义上的相关关系可以为多种研究问题提供有效的特征线索。语义相关度计算是语义相关关系的量化手段,而基于分布相似度的计算方法是一类最典型的方法。这类方法将语言对象被转化为语义空间上的一个分布,通过分布的相似性评估对应语言对象的语义相关度。本文详细介绍了基于上下文分布、基于知识资源元素分布两种形式的代表性方法,并从基础资源的规模、质量、可扩展性三个角度,对这些方法进行了总结。
关键词: 语义相关度;词汇级;知识资源;分布相似度
中图法分类号:TP391 文献标识码:A 文章编号:2095-2163(2014)05-
A Survey of Word-level Semantic Relatedness Computation based on Distribution
SUN Shuqi, YANG Muyun
(School of Computer Science and Technology,Harbin Institute of Technology,Harbin 150001,China)
Abstract:In the domain of digital intelligent information processing, the semantic relationship between word-level objects provides effective evidences for a variety of research questions. Semantic relatedness computation is the quantification manner of semantic relationships, among which the typical one is the distribution based approach. It converts linguistic objects to distributions over a semantic space, and evaluates two objects semantic relatedness by examining the similarity between their corresponding distributions. This paper introduces in detail two representative approaches, such as the method based on context distribution, and knowledge resource element distribution, therefore summarizes them from the viewpoints of their fundamental resources scale, quality and expandability.
Keywords:Semantic Relatedness; Word Level; Knowledge Source; Distribution Similarity
0 引 言
在数字化智能信息处理领域,词汇级语言对象在语义上的相关关系可以为多种研究问题提供有效的特征线索。这里的“词汇级语言对象”包括词汇,以及词汇在知识资源中对应的条目,如WordNet义项、维基百科词条,等等。自然语言处理研究直接涉及到词汇级语言对象之间的比较,因此也是词汇级语义相关度计算最自然、最直接的应用热点之一。而与其切实相关的自然语言处理任务则主要包括了词义消歧、词法替换、复述、辞典构建、语言模型估计,等等方面,由此对其开展深度研究即有着重要的学术价值和实际意义。
语义相关度计算是语义相关关系的量化手段,而在既有研究工作中,堪称典型的一类计算则是基于分布相似度的方法。在基于分布相似度的语义相关度计算中,语义相关关系即指语言对象在一些特定方面上的相似性。此时,语言对象将转化为一个多维度的定量指标表示,并可视作语义空间上的一个分布。而且,语言对象对应的分布越相近,语义相关度就会越高。
语义空间及空间上分布的形式就是此类相关度计算算法的主要区分标志之一。现有研究工作中,典型的分布形式包含两种:(1)上下文分布;(2)知识资源元素分布。其中,基于上下文分布的方法主要针对于词汇,使用词汇的上下文统计信息对其加以表示,所处上下文较相近的词汇在语义上就会呈现较大相关。而基于知识资源元素分布的方法则既可以计算知识资源条目之间的语义相关度,也可以计算与这些条目对应的词汇之间的语义相关度。此类方法使用知识资源条目本身的特定元素(如关键词、关键短语、超链接,甚至条目本身)表示语言对象,两个语言对象在知识层面上重叠越多,语义上就越相关。
本文分别在第1、2节综述了基于上下文分布与基于知识资源元素分布的典型计算方法。最后,在第3节,本文从基础资源的规模、质量、可扩展性三个角度,对这些方法进行了分析和讨论。
1基于上下文分布的方法
上下文分布一般用于计算词汇之间的语义相关度。这一类方法的理论基础是Firth在文献[1]提出的上下文假设:词汇的语义可以由其伴生上下文环境而实现等价代表。词汇的上下文环境体现的是人们在实际语言交流中使用该词汇的具体途径,并且两个词汇的使用方式越接近,在语义上就越相关。通过在大规模语料中统计词汇所处的上下文环境,可以得到每个词汇的上下文分布,而两个词汇的语义相关度则可通过比较二者对应的上下文分布并综合后得出最终结果。在既有研究工作中,常见的上下文环境包括文本窗口共现型上下文、句法依存关系型上下文两种。下面将依次给出其分析及论述。
1.1 基于文本窗口共现型上下文的方法
基于1987-1989年的华尔街日报语料(约4050万词),Dagan等人使用了二元文法(相当于长度为2的单侧文本窗口)概率分布列P(W|wi)作为词汇wi的上下文,并使用K-L距离计算两个词汇的分布相似度[2]。与wi分布相似的词汇用于估计语料中未观察到的bigram概率Punseen(wj|wi)。Schütze和Pederson则使用长度为40的文本窗口,在TipsterB类语料[3](约45万独立词汇)上统计了各词汇的文本窗口共现型上下文,并通过两次聚类和一次奇异值分解(SVD),将每个词汇的上下文分布转化为一个20维的实数向量,进而将其应用于文档检索[4]。Rapp还使用长度为3和5的文本窗口,在不列颠国家语料(BNC,约1亿词)[5]上统计了每个词汇wi的上下文分布{(w1, Ai1),...,(wN, AiN)},其中N为语料中的独立词汇个数,而共现强度Aij即是在原始共现频率的基础上加入了一个基于熵的变换,具体计算可如式(1)所示[6]。
(1)
其中,fij表示词汇wi、wj的共现频率,cj表示wj在语料中的频率。
共现词汇分布在经过奇异值分解并降至300维后,Rapp再次使用了对应分布之间的余弦相似度和曼哈顿距离两个度量而计算了两个词汇的语义相关度。Agirre等人又在更大的语料(10亿网页,约1.6×1012词)上统计了词汇的上下文分布(窗口长度从2到8不等)、使用χ2检验以确定两个词汇的共现强度,而且同样以两个词汇上下文分布的余弦相似度作为二者的语义相关度[7]。此外,除了文本窗口中的词汇,文本窗口本身也可作为词汇的上下文。Agirre即使用了以词汇w为中心、左右长度各N个词(1≤N≤7)的文本窗口作为w的上下文,由此取得了比使用窗口中词汇作为上下文更好的相关度计算效果[7]。Reisinger和Monney也使用了类似的方法,独特之处则在于研究对相似的文本窗口进行了聚类[8]。
1.2基于句法依存关系型上下文的方法
句法依存关系型上下文考察的是一个词汇在依存句法结构中的支配词或从属词。基于句法分析结果,一个词汇的句法依存关系型上下文主要由包含该词汇的所有依存关系三元组构成。例如句子“习近平就加快发展职业教育作出重要指示”中,“指示”的上下文即为dobj(作出,指示)和amod-1(重要,指示) ,具体地dobj表示直接宾语,amod-1表示被形容词修饰。
一些研究者集中针对名词与动词之间的依存关系展开了有关工作。Hindle就以1987年美联社语料(约600万词)为基础,并根据名词与动词之间的主谓关系和谓宾关系(即obj(Verb,Noun)和subj(Verb,Noun)形式的上下文)计算了名词之间的语义相关度[9],具体则如式(10)所示。
(2)
名词n1、n2的语义相关度由关于动词v的宾语相关度robj和主语相关度rsubj构成并联合确定,二者的定义形式类似。现以宾语相关度robj为例,定义可见于式(3)。
(3)
其中,Iobj(v,n)为名词n与动词v在谓宾关系下的点互信息,详细计算如式(4)所示,式中星号表示所有动词(或名词)。
(4)
接下来,Dagan等人和Lee则从其早期的工作[2]出发,将基于bigram的上下文统计及分布相似度计算方法应用到动词、名词的谓宾结构上[10-11]:与名词n在谓语上相似的其他名词用于估计在语料中未观察到的谓宾关系概率Punseen(v|n)。而基于这种概率预测方式,Lee又在伪词义消歧问题(通过名词选择搭配动词)上比较了多种分布相似度指标的平均错误率,并提出了一个新的分布相似度指标:α-skew差异,这样就达到了显著优于其他指标的出色效果[11]。
另一些研究者则并不限定依存关系的类型。Lin在文献[9]的基础上扩展了依存关系的覆盖范围(考察句子中全部的依存关系r),进而提出了一种改进的分布相似度计算指标[12],计算过程如式(5)所示,其中Ir(w′,w)表示w′、w在依存关系r下的点互信息,Tr(w)={w′:Ir(w,w′)>0}。
(5)
由于引入了全部依存关系,式(5)支持任意词汇之间的语义相关度计算;同时,相对于式(2),式(5)通过引入分母惩罚了那些在大量关系中、与大量词汇的点互信息都较高的词汇。Lin 在共计约 6 400 万词的华尔街日报、圣何塞信使报和美联社新闻语料上统计、计算了词汇语义相关度,并将其与Hindle 的算法[9]进行了对比研究。而在Lin之前,Grefenstette也引入了所有依存关系以统计词汇的上下文分布[13]。但不同之处在于,Grefenstette是以集合的形式表示上下文分布(无权重),再使用上下文集合之间的Tanimoto距离[14]来计算语义相关度的。
此外,还有一些研究者尝试使用更长的依存路径,即多个连续依存关系的叠加表示词汇的上下文。虽然长路径的表达能力强于单一的依存关系,但显然面临着数据稀疏的问题——越长的路径,在语料中出现的次数就越少。为了解决数据稀疏问题,研究者们对依存路径进行了各种类型的简化。基于不列颠国家语料,Padó和Lapata在对路径经过的词性与依存关系的类型加以限制的情况下,使用了终点相同,但长度不限的依存路径构成词汇上下文[15-16]。所有终点相同的依存路径将视为等价,因此一个词汇的上下文分布最终转化为关于路径终点词汇一个向量。Padó和Lapata又使用了1 000个高频词汇作为可能的路径终点,并使用了余弦相似度和α-skew差异比较两个词汇对应的1 000维向量,由此而获取语义相关度。Agirre等人则选择忽略依存路径上的具体依存关系,只使用支配词、从属词的序列表示词汇的上下文[7]。一个词汇的上下文由其在依存路径上的最多三个支配词和最多一个从属词而共同构成。Thater等人更在Gigaword语料上集中考察了长度为2的依存路径,即以词汇w的二阶依存关系r′(w′′,w′)?r(w′,w)作为其上下文[17-18]。为了缓解数据稀疏问题,Thater等人选择忽略第二层依存关系中的关系词w′,而在分布权重的计算中也对应地将其边缘化,量化计算可如式(6)所示。
(6)
其中,R、W分别为依存关系、词汇的全集,Ir(w′,w)表示w′、w在依存关系r下的点互信息,er,r′,w′′为w上下文分布的基向量,即使用依存路径上的两个依存关系和终点词汇作为w的上下文。
2基于知识资源元素分布的方法
在基于知识资源元素分布的方法中,语言对象的表达形式不再是其使用方式(上下文分布),而是其对应于知识资源中的条目(如WordNet义项)或条目中的一些关键元素(如在线百科文章中的超链接)的分布。两个语言对象共享的知识资源元素越多,也就具有更大相关性。
知识资源条目的内容作为一种最直接的可利用元素,一般用来计算条目本身之间的语义相关度。Lesk通过比较WordNet义项释义(gloss)中的词汇分布获得两个义项之间的语义相关度——重叠的词汇越多,二者就越相关[19]。Banerjee和Pedersen从两个方面改进了Lesk的方法[20]:
(1)对于长度为n的连续重叠部分,设定其对相关度的贡献为n2而非Lesk方法中的n,因为n较为罕见;
(2)不但考虑目标义项s1、s2本身的重叠,也考虑其相关义项r(s1)、r(s2)之间的重叠,其计算结果如式(7)所示。其中,RELPAIRS表示一组预先选定的 WordNet关系对(设义项s与其本身之间有 gloss 关系:gloss(s) = s),score表示两个义项的重叠分数。
(15)
Ho?art等人提出了KORE(keyphraseoverlaprelatedness)算法,根据词条中关键短语分布计算了维基百科词条(原始文献中称之为实体)之间的语义相关度[21]。对词条e,关键短语集合Pe来自于其中的连接锚文本以及参考文献的标题,关键短语p∈Pe本身以及短语中的每个词汇w∈p均有关于e的权重?e(p)和γe(w),并将其分别定义为p、e的互信息以及w关于e的tf-idf。两个词条e、f之间语义相关度的计算方法则如式(8)所示。
(8)
其中,PO(p,q)表示关键短语p、q的重叠程度,定义为二者对应词汇集合之间的带权Jaccard系数,其计算实现可如式(9)所示。
(9)
在超链接丰富的知识资源,如在线百科全书中,超链接的分布也是一种语义表示形式。Turdakov和Velikhov使用与其他词条之间的超链接(包括出链和入链)分布表示维基百科词条,不同种类的超链接权重也将有所不同,如“seealso”连接的权重较高,而与日期、时间词条之间链接的权重最低。最后,词条之间的语义相关度使用链接分布之间的Dice系数计算[22]。Milne和Witten在文献[23]中即主要考虑维基百科词条的入链,并提出了两个词条语义相关度计算方法。第一个方法使用入链的分布表示词条,而与文献[22]不同的是,入链的权重是自动计算的,并定义为idf,两个词条的语义相关度随之将定义为对应入链分布的余弦相似度。第二个方法使用所有入链e的集合(不考虑权重)Ie表示e,两个词条e、f之间的语义相关度则定义为对应词条之间的谷歌距离,如式(10)所示,其中N表示维基百科中词条总数。
(10)
Milne和Witten的实验显示第二个方法在预测词汇语义相关度时效果明显好于第一个方法,而两个方法的结合还可更进一步地提高最终效果。
知识资源条目本身也可以作为一个整体参与语义表示。Hughes和Ramage[24],以及Agirre等人[7]将WordNet中的义项与词汇转化为图状互联结构,并通过以目标词汇为起点的随机漫步算法获取一个关于义项的概率分布作为该词汇的语义表示。特别地,在比较两个词汇的义项分布时,Hughes和Ramage提出了Zero-KL指标。该指标是α-skew差异的变体,其效果在实验中好于后者,以及余弦相似度等指标。在维基百科上,Gabrilovich和Markovitch有、又相应提出了显语义分析(explicitsemanticanalysis)方法,以支持任意粒度的文本语义相关度计算[25]。Gabrilovich和Markovitch使用维基百科词条全集{c1,c2,...,cN}的分布?dj?表示文本T,而且将两段文本的语义相关度定义为对应分布的余弦相似度。设向量?vi?中,vi为wi在T={wi}上的tf-idf,而?kj?为wi的倒排向量,表示wi在维基百科词条cj∈{c1,c2,...,cN}上的tf-idf,则词条cj在T对应的分布中的权重为 。除以上研究外,Yazdani和Popescu-Belis还结合了随机漫步算法和显语义分析的理念,再通过随机漫步获取维基百科词条之间的相关度,又借助了迁移学习的方式将文本片段表示成词条的分布,并计算得到语义相关度[26]。
3结束语
从资源上看,基于分布相似度的词汇级语义相关度计算方法依赖的资源主要分为两大类:结构化的知识资源,以及非结构化的文本资源。其中,基于结构化知识资源的方法以专家资源、(高级)用户生成内容为依据,知识资源在构建时遵循的设计规则将直接作为此类方法的指导信息。基于非结构化文本资源的方法则以语言对象在实际使用时的相互联系作为依据,指导信息间接体现在对词法、句法等语言现象中。
从规模上讲,限于人力,知识资源对语言对象的覆盖率不会太高,尤其是对传统的词法网络,如WordNet而言。借助用户群体力量维护与扩充的在线百科全书以及对应的知识库资源虽在一定程度上缓解了人力上的局限,但依旧没有改变其对高质量领域知识的内在需求。相比之下,非结构文本资源是人类语言在信息系统中的自然产物,不需要有目的性地加以构建与整理,规模上也远大于结构化的知识资源。
从质量上讲,知识资源无疑要好于多数文本资源,但文本资源的规模弥补了其质量的不足。在语义相关度计算问题上,基于知识资源的方法在效果上也并无绝对优势[7],再加上对覆盖率的考虑,综合而论,基于文本资源的方法实际上的可用性将更强。
从可扩展性上讲,知识资源在不同领域上的丰富度与质量是不同的,但很大程度上取决于构建者的主观选择。领域上的差异影响了算法的通用性,而在真正需要特定领域内的语义相关度的时候,强领域相关的知识资源又不易构建。相形之下,文本资源在不同领域上的丰富度虽然也不尽相同,但由于普通文本是语言、知识在数字化系统中最基本的表达形式,当面临新领域(包括新语言)上的新问题时,文本资源就将是最先可用,并应最先尝试使用的有效资源。
总结起来,由于当前大规模文本语料越来越容易获取,基于文本资源的语义相关度计算方法拥有一定的优势。但是另一方面,知识资源中的一些特殊元素(如超链接、引用关系等)却为语义相关度计算提供了独具特色的特征线索。已有一些研究工作正尝试着将这两类方法结合使用[7],这在未来即成为一个值得研究的重要方向。
参考文献:
[1] Firth J R. A Synopsis of Linguistic Theory 1930-55[M]. Studies in Linguistic Analysis (special volume of the Philological Society). Oxford: The PhilologicalSociety, 1957,1952-59:1–32.
[2] DAGAN I, PEREIRA F, LEE L. Similarity-based estimation of Word cooccurrence probabilities[C]//Proceedings of the 32nd Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics,1994:272–278.
[3] HARMAN D. Overview of the First TREC Conference[C]//Proceedings of the 16th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York, NY, USA: ACM, 1993:36–47.
[4] SCHUTZE H, PEDERSEN J O. A cooccurrence-based thesaurus and two applications to information retrieval[J]. Inf. Process. Manage., 1997, 33(3):307–318.
[5] The British National Corpus, version 3 (BNC XML Edition)[EB/OL]. [2014-05-27]. http://www.natcorp.ox.ac.uk/.
[6] RAPP R. Word sense discovery based on sense descriptor dissimilarity[C]//Proceedings of the Ninth Machine Translation Summit. East Stroudsburg, PA, USA: AMTA,2003:315–322.
[7] AGIRRE E, ALFONSECA E, HALL K, et al. A study on similarity and relatedness using distributional and Wordnet-based approaches[C]//Proceedings of Human LanguageTechnologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 2009:19–27.
[8] REISINGER J, MOONEY R J. Multi-prototype vector-space models of Word meaning[C]//Human Language Technologies: The 2010 Annual Conference of the NorthAmerican Chapter of the Association for Computational Linguistics. Stroudsburg,PA, USA: Association for Computational Linguistics, 2010:109–117.
[9] HINDLE D. Noun classification from predicate-argument structures[C]//Proceedings of the 28th Annual Meeting on Association for Computational Linguistics. Stroudsburg,PA, USA: Association for Computational Linguistics, 1990:268–275.
[10] DAGAN I, LEE L, PEREIRA F C N. Similarity-based models of Word cooccurrence probabilities[J]. Mach. Learn., 1999, 34(1-3):43–69.
[11] LEE L. Measures of distributional similarity[C]//Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics on Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics,1999:25–32.
[12] LIN D. Automatic retrieval and clustering of similar Words[C]//Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17thInternational Conference on Computational Linguistics - Volume 2. Stroudsburg,PA, USA: Association for Computational Linguistics, 1998:768–774.
[13] GREFENSTETTE G. SEXTANT: Exploring unexplored contexts for semantic extraction from syntactic analysis[C]//Proceedings of the 30th Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA, USA: Association forComputational Linguistics, 1992:324–326.
[14] ROGERS D J, TANIMOTO T T. A computer program for classifying plants[J]. Science, 1960, 132(3434):1115–1118.
[15] PADó S, LAPATA M. Constructing semantic space models from parsed corpora[C]//Proceedings of the 41st Annual Meeting on Association for Computational Linguistics - Volume 1. Stroudsburg, PA, USA: Association for Computational Linguistics,2003:128–135.
[16] PADó S, LAPATA M. Dependency-based construction of semantic space models[J].Comput. Linguist., 2007, 33(2):161–199.
[17] THATER S, DINU G, PINKAL M. Ranking paraphrases in context[C]//Proceedings of the 2009 Workshop on Applied Textual Inference. Stroudsburg, PA, USA: Associationfor Computational Linguistics, 2009:44–47.
[18] THATER S, F¨uRSTENAU H, PINKAL M. Contextualizing Semantic Representations UsingSyntactically Enriched Vector Models[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 2010:948–957.
[19] LESK M. Automatic sense disambiguation using machine readable dictionaries:how to tell a pine cone from an ice cream cone[C]//Proceedings of the 5th Annual International Conference on Systems Documentation. New York, NY, USA: ACM,1986:24–26.
[20] BANERJEE S, PEDERSEN T. Extended gloss overlaps as a measure of semantic relatedness[C]//Proceedings of the 18th International Joint Conference on Artificial Intelligence.San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 2003:805–810.
[21] HOFFART J, SEUFERT S, NGUYEN D B, et al. KORE: Keyphrase overlap relatedness for entity disambiguation[C]//Proceedings of the 21st ACM International Conferenceon Information and Knowledge Management. New York, NY, USA: ACM,2012:545–554.
[22] TURDAKOV D, VELIKHOV P. Semantic relatedness metric for Wikipedia concepts based on link analysis and its application to Word sense disambiguation[C]//KUZNETSOV S D, PLESHACHKOV P, NOVIKOV B, et al. Proceedings of the Spring Young Researchers Colloquium On Database and Information Systems, SYRCoDIS08.Saint-Petersburg, Russia: CEUR-WS.org, 2008.
[23] MILNE D, WITTEN I H. An effective, low-cost measure of semantic relatedness obtained from Wikipedia links[C]// //Proceeding of AAAI Workshop on Wikipedia and Artificial Intelligence: an Evolving Synergy. Palo Alto, California, USA: AAAI Press, 2008:25–30.
[24] HUGHES T, RAMAGE D. Lexical semantic relatedness with random graph walks[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in NaturalLanguage Processing and Computational Natural Language Learning (EMNLPCoNLL).Stroudsburg, PA, USA: Association for Computational Linguistics,2007:581–589.
[25] GABRILOVICH E, MARKOVITCH S. Computing semantic relatedness using Wikipedia based explicit semantic analysis[C]//Proceedings of the 20th International Joint Conference on Artificial Intelligence. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 2007:1606–1611.
[26] YAZDANI M, POPESCU-BELIS A. Computing text semantic relatedness using the contents and links of a hypertext encyclopedia[J]. Artif. Intell., 2013, 194:176–202.
[27] BARONI M, LENCI A. Distributional memory: a general framework for corpus based semantics[J]. Comput. Linguist., 2010, 36(4):673–721.
[28] HALAWI G, DROR G, GABRILOVICH E, et al. Large-scale learning of word relatedness with constraints[C]//Proceedings of the 18th ACM SIGKDD InternationalConference on Knowledge Discovery and Data Mining. New York, NY, USA: ACM,2012:1406–1414.
[29] JAIN A, PENNACCHIOTTI M. Open entity extraction from Web search query logs[C]//Proceedings of the 23rd International Conference on Computational Linguistics.Stroudsburg, PA, USA: Association for Computational Linguistics, 2010:510–518.