词语相似度计算方法分析

2012-03-19崔韬世麦范金

网络安全技术与应用 2012年5期

崔韬世麦范金

桂林理工大学广西 541004

0 引言

词语相似度计算研究的是用什么样的方法来计算或比较两个词语的相似性。词语相似度计算在自然语言处理、智能检索、文本聚类、文本分类、自动应答、词义排歧和机器翻译等领域都有广泛的应用，它是一个基础研究课题，正在为越来越多的研究人员所关注。笔者对词语相似度计算的应用背景、研究成果进行了归纳和总结，包括每种策略的基本思想、依赖的工具和主要的方法等，以供自然语言处理、智能检索、文本聚类、文本分类、数据挖掘、信息提取、自动应答、词义排歧和机器翻译等领域的研究人员参考和应用。词语相似度计算的应用主要有以下几点：

(1) 在基于实例的机器翻译中，词语相似度主要用于衡量文本中词语的可替换程度。

(2) 在信息检索中，相似度更多的是反映文本与用户查询在意义上的符合程度。

(3) 在多文档文摘系统中，相似度可以反映出局部主题信息的拟合程度。

(4) 在自动应答系统领域，相似度的计算主要体现在计算用户问句和领域文本内容的相似度上。

(5) 在文本分类研究中，相似度可以反映文本与给定的分类体系中某类别的相关程度。

(6) 相似度计算是文本聚类的基础，通过相似度计算，把文档集合按照文档间的相似度大小分成更小的文本簇。

1 基于语料库的词语相似度计算方法

基于统计方法计算词语相似度通常是利用词语的相关性来计算词语的相似度。其理论假设凡是语义相近的词，它们的上下文也应该相似。因此统计的方法对于两个词的相似度算建立在计算它们的相关词向量相似度基础上。首先要选择一组特征词，然后计算这一组特征词与每一个词的相关性(一般用这组词在实际的大规模语料中在该词的上下文中出现的频率来度量)，于是，对于每一个词都可以得到一个相关性的特征词向量，然后计算这些向量之间的相似度，一般用向量夹角余弦的计算结果作为这两个词的相似度。

Lee利用相关熵，Brown采用平均互信息来计算词语之间的相似度。李涓子(1999)利用这种思想来实现语义的自动排歧；鲁松(2001)研究了如何利用词语的相关性来计算词语的相似度。PBrownetc采用平均互信息来计算词语之间的相似度。基于统计的定量分析方法能够对词汇间的语义相似性进行比较精确和有效的度量。基于大规模语料库进行的获取受制于所采用的语料库，难以避免数据稀疏问题，由于汉语的一词多义现象，统计的方法得到的结果中含有的噪声是相当大的，常常会出现明显的错误。

2 基于本体库的词语相似度计算方法

2.1 常用本体库

关于 Ontology的定义有许多，目前获得较多认同的是R.Studer的解释：“Ontology是对概念体系的明确的、形式化的、可共享的规范说明”。在最简单的情况下，本体只描述概念的分类层次结构；在复杂的情况下，本体可以在概念分类层次的基础上，加入一组合适的关系、公理、规则来表示概念间的其它关系，约束概念的内涵解释。

WordNet是一个联机英语词汇检索系统，由 Prince-ton大学研制。它作为语言学本体库同时又是一部语义词典，在自然语言处理研究方面应用很广。它采用语义网络作为其词汇本体的基本表示形式。在 WordNet中，网络节点由字形(Wordform)标识，分为名词、动词、形容词、副词和功能词等5种。节点之间的关系分为同义关系(Synonymy)、反义关系(Antonymy)、继承关系(Hypony-my)、部分/整体关系(Meronymy)、形态关系(Morpholog-icalrelation)等。WordNet提供了很好的概念层次结构。

知网是一个以汉语和英语词语所代表的概念为描述对象、以揭示概念与概念之间以及概念所具有属性之间的关系为基本内容的常识库和知识库。其中包含丰富的词汇语义知识和本体知识，这些关系都隐含在知网的知识词典和义原的特征文件中。知网中有以下两个主要的概念：

(1) 义项。它是对词汇语义的一种描述，每一个词可以表达为几个义项。义项是用一种知识表示语言来描述的，这种知识表示语言所用的词汇叫做义原。

(2) 义原。它是用于描述一个概念的最小意义单位，从所有词汇中提炼出的可以用来描述其他词汇的不可再分的基本元素。

与一般的语义词典(如同义词、词林或 WordNet)不同，知网并不是简单地将所有的概念归结到一个树状的概念层次体系中，而是试图用一系列的义原来对每一个概念进行描述。

知网的汉语知识库中每个词汇由一个四元组表示：

DEF部分是表示词与义原的关系，也是词汇描述中最重要的部分，可以简单地认为词是由义原通过某种关系构成的。

2.2 相似度计算方法分析

根据本体知识来计算。主要是基于按照概念间结构层次关系组织的语义词典方法，根据概念之间的关系来计算词语的相似度。这类方法通常依赖于比较完备的大型语义词典，一般词典都是将所有的词组织在一棵或几棵树状的层次结构中，在一棵树型图中，任何两个节点之间有且只有一条路径，这条路径的长度就可以作为这两个概念的语义距离的一种度量。

传统基于本体的概念之间相似度计算模型主要有基于距离的语义相似度计算模型、基内容的语义相似度计算模型和基于属性的语义相似度计算模型3种。

刘群等人利用知网作为语义词典计算汉语词汇的相似度；Rada等人和Lee等人通过计算在WordNet中词节点之间上下位关系构成的最短路径来计算词语之间的相似度。许多学者考虑到其他因素对语义距离的影响，如Resnik根据两个词的公共祖先节点的最大信息量来衡量两个词的语义相似度；Agirre等人在计算词语的语义相似度时，除了节点间的路径长度外，还考虑到概念层次树的深度和区域密度的影响。张瑞霞等人提出了一种基于知识图的汉语词汇相似度计算方法，该方法以知识图为知识表示方法，在构造词图的基础上对词汇概念中的义原进行分类，通过计算不同类型义的相似度得到概念的相似度。

3 比较与总结

这两种方法各有特点。基于世界知识的方法简单有效，无需用语料库进行训练，也比较直观，易于理解，但这种方法得到的结果受人的主观意识影响较大，有时并不能准确反映客观事实。另外，这种方法比较准确地反映了词语之间语义方面的相似性和差异，而对于词语之间的句法和语用特点考虑得比较少。基于语料库的方法比较客观，综合反映了词语在句法、语义、语用等方面的相似性和差异。但是，这种方法比较依赖于训练所用的语料库，计算量大，计算方法复杂，另外，受资料稀疏和资料噪声的干扰较大。

[1]秦春秀,赵捧未,刘怀亮.词语相似度计算研究[J].信息系统.2007.

[2]余超.基于知网的词汇语义计算研究及应用[D].辽宁:沈阳航空工业学院.2007.

[3]刘紫玉,黄磊.基于领域本体模型的概念语义相似度计算研究[J].计算机技术与发展.2010.

[4]http://wordnet.princeton.edu/.

[5]http://www.keenage.com/.

[6]孙海霞,钱庆,成颖.基于本体的语义相似度计算方法研究综述[J].知识组织与知识管理.2010.

[7]刘群,李素建.基于《知网》的词汇语义相似度计算[J].计算语言学及中文信息处理.2002.

[8]Resnik O.Semantic Similarity in a Taxonomy:An Information-Based Measure and Its Application to Problems of Ambiguity and Natural Language[J].Journal of A rtificial Intelligence Research.1999.