上下文边界可变的词义消歧

2015-12-23高光来

计算机工程与设计 2015年10期

闫蓉，高光来

（内蒙古大学计算机学院，内蒙古呼和浩特010021）

0 引言

通常词义消歧方法可分为基于统计的方法和基于知识的方法［1］。传统的基于知识的方法［2－4］针对文本中出现的多义词，不管是什么词性，均选取固定上下文来进行消歧的，这样一定会引入不同程度的噪音，影响消歧效果。归其原因，该方法从根本上忽略了不同词性的多义词制约其含义的上下文语境范围应是不同的。通常，词语含义的差别一定会在语言运用中得到体现，词的不同含义会在句法或词汇搭配层面上表现出不同的组合特征，并且不同词性词语的这种彼此独立且呈互补分布的特征是不一样的。这样，对词的含义辨析时所依据的内容应该是不同的。直观上，对于不同词性的多义词而言，制约其语义的语境范围是有所差异的。如句子 “只有这样，我们才可能进一步体会这首歌曲所［表现／v］的感情和内容。”，多义动词［表现］在句中语义为 “show｜表现”，位置较近的语境词｛歌曲｝足已制约其语义，无需其它语境词。而在句子 “古老的中药，在这里插上了现代科技的［翅膀／n］。”，多义名词［翅膀］在句中语义为 “part｜部件：PartPosition＝｛wing｜翅｝，whole＝｛aircraft｜飞行器｝”，制约其含义还需要距离较远的语境词｛插上｝。鉴于此，提出一种上下文边界可变的中文词义消歧模型（Chinese WSD model with variable context window，CWSD－VCW），基本思想是按照多义词词类信息，针对性得选择消歧语境范围，减少噪音来达到消歧目标。实验结果表明，该方法可以提高全文消歧正确率。

1 词义消歧原则

文献［3，4］利用距离函数约束上下文中各词语对多义词含义的影响。文献［5，6］通过构建上下文模型的方法，进一步以更为量化的方式给出了上下文各词语对多义词含义的影响。但上述方法在进行消歧过程中，尽管考虑了上下文中各词语对多义词含义的制约作用的不同，但均是在固定上下文范围下进行的，未考虑到对不同词性的多义词，词义和词的分布之间是具有密切的，制约其语义的上下文范围应是不同的。这正是本文解决词义消歧问题的出发点。本文主要依据多义词词性，按照在特定上下文范围内使得多义词某个义项与上下文词语关系的密切程度最大作为消歧原则，来寻求制约多义词语义的最小上下文范围。

2 词义消歧方案

通常，在解决词义消歧过程中，上下文范围的选取就是第一个要解决的问题。因为上下文范围选取的大小直接影响消歧问题解决的好坏［6］，而且在选取过程中，多义词左右两边词语选择是否对称，也是值得考虑的问题［7，8］。第二个要解决的问题是关于词语词义的定义问题。因为在不同的主题、记录、句子、搭配和词性等方面有着些许差异。第三个要解决的问题是如何计算多义词义项和上下文各词语间的相关度。文章接下来的部分，给出了上述3个问题的具体解决策略。

2.1 上下文边界可变的消歧模型构建

消歧过程中要解决的第一个问题即消歧上下文的选取，关于它的解决是本文要研究的重点。通常上下文范围选取是与实际应用问题相关的。本文主要目的是为了考察词语含义辨析时所依据的上下文有效范围的大小，所以选取的上下文范围是对称的（去掉停用词和虚词后的结果）。模型建立的主要思路：利用多义词与选取的特定上下文各词语间的语义关系和搭配关系的组合，保证选取的上下文中各词与多义词尽可能的存在着句法关系并且语义关系值最大，达到消歧目的。

模型的构造如下：

设特定文本（去掉停用词和虚词后的结果）中有多义词S 存在n 个义项，记为S1，S2，…，Sn，上下文范围为距离多义词S左右各m 个词语，记为W－m，W－m＋1，…，W－1，S，W1，…，Wm－1，Wm，Ai和Bi分别为义项Si的右搭配矩阵和左搭配矩阵。那么，多义词S 的正确义项就是使得式（1）取最大值的那个义项

式中：SR（Wi，Wj）——词语Wi和Wj之间的语义相关度。

从语言信息处理角度来看，不同词性词语的语义组合特征是不一致的。那么，确定不同词性词语的语义所依据的信息也应该是有差异的。本文的核心工作是考察消歧上下文的选取是否会与待消歧多义词词性有联系，联系如何。这里的消歧上下文m 的大小选取，将会根据待消歧多义词词性的不同有所区别。具体的，就是分词性的选取消歧上下文范围，即m 的取值会和待消歧多义词词性相关，m 成了可调值。对于名词词性的多义词，其义项区分主要是依靠其所联系的谓词，而且不同词义的语法组合能力不同，消歧窗口大小不大统一，需要设置的m 值应较大些；对于动词词性的多义词，其义项区分主要是依靠其相联系的补足语，需要的m 值应较小；对于形容词词性的多义词，其义项区分主要是依靠其所修饰的名词，需要的m 值也较小。关于在不同词性条件下，m 最佳估计值的确定待后文实验说明。

2.2 词语间语义相关度的计算

关于词语词义的定义，在不同的主题、记录、句子、搭配和词性等方面有着些许差异。本文按照在《知网》中出现词语的义项定义来进行研究。

本文对于词语间语义相关度，主要用基于词语间语义关系来度量相关度。词语间语义关系的获取是本文计算多义词义项和上下文各词语间的相关度的基础，它主要依赖于所应用的语义关系分类资源，具体定义参见文献［9］。除了义原间的语义关系外，还用到了两个词语间的共现度，来细化词语间的相关度。具体可参见文献［10］，简记为SR（W1，W2）。

2.3 义项语义搭配库的构建

为了进一步细化多义词义项和上下文各词语间的相关度，本文构造了一个义项语义搭配库，式（1）中的Ai和Bi分别为多义词S 某个义项Si在义项语义搭配库中的右搭配矩阵和左搭配矩阵。义项语义搭配库的构造，主要是以《知网》中各词的语义搭配实例为种子搭配，利用山西大学STC973ver1.0 的500 万汉字的语料库，包含2915894 词次，通过计算各词对间的SR（W1，W2）获得词语各义项的搭配信息。但在实际的汉语使用中，多义词随词性的分布并不相同。表1中列出了部分高频多义词在STC973中各词类出现次数的统计信息。如词语 “打”，在2005 版《知网》中义项数达到32个，在STC973中共出现1291次，其中动词出现1281 次，占99.23%；词语 “地方”，在《知网》中义项数6个，其中词性为形容词的义项数1 个，但在STC973中未出现。由此可以看出在特定语料中多义词各词类出现次数很不均衡，并且经过进一步的实验验证，多义词有的义项很常用，有的义项则很少使用，这将影响各义项搭配信息的获取，所以在实际应用中应充分考虑。为解决构建过程中的数据稀疏问题，本文对多义词语中各义项的搭配数目进行约束，对于搭配数目较少或没有的义项，从其它资源（搜狗公布的中文词语搭配库http：／／www.sogou.com／labs／dl／r.html）中进行追加。表2为部分多义词的各义项搭配信息。

表1 部分高频多义词各词类在STC973中出现的统计信息

表2 部分词语各义项的搭配信息

表2 （续）

3 实验与分析

3.1 语料准备

在对语料STC973 进一步的统计中，我们发现多义词在语料中多以名词、动词和形容词的词性出现，且动词和名词词类使用频率较高。因此，对于大规模实际文本，解决实词的歧义问题是非常重要的。实验中我们也是这样做的。实验数据集选用公开汉语评测语料SemEval－2007 （名词19个，动词21 个）和SemEval－2010 （动词27 个），另外还有人民日报1998年1月份（动词119个，名词214个）进行。

3.2 实验设计与结果分析

本文选取的评测标准是Pmar（macro average accuracy），即词义标注正确句子数占所有句子数的比例。本文共进行4个实验。

实验1：通过调整消歧上下文范围，考察选取的上下文范围大小对消歧效果的影响。实验结果表明，在消歧过程中，随着引入的消歧知识的增加，并不会使得消歧效果有显著的提高，结果如图1所示。当选取窗口信息不断增加的同时，消歧效果增加并不明显，反而有所降低。分析其原因，在于扩大窗口引入更多消歧有效信息的同时，也不同程度的增加了噪音量。

那么进一步的实验，应该考察这些噪音具体的是影响哪些词性的多义词，即是否要在消歧过程中，针对多义词词性分开来考察其选取的上下文范围。为此进行了实验2。

图1 窗口大小调整对消歧效果的影响

实验2：对不同词性的多义词在不同窗口下分别进行了消歧实验，来观察词性信息对消歧结果影响，即确定式（1）中m 的最佳估计值。实验结果如图2所示。从图2可以看出：对于不同词性的多义词词语进行消歧时，窗口大小的选取不应该采用固定大小的方式，应有区别的对待，从而尽可能减少噪音的引入，提高消歧效果。从实验结果我们可以得到，制约各词性多义词语义的最小上下文范围如下：m名词＝6，因为名词义项的区分主要是依靠其所联系的谓词，而且针对特定名词的不同义项的语法组合能力不同，消歧窗口大小不大统一，需要设置的消歧窗口值大；m动词＝4，因为动词义项区分主要是依靠其相联系的补足语，需要的消歧窗口值较小；m形容词＝4，因为形容词义项区分主要是依靠其所修饰的名词，需要的消歧窗口值也要小一些。接下来的实验3就是考察这种根据词性调节上下文范围来进行消歧，是否会提高消歧正确率。

图2 窗口大小对不同词性词语消歧效果的影响

实验3：针对语料中出现的所有多义词，根据其词性的不同，选择性的选取其消歧上下文范围。各词性多义词的Pmar结果分别为：名词0.790，动词0.759，形容词0.812，系统Pmar为0.787，其消歧性能要比没有对不同词性的多义词限定上下文范围的平均正确率高出6.26%。实验结果表明，CWSD－VCW 方法是有效的。为了进一步验证本文所提出方法的有效性，进行了实验4。

实验4：将SemEval－2007测试实例的最常用词义MFS（most frequent sense）作为Baseline，将CWSD－VCW、Baseline和SemEval－2007最好名次［11］这3种方法分别对40个多义词进行消歧，实验结果如图3和图4所示。

图3 3种方法对名词消歧结果比较

图4 3种方法对动词消歧结果比较

实验结果表明，方法CWSD－VCW 对于名词和动词的Pmar均高于SemEval－2007 最好名次分别超出1.6%和17.5%，系统Pmar超出8.6%，进一步验证了本文提出方法的有效性。同时，实验中也发现，CWSD－VCW 方法对于名词消歧效果的提升并不大，原因在于名词词性的多义词，其义项间区分主要是依靠与之相联系的谓词，而且不同义项与谓词的语法组合不同。

整体上，虽然CWSD－VCW 实验结果逊于MFS，但结果中有8个名词和9个动词的正确率高于MFS，说明这种无监督的消歧方法的性能还有较大的提升空间。

4 结束语

本文研究制约词语语义的上下文语境，对于解决词义消歧问题具有重要的意义。在消歧过程中，引入的消歧知识的增加，并不会使得消歧效果有显著提高，归咎原因主要是引入了更多的噪音。为解决词义消歧中的噪音问题，本文针对不同词性的多义词在进行消歧时，采取分而治之的原则，按照多义词词类信息来选择上下文语境范围，选取多义词义项集中与上下文语境词语义相关度最大的作为其正确义项。从实验结果可以看出，本文提出的CWSD－VCW 方法可以有效解决词性为名词、动词和形容词的多义词消歧问题。但对于多义词本身而言，其种类不限于这些，再有词义研究所用信息是复杂多样的，除了文中提及的语境信息，还有主题约束和篇章一致性等因素。正因为这样，对于不同类型的歧义词的处理过程，其难度和策略会有所差异。正如学者Kilgariff所说： “senses depend on the task”，在解决词义消歧问题的实际应用过程中，如何将多种知识资源的融合来解决词义消歧问题，将是今后工作的难点和重点。

［1］Navigli R.Word sense disambiguation：A survey ［J］.ACM Computing Surveys，2009，41 （2）：1－69.

［2］Agirre E，De Lacalle OL，Soroa A，et al.Knowledge－based WSD on specific domains：Performing better than generic supervised WSD ［C］／／Proceedings of the 21st International Jont Conference on Artifical Intelligence，2009：1501－1506.

［3］YANG Zhizhuo，HUANG Heyan.Graph based word sense disambiguation method using distance between words ［J］.Journal of Software，2012，23 （4）：776－785 （in Chinese）.［杨陟卓，黄河燕.基于词语距离的网络图词义消歧［J］.软件学报，2012，23 （4）：776－785.］

［4］YANG Zhizhuo，HUANG Heyan.WSD method based on heterogeneous relation graph ［J］.Journal of Computer Research and Development，2013，50 （2）：437－444 （in Chinese）. ［杨陟卓，黄河燕.基于异构关系网络图的词义消歧研究［J］.计算机研究与发展，2013，50 （2）：437－444.］

［5］Bernard Brosseau Villeneuve，Nie Jianyun，Noriko Kando.Towards an optimal weighting of context words based on distance［C］／／Proceedings of the 23rd International Conference on Computational Linguistics，2010：107－115.

［6］Bernard Brosseau Villeneuve，Noriko Kando，Nie Jianyun.Construction of context models for word sense disambiguation［J］.Information and Media Technologies，2011，6 （3）：701－729.

［7］Li G，Kou G，Quan J.Symmetric is not the optimal local context window in Chinese word sense disambiguation ［C］／／International Conference on Information Technology and Computer Science，2009：201－204.

［8］Li G，Kou G，Zhou E，et al.Symmetric trends：Optimal local context window in Chinese word sense disambiguation［C］／／International Conference on Hybrid Intelligent Systems，2009：151－154.

［9］DONG Zhendong，DONG Qiang.HowNet［EB／OL］.［2010－11－05］.http：／／www.keenage.com（in Chinese）.［董振东，董强.知网［EB／OL］.［2010－11－05］.http：／／www.keenage.com.］

［10］YAN Rong，GAO Guanglai. Word sense disambiguation based on word semantic relevancy computation ［J］.Computer Engineering and Applications，2012，48 （27）：109－113 （in Chinese）.［闫蓉，高光来.面向词义消歧的词语相关度计算［J］.计算机工程与应用，2012，48 （27）：109－113.］

［11］Mohammad S，Hirst G，Resnik P.Tor，TorMD：Distributional profiles of concepts for unsupervised word sense disambiguation ［C］／／4th International Workshop on Semantic Evaluations，2007：326－333.