基于语义规则的词义消歧方法的研究
2017-03-28张婷婷辽宁锦州渤海大学信息科学与技术学院
张婷婷 辽宁锦州渤海大学信息科学与技术学院
基于语义规则的词义消歧方法的研究
张婷婷 辽宁锦州渤海大学信息科学与技术学院
本文基于WordNet现存的词义结构以及词义对用的上下文语义关系,词义消歧之后通过语义选择完成消歧工作。本文最后使用Senseval-3中的全英文文段作为该算法的实验测试集,词义消歧算法使得测试集中的选择多义词最佳语义结果较好,本文的消歧方法经过与其他词义消歧算法进行数据比对分析,能够有效完成全英文文段单词的词义消歧任务。
WordNet 语义规则 多义词 词义消歧 Senseval-3
1 引言
WordNet作为最常用的英文知识库,在WordNet知识库中,在单词与单词之间、词语与语义之间存在一定的关联规则,它作为可以计算英文知识库,在英文知识库中将单词或者词语分为五大类:名词或者短语(n)、动词或者短语(v)、介词或者短语、形容词(adj)和副词。WordNet知识库中单词与单词之间的语义关系和词汇关系。
2 词义消歧算法
目前,存在多种比较优秀的词义消歧方法,词义消歧方法优先选择基于知识结构的词义消歧方法。释义重叠法在文献中是查找多义词词义重叠释义,选择重叠词义数最多的几个释义作为多义词具体语义。基于WordNet的语义关系对多义词上下文的释义进行扩展,针对多义词的词义消歧准确率由20.1%上升到35.2%。在文献中提出基于语义相似度的五种词义消歧方法,通过语义相似度的词义消歧算法获取消歧结果比较明显,但是,获取的词汇分类数据非常有限,词汇的分类数据受限必定会影响词义消歧效果。文献提出了基于WordNet构建语义关系图实现多义词的词义消歧,在此文献中提出基于无监督的词义消歧方法。
3 基于语义规则的词义消歧方法
3.1 词义消歧的语义规则
根据WordNet知识库中多义词的语义关系和词的结构,再根据多义词所在文段的前后的语境关系,判断多义词的词性再选择正确的语义关系,可以实现基于语义规则的词义消歧方法。
3.1.1 语义关系中的谓词定义
在WordNet英文知识库中,在词与词之间、词语与语义之间存在一定的规则,它是可计算英文知识库,本文将给出单词与单词之间的语义关系定义,假定存在两种互不相同的语义关系为X和Y,并且X和Y的语义关系不等价,X和Y的语义之间的关系包括下面几种:
①部分与整体语义关系Part Of Whole(X,Y):存在X∈Y的语义关系,称为语义X和Y是部分整体关系;
②全同语义关系Same Of Whole(X,Y):存在X=Y的语义关系,称为语义X和Y是全同关系;
③并列语义关系And Of Whole(X,Y):当几种语义关系完全独立的关系,称为语义X和Y是并列关系;
④继承语义关系Extend Of Whole(X,Y):当几种语义关系为子类继承父类的属性或者方法,称为语义X和Y是继承语义关系;
⑤相似语义关系Similarity Of Whole(X,Y):当几种语义关系相似度值在[0-1.0]之间小数部分,称为语义X和Y是相似的语义关系;
⑥属性与值的语义关系Attribute Of Whole(X,Y):存在XY两种语义关系属性与键值一一对应的关系,称为语义X和Y是属性与值的语义关系;
⑦交叉语义关系Intersection Of Whole(X,Y):存在XY有共同数值,称为语义X和Y是交叉的语义关系;
3.1.2 词义消歧的语义规则定义
定义多义词消歧的语义规则,根据本文提供词义消歧的语义规则,词义消需要将名词、动词、副词、形容词进行语义规则定义,假定存在多义词Si,该多义词的词义消歧如下:
①名词的词义消歧的语义规则定义如下:
Part OF Whole(Si,Si(WordNet))→Si(w);Same Of Whole(Si,Si(WordNet))→Si(w);
Extend OF Whole(Si,Si(WordNet))→Si(w);Attribute OF Whole(Si,Si(WordNet))→Si(w);
②形容词的词义消歧需要定义的语义规则定义如下:
Attribute OF Whole(Si,Si(WordNet))→Si(w);Similarity OF Whole(Si,Si(WordNet))→Si(w);
③动词的词义消歧需要定义的语义规则定义如下:
Intersection OF Whole(Si,Si(WordNet))→Si(w);And Of Whole(Si,Si(WordNet))→Si(w);
其中,该多义词的词义消歧语义规则中,Si表示歧义词,Si(WordNet)表示WordNet中的对应的多种语义关系。
3.2 基于语义规则的词义消歧方法描述
根据前文所述,该算法的具体思路是根据多义词在WordNet知识库中的语义关系,判断该多义词属于哪种定义语义消岐规则,该算法描述的词义消歧算法步骤如下所示:
①存在有限文档数据集合,该文档数据集合表示为D,对文档数据集合D进行预处理操作;
②识别多义词的词性类别,判断多义词的词义是否在WordNet中,如果存在唯一的一个词性的语义,则直接返回该多义词在WordNet中的语义,否则跳转到4;
③多义词的词性消歧处理,词性判断为多义词消歧的重要处理过程,词性识别是下一步语义规则选择的重要依据,判断该多义词是否具有唯一的词性,是否需要进行词性标注操作,如果不需要跳转到4;
④根据多义词在本文中定义的语义规则和词性规则进行判断,将该语义关系定义语义消岐规则;
⑤确定属于哪种语义规则进行语义判断,根据该多义词在本文段中的语境进行语义选择,选择符合语境的最佳语义,并输出多义词的语义。
3.3 本文算法的词义消歧实现过程
结合上文的词义消歧的步骤:算法A描述是如何获取多义词所在WordNet中的多种语义关系,算法B是如何根据已经定义的语义消歧规则。基于语义规则的词义消歧方法的实现如下描述所示,其中算法A是获取多义词的词性和在WordNet中关联数据的伪代码片段,其中:Wi表示在文段中第i个多义词,pos表示该多义词的词性(名词、动词或者形容词等),算法A的描述如下。
?
算法B将多义词实现词义消歧方法,算法中输入参数为:Wi是多义词,pos表示该词的词性,C表示该多义词在WordNet中的语义关系,算法2的作用根据语义规则的进行词义消歧,然后在WordNet中选择符合语境多义词的语义输出。
?
4 实验结果及分析
4.1 试验测试数据
本文提出基于语义规则的词义消歧方法的研究,本文词义消歧数据集采用Senseval-3中全英文文段作为语义规则的词义消歧算法的实验测试集,实验过程中识别文段中的多义词,通过词义消歧算法实验结果数据进行比较分析结论。
4.2 试验结果分析
在本文中使用的词义消歧评价指标包括:覆盖率C、准确率A和召回率R评估基于语义规则的词义消歧算法性能,本文提出方法与其他的词义消歧算法进行比较,表1不同算法实验数据处理结果。
表1 不同算法实验数据处理结果
由表1实验消歧数据处理结果可知,不同算法实验数据处理结果分析可见,通过表1的实验数据比对结果很明显,该算法在实验数据集上测试的效果获取的数据准确率有所提高。
5 结论与未来研究方向
针对于文章中出现的一词多义现象很多,词义模糊使得文章语义不清,对文章的理解造成困难。WordNet作为最常用的英文知识库,在WordNet知识库中,在词与词之间、词语与语义之间存在一定的规则,它是可计算英文知识库,通过上文的实验结果验证。
[1]王瑞琴,孔繁胜,潘俊.基于WordNet的无导词义消歧方法[J].浙江大学学报(Journal of Zhejiang University (Engineering Science)),2010,44(4):1068-1073
[2]车超,知识自动获取的词义消歧义方法[D].博士学位论文,大连理工大学,2010
[3]S.Dongen.Graph clustering by flow simulation[D:Ph. D.].Utreeht,The Netherlands:Unlversity of Utrecht,2000
[4]J.Veonis.HyPerlex:lexical cartography for information retrieval[J].Computer Speeeh&Language,2004,18(3):223-252