基于蒙古语名词语义网的同形词歧义消除研究
2016-06-01布音其其格
哈 斯, 布音其其格
(1. 内蒙古师范大学 计算机与信息工程学院,内蒙古 呼和浩特 010022;2. 呼和浩特民族学院 经济系,内蒙古 呼和浩特 010051)
基于蒙古语名词语义网的同形词歧义消除研究
哈 斯1, 布音其其格2
(1. 内蒙古师范大学 计算机与信息工程学院,内蒙古 呼和浩特 010022;2. 呼和浩特民族学院 经济系,内蒙古 呼和浩特 010051)
蒙古文同形词歧义消除问题是蒙古文信息处理的难点之一。该文提出了基于蒙古语名词语义网的同形词歧义消除方法,设计实现了同形词歧义消除算法,最后给出了语料库中同形词歧义消除实验的设计过程及结果分析。
蒙古文;名词语义网;同形词;歧义消除
1 引言
自然语言中“歧义”是一个普遍存在的现象,又是比较难处理的问题。自然语言歧义问题事实上是词义和词形之间矛盾的问题。同一词形对应于两个或两个以上词义或结构时,就无可避免地产生了歧义,因此我们把歧义又称“同形歧义”[1-2]。
作为蒙古语语义属性描述体系的一个重要组成部分,《蒙古文同形词信息词典》的建立与应用是本研究的一部分。在蒙古语的语义研究中,通过语料库进行研究已经成为主要手段。基于语料库的同形词研究不仅要统计同形词的词形出现频率,更重要的是同一词形分别以不同词义出现的频率。这样才能准确统计同形词按不同词义出现的概率,为搭配词库的应用,机器翻译等提供概率统计方面的帮助[4]。
2 蒙古文同形词信息词典
同形词歧义研究工作中为了更清楚地表示蒙古文同形词的不同词义形式,内蒙古大学淑琴博士研究设计了《蒙古文同形词信息词典》,其中包括“蒙古文词形”(MONGGOL) 、“拉丁转写”(GALIG)、“词类”(UGSAIMAG)、“分类标记”(ILGAHV)、 “汉语词义”(HITAD)等字段。
表1 蒙古文词形的举例
蒙古文同形词歧义问题如果把同形词的词形、词类的基础上能够准确标注其分类标记(ILGAHV),则歧义自然就能够消除了。
基于语料库的同形词研究中首先要求同形词歧义消除问题,即上述分类标记(ILGAHV)的正确标注是关键问题。对于大规模的语料库当然需要一个能够自动标注分类标记(ILGAHV)的功能。
3 基于蒙古语名词语义网的歧义消除方法
蒙古语名词语义网[8-9]是一种语言知识库,其建立的目的就是为自然语言理解与处理服务[10-14]。蒙古语名词语义网提供词汇语义查询功能以外还有一个特点是解决词汇歧义问题。通过词汇概念的形式化描述和概念之间语义关系的简明结构使得蒙古语名词语义网成为词义消歧的主要词典资源。特别是名词继承体系,其严格的继承关系使得在语言分析过程中,句子中的词汇歧义,只要通过内部结构自身就可以利用概念密度的计算,加以消除[15-18]。
例如,蒙古文的句子:
以上含义分列在不同的语义树上,其中一棵子树的部分如图1所示。
图1 词汇(地方)的语义树
4 语料库中同形词歧义消除实验
4.1 歧义消除算法
整个歧义消除算法(或者现在已经对应到分类标记自动标注算法)是在以句子为单位的语义环境中的进行歧义判断的。通过同形词与同句名词之间的语义关系计算最终判断歧义。因此所考虑的名词必将是跟同形词共处一个句子,并且要句法关系相近的词汇才行。本文中查找名词时考虑到了与同形词间的距离,选择计算的是与同形词距离最近的名词。
语料库中进行以上同形词的歧义消除过程的算法如图2所示。
4.2 实验设计
同形词歧义消除实验中共选择了八个词形,20个名词。下面是在26万词条(已完成语法信息标注)的语料库中利用语义网进行词义消除情况。
八个词形,20个名词的同形词表的信息如表2所示。
表2 同形词词词汇歧义消除实验单词信息表
续表
IDMONGGOLGALIGUGSAIMAGILGAHVHITAD270ORONe2C迹488AGVRNe2A蒸汽489AGVRNe2B生气616ANGGINe1A班级617ANGGINe1B阶级1455CIHINe1A耳1456CIHINe1B(器皿两侧的)耳子1457CIHINe1C秧儿2986HELENe1A语言2987HELENe1B舌2669HOTANe1A浩特*2670HOTANe1B城3156HOLOSONe2A工钱3157HOLOSONe2B汗
图2 基于名词语义网的语料库中同形词歧义消除算法流程图
4.3 实验过程
SynsetID标注结果如图3所示。
图3 同形词SynsetID标注结果
(2) 第二步: 语料库中查找所有上述同形词,先进行人工标注(标注其义位编号),然后调用上述算法进行自动标注完成歧义消除,即确定句子中的同形词究竟是对应到多个义位中的哪一个。进行歧义标注的语料库如图4所示。
图4 语料库中同形词歧义标注结果
4.4 实验总结
(1) 第一步: 对所得结果进行统计。
通过程序运行最终共对1 013个单词进行了歧义标注,结果如表3所示。
表3 语料库中同形词歧义消除结果
(2) 第二步: 对统计结果进行分析
分析结果后发现,错误标注的主要原因有以下几方面。
① 语义网中名词的同义词集合ID标注有不准确的情况,如果同义词集合ID标注合理准确将会提高准确率;
② 自动标注算法运行过程中所找到的名词跟当前词(同形词)不在同一语义块中,导致无法计算距离;
③ 第一个同形词0I的标注结果准确率相对较好的原因是语义计算的名词大部分都是该词常用搭配词,进而提高了歧义消除效率。
因此依靠语义网进行语义计算,完成歧义消除时找到语义树上距离相近的词汇很关键。随着蒙古文句法处理技术的深入,结合短语标注等技术可以较准确地判断与同形词计算距离的名词。这样不仅提高准确率,还可以降低算法中查找名词的时间复杂度。
5 结论
词汇语义网络是词汇语义计算的非常重要的工具。目前基于WordNet等各类语种词汇语义网络的应用比比皆是。蒙古语名词语义网的研究课题目前刚刚起步,本研究初步尝试了基于蒙古语名词语义网的同形词歧义消除工作。下一步我们将优化词汇语义网的框架结构,完善词汇语义数据库的信息,补充动词和形容词等其他词类信息的同时要提高语义网的应用性能。
[1] 哈斯,蒙古语名词词汇语义网的构建[D],内蒙古大学博士学位论文,2013:82-86.
[2] 哈斯.基于搭配词库的蒙古文同形词歧义消除[J]. 内蒙古师范大学学报(自然科学版).2011.32(2):24-29.
[3] 哈斯、淑琴.同形同音词词典中分类标志的自动标注法[J].中国蒙古学.2009.37(1):17-20.
[4] 那顺乌日图.蒙古文信息处理概述[C]//Proceedings of the second China-Japan Natural Joint Processing Research Promotion Conference,Peking.2002:114-122.
[5] 那顺乌日图.关于面向信息处理的蒙古语语义研究[J].内蒙古大学学报.2002.34(5):43-48.
[6] 德·萨日娜、那顺乌日图.蒙古文语义信息词典的初步构建[C].第十届全国计算语言学学术会议.中国计算机语言学研究前沿进展(2007-2009).2009:339-344.
[7] 那顺乌日图.蒙古语语言知识库的建立与应用[J].中文信息学报.2011.25(6):162-165
[8] Hasi、Nasun-urt. The Automatic Construction Method of Mongolian WordNet Noun Sets of Synonyms[C]//Proceedings of the 4th International Conference on Intelligent Networks and Intelligent Systems. Kunming. China. 2011:195-198.
[9] Hasi、Nasun-urt. The Automatic Construction Method of Mongolian Lexical Semantic Network Based on WordNet[C]//Proceedings of the 5th International Conference on Intelligent Networks and IntelligentSyst. Tianjin. China. 2012:220-223.
[10] 朱虹,刘扬.词汇语义知识库的研究现状与发展趋势[J].情报学报.2008.27(6):870-877.
[11] 黄居仁,谢舒凯,洪嘉馡等.中文词汇网络:跨语言知识处理基础架构的设计理念与实践[J].中文信息学报.2010.24(2):14-23.
[12] 王石,曹存根.一种WordNet概念自动翻译方法[J].中文信息学报.2009.23(4):63-70.
[13] 赵小兵,邱莉榕,赵铁军.多民族语言本体知识库构建技术[J].中文信息学报.2011.25(4):71-74.
[14] 李慧.蒙古文语义知识词典的研究与实现[D].内蒙古大学硕士学位论文.2012.
[15] Beckwith R,Miller G A ,Tengi R. Design and Implementation of the WordNet Lexical Database and Searching Software[J]. Specification of WordNet. 1993:105-128.
[16] Fellbaum C. WordNet: an Electronic Lexical Database [M]. MIT Press.1999.
[17] George A. Miller. An on-line lexical database[J].International Journal of Lexicography.1990.3(4):235-244.
[18] Kamps J. Visualizing WordNet Structure[C]//Proceedings of the ICGW 2002. India. 2002.
Homonyms Disambiguation Based on Mongolian Nouns Semantic Network
Hasi1,Buyinqiqige2
(1. Computer and Information Engineering College, Inner Mongolia Normal University, Huhhot, Inner Mongolia 010022,China; 2. Department of Economics, Huhhot Nationalities College, Huhhot, Inner Mongolia 010051,China)
Mongolian homographs disambiguation is one of the difficulties of the Mongolian information processing. This paper puts forward a method of homonyms disambiguation based on Mongolian nouns semantic network. Finally, the experimental results of the homograph disambiguation are provided.
Mongolian;nouns semantic network;homonyms;disambiguation
哈斯(1976—),博士,教授,硕士生导师,主要研究领域为蒙古文信息处理,语义计算。E-mail:hasi@lmani.edu.cn布音其其格(1974—),博士研究生,讲师,主要研究领域为词汇语义学。E-mail:buyinqiqige@126.com
1003-0077(2016)06-0230-06
2016-09-27 定稿日期: 2016-10-27
国家自然科学基金(61363053);内蒙古自治区2014年度蒙古语言文字信息化专项扶持项目《蒙古文MOOC教学平台研发及基础资源建设》及内蒙古师范大学计算机与信息工程学院科技创新团队项目
TP391
A