现代维吾尔语动词词汇语义词典构建研究
2017-06-01阿斯古力·艾山艾孜尔古丽玉素甫·艾白
阿斯古力·艾山 艾孜尔古丽 玉素甫·艾白都拉
摘要:语义网是知识的概念化和形式化以及相应的推理,并且它和人工智能有着深厚的渊源关系。调查研究发现,缺乏维吾尔语动词在语义上的研究成果将阻碍维吾尔语言学、计算语言学和维吾尔语信息处理的工作质量。本论文在现有的维吾尔语语法信息资源基础上,主要研究现代维吾尔语语义分类与词汇语义、维吾尔语媒体语料的筛选、现代维吾尔语动词语义框架等内容,并构建现代维吾尔语同义词、近义词、反义词词汇表,探索现代维吾尔语同义词、反义词与近义词之间的关系规则库、现代维吾尔语动词语义知识库构建方法、开发现代维吾尔语动词语义词典。
关键词:现代维吾尔语;语义学;动词
中图分类号:TP3 文献标识码:A 文章编号:1009-3044(2017)08-0169-03
目前国内外有一些高校,科研机构和企业都在构建维吾尔语语料库,从计算语言学的角度对维吾尔语词汇、短语进行语法、语义研究和智能应用软件的研发工作,建立相当规模的词性标注的语料库和研发出实用性较强处理工具软件。
本文以构建维吾尔语动词汇语义词典为目的,开发现代维吾尔语动词语义词典,并且对以后的维吾尔语动词研究领域,为动词语义网构建提供基础知识。本系统的实现为维吾尔文文本分析中的舆情分析起重要的作用。
1维吾尔语动词概念
表示动作行为,心理活动以及状态变化的词叫做动词。如:
1.1语义学
语义学(semantics),也叫做“语意学”,它是一个涉及到语言学、逻辑学、计算机科学、自然语言处理、认知科学和心理学等广大领域的一个公共性术语。虽然各个学科之间对语义学的研究都有各种共同点,但是实际研究工作中具体的研究方法和研究内容有大不相同。
1.2动词语义分类
现代维吾尔语动词是一个较大的词类。它的语法特点较复杂,后缀也很多,在句子里作用也各种各样。之所以动词的语义领域也是个较大的范畴。维吾尔语动词的语义概念是一个很复杂的概念。每个动词在不同的语境里、加不同的附加成分的情况下和在不同的短语搭配过程中包含着不同的语义意义。动词的语义分类以下三种:
1.2.1静态关系V100
“静态”一词可以理解为停止不动,不动的状态下就称为静态。在维吾尔语动词里有一部分动词始终不变自己的本意,无论什么样的语境里,一直与其他词汇搭配出来的意义不变。陈述式时态是在维吾尔语中说话者可以把过去,现在或将来发生的事情确认为事实或客观存在的,直接陈述静态关系的动作。
1.2.2心理活动V200
在维吾尔语动词里有一部分動词表示心里活动的,比如表达哭,笑,愤怒,高兴,伤感等等。这些动词在语义范围内有独立的位置。
1.2.3动态行为V300
动态,指(事情,动作)变化发展的情况;艺术形象表现出的活动神态;运动变化状态的或从运动变化状态考察的。维吾尔语动词在不同的语境里会表示不同的行为,还有一些动词本来就表示有不断变化的行为。
其中动态行为内部还分为:
13)其他行为V313等13种。其中还有每一种语义类内部按动词的时态,数等特点要分44种类型。这些语义分类每一种都有自己特定的意义,每个中只包括属于自己区内的动词词汇,互不相干。
根据动词所表示的行为动作的分类动词的语义意义还分为两种:
1)具体语义意义
表示具体语义意义的动词有能一听或一看词就知道它表示的行为是属于谁,是什么动作的能力。比如:
2)非具体语义意义
表示非具体语义意义动词是可能表示人的动作,可能表示动物的或物体的动作,也可能表示行为动作的或者心理活动的动作。比如:
2建立维吾尔语动词的规则库
2.1动词的语义关系及规则
动词虽然可以跟所有的词类搭配短语,但从语义角度来研究,可以确定动词不能随便构成短语。虽然属于同一种词类,但它表示的语义意思不一样,那它跟动词之间的搭配关系也不一样。要是语义意义不搭配,那这个短语逻辑上有误,不能用。所以动词的语义意义在一定语境里才有效。
2.2动词的语义特征库
根据小学维吾尔语语文教材里的词汇,识别出动词有11521个。本文根据动词的语义分类手工标注了动词词干,并注释了它的同义词,反义词和近义词。本文的识别依据是:根据动词语义分类的分类法,首先,在这11521个动词词干里面有根据词根后面加了附加成分以后构造的很多词干。这些词干其中有些是没有改变原来的词根意思,有些是完全没有保住原意思的,在手工分类过程中,保留此词干的相对的词根。按这个要求去挑选了1000多个动词。其次,进行语义标注。最后,为每个动词注释了同义词,反义词和近义词,图1和2所示:
图1所示,经过这项工作,可以完成在系统里识别动词这部分工作,同时在语义词典运行结果上可以显示出每个动词的语法语义标注。
图2所示,利用现代维吾尔语词典、动词词典及维汉电子词典,手工输入了小学语文教材里的动词的同义词,反义词和近义词注释工作。在这库里的动词都是无重复的切掉附加成分后的动词词干。在系统里在语义词典运行结果上可以显示出每个动词的同义词,反义词和近义词注释。
3系统总体设计
1)维吾尔语预处理模块:主要处理在文本中段落不规范、正字不规范、空格不规范等一系列不规范。
2)维吾尔语句子分析模块:本模块主要完成对于电子语料库主要收录的5个年级10册小学维吾尔文语文教材语料进行句子分类、句子统计等工作,为下一步动词识别打好基础。本文本是语义标注好的电子文本语料。
3)维吾尔文动词自动识别模块:本模块对于词汇进行语义标注,识别动词。
4)动词语义解释模块:本模块把识别出的动词在数据库里找出该词的同义词,反义词和近义词,并在屏幕中显示。
5)消歧模块:消歧模块是对系统无法识别的词汇进行人工干预,人工处理歧义词,把它自动保存数据库里。
6)统计模块:统计模块的主要完成对已识别出的维吾尔文动词进行词频统计处理。
4总结
本论文根据维吾尔文动词本身的特点,建立语义标注注释数据库。依据传统维吾尔文文法,建立维吾尔文动词的识别规则库,实现了具有维吾尔文文法特点的维吾尔文动词词汇语义词典。本语义词典系统虽然不是很完整,但可以作为原始的基础性的语义词典系统。通过本系统可以達到以下几个目标:
1)构建维吾尔语动词语法语义标注相结合的维吾尔语动词电子语料库,为维吾尔语动词计量研究提供良好的熟语料库,并对小学维吾尔文语文教材的所有的动词进行分类、统计和词性标注。通过此系统使用小学语文教材做语料库,对它进行词语总数统计。小学语文教材里有400篇课文。其中,教材总词次:117461次;教材总词种数:29569个。教材总动词词次:27450次;教材总动词种数:11828个。具体情况见表4所示。
2)说明并详细解释了维吾尔语动词概念和语义分类及动词的语义关系和规则。动词所表示的意义在不一样的语境里表示不一样的含义,动词的用法是否有误通过此方法可以判决。
3)构建了动词词汇语义词典。
它的工作原理就是:
首先,打开一个文本或输入一个内容。
其次,进行统计分
析,屏幕上显示统计结果。
然后,对识别出的动词进行分析,点击一个动词,旁边显示它的同义词,反义词和近义词。要是出现未识别的,歧义的现象,那通过人工处理方式来处理。
最后,退出系统。
本系统的统计动词和识别准确率为79.9%,动词语义词典的注释功能的准确率为42.5%。
从表5可知,根据本人手工准备的数据资料进行统计后,进行计算出的结果是本系统的准确率如上所示。词典的注释率比较低,可是经过往后的工作过程中可以完善。
通过维吾尔文动词语义词典系统的测试结果,需提高系统以下几个方面的工作:
1)本文研究的过程中,虽然采用一些识别规则和消歧规则来进行识别动词。但有些动词还是需要更深入的研究和处理。降低歧义现象、提高系统的识别率。对于存在歧义的动词进行识别时,根据消歧规则库中的规则来实现,但有些动词无法用其规则来处理的,只能人工来处理有些动词,并动词识别准确率会降低。因此,此项工作需进一步研究。
2)在标注语义标注过程中可能会出现一些错误,因为虽然大部分情况人和人对于词的意义理解相同,但在不同语境里还会出现对于词的各种的理解。
3)本系统对于动词识别过程中还会出现无法识别或误识别的现象,准确率还没有达到可以直接进行的水平,因此还需要完善数据库。