APP下载

藏文不自由虚词的自动识别研究

2014-04-23卓玛吉安见才让

2014年5期
关键词:自动识别歧义

卓玛吉 安见才让

摘要:本文将通过传统藏文文法的语法规则,主要研究藏文文本中大量藏文不自由虚词的识别算法,同时建立了藏文不自由虚词的消岐规则库。使计算机快速地识别并消除藏文句子中不自由虚词的歧义问题。提高藏文自动分词的准确率。使句子的生产、句法分析、八格识别和机器翻译等研究的基础更扎实。

关键词:藏文不自由虚词;自动识别;歧义;规则库

1.引言

随着计算机的普及和网络资源的共享,人类已迈进了信息化时代,在信息处理领域,藏文信息处理也以分词为基础,从最开始的字处理转向了自然语言的研究及处理层面,而词又分为实词和虚词,其中虚词是依附于实词或语句,表示语法意义,不能单独作句法成分,而且它在不同的语境中扮演者不同的角色,因此出现了虚词的歧义问题。这在藏文信息处理领域中大大降低了藏文自动分词的准确率。面向机器时,在信息处理领域中虚词的歧义性对句子的生成、句子及语义的理解中也同样引起了巨大的负面影响,甚至成为了藏文信息处理中某一部分的研究及实现的障碍。由此可见,研究及处理藏文虚词的歧义是在信息处理中必须解决的重要内容之一,藏语语法研究的重中之重。

2.藏文不自由虚词的识别算法

藏文虚词的自动识别是藏文自动分词技术中的一部分,也是藏文语法研究中最重要而复杂的问题之一。如今藏文虚词的研究在国内外都处于刚刚起步的状态。据统计发现藏文虚词只有85个,虚词数量虽比实词的数量少很多,但应用范围和功能都能覆盖所需的使用范围。其中,本文重点研究藏文不自由虚词的识别算法及消岐规则。

藏语虚词顾名思义是意义较虚的词,它没有实际意义,只有语法意义的“封闭类”的词。有众多藏语语法专家从不同的角度给藏文虚词下了定义,并对它进行各种诠释,但重点都指虚词只有语法意义,没有实际意义并在藏文句子中一般都不做句子的主要成分。 “不自由虚词是指有不同变体并它的添接法会被前一个音节的后置字所受限制的一类虚词。根据传统藏文文法“三十颂”,有65个“不自由虚词”,其不自由虚词自动识别算法的基本思想:

1) 本课题的研究根据传统藏文文法,结合最大匹配藏文分词法和藏文树型分词法,在藏文自动分词过程中与自动分词同时进行虚词识别。因为在不自由虚词中除了等四个虚词外,其余的58个不自由虚词在分词过程中都以单字词的形式出现。

建立藏文虚词库xc;在xc库中分别建立bzyxc和bzyxc2两个表。在表bzyxc是不自由虚词中“单字词”类虚词表(如:)等等;bzyxc2将是在不自由虚词中等中间存在藏文分割“·”符的虚词表。虚词自动识别算法结构如图3-5所示:

本课题结合最大匹配藏文分词法、藏文树型分词法、藏文虚词的接续规则和虚词跟前后音节的组合方法,设计了藏文虚词自动识别算法。

目前在此算法使用过程中,已能正确识别大量的藏文虚词和有交际性歧义的部分藏文虚词,如:等。但有部分不自由虚词仍然无法判断。

3. 藏文不自由虚词消岐规则库的建设

有部分藏文虚词在藏文句子中以两种形式出现,一是以虚词的形式。如:(扎巴的书),这句子中只起着该句子意义完整,语序通顺的连接的纽带作用;而另外一种是以实词的形式。如:不是封闭类的虚词,而它的词性(名词)发生了变化。从而导致藏文虚词的歧义问题。又如,藏文词等在句子中以名词的形式出现,而且该词与它前一个音节的后置字的添接方式也符合藏文文法“三十颂”中虚词的接续规则。在此情景下使用本系统识别虚词,将会把此类词也都错标为藏文虚词的记号。为此,通过语料等资料的研究,已建立了存有以下规则的藏文虚词消岐规则库。

藏文不自由虚词中有等14个虚词存在歧义问题,其建立的消岐规则如下:

1)歧义虚词中有等是藏文终结虚词。顾名思义,终結虚词都用在句末,表示所要表达的意思完结。因此,在建立消岐规则时,可用此类虚词的接续规则和虚词来进行判断。

例如:,终结虚词是在句末,但不符合终结虚词的接续规则,因此,在虚词识别过程中可跳过。又如:中的,虽然符合藏文终结虚词的接续规则,但它出现在句子中间,因此,终结虚词在藏文虚词虚词识别过程中可用以上两种条件来判断及消除歧义。

2)是拉格助词,在虚词识别过程中出现以下规则可跳过。

等等更多的规则见消岐规则库;

注释:在本课题中建立藏文虚词消岐规则库所使用的词性标记规范参考了安见才让老师的“青海民族大学藏语语料库基本加工规范”。

4.结束语

本文对藏文信息处理领域的藏文虚词自动识别技术进行了较全面的研究及探讨,建立了藏文虚词的消岐规则库。最终通过传统藏文文法中藏文虚词的接续规则和藏文虚词的消岐规则库,实现了具有藏文文法特点的藏文虚词自动识别系统。根据实验结果统计,本系统中虚词识别的准确率能达到90%以上,但在藏文文本中难免会出现带有实意的藏文歧义虚词,如:几个)”,在出现了两次,通过藏文虚词自动识别算法和传统藏文文法“三十颂”中虚词的接续规则,很难判断是否都是虚词等问题。此类问题本人将会在以后的工作中进一步的研究及处理。(作者单位:青海民族大学藏文信息与软件研究所)

参考文献

[1]Danie L Jurafsky James H.Nartin.冯志伟,孙乐译.自然语言处理综论[M].北京:电子工业出版社,2005.6. 179

[2]才旦夏茸著.藏文文法详解[M].西宁:青海民族出版社,1954,5: 18—45

[3]俞士汶.计算语言学概论[M].北京商务印书馆出版社, 2007年2月.

[4]才旦夏茸.藏文文法详解[M]. 西宁:青海民族出版社,1988.

[5]卓玛吉,安见才让. 藏文树型分词法的研究及实现[J]. 信息与电脑学报,2013年7月.

[6]多吉杰布.藏文文法知识[M].西藏人民出版社,2005.7.

猜你喜欢

自动识别歧义
中国自动识别技术协会
eUCP条款歧义剖析
船舶自动识别系统对船舶救助的影响
自动识别系统
English Jokes: Homonyms
金属垃圾自动识别回收箱
基于关联理论的歧义消除研究
基于IEC61850的配网终端自动识别技术
“那么大”的语义模糊与歧义分析
“v+n+n”结构的哈萨克语短语歧义分析与消解