藏语动词形态的自动识别系统研究
2016-05-14俄果措安见才让
俄果措 安见才让
摘 要藏语自动分词和藏语动词形态自动识别过程中的一个重要部分,使藏语分词过程中字串的匹配对象。电子词库中每一个词条的准确性直接影响着藏语自动分词结果和藏语动词形态自动识别结果。因此,电子词典中主要收录了所选藏语语料库中的18本藏语(翻译版)教材的5000个词条。
【关键词】自动分词 动词形态自动识别 电子词典
藏语动词的研究历来是藏语语法研究的核心。藏语书面语约有1500 个单音节动词,其中大多数动词具有词形数目不等的时式形态变化。在藏语的发展过程中,由于语言内部结构的语音变化及语言的外部影响,藏语动词的词形出现了不同的简化模式。
1 藏语动词形态自动识别模块
藏语动词形态的自动识别是藏语句法分析和藏语八格的识别等过程中的一个重要环节。藏语动词形态自动识别的目的是识别出藏语文本中的大量的藏语动词形态,并消除识别过程中动词形态的变化问题。藏语动词形态自动识别模块采用了以藏语传统语法为依据,格桑居冕(1982)在《藏语文法教程》(简称教程)中对藏语书面动词进行了详细讲并收集其中所讲的藏语动词形态和动词形态的接续规则来实现。最终建立了藏语动词形态的规则库,按规则库中相应的规则来识别句子中的动词形态的变化。
具体如图1所示。
2 藏语动词形态的自动识别算法
如图2所示。
在藏语动词形态识别过程中动词形态处变化处理算法描述如下:
S=“”
在S中消除具有一个以上音节的词。
S=“”
在S中消除虚词。
S=“”
逐一取每一个词在词典中data中查找,如果查找到,就将结果存储在SS中,最后显示SS中的内容,如下:
3 藏语动词形态识别的运行结果
如图3所示。
4 结束语
通过探索藏文传统文法理论,建立藏语动词形态的接续规则,按照规则及相关的算法和模块实现藏语动词形态自动识别系统。
参考文献
[1]格桑居冕, 格桑央金.藏文文法教程[M].四川民族出版社,2004.11(391-513).
[2]金鹏.藏语动词屈折形态向粘着形态的转变[J].中国藏学,1988(01)(131-139).
[3]金鹏.《西藏现代口语动词的时态和体及其表达方法》.西藏研究1984(03)-1985(02).
作者简介
俄果措(1987-),女,青海省人。硕士学位。现为青海省玉树州曲麻莱莱县政府办文秘。研究方向为中国少数民族语言文学。
安见才让(1969-),青海省人。硕士学位。现为青海省西宁市青海民族大学计算机学院教授。研究方向为藏文信息处理及应用。