APP下载

藏语自动分词中的数词识别方法研究

2015-12-14完么扎西尼玛扎西

西藏大学学报(自然科学版) 2015年2期
关键词:词形数词连接词

完么扎西 尼玛扎西

(①青海师范大学民族师范学院 青海西宁810008②西藏大学图书馆和现代教育技术中心 西藏拉萨850000)

藏语自动分词中的数词识别方法研究

完么扎西①尼玛扎西②

(①青海师范大学民族师范学院 青海西宁810008②西藏大学图书馆和现代教育技术中心 西藏拉萨850000)

藏语自动分词技术是藏语自然语言处理的基础。文章通过分析藏语真实文本中的数词分类、数词词形以及数词结构等,提出了一种基于规则的识别方法。文章中的藏语数词识别思想为:在自动分词过程中,通过判断待切分的词(wi)和已切分的词(wi-1)来重新组合。经对小学一至六年级的数学藏文版教材及1500个含各类数词的句子语料进行测试后,数词的识别准确率达97.7%。

藏语自动分词;藏语数词;藏语数词结构

引言

藏语自动分词技术是藏语自然语言处理的基础,有着极其广泛的应用,包括藏语语料库的构建、句法分析、机器翻译、语音合成、自动分类和搜索引擎等都需要对藏文文本进行分词处理。目前所采用的藏语自动技术是基于词典的最大正向(逆向)匹配算法(机械分词法)[1],分词过程中需要频繁地访问词典以获取词的信息,词典的结构和容量在很大程度上影响着分词效率[2]。藏语真实文本中存在大量的数词,使用很频繁。藏语数词与同一语系的汉语数词在表示方法上虽有不少相同的地方,但它已成为一个独立的语支,自然有它区别于其它语支、语族的特点[3]。因此,不能直接套用汉语数词识别的方法来识别藏语数词,也不可能收集所有藏语数词后再用匹配的模式来识别,因为这样分词词典的容量大大增大,造成资源的浪费。因此,解决好藏语数词识别问题对于提高藏语自动分词的正确率具有重要意义。

1 藏语数词

1.1 基数词

基数词是表示数量多少的词,藏语中的基数词可以分为单基数词、位数词、数字连接词和复基数词。

1.1.1 单基数词

1.1.2 位数词

藏语中的位数词可以兼单基数词,但是位数词繿翯(十)之前不用单基数词并且位数词之后直接可以用单基数词,这些与同一语系的汉语位数词的用法有很大的区别。

1.1.3 数字连接词

1.1.4 复基数词

藏语中的复基数词是由单基数词、位数词和数字连接词构成,表示十以上的数。由位数词等和一至九的单基数词构成复基数词时,这些位数词的前后都可以用一至九的单基数词,即等;由位数词百)和一至九的单基数词构成复基数词时,一至九的单基数词只能用在该位数词之前,不能用在之后。若要用在后面,中间必须要加连词,即等;由位数词等和一至九的单基数词构成复基数词时,一至九的单基数词只能用在该位数词之后,不能用在之前,即等。

由单基数词、位数词和数字连接词构成复基数词时某些单基数词的词形需要发生变化,这将在藏语数词词形中详细地介绍。

1.2 序数词

1.3 总数词

1.4 专指数词

专指数词是表示从多数中特别指出的第几个的词,一般由序数词加后接成分或表示,即等。

1.5 倍数词

1.6 分数词

1.7 概数词

2 藏语数词词形

藏语的数词与同一语系的汉语和同一语族的错拉门巴、纳西、载瓦等语言一样,在使用的过程中,藏语数词中的有些基数词的词形会发生变化[8]。

2.1 单基数词词形变化

2.1.1 单基数词+单基数词

单基数词和单基数词构成十至二十之内的复基数词时,用在单基数词和之前的的词形要变为,其余的不变。比如等。

2.1.2 单基数词+位数词

2.1.3 名词+单基数词

2.1.4 单基数词+量词

2.1.5 单基数词+倍数词

2.1.6 单基数词+概数词

2.1.7 单基数词“零”的词形变化

2.2 位数词词形变化

2.3 序数词词形变化

3 藏语数词结构

藏语数词中的单基数词(包括变形的单基数词)、数字连接词、倍数词、概数词以及附加成分等一般都录入在分词词典中。因此,本文的研究只涉及复基数词及其他数词的识别方法。下面将分析复基数词及其他数词的结构。

3.1 复基数词结构

从以上分析可知,复基数词由单基数词、位数词和数字连接词构成。若其中的位数为零,则用“位数词+”表示。以下结构中,中括号“[]”中的内容可有可无,竖线“|”表示“或”。

3.2 序数词结构

3.3 总数词结构

3.4 专指数词结构

3.5 倍数词结构

3.6 分数词结构

4 藏语数词识别方法

藏语自动分词的一般过程是:先读入一段内容,然后从段中分句,句中分块,最后从块中切词[9-11],如图1所示。

图1 藏语自动分词过程

图2 算法流程

5 测试结果及分析

5.1 测试数据

本文对一至六年级的数学藏文版教材及1500个含各类数词的句子语料进行测试,统计文中的基数词、序数词、总数词、分数词、倍数词、专指数词和概数词等出现的次数并通过识别准确率的计算公式:

来计算数词的识别准确率,其测试结果如表1所示。

表1 识别准确率

5.2 测试结果分析

经测试发现,本文提出的组合法基本能够准确地识别藏语各类数词,平均准确率达97.7%,但遇到如下几种情况时会出现错误的识别结果:

6 结语

在藏语自动分词过程中本文提出的藏语数词识别方法通过基数词的组合很容易形成其他各类数词的组合,识别准确率达到97.7%。但由于藏语数词的特殊结构及存在兼类现象,分词过程中需要频繁地判断,使得整个分词系统的速度比较慢,并且从测试结果得知,基于规则的藏语自动分词远远满足不了藏语自然语言处理的实际需求。因此,藏语数词结构规则的形式化描述和采用统计的技术,设计一种规则与统计相结合的藏语自动分词系统是下一步的工作重点。

[1]才智杰.藏文自动分词中紧缩词的识别[J].中文信息学报,2009,23(1):35-37.

[2]姚徐,郭淑妮,李永宏,等.多级索引的藏语分词词典设计[J].计算机应用,2009,29:178-180.

[3]紫腾嘉,李学琴,等.藏语的数量词[J].西南民族大学学报,1999,20:25-29.

[4]扎西加,索南尖措,等.基于藏语信息处理的词类体系研究[J].西藏大学学报(自然科学版),2008,23(1):36-41.

[5]才让加.藏语语料库词语分类体系及标记集研究[J].中文信息学报,2009,23(4):107-112.

[6]华锐桑杰.藏文语法四种机构明晰[M].兰州:甘肃民族出版社,2008,1:98-150.

[7]吉太加.现代藏文语法通论[M].兰州:甘肃民族出版社,2000:135-157.

[8]完么扎西,尼玛扎西,等.藏语自动分词系统中的几个关键问题的研究[J].中文信息学报,2014,28(4):132-139.

[9]陈玉忠,李保利,俞士汶,等.基于格助词和接续特征的藏文自动分词方案[J].语言文字应用,2003(1):75-82.

[10]才智杰,才让卓玛.藏文自动分词系统的设计[J].计算机工程与科学,2011,33(5):151-154.

[11]刘汇丹,诺明花,赵维纳,吴健,贺也平,等.SegT:一个实用的藏文分词系统[J].中文信息学报,2012,26(1):97-103.

[][]

Identification of Numerals in Tibetan W ord Segmentation

Wanme-Tashi①Nima-tashi②
(①Minorities TeachersCollegeofQinghaiTeachersUniversity,Xining 810008,China;②Modern education technology centre TibetUniversity,Lhasa 850000,China)

Tibetan automatic word segmentation is the foundation in the processing of Tibetan natural language. An identificationmethod based on the rulewas proposed by analyzing the numeral classification,numeralword form and numeral structure in the Tibetan true texts.The baseline of thismethod is recombination by judging the word(wi)to be split and the segmented word(wi-1)in the segmentation process.The content ofmathematical textbooks of primary school in Tibetan and 1500 sentenceswith various numeralswere tested and the accuracy rateofnumeral recognition reached up to 97.7%.

Tibetan automaticword segmentation;Tibetan numeral;Tibetan numeralstructure

10.16249/j.cnki.54-1034/c.2015.02.016

TP391.1

A

1005-5738(2015)02-096-09

[责任编辑:索郎桑姆]

2015-09-08

完么扎西,男,藏族,青海循化人,西藏大学藏文信息技术研究中心博士研究生,青海师范大学民族师范学院副教授,主要研究方向为藏文信息处理。

猜你喜欢

词形数词连接词
连动结构“VP1来VP2”的复句化及新兴小句连接词“来”的形成
韩国学校语法中副词形语尾的变迁
宾语从句的语序
英语词形变异及其语义信息
带前置功能的词形《 в сопоставлениис 》的结构与搭配
吸引阅卷老师的“连接词”
对联中数词的艺术运用(下)
对联中数词的艺术运用(上)
麻雀作文
英语数词顺口溜等