藏语词语兼类情况及识别规则库
2014-04-28完么扎西
完么扎西
(青海师范大学民族师范学院 青海海南 813000)
藏语词语兼类情况及识别规则库
完么扎西
(青海师范大学民族师范学院 青海海南 813000)
同其他语言一样藏语词性的兼类现象普遍存在,这给词性标注工作带来了巨大困难,对兼类词的处理是藏语词性标注的关键所在。文章利用传统和现代藏语语法理论,在分析藏语真实文本的基础上,归纳了藏语兼类词的种类,提出了兼类词的标注原则。并根据词语搭配关系和词的组合结构构建了兼类词的识别规则库,利用该规则库可对兼类词的词性进行较准确的标注。
藏文信息处理;兼类词;标注原则;识别规则库
引言
藏文自动词性标注是藏语自然语言处理的一项基础性研究课题,它的研究成果不仅为机器翻译、信息检索、语料库等诸多领域的研究奠定基础,也是藏语自然语言处理的后续句法分析、语义分析等工作的基础。然而,藏语同其他语言一样,词性的兼类现象普遍存在,给词性标注带来很多困难。因此,对兼类词的处理是藏语词性标注的关键所在。目前,在藏语自然语言处理系统中对兼类词的处理方法主要采用基于规则与统计相结合的方法。基于规则的方法中所谓的规则主要指的是是语言学规则,这些规则的形式描述能力和形式生成能力都很强,在自然语言处理中有很好的使用价值[1]。因此,深入研究藏文词语的兼类现象,构建一个兼类词的识别规则库对于提高藏文词性标注的正确率具有重要意义。
1 词的兼类问题
1.1 基本概念
兼类词是指一个词具有两种或两种以上的词性。藏语文本中的兼类词基本上是同形同音异类词[2]。如:“”中的“”是同形同音的词,但前者是名词,即“鞋”的意思,而后者是动词,即“扫”的意思。两者意思完全不同。
1.2 兼类词的种类及标注原则
为有效解决兼类词的词性标注问题,了解和掌握藏文词语兼类情况是有非常必要的。从大量的真实文本中进行总结并归类,藏语词语兼类的情况大致可分为如下几种。
1.2.1 名词—动词或形容词兼类情况
藏语中的名词(单音节名词)可以兼作动词或形容词,对于这些词,依据之前是否有副词或之后是否有时态助词来确定其正确词性。
② 程度副词+名词—动词或形容词时,取动词或形容词。
③ 名词—动词+时态助词+其他时,取动词。
1.2.2 名词—数词或量词兼类情况
藏语中的名词(单音节名词)可以兼作数词或量词,对于这些词,依据之前是否有格助词或名词和之后是否有数词确定其正确词性。
① 属格助词+名词—数词时,取名词。
② 名词+名词—量词+数词时,取量词。
1.2.3 动词—名词兼类情况
① 名词|动词|形容词+属格助词+动词—名词+其他时,取名词。
② 其他+动词—名词+动词或形容词时,取名词。
③ 副词+动词—名词+其他时,取动词。
1.2.4 动词—形容词兼类情况
① 主格助词+动词—形容词+其他词时,取动词。
③ 名词+动词—形容词时,取形容词。
1.2.5 动词—数词兼类情况
藏语中的部分动词(单音节或双音节动词)可以兼作数词,对于这些词,依据前后词性来确定其正确词性。
① 动词—数词+主格助词(名词+动词—数词+动词)时,取数词。
② 主格助词/副词+动词—数词(或动词—数词+时态助词)时,取动词。
1.2.6 形容词—名词兼类情况
① 形容词—名词+主格助词/动词时,取名词。
1.2.7 形容词—动词兼类情况
藏语中的形容词(单音节形容词)可以兼作动词,对于这些词,依据之前是否有格助词或名词来确定其正确词性。
① 格助词+形容词—动词+其他词时,取动词
② 名词+形容词—动词+其他词时,取形容词
1.2.8 副词—代词兼类情况
① 名词/人称代词+副词—代词+其他时,取代词
② 其他+副词—代词+形容词/动词时,取副词
1.2.9 终结助词—其他词兼类情况
① 动词|形容词+终结助词—其他词+其他时,取终结助词。
② 其他+终结助词—其他词+分句符时,取终结助词。
③ 其他+羉—其他词+助动词|否定副词时,取动词
⑤ 量词+輄—其他词+其他词时,取数词
1.2.10 虚词“繼/纋/臗繴/舉繴/繼纍/纋纍”—其他词兼类情况
藏语中的部分虚词(如:?等)分别可以兼作名词或条件连词、名词或接续连词、名词或和摄连词、名词或和摄连词、名词或接续连词、名词或动词等,对于这些词,依据后面是否有其他虚词来确定其正确词性。
② 动词+“繼纍”—其他词+动词时,取“繼纍”的词性为接续连词。
③ 形容词|动词+“纋”—其他词+(名词)+形容词|动词|“།”或“།།”时,取“纋”的词性为接续连词。
藏语中的接续连词(如:?)可以兼作代词,对于这个词,依据前后词来确定其正确词性。
1.2.12 否定副词—名词兼类词情况
藏语中的否定副词(如:?)可以分别兼作后接成份和名词,对于这个词,依据之后是否有动词来确定其正确词性。
① 其他+否定副词—名词+动词/形容词时,取副词。
② 否定副词—名词+虚词|非动词或形容词的其他词时,取名词。
1.2.14 属格助词—其他词兼类情况
1.2.15 主格助词—其他词兼类情况
① 名词|代词+主格助词—其他词+(名词)+及物动词时,取主格助词。
② 形容词+主格助词—其他词+(名词)+动词,或者动词+主格助词—其他词+分句符“”或“”时,取原因助词。③ 其他+主格助词—其他词+祈使助词时,取“”的词性为及物动词。
藏语中的集饰连词“纉繴”可以兼作形容词,对于这个词,依据前后词性来确定其正确词性词性。
① 形容词/动词+集饰连词“纉繴”—形容词+形容词/动词(或名词+集饰连词“纉繴”—形容词+形容词/动词)时,取集饰连词。
以上总结的仅仅是真实文本中比较常用的一个词具有两种词性的兼类情况,实际上藏文文本中有许多一个词具有两个以上词性的兼类词,由于篇幅原因,这里不再一一介绍。
3 兼类词的识别规则库
本文建立规则库时,在传统和现代藏语语法理论基础上,研究和分析大量的藏文真实文本,用以下两种方法获取规则并建立规则库[3—4]。
3.1 按兼类词搭配关系构建的识别规则库
藏语中一个词词性发生变化的主要原因是虚词和词的搭配关系,根据此理论归纳的规则上面已分析,这里不再重述。
3.2 按词语结构获取的识别规则库
藏语中的很多词是按构词规则组合起来的,通过构词规则能确定兼类词的词性,下面从后接成份和重叠两个方面来进行分析:
3.2.1 后接成份规则
C.方位名词或地方名词后加“繽་繿”变成专职名词,例如等;
D.基数词加“繽་繿”变成序数词,例如:繳舘纀(繳舘纀་繽)繻羇(繻羇་繿)輇繳(輇繳་繽)等。
④“繲”后接成份
⑤“羇་軤་臦་輣”等后接成份
一个单音节词后加“羇་軤་臦་輣”中的任意一个后接成份词性不变,例如:
繳)等。
3.2.2 重叠规则
①动词重叠
单音节动词重叠后,若后面没有接续连词或作为后接成份的?等词,则可变成形容词,例如:?等;
②形容词重叠
部分单音节形容词重叠后可变成副词,例如:纉繴་纉繴་།
4 结语
藏语书面文本中的许多兼类词通过以上规则可以正确标注词性,但是这些规则不能覆盖所有的兼类词,遇到同一个词在不同语境中有不同词性的现象,或者一个词具有两种以上词性的现象时,很难用以上规则来进行词性标注。
[1]宗成庆.统计自然语言处理[M].北京:清华大学出版社,2008:150-151.
[2]才智杰,才让卓玛.班智达藏文标注词典设计[J].中文信息学报,2010(5):46-49.
[3]华锐桑杰.藏文语法四种机构明晰[M],兰州:甘肃民族出版社,2008:98-150.
[4]吉太加.现代藏文语法通论[M].兰州:甘肃民族出版社,2000:135-157.
Multi-Category Words of Tibetan and the Recognition Rulebase
Wanme-Tashi
(National Teachers College of Qinghai Normal University,Hainan 813000,Qinghai)
The multi-category phenomenon of speech are ubiquitous in Tibetan language as in other languages and it has brought great difficulties in the speech tagging work.Therefore,the processing multi-category words is one of the key problem in Tibetan speech tagging.In the present paper,the types of multi-category words in Tibetan language were summarized and the tagging principle of multi-category words was proposed based on analyzing the true text of Tibetan with the traditional and modern Tibetan grammar theory.According to the collocation relations of expressions and combined structure of Tibetan words,a recognition rulebase of multi-category words was developed and that can tag the speech of the multi-category words accurately.
Tibetan information processing;multi-category word;tagging principle;recognition rulebase
TP391.1
A
1005-5738(2014)02-087-08
[责任编辑:索郎桑姆]
2014-04-18
完么扎西,男,藏族,青海循化人,青海师范大学民族师范学院讲师,主要研究方向为藏语自然语言处理。