基于小字符集编码的藏文音节结构判定
2015-02-21陈小莹艾金勇
陈小莹,艾金勇
(1.西藏民族大学信息工程学院,陕西咸阳712082;2.西藏民族大学图书馆,陕西咸阳712082)
基于小字符集编码的藏文音节结构判定
陈小莹1,艾金勇2
(1.西藏民族大学信息工程学院,陕西咸阳712082;2.西藏民族大学图书馆,陕西咸阳712082)
根据小字符集编码特征和藏文正字法规则,并通过占位辅音和非占位辅音在组合字符中的规则来判定组合字符的构成.组合字符的结构确定后,再参照藏文正字法的知识,最终实现现代藏文音节结构的判定以及各部件的识别.
藏语;小字符集;音节结构;占位辅音
1 藏文编码方案
藏文编码是藏文文字能在计算机中显示的必要条件,但是由于在藏文文字处理的前期并没有发布统一的编码标准,因此所有研究藏文输入技术的机构均按照各自标准开发了藏文输入系统.因基于不同编码方式的藏文文字在不同的网络领域传播,导致了藏文编码多样化[1~2].目前,藏文编码方案可以分为两种:第一种是大字符集编码方案,该方案采取横向模式编码,对带有纵向结构的字丁组合按照一个处理单元进行编码.这种技术需要预先设定藏文音节中所有存在的垂直组合结构,这些垂直预组合结构称为藏文字丁.按照这种方式编码,可使藏文文字的处理过程与汉字处理方式相似.以这种编码方案为主的输入法系统采用双字节方式编码,一般用一个字库即可实现,但是不同输入法之间相同字符的码位并不相同.第二种是小字符集编码方案,该方案通过藏文基本字符建库的方法实现藏文文字显示,所有藏文文字的处理方式按照拼音文字的处理方式进行,采用藏文基本字符动态组合形式表示藏文,对不同显示方式的藏文基本字符分别编码,编码对象包括辅音、元音、上下加字以及基本符号等[3].
依据以上分析,本文采用小字符集的编码方案,对藏文的基本组成部件进行编码,由这些部件编码横向和纵向动态组合形成藏文音节.
2 小字符集编码藏文音节结构特征
小字符集编码方案中仅针对藏文基本组成部件进行编码,由这些部件编码横向和纵向动态组合形成藏文音节.计算机显示藏文字符时,带有纵向结构的字丁组合占据一个字符.纵向结构的第一层辅音决定字符的宽度,称该辅音为占位辅音,对应的编码为占位辅音编码,其他叠加在占位辅音下方的辅音字符不单独占宽度,称为非占位辅音,对应的辅音编码称为非占位辅音编码[4],字符的宽度就是占位辅音的长度.在藏文文字中,元音都在辅音的上方或下方以叠加方式存在,依附于纵向结构的其他字丁,不单独占宽度,因而其也为非占位字符.
2)若字丁组合中只有一个占位辅音,此外包含元音在内最多包含三个连续的非占位字符.
3)前加字、后加字和再后加字都是以占位辅音的形式存在.
在实际藏文音节部件分解中可以利用上述藏文音节编码特点从一个编码序列中定位基字.音节中组合字符的编码是按照书写顺序存储的,即按照上加字、基字、下加字和元音的顺序储存的.首先,设定相应的规则识别藏文音节组合中所有字符的编码;其次,再依据藏文正字法知识辨别音节中的基字.基字的确定对下一步藏文音节其他部件的识别非常有利,因此藏文音节部件的识别工作首先要确定藏文音节的编码序列,再从中区分出占位字符和非占位字符,以及这些字符在音节字中对应的位置.
判断一个编码序列中是否包含组合字符可依据其中是否存在非占位字符来确定,如果不存在非占位字符,则直接按照横向结构和正字法知识确定基字的位置.如果存在非占位字符则确定该音节字符串中存在组合字符,此时可以利用音节编码特点(2)提供的信息.判别时只需要确定非占位字符编码的个数和位置就可以查找到非占位字符编码.查找到非占位字符编码后再顺序取出第二个编码判断其是否属于非占位字符编码.如果属于非占位字符编码,继续顺序取出第三个编码判断是否属于非占位字符编码,如果属于则可以判断中间一个为基字.所以,在整个音节判定过程中,占位辅音和非占位辅音的判定是确定基字的关键,待基字确定后,再依据藏文正字法知识,进一步判定藏文的音节结构.
3 藏文音节结构辨识
根据藏文结构的描述,现代藏文音节结构辨识的计算机算法分为两个步骤:① 利用字符长度和不同字符类型确定字符宽度,利用字符宽度确定基字丁的位置.②根据基字丁的位置确定藏文结构,并识别音节字各个位置上的字符.
若令Z表示藏文占位辅音编码集合,F表示藏文非占位辅音编码集合,元音字符编码集合用Y表示,Fr表示前加字集合,Bh表示后加字集合,l为藏文音节字的长度即字符个数,w表示藏文音节字的宽度,h表示藏文音节中组合字符的高度(无组合字符时h值为1),k和m分别表示藏文音节字中非占位辅音和元音的个数.根据藏文音节的结构组成特点,l、w和h以及h、k和m始终存在如下关系:
l=w+h-1; 其中h≥1,w≥1,
(1)
h=k+m+1; 其中k≥0,m≥0
(2)
由式(1)和(2)可以得知w=l-k-m,即在已知音节中字符个数的情况下,只需要再得到非占位辅音和元音的个数即可以得到音节的宽度w.
3.1 藏文音节基字的确定
从上文的分析可知, 通过识别藏文音节中字符个数、非占位辅音和元音个数即可计算获得w的数值后,由于藏文音节宽度最大为4,所以可根据以下几种情况分析基字的位置:
1) 当w=1时,此时为藏文音节为单字符宽度.则该藏文音节中位于集合Z内的编码所代表的辅音即为基字.
2) 当w=2时,此时为藏文音节为双字符宽度.当音节字的编码中含有集合F或Y内的编码时,则该编码之前位于集合Z内的编码所代表的辅音即为基字.此时基字前面若存在占位辅音,则该占位辅音为前加字,非占位辅音后若有占位辅音则为后加字.若音节字的编码中不包含集合F或Y内的编码时,此时藏文音节结构有三种可能形式:第一种可能是占位辅音存在于集合Fr中,第二个占位辅音存在于集合Bh中,则该藏文音节包含有后加字;第二种可能是第一个占位辅音存在于集合Fr中,第二个占位辅音不存在于集合Bh中,则该藏文音节包含有前加字;第三种形式是第一个占位辅音不存在于集合Fr中,第二个占位辅音存在于集合Bh中,则该藏文音节包含有基字和后加字.
3) 当w=3时,此时为藏文音节为三字符宽度.当音节字的编码中含有集合F或Y内的编码时,则该编码之前位于集合Z内的编码所代表的辅音即为基字.此时基字前面若存在占位辅音,则该占位辅音为前加字,集合F或Y内的编码之后若存在一个占位辅音则为后加字,若存在两个占位辅音则为后加字和再后加字.若音节字的编码中不包含集合F或Y内的编码时,此时藏文音节结构同样存在三种可能形式:第一种可能是第一个占位辅音不存在于集合Fr中,则藏文音节是基字、后加字和再后加字的组合;第二种可能是第一个占位辅音存在于集合Fr中,第三个占位辅音存在于集合Bh中,则藏文音节是前加字、基字和后加字的组合;第三种可能是第一个占位辅音存在于集合Fr中,第三个占位辅音不存在于集合Bh中,此时该藏文音节结构需要人工判断.
4) 当w=4时,此时为藏文音节为四字符宽度,根据藏文音节结构特点,集合Z内的编码所代表的辅音按顺序分别为前加字、基字、后加字和再后加字.
3.2 藏文音节组合字符的确定
藏文基字确定后,藏文音节横向结构基本确立,此时只需要辨识出藏文音节中组合字符的构成即可.这时就需要先通过非占位辅音的个数k来展开分析[4],见表1.
表1 现代藏文音节拆分测试结果表
1) 当k=0时,此时为藏文音节中不包含非占位辅音,若该藏文音节中含有集合Y内的编码时则该组合字符为基字和元音,若该藏文音节中不包含有集合Y内的编码时则该组合字符只有基字.
3) 当k=2时,此时为藏文音节中包含2个非占位辅音,则该组合字符中必定包含上加字和下加字.若该藏文音节中含有集合Y内的编码,此时该组合字符为上加字、基字、下加字和元音;若该藏文音节中不含有集合Y内的编码,此时该组合字符为上加字、基字和下加字.
4 实验结果
使用上述音节判定的方法,通过C#编程实现了音节判定的功能.测试发现,该方法能对所有藏文音节实现正确判定.一个藏文音节编码序列如果构成现代藏文音节,则按照“前加字、上加字、基字、下加字、元音、后加字、再后加字”的顺序显示在表格中(空缺的部件为空白),实验结果见表1.
5 结语
本文主要讨论了基于小字符集编码藏文音节部件划分与确定的方法,根据小字符集编码特征和藏文正字法规则,通过占位辅音和非占位辅音在组合字符中的规则来判定组合字符的构成.组合字符的结构确定后,参照藏文正字法的知识,最终实现现代藏文音节结构的判定以及各部件的识别.但由于藏文本身存在一些梵文音节和外来的新造词,这些音节在基字判别上可能会出现错误,因此需要在以后的工作中进一步完善部件识别规则.
[1] 周季文.藏文拼音教程[M].北京:民族出版社,1983.10.
[2] 扎西次仁.国际标准藏文计算机编码字符集的研究[J]. 中国藏学,1995,02.
[3] 完么扎西,尼玛扎西.小字符集现代藏文排序技术的研究[J].计算机工程与应用,2013,08.
[4] 黄小兰,黄鹤鸣,钟小莉.现代藏文音节的划分与确定[J].计算机应用与软件,2012,09.
[5] 黄鹤鸣,达飞鹏.基于排序的现代藏文音节判定[J].计算机应用,2009,07.652.
Determination of Tibetan Syllable Structure Based on Small Character Set Encoding
CHEN Xiao-ying,AI Jin-yong
(1. School of Information Engineering, Tibet University for Nationalities, Xianyang 712082, China;2. Library, Tibet University for Nationalities, Xianyang 712082, China)
According to the small character set code feature and Tibetan orthography rules, the combination of characters and character combination structure is determined by occupying consonants and non accounted for a consonant in character combination rules to determine and complete the modern Tibetan syllable structure of determination and identification of the components ultimately on the basis of the knowledge of Tibetan orthography.
Tibetan; Small character set; Syllable structure;Occupied consonant;
2015-11-10
本文系西藏自治区科技厅项目“基于呼吸信号的藏语诗歌韵律声学研究”(No:2015ZR-14-19)和西藏民族大学校内项目“藏族方言的孤立词识别技术研究”(No:11myZ05)的阶段性研究成果.
陈小莹(1983—),女,江苏宿迁人,硕士,实验师,主要从事实验语音学方面的研究.
TP391
A
1009-2102(2015)04-0033-04