藏文(含梵文)字丁自动识别方法研究
2015-08-28完么才让
完么才让
摘 要:本文以《ISO/IEC 10646藏文编码字符集 基本集》为参考,把其中除标点符号外的字符归类到字母集、主字集和元音集三个集合,再将测试文本中的藏文字符与三个集合逐一匹配的方法,准确识别(本文所讲识别,非OCR图形识别)出藏文字丁。
关键词:ISO/IEC 10646;音节;字丁;识别
藏文字丁的准确识别是字丁频率、信息熵计算的前提,也是音节分类的基础,更是藏文识别必不可少的环节。收录至中国知网的关于藏文字丁的几篇论文都未谈及藏文字丁的自动识别方法,本文从一下三个方面详细讲解藏文(含梵文)字丁的自动识别方法。
1 字母集、主字集和元音集
把藏文unicode字符集中除标点符号等特殊字符外的其他字符分成字母集、主字集和元音集三个集合,分别用英文标记letter_set、main_char_set和vowels_set表示,则
letter_set集合中的字符都无上加字,即字符上下均无main_char_set和vowels_set集合所示的空心圆圈,这类字符在实际文本中多作为字母出现,故将这类字符收录到字母集中。相应地,main_char_set集合所含字符大都上有空心圈,结合时,附着在前一个字符的下面,把具有这个特征的字符收集到主字集中。vowels_set集合中的字符都下附空心圆圈,表名这类字符在具体文本中充当元音,应收集到元音集中。这三个集合是字丁识别的前提,以下内容中用L、M和V分别代表letter_set、main_char_set和vowels_set,Li、Mi和Vi表示对应集合中的任意元素。
2 藏文字丁的基本分类
藏文字丁可分为六大类型,分别为:
所有藏文字丁可归类到以上六种类型。
3 识别方法
在有了集合的划分和字丁的基本分類后,即可依据如下所描述的方法识别出藏文字丁。假设字符串变量Ttext存放待测试的藏文文本,字符串变量WR表示字丁。根据字符串变量的性质,Ttext[i](i=0,1,2,…,Ttext->Length)表示文本的第i个字符,则
(1)取出第0个字符Ttext[0],放至WR,再判断Ttext[1]属于集合letter_set、main_char_set还是vowels_set。
如果Ttext[1] letter_set,说明Ttext[1]是字母,则Ttext[0]单独构成一个字丁WR,相当于第二节的第1类字丁,转到步骤(4);如果Ttext[1] vowels_set,说明Ttext[1]是元音,则Ttext[0]+Ttext[1]的组合构成新的WR,等于第二节中的第2类字丁,转到步骤(4)。如果Ttext[1] main_char_set,则转到步骤(2)。
(2)判断Ttext[2]是字母、主字还是元音。若是字母,则由Ttext[0]+Ttext[1]构成的新字丁WR即一个字丁,相当于第二节的第3类字丁,转到步骤(4);若为元音,则Ttext[0]+Ttext[1]+Ttext[2]为一个字丁,即第二节的第4类字丁,转到步骤(4);如果Ttext[2]是主字,即Ttext[2] main_char_set,则转入步骤(3)。
(3)判断Ttext[3]属于哪个集合,若Ttext[3]为字母,则Ttext[0]+Ttext[1]+Ttext[2]为一个字丁,等于第二节的第5类字丁,转到步骤(4);若Ttext[3]为元音,则Ttext[0]+Ttext[1]+Ttext[2]+ Ttext[4]为一个字丁,相当于第二节的第6类字丁,转到步骤(4)。
(4)转到步骤(1),从识别出的字丁的下一个字符继续判断,直至到达文本末尾。
用算法流程图表示如下
4 结语
本文特意对字丁识别方法作了分析,除了提出一种适用于藏梵文的字丁识别算法外,第一节的三个集合和第二节对字丁的分类,对藏文的结合规律总结了一个新的归纳和分类方式。
参考文献
[1]王维兰,丁晓青,祁坤钰. 藏文识别中相似字丁的区分研究.中文信息学报,2002(4):61-63
[2] 王维兰,陈万军. 藏文字丁、音节频度及其信息熵. 语音信息处理,2004(2):27-31
[3] 桑塔,达哇彭措. 信息处理用藏文字丁统计.科技信息,2010(29):430