APP下载

藏文文字特征提取方法的研究

2013-12-29白玛玉珍

电脑知识与技术 2013年28期

摘要:特征提取是文字识别中很重要的环节。藏文字识别中特征提取的方法有很多,但由于藏文字的字型有很多种特点,可以探索出适合藏文识别的最优特征提取方法。该文简述了藏文字型的特征及印刷体藏文字识别原理,主要讨论了符合藏文字的一种特征提取方法——网络点阵图形投影法。

关键词:藏文字识别;特征提取;网络点阵图形投影法

中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2013)28-6362-03

藏文是我国藏族人民使用的一种古老的拼音文字,具有悠久的历史,是一种世界公认的成熟文字。搞好藏语文的规范化、标准化和信息处理工作,加速藏语文的现代化进程将使站在更高的起点上宣传西藏的形象,与世界对话,这是人们对藏语文的期待。藏文信息处理的一个重要环节是不断地开发更好的藏文字识别软件,所以研究藏文字特征提取方法是具有很高的理论价值。

1 藏文字的特征

藏文是一种以辅音字母为主要部件组成的拼音文字,左右拼写、上下叠加,既不同于西文,也有别于汉字。藏文字母有30个辅音字母和4个元音字母。构成一个完整藏文词素,基本单位是由藏文中的“音节分割符”来确定。一个藏文词由一个或多个音节而构成,音节拼写的每一个横向基本单位称为一个字丁[1]。每一个音节包含着“基字”和可能跟随的如前加字、上加字、元音符号、后加字、再后加字。音节,通常是由音节分割符或者其它标点符号来划分的。图1为一个四字丁音节。

2 印刷体藏文字识别原理

印刷体藏文字识别是指将印刷在纸张上的藏文,用扫描仪或者其他光学方式输入后得到灰度图像或者二值图像,然后利用各种模式识别算法对藏文图像符号进行分析,提取文字特征,与识别字典中的标准藏文模板进行匹配判断,从而达到识别藏文的目的。 印刷体藏文识别技术主要包括预处理、识别和后处理三个阶段[2]。其识别原理如图2 所示。

3 藏文文字特征提取

网络点阵图形投影法

这个方法把方块藏文字看作是二维网络点阵图形。网络是一组假想水平和垂直的网线对藏文字图像的区域进行划分,如图3a所示[3]。设f(x , y) 是藏文字的二维网络点阵图形,用投影法把二维点阵变为一维数据,如图3b所示,其中g(x)和g(y)分别是f(x , y )在X-轴和Y-轴的投影,即

4 结论

本文阐述了藏文字字型特征及印刷体藏文字识别的原理,并提出了符合藏文字的一个特征提取方法:网络点阵图形投影法, 网络点阵图形投影法是在汉字识别中抗干扰能力强、易于实现的特征提取方法,由于藏文笔划密度小,使得网络点阵图形投影法应用到藏文字识别中可能具备很好的效果。

参考文献:

[1] 吴刚,德熙嘉措,黄鹤鸣.印刷体藏文识别技术[J].青海师范大学学报,2006(1).

[2] 王维兰,丁小青.印刷体现代藏文识别研究[J].计算机工程,2003.

[3] 徐光佑等,译. 数字图像处理[M].北京:电子工业出版社,1998.

[4] 李弼程,邵美珍,黄洁.模式识别原理与应用[M].陕西:西安电子科技大学出版社,2008.