APP下载

基于图像处理的藏文文字识别技术研究

2019-11-11贡嘎顿珠仁青诺布

电脑知识与技术 2019年27期

贡嘎顿珠 仁青诺布

摘要:藏文文字识别包括文字处理、模式识别以及图像处理等技术,逐渐向人工智能领域方向发展,广泛应用于古籍资料的整理、藏文数字图书馆以及新闻出版印刷业等领域。探究藏文文字识别技术,并与传统文字识别技术进行实验对比,通过实验结果可以看出,藏文文字识别技术的识别效率较高,具有较好的应用价值。

关键词:藏文文字;文字识别;技术

中图分类号:TP317.4      文献标识码:A

文章编号:1009-3044(2019)27-0182-01

文字识别技术源于20世纪30年代的德国,我国在此方面的研究与应用较晚,相比的发达国家要晚40年左右。所谓文字识别技术就是指使用某种设备或系统对文字与图像进行处理与分析,是一种全新的技术[1-2]。节省了人工作业的麻烦,直接将文字与图像信息呈现在电脑中,输入的效率与准确程度均会得到提升。我国语言文化丰富,许多少数民族都拥有自己的语言与文字,其中藏文已经出现了相关的文字识别系统,通常以代码的形式通过键盘进行输入[3]。藏文文字识别技术的出现,从一定程度上促进了藏族相关的文化产业与其他各个行业。但目前我国藏文文字识别技术仍然存在许多弊端,需要相关工作人员对文字识别技术进行更新与完善,在对藏文进行处理的过程中随时记录,实时分析,以达到更好的文字识别效果。

1 藏文文字识别技术

如今的藏文文字识别技术大体可分为以下几个类型,既对印刷体与对手写体的分别识别。其中手写体还包括不同的书法写法,多种文字识别类型如图1所示。

藏文文字识别技术中,因为识别文字的种类不同,识别难度也都不一样。通常来说,手写藏文的识别要难于打印体藏文的识别。从手写的手法来看,联机写法要简单于脱机写法[4-5]。藏文手写具有一定规律,通常是从左到右的顺序进行。藏文与其他语言存在一些差距,文字中存在一些元音与辅音的成分,这种组合文字的识别具有更大难度。经过组合叠加的藏文变化效果较大,在语法的要求与语句含义方面都需要考虑到文字识别技术中。藏文字符图像的算法如下:

其中[R]表示定义函数,[A]表示给定的输入,[G]表示模拟参数。通过计算藏文与一些图像经过处理后形成一个统一的整体,其中除文字与图像外,还包括一些空格与留白。所以此种情况下并不适合将文章进行整体识别,需要将藏文逐个从文章中分离出来,再进行识别。注意将每一行、每一列具体区分,在这一过程中,通常会采用映射的方式,将每一行、每一列分别映射,全部识别完毕后方可进行校正工作。随后再将藏文中的图像进行映射,将文字识别与图像识别区分开。印刷体藏文文字识别相对简单,但由于文章排版等因素影响,在文字识别过程中极易出现误差,识别技术不完善的情况下,文字识别率也将出现降低的情况。因此藏文印刷体的文字识别过程中,要预先对文本进行处理,将阻碍文字识别的字符消除后再进行识别作业[6-7]。在对藏文文章的识别过程中要找到其中心点,在图像上设置网格,再进行识别,这种方式能够最大程度上的减小藏文识别产生的误差。

2 实验结果与分析

为分析藏文识别技术的实用性,将藏文文字识别技术与传统文字识别技术进行对比,对比结果如表1所示。

由表中数据能够看出,藏文文章识别技术相比傳统文字识别技术具有很大优势,无论是在文字识别率或是速度上,都有很大进步。识别率从原有的90.17%上升至95.13%,识别速度从原有的每秒32.15个上升到每秒95.12个。由此可见,藏文文字识别技术的出现,使藏文识别能力得到总体提高,有效解决了传统文字识别技术中速度慢、效率低的问题。

3 结束语

我国语言文化博大精深,语种丰富,藏文是我国藏族独有的语言,包括其文字的书写方式,都带有浓厚的民族特色,与我国汉字存在很大差异。因此要加强对藏文文字识别技术的发展,为藏区与其他地区的沟通带来便利。藏文文字识别技术在不断实践过程中,总结出一定经验和方法,但仍存在许多不足之处。例如藏文文字识别准确度不够高、一些语句表达不够完全等。因此需要针对这些暴露出的问题进行进一步分析与改革,使藏文文字识别技术得到更加具体的应用,加强各民族之间的交流,促进我国藏族地区的稳定和谐发展。

参考文献:

[1] 王维兰, 卢小宝, 蔡正琦,等. 基于部件组合的联机手写“藏文—梵文”样本生成[J]. 中文信息学报, 2017, 31(5):64-73.

[2] 朱利娟, 云中华, 边巴旺堆. 基于极坐标变换的脱机手写藏文字符特征提取方法[J]. 计算机应用与软件, 2018,11(3):162-166.

[3] 拉巴顿珠, 欧珠, 赵栋材. 藏文自动分词系统中虚词识别算法研究[J]. 计算机应用与软件, 2017, 34(9):299-301.

[4] 刘芳, 张云洋. 基于像素邻域点信息的藏文图像细化算法研究[J]. 计算机技术与发展, 2018, 28(4):21-24.

[5] 扎西拉旦, 安见才让. 藏文字结构自动识别与形式化描述研究[J]. 中国信息化, 2018(3):61-64.

[6] 李亚超, 加羊吉, 江静,等. 融合无监督特征的藏文分词方法研究[J]. 中文信息学报, 2017, 31(02):76-80+90.

[7] 王维兰, 卢小宝, 蔡正琦,等. 基于部件组合的联机手写“藏文—梵文”样本生成[J]. 中文信息学报, 2017, 31(5):64-73.

【通联编辑:张薇】