印刷体藏文识别中字符切分方法的研究
2019-10-20公保杰安见才让
公保杰 安见才让
摘 要: 印刷体藏文字符的准确切分是识别的关键,由于藏文字符结构的特殊性导致字符之间会出现重叠粘连的现象,使得切分很困难。文章提出多策略细化切分方法,首先用积分投影法实现行和单字的粗切分,再对重叠粘连的字符,根据连通域、藏文字符基线位置像素的统计、字符宽度等信息进行细切分。实验表明,该切分方法提高了印刷体藏文字符切分的准确率,为提高印刷体藏文的识别效率提供基礎。
关键词: 印刷体藏文; 积分投影; 切分
中图分类号:TP319 文献标志码:A 文章编号:1006-8228(2019)09-24-03
Research on character segmentation method in recognition of printed Tibetan
Gong Baojie, Anjian Cairang
(College of Computer Science, Qinghai Nationalities University, Xining, Qinghai 810007, China)
Abstract: The accuracy of the segmentation is the key to identify printed Tibetan characters. Due to the particularity of Tibetan character structure that characters appear overlapping adhesion phenomenon in between, makes the segmentation difficult. This paper propose a multi-strategy refined segmentation method, which uses integral projection method for a coarse segmentation to separate the lines and words, then a fine segmentation is conducted to separate the overlapping conglutination characters according to the connected domain, and the information of Tibetan character baseline position pixel statistics and the character width. Experiment shows that this segmentation method improves the accuracy of printed Tibetan character segmentation, and provides a basis for improving the printed Tibetan recognition efficiency.
Key words: printed Tibetan; integral projection; segmentation
0 引言
相对于英、汉识别而言,藏文识别的研究起步较晚,识别水平也相对较低。藏文识别技术在很多方面可以借鉴英、汉文字识别的研究成果。目前最常用的藏文切分方法是积分投影法[5-6]和连通域搜索法[4],但在进行单字符切分时,这两种方法不能很好的处理重叠粘连的情况。针对这种情况,本文提出了多策略细化切分方法。在初切分阶段,通过垂直投影,得到粗切分结果,根据藏文字符宽度阈值判定粗切分结果中的重叠粘连段,然后对重叠粘连字符细化切分,针对不同重叠粘连段情况分别进行连通域和基线空隙宽度信息来细化切分处理,以达到好的切分效果,大大提升最终的识别率。
1 藏文字符结构及特征描述
藏文是一种以辅音字母为主要构成部分的拼音文字,由30个辅音字母和4个元音字母组成。藏文是以音节为构词单位,音节拼写的每一个横向基本单位称为一个字符。现代藏文共有592个字符[2]。从文字识别的角度总结藏文的特点如下。
⑴ 藏文字符纵向叠加,从字符中切分单个字母非常困难,所以在藏文识别处理中通常选取字符为基本识别单位。
⑵ 藏文中字符相似的现象相当普遍,在总共500多字符中,有37%的相似度。
⑶ 藏文字符高低不等,有很大的差别,但宽度上差别不大。
⑷ 基线是藏文字符的一个重要特征,两个藏文字符基线之间有明显空隙,基线上方只有元音符号和变音符号可以出现[3]。
⑸ 由于字符的字体大小、书写风格、图像质量等因素,会在图像中出现字符的粘连问题。根据字符粘连的具体情况,可以将粘连分为以下三种类型。
① 简单粘连。指字符笔划在某些点相互接触有连接,但字符部件之间没有重叠。
② 交错粘连。从直观上看,这种粘连的两个相邻字符黑像素区没有连接,字符的连通区没有重叠,但字符在投影图上会出现黑像素的重叠。这种粘连很难用投影方法找到切分路径。
③ 复合粘连。这种粘连比较复杂,字符之间既存在简单粘连,同时又存在交错粘连情况,一般的垂直切分可能引起笔划的严重变形。
2 印刷体藏文字符切分方法
印刷体识别过程中字符的切分是一个重要环节,目前印刷体藏文最常用的切分方法是积分投影法,该方法可以很好的对藏文文本行进行有效切分,但是在字符切分时不能对重叠粘连字符进行有效处理,容易出现漏切分的现象。针对这种情况本文提出细化切分重叠粘连字符的方法,从而达到有效的切分效果。
2.1 行切分
印刷体藏文图像进行预处理之后得到的二值化图像,对图像中文字部分和空白间隙部分进行像素积分投影,按从上到下的顺序逐行进行扫描,并同时计算当前扫描行的像素值之和,空白间隙部分投影值为0,而文字行的投影值不为0,以求得图像的水平投影,并根据水平投影值对文字行进行切分。图像f(i,j)的水平积分投影公式为:
[R(i)=j=1nf(i,j)] (1)
当满足公式(2)时,第i行为文本行的上界:
[Ri>q?Ri+1>q?????Ri+n-1>q] (2)
当满足公式(3)时,第i行为文本行的下界:
[Ri 2.2 字符切分 字符的切分采用垂直投影的方法,在行切分过程中记录每一行文字的上下边界分别为a、b,在a行与b行之间进行垂直投影。虽然,字符之间会出现不同类型的重叠粘连情况,但是从整体来看其占的比例较小。因此根据上述方法先对文本图像中的字符进行粗切分,然后对重叠粘连字符进行细化切分(2.3中将详细描述),从而得到更好的切分效果。垂直投影的切分公式: [H(j)=j=a+1bg(i,j)] (4) (1) 字符左边界确定 对行切分已经切割出来的文本行按照像素从左向右的顺序进行逐行搜索,有连续的n列满足公式(5)时,取第一个满足上述条件的像素列j作为本行的一个字符的左边界列 [Hj>p?Hj+1>p?????Hj+n-1>p] (5) (2) 字符右边界确定 对行切分已经切割出来的文本行按照像素从左向右的顺序进行逐行搜索,有连续的m列满足公式(6)时,取第一个满足上述条件的像素列j作为本行的一个字符的右边界列。 [Hj 2.3 重叠粘连字符的切分 通过垂直积分投影,得到独立的藏文字符和重叠粘连段。其中对重叠粘连段需要进一步细化切分,根据对上述提到的不同类型重叠粘连类型的分析,可以总结出,针对重叠粘连类型采用不同的切分方法,复合粘连类型存在连通性,可通过搜索连通域来进行切分,而其余类型由于无法采用连通域来切分,可利用藏文字符的宽度信息和基线特征来进行切分。 ⑴ 连通域分析 尽管藏文字符会出现重叠粘连情况,但是经过对不同粘连类型的分析,可以观察到,交错粘连类型具有明显的连通性,因此可采用连通域搜索法来实现切分。具体算法流程如下。 在二值化图像中,背景区域像素值为0,文字区域像素值为1。图像B(i,j)从左向右,从上向下进行扫描。 Step1:扫描图像,直到当前像素点B(x,y)=1,作其为种子(像素位置),并赋予其一个标签T,然后将该种子相邻的所有像素为1的都压入栈中。 Step2:弹出栈顶像素,赋予其标签为T,然后再将与该栈顶像素相邻的所有像素为1的都压入栈中。 Step3:重复1步骤,直到栈为空。此时,便找到了图像B中的一个连通区域,然后对其进行切分。 ⑵ 根据藏文字符宽度信息及基线特征进行切分 对于上述重叠粘连类型中,简单粘连和复合粘连无法用连通域的方法进行有效的切分,针对这种情况,可分析藏文字符其固有的特征,可得知,虽然藏文字符的高度起伏不定,但其宽度大小差别不大,而且两个字符基线区域有明显的空隙,粘连情况出现在基线的上下区域,基线之间的空隙就是两字符的切分点。所以可根据藏文字符这固有的两种特征信息,对简单粘连和复合粘连类型进行切分,具体算法流程如下。 Step1:扫描图像,求出其连通域,如果区域宽度大于事先设定的宽度阈值W则确定为简单粘连或复合粘连类型。 Step2:根据基线位置进行图像扫描,确定空隙区域:[G(i,j),(i=i+1,i+2,...i+n),(j=m)] Step3:通过宽度阈值W对确定切分点Q(n,m)。 Step4:如果Q(n,m)[∈] G(i,j),确定Q(n,m)为切分点,对粘连段进行切分。 3 实验结果与分析 为了进一步验证本文提出印刷体藏文文档切分方法的可行性和准确性,本文对50幅文档图像,分别利用积分投影法、连通域搜索法和本文提出的切分方法进行了切分测试,为了具体表明这三种切分方法的效率,本文从测试结果中随机选出5幅图片进行分析,结果如表1所示。 通过观察表1可以发现,本文所采用的方法能较好地解决藏文字符粘连切分的问题。当然,本文设计的方法也存在漏切分现象,通过分析,主要原因是噪点、复杂版面等因素的影响。所以需要进一步解决和完善预处理过程。 4 结束语 本文讨论了如何对二值化藏文文本图像进行行切分、字符切分、重叠粘连字符切分的问题。通过分析研究不同切分方法的优缺点,结合藏文自身的书写与结构特点,提出采用积分投影法对印刷体藏文文本图像进行粗切分,以此得到独立的字符和重叠粘连段,然后针对重叠粘连类型,采用连通域搜索法和藏文宽度、基线信息分别进行切分。该方法较好的解决了切分重叠粘连字符这一难点问题。为提高印刷体藏文识别系统的识别率提供了基础。 参考文献(References): [1] 江荻.藏文识别原理与运用[M].商务印书馆,2012. [2] 丁晓青,王言伟.文字识别原理、方法和实践[M].清华大学出版社,2017. [3] 劉芳.文字识别系统中藏文字符切分算法研究[D].西藏大学,2011. [4] 欧珠,普次仁,大罗桑朗杰等.印刷体藏文文字识别技术研究[D].计算机工程与应用,2009. 45(24). [5] 吴刚,德熙嘉措,黄鹤鸣.印刷体藏文识别技术[J].青海师范大学学报,2006.1. [6] 王维兰,丁小青.印刷体现代藏文识别研究[J].计算机工程,2003. [7] 王华,丁晓青.一种多字体印刷藏文字符的归一化方法.计算机应用研究,2004.21(6):41-43