手写体女书文字规范化处理程序研究
2012-01-03王江晴朱宗晓魏红昀
程 立,王江晴,田 微,朱宗晓,魏红昀,刘 赛,徐 科
(中南民族大学 计算机科学学院,武汉 430074)
我国少数民族众多,有些少数民族有自己的文字,例如满文,藏文,彝文等,但至今仍有不少民族的文字还不能使用计算机进行处理,这些文字的传承只能依靠少数识得此文字的老年人,在这样的传承中很容易出现差错.要保证其能够有效地传承,信息化是非常关键的[1,2].要实现文字的信息化,需用计算机输入该种文字,这必须建立字库.建立字库一般采用人工书写出所有的文字,然后进行相应的校正和美化的方法.本文以女书为研究对象,提出了建立女书字库的方法.
1 建立字符集的方案
这里采用的方法是先手写出所有的女书文字,扫描变成图像文件后再进行相应的处理,其过程如图1所示.
图1 字符集的产生过程
本文中主要研究规范化处理,也就是将扫描得到的BMP图像文件进行相应的处理,得到规范的字体图像.在规范化处理中,主要是进行字体图像的细化和校正.
2 字体图像的细化
由于手写体文字存在很多问题,如笔划边缘有毛刺、笔划形状不规范等.所以要得到规范美观的字体,可先将手写文字进行细化,得到字体轮廓,经过消除毛刺,将笔划变直,校正轮廓的畸变等处理后再加粗.细化主要是得到字体的轮廓,即抽取字体的骨架,它是指在保持原图像拓扑结构的情况下尽可能快地抽出一个单像素宽的骨架的过程.细化的方法很多,按考虑问题角度的不同,图像细化方法分为2类:边缘点删除和内点保留[3].在此采用边缘点删除中的查表法[4]进行细化处理,该算法实现容易,而且效率也很高.
在对图像进行细化后,会出现较多的畸变,主要有笔划不平滑、笔划的端点开叉、四叉点变为2个三叉点.如图2所示.
图2 原始字体和经过细化后的骨架 Fig.2 Original character and character skeleton after thinning
图2中左图为原始的女书手写字体文字图像,右图为通过查表法细化后得到的字体骨架.由于原始字体是手写的,会出现笔划的抖动,不均匀,所以细化后会出现笔划不平滑和端点处分叉,而且在2个笔划交叉处有一定的面积,所以会造成四叉点畸变为2个三叉点,这3种情况在图2中均有出现.由于出现了这些异常的情况,在膨胀前必须做校正处理,即此处所说的规范化.
3 规范化处理
3.1 规范化处理方法
规范化处理的任务主要是拉直细化后畸变的直线和折线,消除分叉的分支,将 2个三叉点合并为1个四叉点.其处理方法是先找到细化后字体轮廓中连通区域的特征点,主要有端点、拐点和交叉点, 然后判断这些特征点之间的位置关系,最后把相应的特征点连接起来.
3.2 特征点的寻取
特征点是决定字体轮廓的点,包括端点、拐点和交叉点[5-7].文[8]详细地说明了如何寻找端点、交叉点,而且实现起来很容易,但对拐点的寻找显得比较复杂.寻找特征点的方法主要是对某个黑点的八邻域进行处理,在八邻域中,如果某个点为黑点,则该点记为1,背景点则为0. 其中点P的八邻域如图3所示.
图3 点P的八邻域
Fig.3 Eight-neighbor diagram of pointP
点P的交叉数CN确定点P的状态,CN定义为:
(1)
其中nK为点P的八邻域,且n9=n1, 则有:
(1)若CN≠2, 像素P为特征点;
(2)若CN=1,P为端点;
(3)若CN=3,P为三交叉点;
(4)若CN=4,P为四交叉点.
当CN=2时可能是一般点或拐点,若是拐点,则也是一种特征点,但其交叉数CN与一般点一样都是2,仅此一个条件区分不了拐点和一般点.图4中黑点3即为拐点.
图4 拐点和端点
为了判别一个CN=2的点是否为拐点,还需要再添加一个条件.从图4很容易知道,如果连接端点1和2,则拐点3是在从1到2的连通区域上的所有点中到直线12距离最远的点,以此可以找出拐点.实现时可以从某个端点沿着连通的黑色点从一端寻迹到另一端,并计算每个黑点到直线12的距离,距离最大的点为拐点,而且为了排除笔划抖动的干扰,可将最大值设定一个阈值,只有大于此阈值才认为具有拐点,否则该两点间为直线.
图4处理的是最简单的情况,即一个连通区域中没有CN>2的点,而且只有一个拐点.对于多个拐点的情况,处理的方法稍微复杂,但处理过程与只有一个拐点时一样,如图5所示.
图5 多个拐点的连通域
对于具有多个拐点,而且没有CN>2的点的连通域,处理方法和单个拐点相同,也是求连通域上的到直线距离最大的点.只是在多拐点情况下,直线是不停变化的,为叙述的方便,记[mn]为点m和n之间的连通域,mn为点m和n之间的连线.在处理中,按照一定的顺序找到各个拐点,将找出的拐点作为一个二叉树的节点,然后遍历该二叉树,可以依次得到各个拐点.如图5所示,寻找一个连通区域中所有拐点的算法为:
(1)求[se]中所有黑像素点到se的距离最大的点,由图5可知应该是拐点3,以点3作为二叉树的根节点;
(2)将求出的拐点插入se中,得到[s3]和[3e].分别求[s3]中到s3距离最大的点和[3e]中到3e距离最大的点,分别得到点2和4,以点2和4作为根节点3的左右子树;
(3)按(1)、(2)步骤充分操作,一直到所有节点的子树均为空,如若求[12]间的拐点,很明显12是一直线,则拐点为空.
通过以上过程,可以得到一个二叉树,如图6所示.
图6 处理后的结果二叉树
图7 无空节点的结果二叉树
若将图6中的空节点X去掉,则效果更明显,如图7所示,很明显,如果将结果二叉树中的每个节点按中序遍历取出,并依次相连,两端再连上该连通域的起始点和终止点,则复原最初的折线.而且这种方法具有普适性,可以证明.从图7可知,如果按照中序遍历各个节点,则恰好是1,2,3,4,5,6,即为从点s到点e中的各个拐点.
通过上面的算法可以看到处理的过程:首先根据寻找连通的黑像素区域到对应直线的最大距离的点,以此点作为节点,先序建立二叉树,处理完毕之后,按照中序次序遍历所有非空节点,即为从一个端点到另一个端点的连通路径上顺次的各个拐点.这样即使书写时笔划不规则,通过找到端点和各个拐点,顺次连接,然后再膨胀,也可以得到比较规范的笔划,如果对笔划有其他需要还可以做进一步处理.
3.3 分叉笔划的处理
分叉笔划的特点是分叉的分支到分叉点的距离很小,所以处理中以每个交叉点为圆心,以某个比较小的数值为半径,在这样一个圆内查找有无端点,并依据端点个数进行相应的处理[9,10].
3.4 交叉点畸变的处理
对于交叉点的畸变来说,主要是四叉点变成了2个三叉点,如图2中右图所示.对于这样的变形,可以找出连通路径中的端点数目和交叉点数目,确定它们的位置,然后将细化得到的原始轮廓清除,将找到的特征点对应相连.
3.5 膨胀及结果
在完成了细化轮廓的修正后,就可以进行膨胀了.图8是对图2修正和膨胀后的结果.在此处理了笔划的扭曲、笔划的分叉以及交叉点的畸变.
图8 校正及膨胀后结果
4 实验与结果
根据上述算法,对扫描得到的女书字体进行细化,然后对细化后的骨架进行修正,最后将修正后的骨架进行膨胀,可以获得比较规范的女书字符图片,图9和图10分别是2个女书字体处理前后的形态.
5 结语
由实验可见,按照文中所述算法可以得到比较规范的字符.相对于最初的手写体文字,处理之后,可以做到消除字体笔划中的毛刺、笔划宽度不均匀、笔划抖动等问题,达到比较好的效果.
图9 女书字体的原始图和骨架图
图10 校正并膨胀后的结果图
[1] 田 微,王江晴,朱宗晓,等.女书计算机键盘布局与输入法研究[J].中文信息学报,2010,24(5):124-126.
[2]王江晴,张礻韦轶.基于像素的少数民族手写体文档倾斜校正算法[J].中南民族大学学报:自然科学版,2011,30(1):88-91.
[3]张 昊,徐 刚. 基于四邻域的二值图像细化算法[J]. 信号处理与模式识别, 2004(6): 24-27.
[4]杨 威,郭 科, 魏义坤. 一种有效的基于八邻域查表的指纹图像细化算法[J]. 四川理工学院学报, 2008, 21(2):61-63.
[5]孙晓红,张学东.基于邻域特征的笔划交叉点提取算法的研究[J].计算机工程与设计,2008, 29(19): 4985-4986.
[6]张春美,龚志辉,黄 艳.几种特征点提取算法的性能评估及改进[J].测绘科学技术学报, 2008, 25(3): 231-234.
[7]王晏民. 矢量曲线的特征点提取[J]. 测绘工程, 2002,11(2): 8-11.
[8]张晓青,王国文,曹海云,等.基于细化的手写汉字的笔段提取方法[J]. 哈尔滨工业大学学报,1999, 31(5): 107-110.
[9]秦筱木威,蔡 超,周成平.一种有效的骨架毛刺去除算法[J].华中科技大学学报:自然科学版,2004,32(12):28-31.
[10]Van Deemter J H,Dubuf J M H.Simultaneous detection of lines and edges using compound Gabor filters[J].Pattern Recognition and Artificial Intelligence,2000,14(6):757-777.