脱机手写维吾尔文单词的过拆分方法
2018-07-12玛伊莱·艾力玛依拉·依布拉音地里木拉提·吐尔逊艾斯卡尔·艾木都拉
玛伊莱·艾力 玛依拉·依布拉音 地里木拉提·吐尔逊 艾斯卡尔·艾木都拉
摘要:脱机手写体维吾尔文切分是脱机手写体维吾尔文识别的基础,切分准确率直接影响识别的正确率,该问题的研究对提高识别的系统性能具有重要的意义。提出了一种脱机手写维吾尔文单过切分方法。该方法的基本过程是通过确定单词的主笔划找到单词的基线,再根据基线以上的部分过拆分单词,对该方案进行了实验,实验结果表明该文切分方案具有有效性和可行性。
关键词: 脱机手写;维吾尔文;过切分;投影;基线检测
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2018)12-0271-03
Abstract:Off-line handwriting Uyghur word segmentation is the basis of offl-ine Uyghur handwriting recognition. The segmentation accuracy directly affects the accuracy of recognition. The research on this issue is of great significance to improve the recognition system performance. An off-line handwritten Uyghur single-pass segmentation method is proposed. The basic process of this method is to find the baseline of the word by determining the main stroke of the word, then to split the word according to the part above the baseline, and the experiment is carried out. The experimental results show that the proposed scheme is effective and feasible.
Key words:Off-line handwriting; Uyghur; over segmentation; projection; Baseline detection;
1 引言
維吾尔文的历史悠久,在中国的西北地区,广泛地被维吾尔族使用。基于维吾尔文的文字处理系统与输入方法的研究,在我国研究较少,同时起步也比较晚,现存的研究文献中,研究最多的就是键盘编码输入方式[1],关于识别方面的研究相对较少。关于维吾尔文字的识别技术,尤其是印刷体字符的研究,研究比较成熟的代表是清华大学与新疆大学[2-4]。与其他语言文字相比,维吾尔文在书写规则,字母结构、书写习惯等方面更为复杂,难度较大,尤其是手写体识别,由于硬件因素的影响,对于脱机手写单词识别更少。基于此,本文主要的研究对象是脱机手写维吾尔文字符切分技术的。单词的识别主要分为两种,一种是基于分割的方法,第一种是整体性识别的方法。如果是通过分析字母的形状特征对字母进行识别,然后再对整个单词进行识别,则说明采用的是基于分割的方法;如果是通过单词的整体数字特征入手,再采用整体的模式对单词进行识别,则说明采用的是整体性识别方法。在维吾尔文中,如果是采用整体性识别的方法对其识别,是行不通的,因为这种语言的单词数量特别庞大,因此只能采用基于分割的方法。在单词图像中,单词中的字符切分是相对比较重要的一步,它是字符切分、单词识别等技术的基础。要进行正确地识别就要进行正确的区分,如果切分不当就容易造成识别错误,对于这种问题是不能忽视的。在维吾尔文的脱机手写中,两个因素给单词切分带来了较大的困难,第一个因素是手写的随意性,第二个因素是单词图像中字符的唯一性。
维吾尔文字书写时字母连续流畅,自右向左书写。维吾尔文与汉文有较大的不同,维吾尔文的一个词是由一个或多个字母组成的。根据维吾尔文的书写规则,,这些字母可能前后相连形成一个或几个连体字母段或称连体段。不管是维吾尔文的手写体,还是维吾尔文的印刷体,在连体字母段中,所有的字母都是沿着一条水平线相连的,这条水平线叫基线。一个单词包含一个或多个连体段。每个连体段也是由一组字母,或一个字母组成。
2 预处理
以采集到的单词图像为基本对象,对其进行相应的处理,这种处理就叫预处理。预处理的目的有两个,一个是减少噪声的影响,另一个是减少外界干扰,预处理的主要作用是对手写单词存在的变形进行矫正。预处理在所有的步骤中是不能缺少的关键性步骤,它是字符分割的基础与前提。主要内容包括图像二值化,倾斜矫正等。
2.1 二值化
在本方案中,实验的样本图像采用的是黑白图像,白色的是背景,黑色的是字体。如果从数字图像的像素值上对其分析,图中像素的灰度值从0到255均有分布,在图像上都有细微的表现,灰度差异较小的是字符像素点与背景像素点,在单词中,骨架部分呈现的是黑色,边缘部分呈现的是灰色。本文投影切分算法的实现就是要利用颜色差异,所以分割之前需要对图像进行二值化处理。充分结合最大类间方差法[5]可以找到图片的一个合适的阈值。对这个阈值加以利用,就可以更容易(与人为设定相比)地把一张灰度图像转换为二值图像。最大类间方差法(otsu)的公式推导:记[T]为前景与背景的分割阈值,前景点数占图像比例用[w0]表示,平均灰度用[u0]表示;背景点数占图像比例用w1表示,平均灰度用u1表示。则图像的总平均灰度,可以采用公式(1)对其表示;前景和背景图象的方差,则可以采用公式(2)对其表示:
在上述公式中,当方差最大时,就可以将其认定为此时前景与背景差异最大,换句话说,就是此时的灰度是最佳阈值。
2.2 倾斜矫正
对于文字,在手写的过程中,出现一定程度的倾斜是很正常的。但文字的倾斜却会对方向特征、投影直方图等文字特征的正确抽取造成一定程度的影响,倘若倾斜程度过大,还会导致字符上下交错,这必然会加大字符分割与识别的难度。由此可见,在对手写文字进行预处理的时候,务必对其进行倾斜校正操作[6-8]。[Hough]变换是一种特别有效的检测直线的算法,它以直角坐标系中的目标点位基本对象,再将这些点映射到极坐标系中进行累积,即先使直角坐标系平面上任一直线上的所有点均累积到极坐标系的同一点集中去,然后通过寻找极坐标系中点集的峰值来发现较长的直线特征。对每一个像素点都进行Hough变换,找出倾斜角度对此矫正单词的倾斜角。
3 单词的过拆分
本节介绍维吾尔文手写单词拆分,单词拆分指的是把单词所包含的字母拆分出来。本文用的是基于字符的拆分方法,流程图如图1所示:
从某种程度上来说,利用垂直投影算法确定文字的切分点,会依赖于手写文本的规范性,尤其是书写的随意性、多样性等特点。由此可见,对于垂直投影确定的切分点,印刷体文字就会比手写文字更加准确一些。正因为考虑到这样的因素,故而在本文中,没有直接对单词图像进行垂直投影,而是提出了基于单词基线的一种过拆分的方法,通过提取单词基线以上的部分,对提取后的分段,进行单词拆分。
单词的过切分算法如下:
(1) 对预处理后的手写维吾尔文单词图像求基线具体公式如(3)所示:其中I(i,j)为单词图像中第i行、第j列的像素值,n为单词图像总列数。
得到水平投影的值后,再把sum中的最大值所在的像素行算出来,并将其确定为基线位置。
(2)从手写单词的基线部分开始往下置白,就是说单词基线下的碎片部分变成背景,提取单词基线以上的部分。
(3)对手写单词基线以上的部分进行垂直投影。垂直投影也称为列投影,那是因为在垂直投影计算的是每列中,像素值为0的像素点的总数。垂直投影的算法是,按列来统计图像中像素值为0的像素点的个数。单词图像的垂直投影如(4)所示:
4 实验结果及分析
本实验平台采用频率大小为[3.6GHz],内存大小为[4G],实验运行环境为专用数学软件[MATLABR214a]。实验对象为不同的人按照平常的习惯不受任何限制的方式书写的单词图像。实验结果如下图所示:
由以上实验结果可以看出,用本文中提出的方法可以有效地把维吾尔文手写单词图像分割成字母。在整个算法过程中,当遇到(?????????????)等字母是出现错误切分的情况。
5结论
本文以脱机手写单词为研究对象,利用维吾尔文单词的结构特征有效地将单词切分成字母,同时还给出了阶段性的算法描述和实验结论。未来工作对于出现错切分的情况再次做深入的研究。
参考文献:
[1] 万芳. 联机手写维吾尔文字识别技术的研究与实现[D].新疆大学,2007.
[2] 吴燕,袁保社. 联机手写维文字符切分算法研究[J]. 微计算机信息,2010,26(12):184-185+178.
[3] 陈卿,袁保社,李晓,任宏宇,张建华. 基于模板匹配的印刷维吾尔文字符识别研究[J]. 计算机技术与发展,2012,22(04):119-122.
[4] 曹志宏. 維吾尔文字联机手写体识别系统的研究与实现[D].新疆大学,2007.
[5] 摆雪刚. 脱机手写维吾尔文本行倾斜校正技术研究[D].新疆大学,2015
[6] 许亚美. 手写维吾尔文字识别若干关键技术研究[D].西安电子科技大学,2014.
[7] Zhu B, Shivram A, Govindaraju V, et al. Online Handwritten Cursive Word Recognition by Combining Segmentation-Free and Segmentation-Based Methods[C]// International Conference on Frontiers in Handwriting Recognition. IEEE, 2016:161-165
[8] Nakkach H, Hichri S, Haboubi S, et al. A Segmentation-Free Approach to Strokes Extraction from Online Isolated Arabic Handwritten Character[C]// International Conference on Advanced Technologies for Signal& Image Processing Atsip. 2016.
[9] 曹卫. 脱机手写体汉字切分算法研究[D]. 中南民族大学, 2012.
[10] 杨侠. 手写体汉字分割的研究与应用[D]. 山东师范大学, 2012.