基于OCR的字符识别的研究与实现
2017-10-09李霄霄
李霄霄
【摘 要】本文介绍了汉字OCR的原理、并对字符识别作了解释与研究,提出一种基于OCR识别的文字识别方法,在对文字信息、图像显示以及校正过程提出了自己的算法,对文字结构及读写方法进行了分析。试验表明该方法具有很快的计算速率,透过试验可以使差错率控制在很低。
【关键词】OCR;文字处理;字符识别
Research and Implementation of Character Recognition Based on OCR
【Abstract】This paper introduces the principle of OCR in Chinese characters, and explains and studies the character recognition. It proposes a text recognition method based on OCR recognition. It puts forward its own algorithm for text information, image display and calibration process. And reading and writing methods were analyzed. Experiments show that the method has a very fast calculation rate, through the test can make the error rate is very low.
【Key words】OCR; Word processing; Character recognition
0 引言
印刷体汉字识别系统由三部分组成:输入设备、汉字识别模块和计算机硬件及软件。汉字识别是主要部分,主要步骤为预处理、提取特征、匹配特征和后处理。本文预处理包括二值化、平滑去噪和文本行字切分。通过光电扫描仪,CCD器件等工具将汉字图像处理成二维图像信号,以图片形式显现,再经预处理,特征的提取与匹配及后处理实现汉字识别。
OCR(Optitcal Character Raeder)是光学字符阅读机,是一种自动读入文字(手写体或印刷体)的计算机。本文是基于OCR来做的一种字符识别的研究,极大降低了字符识别的错误率,提高了准确度。
1 原理与识别方法
汉字OCR是通过光电输入设备使文字内容转化成二维点阵信息,再用规定的识别法将其转换成汉字。这一套转换工作称作汉字识别系统。
1.1 汉字识别系统的组成及各模块的功能
汉字识别系统包括汉字图形输入设备、预处理仪器、识别仪器和后处理仪器。
汉字图形输入设备作用是完成文字原稿的输入,是通过光电输入设备,经一定的阀值控制,将原文字转换成为二维点阵图形。
预处理由文稿页成分析与理解、字符的分割、归一化和去干扰组成。通过分析与理解对原文字整版面进行数据分割,分割成图像块、文字块等,理解和标注其属性及连接关系,准确分割文字块,最终分割成单个汉字图像,再通过大小及位置的归一化,进行算法识别。识别前还要对汉字图像去干扰。
后处理是有效运用词组和上下文联系对识别的汉字图像进行纠错。后期处理器还要完成文稿的输出。
1.2 汉字识别方法
识别器质量越高,识别系统的性能越好。识别汉字主要有统计模式识别和结构模式识别。统计模式识别:提取待识别文本的一组特征值,按照统计函数进行数值分析,这是有一定准则的,根据分析所得结果确定汉字。此识别对单个汉字的辨认率高,但是对不同字体,尤其是手写文稿的识别,效果不太好。结构模式识别:对汉字的结构特征及组字的特定规律进行有效提取,然后对汉字进行识别。结构识别是把汉字结构当作精简的集合,即基元。固汉字识别是将汉字分开成多个基元的归总。结构模式适用与书体规整,结构清晰的印刷体文稿汉字。中国汉字量很大,但汉字是图片字符,含有丰富的結构信息,所以比较统计模式,结构识别使用更广。
1.3 手写体汉字单字识别
手写体汉字单字识别主要解决手工输入汉字的问题。虽然手工输入方法种类很多,但都必须学习并记忆汉字拼法(结构码),记忆量不确定,且容易忘记。若将手写体识别技术运行到实际中,输入汉字将不成问题,因为不需要在最初进行一系列培训和记忆,汉字的输入就如同平时手写一般,简单便捷。
2 字符特征提取系统图像预处理
在字符识别前有一项重要步骤:字符图像的预处理。其主要功能是消除字符图像中的噪声,对字符图像断线、粘连现象进行修正;运用各种归一化方法,让变换后图像更稳定,以便于分辨。
2.1 字符图像去噪
字符图像的噪声可分为两类:白色背景下的黑点噪声和黑色背景中的白色噪声。对字符的粘连现象,在进行特征提取时应选取对内部结构不敏感的特征,如“外围轮廓特征”;对字符的断线现象,特征提取的时应选取对笔划结构不敏感的特征,如“模版匹配”;离散的黑象素噪声主要对英文字符归一化后造成一定偏移,导致识别失败,可在归一化过程中予以消除。
2.2 字符图像归一化
对字符图像提取特征前需进行归一化处理,有大小归一化、位置归一化和笔划粗细归一化。实际中一般只采用大小和位置归一化。
3 字符特征提取
字符识别中常用特征有穿越特征、外围特征、网格特征等。
3.1 穿越特征
穿越特征从水平和竖直两方面计算结构特征,先计算水平方向:将32行图像平分为8个区域,每个区域包括四行像素。逐一计算每行中从白像素到黑像素的变化次数,统计8个区域中各行变化次数的总和即可得到前8维特征,再根据前8维特征利用公式计算,将结果作为第9至16维特征,得到水平方向的前16维特征。在竖直方向统计计算得后16维特征,最终构成32维穿越特征。endprint
3.2 外围特征
外围特征在汉字识别中常作为粗分类特征,反映字符轮廓特征。
它的提取过程为:第一将64*64的图像从四个方位等分成八份,从图像四面分别向对面扫描,假设从左向右逐一等分的八块区域,每个区域包括八行像素,计算各行左边框与最初字符笔划遇到的部位所圈成的空白区域的面积,每个结果和该块全部面积的比值当作前八围外围特征。同上从其他方面都提取八维特征,最终得到32围特征。
3.3 网格特征
网格特征是基于二值图像,将64*64的图像平均分成64个方块,每块大小为8*8,分开计算每个方块的黑象素个数,用向量作为64维的网格特征。
4 特征提取系统分类器设计
本文采用模板匹配法,先提取样本的n维特征,再提取待识别字符的n维特征,对照产生结论。算法采用欧氏距离。即经过计算待识别字符的特征向量与模板库中提取的特征向量之间的欧氏距离,取模板中与计算出的欧氏距离最小的作匹配,将匹配字符输出。
5 实验结果分析
5.1 实验环境
该算法基于Matlab仿真实现。实验过程中使用字母、单词、文档三种,其中有宋体、仿宋等形式。在特征与分类器的交叉试验及特征加权系数试验中使用字母样本,经样本整理,扫描文档,然后运用自动收集单词的程序将文档中的单词保存为BMP图片形式得到,文件名设置为单词内容的数字,这有助于在系统性能测试中测识别率。文档样本是利用扫描仪扫描英文文档所得,分辨率为300dp。
5.2 实验现象
matlab仿真实验能够准确的读取BMP图片中的数字及字母信息。分析可知当输入手写体或正常字体的数字或字母时,该算法都能准确识别出字体内容,具有较高的精确度,且算法解读时间短,比较快捷,适合推广和应用。
6 结论
因为现代有大量的文件和图像读取操作,对字符的识别主要需考虑它的计算速度和对资源的节省,尽可能使执行更快速便捷。本文采用的方法不是对文件读取,而是在内存数组中进行的;在定位数组时采取间接寻址方法,相比查找比较等方法,对计算效率有极大提高。另外在显示图像方面,也采取了一些策略,例如当显示上一屏图像时,将下一屏的图像计算出并放到内存中,所以显示图像更迅速。总而与之,本文算法能满足基本的图片中文档信息的读取并实现信息方式的转换。
【参考文献】
[1]钱揖丽,郑家恒.汉语语料词性标注自动校对方法的研究[J].中文信息学报,2004,(2):30-35.[2].
[2]骆卫华,罗振声,宫小瑾.中文文本自动校对技术的研究[J].计算机研究与发展,2004,(1):244-249.
[3]赵烨,王明磊,李新友.OCR在大数据量文档系统中的应用[J].计算机应用, 2000,20(增):336-338.
[4]Alessandro Vinciarelli. A Surveyon Off- line Cursive Word Recognition[J].Pattern Recognition.2002,(35):1433-1446.
[5]荆涛,王仲.光学字符識别技术与展望[J].计算机工程.2003, 29(2):1- 2.
[责任编辑:张涛]endprint