试卷识别中的手写体识别
2016-12-26广州广电运通金融电子股份有限公司王倩文崔山领
广州广电运通金融电子股份有限公司 王倩文 崔山领 徐 靖
试卷识别中的手写体识别
广州广电运通金融电子股份有限公司 王倩文 崔山领 徐 靖
传统阅卷方式要耗费大量的人力和物力、耗时长,管理也不方便。随着科技的发展,自动化阅卷需求日益增多。自动化阅卷系统强烈依赖于图像处理技术,整个系统主要包括图像采集、图像倾斜校正、版面分析、图像分割、在线阅卷和成绩录入等模块,是一个庞大而复杂的系统。本文针对自动化阅卷系统中的一个重要环节在线阅卷模块中涉及的手写体识别,提出基于卷积神经网络的解决方案。
手写体识别;卷积神经网络;字符识别;自动阅卷
1 前言
完整的自动阅卷系统包括:(1)扫描试卷的定位和纠正;(2)试卷的版面及内容分类;(3)考生信息识别;(4)答案自动识别;(5)成绩录入与管理等。而在上述的(3)、(4)、(5)这三个模块中,均涉及手写体的识别。为此,本文提出一种基于卷积神经网络的手写体识别的方法解决自动阅卷上的识别问题。
对于手写体,不同的人群书写习惯不同造成同一字符的形态、大小千变万化。而且字符间笔画也可能存在粘连。传统的手写体算法一般是对识别的区域进行字符串定位、字符切割、提取字符特征、利用神经网络或者支持向量机等方法进行字符识别等多个步骤进行识别。但是手写体的形态、大小变化多端,且存在字符的粘连,或部分笔画的相互串扰,字符切割和字符的特征提取成为挑战。为了解决此问题,本文提出一种基于卷积神经网络的无须进行字符切割和字符特征提取的试卷手写体识别方法。
2 卷积神经网络
卷积神经网络(CNN)是人工神经网络的一种,也是一种使用广泛的深度学习架构,目前已成为语音分析和图像识别领域的研究热点。它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显,使图像可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建过程。卷积网络是为识别二维形状而特殊设计的一个多层感知器,这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。
CNN能够得出原始图像的有效表征,这使得CNN能够直接从原始像素中,经过极少的预处理,识别视觉上面的规律,而不需利用特征描述子手动进行特征提取。
图1 LeNet5 结构图
CNN是一种深度学习的架构,基于此架构,可以演变为不同的网络。但是CNN具备共性的基本组成单元。以 LeNet-5 为例,这个CNN 含有三种类型的神经网络层:
(1)卷积层:设定卷积核数目和大小,自动学会识别输入数据的特性表征。如上述图1中的C1,C3,C5均为卷积层。其中C1对应的是6个28*28的特征图,其每个神经元与输入中5*5的邻域相连。C3同样通过16个5x5的卷积核去卷积层S2,从而得到10x10个特征图。C5层是一个卷积层,有120个特征图。每个单元与S4层的全部16个单元的5*5邻域相连。由于S4层特征图的大小也为5*5(同滤波器一样),故C5特征图的大小为1*1:这构成了S4和C5之间的全连接。
(2)池化层:典型的操作包括平均池化和最大化池化。每个卷积层后面跟着一个实现局部平均和子抽样的计算层,由此特征映射的分辨率降低。这种操作具有使特征映射的输出对平移和其他 形式的变形的敏感度下降的作用。LeNet-5中S2和S4均为平均池化层。
(3)全连接层:将卷积层和Pooling 层堆叠起来以后,在网络的最后一般连接一层或多层全连接层,实现高阶的推广能力。 LeNet-5中F6即为全连接层。
CNN主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于CNN的特征检测层通过训练数据进行学习,所以在使用CNN时,避免了显示的特征抽取,而隐式地从训练数据中进行学习;再者由于同一特征映射面上的神经元权值相同,所以网络可以并行学习,这也是卷积网络相对于神经元彼此相连网络的一大优势。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性,其布局更接近于实际的生物神经网络,权值共享降低了网络的复杂性,特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。
3 系统实现
在自动阅卷系统中,在前面的(1)扫描试卷的定位和纠正、(2)试卷的版面及内容分类两个模块中已把待识别的区域精确定位出来。但是在待识别区域的手写体字符、数字等由于书写风格各异,大小形状各异,因此按照常规的字符串定位、字符切割、考卷表格线擦除、字符特征提取等传统的处理方法,是无法达到好的识别效果的。在我们的系统实现中,我们对于待识别区域,定义一个字符的最大宽度为MAX_WIDTH,其最小宽度为MIN_WIDTH,从最小宽度逐步递增的步长为dW。对于待识别区域Block(大小为block_ width, block_height):
1)从区域的左侧(即横坐标为0)开始,选定MIN_WIDTH* block_height区域,在此区域通过水平投影,确定字符的上下边界,从而得到待识别区域MIN_WIDTH*height_this。将其归一化为32*32作为LeNet-5的输入,从而得到相应的网络识别结果。
2)横坐标x增加dW,重复第1步,获得LeNet-5网络识别结果。
3)横坐标x若小于MAX_WIDTH,重复第2步。
4)综合前3步得到一系列的识别结果,找出综合置信度最高的作为最终识别结果。
5)横坐标继续增加dW,重复1~4得出所有的识别结果。
通过上述方法,我们可以避免繁琐的字符切割和特征提取过程,充分利用多次滑动中的识别结果综合评判得到最终的识别结果,进一步的提高了识别的准确性。
[1]Y。LeCun,L。Bottou,Y。Bengio,and P。Haffner。Gradient-based learning applied to document recognition。Proceedings of the IEEE, november 1998.
[2]Y。LeCun,B。Boser,J。S。Denker,D。Henderson,R。E。Howard,W。 Hubbard,and L。D。Jackel。Handwritten digit recognition with a back-propagation network。In David Touretzky,editor,Advances in Neural Information Processing Systems 2(NIPS⋆89),Denver,CO,1990.Morgan Kaufman。
[3]沈茜。基于神经网络与GPU的手写数字识别及其试卷管理[D]。苏州大学,2011.
[4]高鹏,谭红,杜华等。基于神经网络方法的手写体数字识别[J]。吉林工业大学学报,1997(1):79-82.
[5]赵晓娟。手写体数字及英文字符的识别研究[D]。东北师范大学,2010.