基于特征图叠加的脱机手写体汉字识别

2018-08-22毛晓波程志远周晓东

郑州大学学报（理学版） 2018年3期

毛晓波，程志远，周晓东

(1.郑州大学电气工程学院河南郑州 450001； 2.郑州大学产业技术研究院河南郑州 450001)

0 引言

手写汉字识别作为模式识别的重要研究领域之一，在文档数字化、邮件分拣和支票处理等方面有着广阔的应用前景[1-2].汉字的种类繁多，并且由于书写者不同的书写习惯，手写体汉字相较于印刷体汉字有很大的随意性，这些都给手写汉字识别带来了较大的困难[3-4].传统的脱机手写体汉字识别方法基本上包含图像预处理、特征提取和分类器设计三个过程.整个过程主要依赖人工提取特征和设计分类器，识别效果也往往受制于此，无法满足实际应用中的需求，且进一步的发展遇到了较大的瓶颈[5-7].

近年来，深度学习在很多传统的模式识别任务上都取得了优异的成绩，这也为手写体汉字识别提供了新的研究方向.瑞士IDSIA团队首次将卷积神经网络运用到手写体汉字识别中，在ICDAR-2011脱机手写体汉字识别竞赛中获得冠军，识别准确率达到92.18%[8].而在ICDAR-2013联机和脱机手写体汉字识别竞赛中，冠军队伍均采用了基于卷积神经网络模型的方法，其中脱机手写体汉字识别准确率达到94.77%[9].文献 [10]提出了HCCR-Ensemble-GoogLeNet模型，通过手工提取的特征与卷积神经网络的结合将识别准确率提高到96.74%.文献 [11]证明汉字的细微结构特征对汉字的准确识别有很大的作用.文献 [12]指出以往用于汉字识别的卷积神经网络的损失函数只对类间差别进行优化而忽略了类内差别，因此，为网络设计了新的损失函数对两方面同时进行了优化.然而,以上所提到的深度学习模型均采用传统的卷积神经网络结构，以原始图像作为图像输入，特征信息依次“流经”若干卷积层和池化层，每一层都将信息进行加工后送入下一层，最后用于分类.在这个过程中，要想提升网络的表现就要加深网络层数，而随着网络层数的增加又极易发生梯度弥散和梯度爆炸问题[13].更重要的是，在使用传统的卷积神经网络结构处理汉字识别问题时，需要保留的汉字细微特征信息在网络传递过程中也可能被改变甚至丢弃.

ResNet[14]被证明可以很好地克服深层次网络训练中出现的梯度弥散问题.简单来说，ResNet是在线性网络连接的基础上引入了一种捷径连接方式，使得网络底层不仅可以与中间层相连接，还可以通过捷径绕过一些层次直接连接到更高层，然后将捷径的输出与主路径的输出以求和的方式进行融合.加入了这样的一条捷径后，误差由高层向底层的反向传播路径被缩短，上层梯度可以直接跳过中间层传到下层，使网络更易优化.然而，如果直接应用ResNet处理汉字识别问题，其通过求和来融合捷径与主路径输出的方式依然具有覆盖汉字细微特征信息的风险.

通过综合考虑ResNet中捷径连接方式的优点和汉字识别任务的特殊性，本文提出一种改进的卷积神经网络结构，在提取“高水平”特征信息的阶段，可以将前一卷积层提取到的特征图保留下来，与当前卷积层提取到的特征图叠加之后共同作为输入进入下一层，由最后的分类层决定是采用保留的特征信息还是经过加工之后的信息.该卷积神经网络结构缓解了梯度消失的问题，有效地保留了汉字的细微结构特征.

1 采用特征图叠加的卷积神经网络结构

设计的卷积神经网络结构如图1所示.输入64×64的灰度图像，输出长度为3 755的向量.模型总共有8层卷积层、4层最大值池化层、1层全连接层和1层输出层.

图1 卷积神经网络结构Fig.1 The architecture of convolutional neural network

1.1 特征图叠加块

图1中出现的特征图叠加块的工作原理如图2所示.假设现有卷积层1和卷积层2，输入经过卷积层1后产生特征图1，特征图1再经过卷积层2 的卷积操作之后产生特征图2.接下来先不直接对特征图2进行池化操作，而是先将卷积层2产生的特征图2与卷积层1产生的特征图1进行叠加，之后再对所有的特征图进行池化操作.ResNet是对特征图1和特征图2进行求和操作，特征图1和特征图2将会相互覆盖，特征图数目保持不变.与ResNet不同，本文方法将会把特征图1和特征图2中所有的特征图都保留下来，此时特征图的数目是特征图1的数目和特征图2的数目之和.

图2 特征图叠加块的工作原理Fig.2 The concatenated block principle of feature maps

1.2 网络连接

在传统的卷积神经网络中，第l层的输出是第(l+ 1)层输入，转换关系为

Xl+1=Fl+1(Xl)，

(1)

式中：Fl(·)表示特征图在l层所进行的变换；Xl是第l层的输出.

ResNet引入捷径连接方式，网络学习的目标是输入与输出之间的残差：

Xl+1=Fl+1(Xl)+Xl.

(2)

在所提出的网络结构中，特征提取的初始阶段采用式(1)方式提取“基础”图像特征，而到两个特征图叠加块之后的池化层时，层间转换关系为

Xl+1=Fl+1(Xl,Xl-1)，

(3)

式中：Fl+1(Xl,Xl-1)表示将当前层和前一层提取到的特征图排列在一起共同作为输入进入下一层.与ResNet不同，这不是将两层提取到的特征图进行求和，而是将它们叠加组合成新的一组特征图.

如此设计网络结构是基于汉字识别问题的特殊性.传统的卷积神经网络设计主要应用于普通的物体识别任务，如对车、飞机、花朵等的识别.在这些识别任务中，传统的卷积神经网络结构在高层提取到的特征已经高度轮廓化[15],能否充分提取色彩与物体的整体轮廓特征，对分类准确率有很大的影响.汉字识别与之不同：首先，汉字识别不基于色彩；其次，相较于整体轮廓，汉字对细微结构的变化也十分敏感，如“大”和“犬”二字，恰恰是细微笔画的不同决定了二者的不同.因此，细微笔画信息与整体轮廓信息对于汉字分类来说都是必要的.

1.3 特征图尺寸

池化操作是卷积神经网络中不可缺少的重要步骤，它降低了特征维度从而使得模型可以更有效地训练.然而，池化操作本质上是下采样操作，它将带来每张特征图尺寸上的变化，不同尺寸的特征图无法进行叠加进入下一层.为了解决这一问题，将特征图的叠加操作限制在两次池化之间，这就保证了将要排列的特征图具有相同的尺寸.表1为模型的详细参数设置，展示了特征图尺寸随着卷积与池化操作的变化情况.

表1 模型的详细参数设置

1.4 网络训练

模型采用误差反向传播算法来训练网络，由于采用softmax层分类，所以定义网络的误差函数为交叉熵误差函数，表示为

(4)

激活函数使用修正线性单元(ReLu)[16]，函数表达式为

f(x)=max(x,0).

(5)

使用Adam优化算法[17]迭代更新各层的权值直至收敛，没有使用微调而直接在训练集上进行模型训练.整个数据集迭代24 000次，学习率固定为0.1，训练过程中对训练集进行了数据增广.

需要注意的是，在进行权值更新的过程中，根据链式求导法则，在误差从输出层反向“流”到输入层的过程中，与其他层相比，叠加块的第一个卷积层的误差项有两个来源：一是误差经过前一卷积层 “流”向叠加块的第一个卷积层；二是误差直接从池化层“流”向叠加块的第一个卷积层.当网络随着层数增加出现梯度弥散消失现象而变得难以训练时，后者可以使误差“绕过”长路径而直接使用短路径训练网络，缓解梯度消失现象，使网络更易优化.

2 实验部分

2.1 数据集

实验采用中国科学院自动化研究所公开提供的HWBDB1.0和HWBDB1.1数据集[18].HWBDB1.0数据集包含3 866类汉字，420名书写者，样本数为15 556 675；HWBDB1.1数据集包含3 755类汉字，300名书写者，样本数为1 121 749.本文采用HWBDB1.1作为训练集，从训练集随机抽取20%的数据作为验证集.测试集采用ICDAR-2013脱机手写体汉字识别竞赛测试集[9]，包含3 755类汉字，60名书写者，样本数为224 419.

2.2 结果与讨论

训练模型硬件环境为CPU I7 7700@3.6 GHz，内存16G，图像核心为GTX1070 8G显存.系统环境为Ubuntu 16.04LTS，使用CUDA8.0运行库及cudnn6.0加速方案.图3展示了训练集和验证集的识别准确率随着迭代次数的变化.可以发现，本文的网络收敛速度很快，迭代5 000次左右验证集就可以达到很高的准确率,并且模型没有出现过拟合.

图3 训练集和验证集的识别准确率Fig.3 The recognition accuracy on train and validation dataset

表2为不同方法在ICDAR-2013脱机手写体汉字识别竞赛测试集上的结果.可以发现，本文方法相较于传统方法在识别准确率上有了很大的提高，表明深度学习方法处理图像任务时具有传统方法难以比拟的优越性.3次竞赛最优方法的准确率逐年提升，而本文方法的表现优于ICDAR-2013脱机手写体汉字识别竞赛冠军队伍所用的方法，说明通过考虑汉字识别问题的特殊性从而改进网络结构，可以使模型更契合汉字识别问题的处理.虽然本文方法的准确率低于HCCR-Ensemble-GoogLeNet模型，但是本文的模型参数较低. 另外，本文采用的卷积神经网络仅有14层，属于轻型的网络结构.如果使用更深、更宽的网络结构或者先将模型在大型图像数据库上进行长时间的训练，再在训练集上进行微调，那么识别准确率将会得到再次提升.