基于深度学习的不完整的手写体数字图像识别研究▲
2019-09-10朱世宇孙令翠张峤周建梅王元珑
朱世宇 孙令翠 张峤 周建梅 王元珑
摘 要:对于不完整的手写体数字图像识别,传统识别方法并不具备鲁棒性。本文所作研究主要针对不完整手写体数字图像进行识别。本文首先用传统方法进行实验分析,提出针对性的优化策略。其次通过MNIST数据集对构建的模型进行训练,并在自建测试集上对模型进行识别测试。实验测试结果表明,针对性的优化策略,对不完整手写体数字图像的识别率有显著提高。
关键词:手写数字;识别;深度学习
中图分类号:TP391 文献标识码:A 文章编号:2096-6903(2019)02-0000-00
1 背景
手写数字识别(Handwritten Numeral Recognition,简称HNR)是光学字符识别的一个分支,它是通过计算机处理手写阿拉伯数字(如0,1,2,....,9),让计算机自动识别手写数字,其在实际生活中,有着非常广泛的应用。国内外研究人员对其做了大量研究,提出了很多算法。然而,在识别和预测未知数字的准确率上仍有待进一步提高。近几年,将深度学习应用于手写体数字图像的识别已成为当前研究热点,并已经取得较好成绩,通过深度卷积网络对手写数字集MNIST进行识别,识别率已达到99.3%,且该项技术已在各个领域广泛应用。但当手写体数字图像并不完整(如部分缺失或被遮挡)时,手写体数字图像识别的正確率就下降到70%左右。
2 基于AlexNet的不完整手写数字识别研究
基于深度学习的手写体图像识别研究,已较为成熟,多个模型在手写体图像识别中都取得较好成绩,其中应用最为广泛的是深度卷积神经网络AlexNet。
AlexNet模型包含8层变换,其中有5层卷积层和2层全连接隐藏层,以及1个全连接输出层,如图1所示。
AlexNet将sigmoid激活函数替换成更为简单有效的ReLU激活函数,使得计算更简单,并在不同参数初始化方法下使模型更容易训练。由于当sigmoid激活函数输出值接近0或1时,这些区域的梯度几乎为0,从而造成反向传播无法继续更新部分模型参数;而ReLU激活函数在正区间的梯度恒为1,因此若模型参数初始化不当,sigmoid函数可能在正区间得到几乎为0的梯度,从而令模型无法得到有效训练。
AlexNet增大卷积通道数,并使用2个巨大的全连接层,参数过多,造成训练时间过长,因此又通过丢弃法来控制全连接层的模型复杂度。
AlexNet模型参数梯度的计算方法是依据微积分中的链式法则。沿着从输出层到输入层的顺序,依次计算并存储目标函数有关的神经网络各层的中间变量以及参数的梯度。如为待优化的参数;为模型的输出结果,即将输入的手写体数字图像判断为数字,以数组索引表示,且。模型设计为判断手写体的图像中的数字。判别器的目标函数如公式1所示。
公式1中对的损失值取负的物理解释为:将判断正确的不确定性越小越好,其最佳状态为;将所有判定的不确定性进行求和,便得到熵。根据熵对模型的参数进行优化。
本文基于AlexNet的通过对手写体数字图像的增强,达到识别不完整手写体数字图像的目的。因为手写体数字在完整的情况下,通过训练,AlexNet能够有很高的正确率,因此本文尝试人为制造不完整的手写体数字图像,用于训练,期望通过训练,AlexNet也能够捕捉到不完整手写体数字的图像特征。
3 实验
本文使用MNIST手写体数字数据集进行训练对AlexNet进行训练。设置每次训练为64个小批量,每一个epoch共训练938次,一共完成12个epoch的训练。其训练过程和最终的loss值和准确率如图2所示。其中acc表示准确率,loss表示损失值。
對训练好的模型,本文使用MNIST的测试集进行测试,其准确率达到了99.4%,截取部分预测图像如图3所示。
对训练好的模型,本文使用不完整的手写体数字图像进行测试,准确率下降到了74.3%。截取部分预测图像如图4所示。
本文设计了一种随机干扰方法,加入到训练集中的手写体数字图像中,使得手写体数字图像能够自动地生成不完整区域。该干扰方法为加入随机的斜线和随机的矩阵区域。通过该方法对数据集进行增强后,对Alex模型进行训练。对于完整手写体的预测准确率达到了94.5%。对于不完整手写体的预测准确率上升到92.2%。部分结果如图5所示。
4 结语
本文研究主要针对不完整手写体数字图像,在深度卷积神经网络AlexNet的基础上设计了数据增强的手写体数字识别系统,该系统主要分为三部分:手写体数字图像的预处理;手写体数字图像的数据增强;分类器的分类与识别。建立并实现了一个基于卷积神经网络AlexNet的手写体数字图像的识别模型,通过MNIST数据集对网络建立的分类器进行训练,提升识别率。
本文通过设计一种干扰方法,完成对数据集的增强,使得Alex模型对于不完整图像具备一定的鲁棒性。本文研究思路具有较高的拓展性,例如在使用随机位置斜线时,还能对斜线的长短粗细进行随机处理,矩阵的形状也可以随机变换。当然干扰方法并非越繁复越好,如果不能与模型的复杂程度相匹配,模型在训练过程中就无法优化参数达到目的。未来对于模型的鲁棒性,提升数据集的多样性,是一个非常值得研究的方向。
参考文献
[1]邢远.深度学习在手写数字识别中的应用[D].江苏:苏州大学,2017.
[2]王梓桥,刘沛丰,郝峰,等.基于深度学习的手写数字识别技术应用[J].数字技术与应用,2018(11):88-89.
[3]Branson, Kristin. A deep (learning) dive into a cell[J]. Nature Methods, 2016,(4):253-254.
[4] Mao,Xudong,Li,Qing, Xie,Haoran. AlignGAN: Learning to Align Cross-Domain Images with Conditional Generative Adversarial Networks[J].2016,16,(17)65-68.
[5]白天毅.基于神经网络的手写体数字识别关键技术研究[D].陕西:西安工业大学,2014.
[6]李海涛.基于深度学习的图像识别鲁棒性研究[D].南京:南京邮电大学,2018.
收稿日期:2019-05-16
▲基金项目:重庆工程学院校内科研基金资助项目(项目编号:2018xcxcy06);重庆市教委科学技术研究项目(项目编号:KJQN201801901);重庆市教委科学技术研究项目(项目编号:KJQN201801902);重庆市大学生创新创业训练计划项目资助(项目编号:201912608011);重庆市大学生创新创业训练计划项目资助,(项目编号:201912608011)。
作者简介:朱世宇(1984—),男,重庆人,硕士,副教授,研究方向:人工智能。
Incomplete Handwritten Digital Image Recognition Based On Deep learning
ZHU Shiyu,SUN Lingcui,ZHANG Qiao,ZHOU Jianmei,WANG Yuanlong
(Chongqing Institute of engineering, Chongqing 400056)
Abstract: For incomplete handwritten digital image recognition, traditional method identification methods are not robust. The research in this paper mainly focuses on the identification of incomplete handwritten digital images. The main contents are as follows: the traditional method is used for experimental analysis, and the targeted optimization strategy is proposed. The constructed model is trained through the MNIST data set, and the model is identified and tested on the self-built test set line. The experimental test results show that the targeted optimization strategy has significantly improved the recognition rate of incomplete handwritten digital images.
Keywords: handwritten numbers; recognition; deep learning