基于卷积神经网络的图像识别
2019-01-14罗嘉杰施佳林
罗嘉杰 施佳林
摘 要:目前,卷积神经网络在图像识别和分类领域取得了良好的效果,但网络结构和参数的选择对图像识别和分类的效果与效率影响很大。为了提高卷积网络的图像分类性能,本文结合理论分析和对比实验,对卷积神经网络模型进行了详细的理论分析,并且本文设计了一个具有8层卷积层的深度卷积网络,并结合批量归一化处理,在CIFAR-10数据集上进行了相关的分类实验,得到了88.1%的分类精度,相比于传统的分类设计有效地改善了卷积神经网络的图像识别分类效果。
关键词:卷积神经网络 图像识别 图像分类 LeNet-5模型
中图分类号:TP311 文献标识码:A 文章编号:1674-098X(2019)08(c)-0130-02
卷积神经网络是一种具有卷积结构的神经网络,它能够减少网络参数的数量,并减轻模型的过度拟合问题。为了确保一定程度的平移,缩放和失真不变性,在卷积神经网络中设计了局部感受域,共享权重以及空间或时间下采样,对于此提出了一种用于字符识别的卷积神经网络LeNet-5。LeNet-5由卷积层,下采样层和完全连接层组成。
1 LeNet-5网络模型结构
卷积神经网络与其他神经网络模型的最大区别在于卷积神经网络将卷积层连接到神经网络的输入层之前,该卷积层成为卷积神经网络的数据输入,而作为经典模型的LeNet-5网络,是由严乐村开发的用于手写字符识别的经典卷积神经网络模型。
LeNet-5的体系结构有7层,其中有3个卷积层。第一卷积层由6个特征图组成,故C1包含156可训练参数((6个5X5内核加上6偏值)来创建122304(156*(28*28)-122,304)个连接。在C1层上,FM的大小为28×28。C3层共有1516个可训练参数以及151600个连接。Lecun设计了这些连接最大化C3的功能数量,同时减少了权重数量,在最后的卷积层C5包含120个FM,输出尺寸为1X1。
2 模型设计
CIFAR-10数据集含有6万张的自然图像,共分为10种类型,由Alex Krizhevsky,Vinod Nair和Geoffrey Hinton收集而来。包含50,000张训练图片,10,000张测试图片,数据集中的数据存在于一个数组中(按行存储,每行代表一个图像),前1024位是R值,中间1024位是G值,最后1024位是B值。在本文中,实验数据集被简单地剪切和白化,并且像素值被发送到神经网络用于训练,本文结合CIFAR-10数据集,设计了一个深度卷积网络模型,模型的架构参数如表1所示。
3 实验分析
將最大迭代次数设置为50,000次,使用SGD+ Momentum学习算法初始化学习速率,Epoch学习速率每125次衰减为前一次的0.1倍,其他参数保持基本参数不变,相应的成本函数曲线如图1所示。
在模型训练50000次迭代后,使得成本函数稳定大约在0.18左右,最低为0.10,最后的分类精度可达88.1%。可以看出,本文的图像识别分类精度优于目前大部分研究中得到的分类精度。
4 结语
众所周知,目前将卷积神经网络应用于图像分类实验已经取得了良好的效果,但是网络结构和参数的选择一直是分类效果提升的瓶颈,为了更好地将卷积神经网络应用于图像分类中,本文针对CIFAR-10图像数据集,设计了一个具有8层卷积层的深度卷积网络,并结合批量归一化,在CIFAR-10数据集上得到了88.1%的分类精度,比CIFAR-10官网上公布的大部分研究的分类精度要高,有效地改善了卷积神经网络的图像识别分类效果,因此可以将本文的实验成果应用于医学图像的鉴定、交通图像的识别等领域,对国民生活和经济发展提供技术支持。
参考文献
[1] Alex Krizhevsky, Ilya Sutskever, Geoff Hinton. Imagenet classification with deep con-volutional neural networks[J]. Advances in Neural Information Processing Systems,2012(25):1106-1114.
[2] Ioffe S, Szegedy C. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift[J]. Computer Science, 2015(33): 45-49.
[3] Simon M, Rodner E, Denzler J. ImageNet pre-trained models with batch normalization[J].2016(12): 115-120.