APP下载

基于迁移学习的小型卷积神经网络的图像分类研究

2022-07-07朱健

电子技术与软件工程 2022年6期
关键词:城市用地池化层卷积

朱健

(江西理工大学土木与测绘工程学院 江西省赣州市 341000)

1 绪论

相关学者对于生物体内的自然感知机制进行研究并受到启发,设计出了卷积神经网络(CNN)模型。在19世纪60年代,Hubel等对动物视觉皮层中的细胞负责检测感受野的相关研究。在此基础上,日本科学家Fukushima在19世纪后期提出了神经认知机的相关理论方法。 经历了计算机技术的飞速发展时期,越来越多有关学者对卷积神经网络展开相关研究,提出了许多的卷积神经网络模型,例如,在19世纪末期, LeCun提出了卷积神经网络中的一个经典模型--LENET5模型,使得卷积神经网络相关理论开始正式成型,在2014年期间,随着VGG模型的提出,有关学者证明了该模型相对于AlexNet更加节省空间。与此同时,Yi Sun和Taigman Y对LFW数据库进行分析得到结果的基础之上,提出了DeepFace和DeepID 两个模型,并将上述模型成功应用于人脸识别和人脸认证两个实验中,得到实验结果的精确率为 99.75%。迁移学习作为一种新兴的机器学习技术,它是根据已经学习到的相关知识对相关问题解决起到一定作用的一种学习方法,当前相关学者对于迁移学习的如何定义分类的标准不一,目前有关迁移学习的分类主要分为基于样本、特征、参数以及相关性的迁移学习。例如,文献通过对迁移学习方法进行总结归纳,并以实例集作为集合,从而实现对整体的管理以及不同方面的权重进行调整。文献为了提高源和目标领域之间的特征分布性,将最大化平均差异考虑到迁移学习的应用中,并取得了不错的效果。文献对室内Wi-Fi定位不同所产生的影响,利用隐马尔可夫模型,对不同条件下的室内进行相关研究。图像作为人类认知世界的基础,其给人类带来的信息量远比传统的文字要多,因此其在学术界应用广阔,例如目标识别、图像分割等等。在传统的机器学习方法中应用于图像分类的也有很多,例如:支持向量机、小波神经网络,但上述方法在进行图像分类之前,需要对数据进行预处理,包括灰度转换、特征提取等等,必然加大了在进行图像分类过程中的工作量,同时所得到的分类结果也没有卷积神经网络好。因此,本文针对VGG16这种大型卷积神经网络,应用迁移学习的思想,在保留其基本结构的基础之上,设计一种小型卷积神经网络VGG-6,并将其应用于自己通过对长沙市的遥感影像进行语义分割制作得到的长沙市城市用地分类数据集中进行分类训练,通过设计不同类型VGG-6的网络结构并将其与LENET-5模型进行对比,综合考虑模型对数据集进行训练的运行时间以及分类精度,最终得到适合该数据集的VGG-6网络结构的相关模型参数。

2 研究方法

2.1 卷积神经网络

卷积神经网络(Convolutional Neural Network,CNN)作为深度学习相关研究领域中的被得到广泛使用的一种神经网络,主要应用于图像处理、文本识别等相关研究领域。它主要由输入层、卷积层、池化层以及全连接层等结构组成,其中卷积层和池化层,它们的主要作用将网络输入的数据集中的相关特征进行提取,全连接层主要对数据集的结果进行分类。

2.1.1 卷积层

卷积层作为卷积神经网络的重要模块,通过在卷积层中组合不同类别的卷积核,实现对数据集中的图像区域内的像素进行卷积计算,进而对数据集中的特征进行提取。卷积核类别的不同,提取得到的特征变量也不同,使用高级别的卷积核对输入数据集的输入特征进行提取,可以得到数据集的高维特征,使用低级别的卷积核对输入数据集的输入特征进行提取可以获得数据集的低维特征,其表达式为:

2.1.2 池化层

在卷积操作结束后得到一张张不同值的特征图,但数据量依旧很大,因此为了防止过拟合产生,利用池化层对数据集进行池化操作,增强模型对数据集的适应能力。池化主要分为两种:平均池化和最大池化。在进行池化操作的过程中,虽然数据的维度降低会导致损失部分数据,但数据特征的平移不变性使得统计量仍然可以对区域特征进行描述,其表达式为:

2.1.3 全连接层

在结束整个卷积神经网络中的卷积和池化操作以后,考虑到网络中存在的大量网络参数,为了简化数据计算,全连接层之间通过全连接的方式进行连接,整合卷积层和池化层提取得到的特征进一步提取高层次的特征信息,并会用具有非线性的激活函数来提升整个网络的性能,其表达式为:

2.2 VGG16模型

VGGNet是由牛津大学的K.Simonyan和A.Zisserman提出的继Alexnet后隐含层数增加的深度卷积神经网络,学者们通过对VGG模型展开相关研究发现,通过增加小卷积核以及隐含层数能有效提高整个网络的预测精度,与此同时网络的训练时间相对于Alexnet大幅度减少。目前VGGNet主要有VGG16和VGG19两种结构,这两种类型的VGG网络结构中的卷积层都有3×3以及步长为1的卷积核,同时也包含了5层的最大池化层以及3层全连接层,前两层的通道数总和为4096,最后一层网络的输出结果为1000个类别。VGG16模型的具体网络结构如图1所示。

图1:VGG16模型结构图

从图1中可以看出,输入到网络结构的数据集先经过预处理再输入到网络结构中的卷积层,其中由输入层输入到卷积层的数据集中的图像大小为224×224×3,再经过网络中的13个卷积层、4个最大池化层以及3个全连接层,此时VGG16的网络参数数量已非常大,是一个深度大型网络,事实证明网络深度越深能提高预测结果的精度,这个结论是受AlexNet网络的启发,Alex.等也在文章也提到了这个问题,VGG16也验证了这个结论。

3 基于迁移学习的卷积神经网络模型

本文构建的VGG小型卷积神经网络模型,简称VGG-6,其主体框架还是VGG16,保留了VGG16结构中的四个卷积模块、两个最大池化模块以及两个全连接模块,在模型进行训练之前,先运用迁移学习思想把模型输入到最大池化层之间的结构进行冻结,保留VGG16原有模式,使新模型只需训练新加入的部分权重,这个模型网络结构中有两个相同的模块构成,每个模块的结构中含有两层卷积层、一个最大池化层以及一层Dropout层,两个模块的后面紧跟着两层全连接层分别为全连接层1和Softmax层,网络的总体结构如图2所示。

图2:VGG-6网络结构图

3.1 长沙市城市用地分类数据集

本文所使用的数据集为长沙市城市用地分类数据集,该数据集首先通过对长沙市的遥感影像进行分类,得到分为两类城市用地以及非城市用地的数据影像,其次,对分类结果中的影像进行提取分割,并通过对分割结果得到的影像进行语义标注,将结果中为城市用地的影像标注为1,非城市用地的影像标注为0,通过对语义标注的结果进行整合得到了长沙市的城市用地分类数据集,该数据集中包含城市用地影像的数量为3600个,其他用地影像数量为25200个,数据集制作过程中的采样窗口大小为20×20。

4 模型参数确定

为了验证本文提出的VGG-6模型的分类能力,本文在模型参数方面选取不同的模型参数构建3种不同类别的VGG-6模型,其中VGG-6-1模型主要由两个模块组成,其中每个模块包括两层卷积层以及一层最大池化层,在VGG-6-1中它主要由两个模块构成,其中一个模块是由16个3×3大小的卷积核以及32个3×3大小的卷积核组成的两层卷积层和一层最大池化层所构成,然后通过两个该模块进行堆叠就形成了VGG-6-1的网络结构;VGG-6-2是由24个3×3大小的卷积核以及48个3×3大小的卷积核组成的两层卷积层和一层最大池化层组成它的一个模块,并通过两个该模块堆叠形成的;VGG-6-3是由32个3×3大小的卷积核以及64个3×3大小的卷积核组成的两层卷积层和一层最大池化层组成它的一个模块,并通过两个该模块堆叠形成的。为了更进一步的对比模型的分类能力,因此本文还选取的LENET-5模型作为对比模型,用于验证本文模型的分类精度。为了保证模型对比结果的有效性,将VGG-6网络模型与LENET-5网络模型中的部分相关参数进行统一设置,将模型参数中的学习率设置为0.01、惯性系数设置为0.5以及每次训练的图像个数为20。通过对上述模型进行试验,发现模型的迭代次数至少要80次模型才能收敛,因此本文对上述模型的迭代次数设置为100次。在完成上述工作之后,结合表1中模型的各项网络参数,将上述模型应用于数据集的分类训练中,得到各模型的训练曲线如图3所示,从图中可以看出各模型的分类精度随着训练次数的增加,其变化趋势也逐步稳定。

图3:模型训练图

为了更进一步的分析上述模型的分类效果,从表1中可以看出VGG-6-1模型、VGG-6-2模型、VGG-6-3模型随着模型的卷积核数量增加,模型的对数据集训练的运行时间也开始增加。为了进一步探究模型复杂程度的增加是否会对模型分类精度产生一定的影响,因此本文分别对VGG-6-1模型、VGG-6-2模型、VGG-6-3模型进行数据集分类训练,从分类精度以及模型运行时间两个方面进行统计得到结果如表2所示,从表2中可以看出,随着模型复杂度的增加,会导致模型训练耗时上升,但对数据集分类精度的影响不显著,从模型的运行结果来看,VGG-6-1其模拟精度为99.44%,运行时间为88.91S、VGG-6-2的分类精度为99.58%,运行时间为107.88S、VGG-6-3的分类精度为99.44%,运行时间为120.09S以及LENET5的分类精度为99.15%,运行时间为77.65S。从中可以看出VGG-6-2模型的分类精度最高以及本文所设计的三种网络结构均在分类精度上相对于传统的LENET5有所提升,但随着精度的提升其运行时间也会增加,因此综合考虑模型的分类精度和运行时间,因此本文得到模拟分类结果较好的网络为VGG-6-2模型。

表1:不同类型VGG-6模型参数

表2:不同网络模型的分类精度和运行时间

5 结论

首先针对VGG这种大型卷积神经网络应用于小样本中的图像分类问题,应用迁移学习的思想在保留VGG16模型基本结构的基础之上设计出一种小型卷积神经网络VGG-6并将其用于小样本图像的图像分类中,从本文所设计的VGG-6模型中可以看出,该模型对于长沙市城市用地分类数据集的训练结果,综合考虑模型的分类精度以及运行时间,不难看出本文所设计的模型在各方面的结果都要优于传统的LENET5,虽然模型由于卷积核数量的增长导致网络结构的复杂度增加进而导致模型在运行时间上耗时更长,但分类精度相对于LENET5却有所提升,并得到了用于长沙市城市用地分类数据集中分类的卷积神经网络模型为VGG-6-2模型,其模型的具体参数是由两个相同的模块构成模型的主要结构,在模型中的每个模块,其基本结构为两层卷积层和一层最大池化层,其中卷积层的参数为32个3×3大小的卷积核以及64个3×3大小的卷积核组成。

猜你喜欢

城市用地池化层卷积
SOFM网络下的深圳市城市用地功能识别分析
基于3D-Winograd的快速卷积算法设计及FPGA实现
卷积神经网络模型研究分析*
甘肃省主要城市空间扩张协调性分析
基于深度学习卷积神经网络的人体行为识别研究
从滤波器理解卷积
基于全卷积神经网络的SAR图像目标分类*
基于傅里叶域卷积表示的目标跟踪算法
近10年甘肃省城市用地综合效益及其内部协调度研究
一种基于卷积神经网络的性别识别方法