APP下载

基于深度卷积神经网络的高分辨率遥感影像场景分类

2019-08-07孟庆祥

测绘通报 2019年7期
关键词:卷积神经网络深度

孟庆祥,吴 玄

(武汉大学遥感信息工程学院,湖北 武汉 430072)

随着高分辨率遥感卫星的迅速发展,高分影像商业用途越来越广。高分影像具有分辨率高、信息量大、细节特征丰富等优点,传统的影像解译方法很难有效地从高分影像上提取知识。如今高分影像信息提取已逐步从基于像元、纹理的解译向面向对象、语义识别和场景理解的方向发展[1]。因此,研究高层次特征的抽象方法成为高分影像理解的一个重要方向。

场景分类的关键是图像特征的提取。目前,场景分类方法大致可分为3类:基于纹理、颜色特征等低层特征的场景分类,基于中层语义特征的场景分类和基于高层视觉信息的深度网络模型场景分类[2]。文献[3]提出了空间包络面的方法,不用对整幅图像进行分割,使用多维低层次特征组合,实现了对自然场景的分类。文献[4]提出了一种高效的区域检测算法,使用SIFT特征对局部特征进行描述,由于SIFT特征对旋转、尺度缩放、亮度变化等均保持不变性,因此被广泛地运用到场景分类中。文献[5]将视觉词包方法引入到场景分类的研究中,首先对SIFT、Gist特征进行提取,并用K-means聚类方法进行聚类形成视觉词包,最后使用支持向量机分类器进行训练,取得了良好的分类效果。

近年来,深度学习在图像领域得到了广泛的运用[6-7]。文献[8]使用基于卷积神经网络的模型Alex-net,利用多层卷积提取特征,利用全连接层融合特征,利用Dropout层提高网络的泛化能力,防止模型的过拟合。该模型有效地实现了图像分类,比支持向量机算法精度提高了15%。由于卷积神经网络在图像识别领域上的出色表现,越来越多的学者将其运用到高分影像的场景分类中。文献[9]利用多层感知机分类器对影像进行场景分类,但是网络过浅,无法学习到高层特征。文献[10]提出了一种卷积神经网络和支持向量机组合模型,分类精度虽然有所提升,但是未解决过拟合问题。为了解决过拟合问题,文献[11]使用了迁移学习的方法,利用ImageNet比赛的预训练模型Inception-v3提取特征,最后用单层全连接层进行分类输出。该网络虽然在一定程度上提高了模型的泛化能力,但是只用单层全连接并未从根本上解决网络的过拟合问题。因此,本文提出一种基于深度卷积神经网络(deep convolution neural network,DCNN)的高分影像分类模型,通过镜像、旋转、亮度变化等方法对数据集进行增广,利用正则化和drought[12-13]层调整模型参数,运用卷积神经网络实现对高分影像进行分类。

1 原理和方法

误差的反向传播是深度学习的基础,深度网络通过反向传播求解梯度,根据梯度进行学习得到模型,利用模型完成分类任务。卷积神经网络是目前图像处理领域使用最多的模型,该网络能够自动提取出高层语义特征。

1.1 卷积神经网络

卷积神经网络模型是一种基于反向传播的模型,主要用于图像识别领域。遥感影像也是一种图像,影像场景可以看作是不同语义特征的组合,如住宅可以看作是房屋、道路、树木的组合。这些语义特征具有不同的纹理和结构信息,而卷积神经网络的优点恰好是对特征的提取。卷积神经网络一般可以分为4层(如图1所示):①卷积层:卷积层通过卷积核提取特征。卷积核不断在输入影像上滑动进行局部感知,计算出下一层的特征图。假设输入的是w×w×d图像,其中w是影像尺寸,d代表通道数,利用一个尺寸为r×r×d的卷积核在图像上滑动,如不用全0填充,最后得到的是一个大小为[(w-r+1)/s]×[(w-r+1)/s]的特征图,其中s是滑动步长。②池化层:池化层的作用是将卷积层得到的特征图进行过滤。假设用2×2的过滤器,以2为步长对特征图进行过滤,最后得到原图1/4大小的特征图。通过以上的操作,可以使网络参数大大减少,池化后的特征维度的下降也很好地避免了过拟合的问题。③激活函数[14]:当网络通过多个卷积和池化层叠加后,其本质上是矩阵的相乘,因此构成的还是线性模型。激活函数引入了非线性因素,使模型能够解决更为复杂的问题。常用的激活函数包括Sigmoid、Tanh、Relu等,本文采用Relu函数。④全连接层:卷积层和池化层都是对图像局部特征的提取,而全连接层则是对特征的高度综合,方便将结果交给最后的分类器。一般最后一层全连接输出维数是分类的类别数,对应概率最大的即为最后结果。

1.2 基于DCNN的场景分类

1.2.1 DCNN的网络结构

本文使用的DCNN模型共计8层,如图2所示,其中5层卷积层,3层全连接层。卷积层包括4个阶段:卷积、池化、激活和局部归一化响应。卷积阶段采用3×3的卷积核和1的步长对影像进行特征提取,由于使用了全0填充,卷积所得到的特征图大小不会变化。池化阶段使用2×2的过滤器,以2为步长对特征图进行过滤,得到1/4大小的过滤特征图。激活阶段使用Relu(rectified linear unit)函数对过滤特征图进行激活,加快训练的收敛速度,缩短模型的训练时间,并将模型变为非线性模型。局部归一化响应阶段作用是使反馈较大的神经元反馈更大,并抑制反馈较小的神经元,提高模型的泛化能力。全连接层将卷积层提取到的特征拉成一个一维向量,以便将分类结果交给最后的分类器。这里以3×3的卷积核阐述模型运行过程,输入影像大小为256×256×3,经过第1层3×3×3×16卷积核后(前两个3代表卷积核尺寸,第3个3表示3通道,16表示下一层输入通道),大小变为256×256×16,经过池化后,大小变为128×128×16。第2层卷积核为3×3×16×32,经过池化后,特征图再次缩小,变为64×64×32。前5层卷积层重复以上操作,最后得到大小为8×8×256的特征图。第1层全连接将8×8×256的特征图拉成一个16 384维的向量,输出一个4096的向量,如此重复,最后得到一个与类别维数相同的向量,最后将其输入到Softmax分类器,得到最终的分类结果。

1.2.2 激活函数、Dropout和正则化

Relu函数的公式如式(1)所示,当输入值非负时,Relu函数返回原值,当输入值为负时,返回0。相比于Sigmoid、Tanh激活函数,Relu函数免去了复杂的计算量,并且对其求导时Relu函数大于0的部分导数恒为1,而Sigmoid、Tanh函数导数会逐渐趋近于0。因此Relu函数能够有效地避免梯度消失的现象,并且大幅度提高了模型收敛速度。

Relu(x)=max(0,x)

(1)

在每个全连接层后,笔者都加入了Dropout函数,Dropout函数能够随机删除网络中的一些隐藏神经元,将修改后的网络进行前向传播和反向传播,如此反复迭代,可以有效地避免过拟合问题。

关于大学生创业及相关问题,从中国知网检索的文献梳理来看,学术界已进行了大量探索并取得了一定的研究成果。但是,以“大学生返乡就业创业”视角所做的研究显得不足,特别是如何构建促进大学生返乡就业创业的社会支持体系的研究更为匮乏。基于此,本文在前人研究的基础上,尝试厘清大学生返乡就业创业社会支持要素的内涵及外延,并着重探讨社会支持要素在大学生返乡就业创业过程中的作用发挥情况。

在损失函数中,笔者加入了正则化。正则化是在损失函数的基础上加入正则项,其作用是在参数数量不变的情况下,减小某些参数的值,从而解决数据的噪声问题。

1.2.3 数据增广

本文使用了6种算法对数据进行增广,分别是水平镜像变换、转置变换、随机亮度变换、随机对比度变换、随机色相变换和随机饱和度变换。

(1) 水平镜像变换算法公式为

f(x1,y1)=f(w-x0,y0)

(2)

式中,(x1,y1)为变换后图像像素坐标;(x0,y0)为变化前图像像素坐标;w为图像宽度。

(2) 转置变换算法公式为

f(x1,y1)=f(y0,x0)

(3)

式中,(x1,y1)为变换后图像像素坐标;(x0,y0)为变化前图像像素坐标。

2 结果与讨论

2.1 数据集

UC Merced-21数据集一共21类场景,每类100张,共计2100张影像,每张影像大小为256×256。此数据集相同类间差距大,不同类间相似性高,可用于场景分类。由于数据集每类影像较少,为了提高模型的泛化能力,使用了数据增广,扩充后每类影像700张,其中600张作为训练数据,100张作为测试数据。具体类别如图3所示。

本文对UC Merced-21数据集进行了镜像变换、转置变换、亮度变换、对比度变换、色相调整及饱和度调整,调整后的结果如图4所示。

2.2 结果分析

本文在UC Merced-21数据集上进行了试验。表1描述了3个尺寸卷积核在21类数据集上的分类精度。从表1中可以看出,本文模型在机场、沙滩、灌木丛、密集住宅、林地、高速公路、高尔夫球场、海港、交叉口、中等住宅、立交桥、停车场、铁路、稀疏住宅14个类别取得了很好的分类效果,平均精度为95.36%,在其余的7个类别中表现一般,平均精度为83.29%。

表2为21类场景的混淆矩阵。从表2中可看出,每种类别都有一种以上的类别干扰分类结果,这些类别由于纹理、颜色等特征存在一定的相似性,如网球场与高尔夫球场、农田与灌木、棒球场与高尔夫球场、建筑物与密集住宅等,因此最终分类精度受到了一定的影响。而对于一些有明显特征的场景,如机场、港口、灌木丛、铁路等都有很高的识别度。

2.3 结果讨论

传统方法一般由纹理和颜色等特征描述场景,然而这些低阶特征无法描述复杂的大型数据集。经过国内外学者的探索,原本用于描述文档的视觉词袋方法被引入场景分类,这种方法使用中层语义特征建模,将特征抽象成对象,使用对象来描述场景能够有效地提高分类精度[15-16]。深度学习兴起后,学者们发现卷积神经网络在图像识别与分类中表现卓越,于是各种不同的模型被用到场景分类,分类精度在不断提高。本文将DCNN方法与其他文献在UC Merced-21数据集上的分类精度与方法进行了对比,对比结果见表3。

表3 各种方法分类精度

3 结 语

本文利用深度卷积网络对UC Merced-21数据集进行场景分类,对数据不足的数据集进行了数据增广,并采用正则化和Dropout算法解决了深度学习模型的过拟合问题。从试验结果可以看出,深度卷积神经网络可以有效地对高分影像进行场景分类,并且其分类精度要优于传统算法。同时,笔者发现不同尺寸的卷积核对于不同类别场景有一定影响,选取合适的卷积核尺寸可以有效地提高分类精度。场景分类是遥感影像处理的方向之一,利用深度学习模型对遥感影像进行处理是将来研究的热点。本文验证了深度学习模型在影像场景分类任务中的有效性,下一步会将深度卷积神经网络运用到中高分辨率影像的分类。但是,深度的卷积网络参数较多,结构复杂,训练时间过长,如何进一步提高特征提取效率,也是未来研究的重点之一。

猜你喜欢

卷积神经网络深度
基于神经网络的船舶电力系统故障诊断方法
四增四减 深度推进
深度思考之不等式
MIV-PSO-BP神经网络用户热负荷预测
基于改进Hopfield神经网络的对地攻击型无人机自主能力评价
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
从滤波器理解卷积
简约教学 深度学习
基于神经网络的中小学生情感分析