APP下载

基于尺度注意力网络的遥感图像场景分类

2020-06-06边小勇费雄君

计算机应用 2020年3期
关键词:尺度卷积像素

边小勇,费雄君,穆 楠

(1. 武汉科技大学计算机科学与技术学院,武汉430065; 2. 武汉科技大学大数据科学与工程研究院,武汉430065;3. 智能信息处理与实时工业系统湖北省重点实验室(武汉科技大学),武汉430065)

(*通信作者电子邮箱xyongwh04@163.com)

0 引言

近年来,随着遥感图像场景数据不断涌现,遥感图像场景分类获得了广泛的关注。与此同时,受平移、视点、空间分辨率、旋转、姿态、背景、多时相等多种变化的影响,类内呈现大的多样性和类间具有高的相似性[1],特别是新一代高分辨率遥感图像同一地物内像素光谱测度的一致性减弱,而不同地物间像素光谱测度的一致性增强,使得遥感图像场景分类问题依然面临严重挑战。此外,图像场景分类对于对象检测、图像匹配和检索、机器人避障等任务将发挥重要作用,因此,遥感图像场景分类具有重要的理论研究意义和应用前景。

近二十年来,遥感图像场景分类主要利用传统手工特征和特征编码方法[2]。手工特征方法有局部二值模式(Local Binary Pattern,LBP)、方向梯度直方图(Histogram of Oriented Gradients,HOG)、尺度不变特征变换(Scale-Invariant Feature Transform,SIFT)等。特征编码方法有视觉词袋法(Bag-Of-Visual-Words,BOVW)[3]、局部聚合向量描述符(Vector of Locally Aggregated Descriptors,VLAD)[4]、FV(Fisher Vector)等[5]。以上方法提取的都是图像的低中层特征,虽然这些特征具有旋转不变性、对噪声容忍度高等特点,但这些方法存在繁琐的参数调整且人工经验使得模型是次优的。为了更好地利用这些特征,出现了基于以上方法的若干改进做法。其中,Bian 等[6] 提 出 了 salM3LBP (saliency-based Multiscale Multiresolution Multistructure Local Binary Pattern)特征和CLM(CodebookLess Model)特征融合的高分辨率图像场景分类方法,在AID(Aerial Image Dataset)数据集上的分类准确率达到89.76%。Huang 等[7]将深度学习与特征编码方法相结合,提出了基于改进的LBP 方法、预训练卷积神经网络特征提取器和FV 编码的高分辨率图像场景分类方法。以上方法在特征提取和特征区分性等方面仍有一定的局限性,模型的分类准确率和泛化能力仍然有很大的提升空间。

最近,深度学习方法在计算机视觉领域发展迅速,出现了一些经典的卷积神经网络(Convolutional Neural Network,CNN)模型[8-10]以及基于CNN 改进的网络模型,这些模型与传统手工特征和特征编码方法相比,具有更强的特征提取能力和模型泛化能力。其中,He等[11]针对层数过深的CNN模型难以训练的问题提出ResNet(Residual Network),在ImageNet 数据集上取得了更好的分类结果。Zhou 等[12]针对图像的旋转问 题 提 出ARFs(Active Rotating Filters)和ORN(Oriented Response Network),在手写数字图像上取得了不错的分类结果。Luan 等[13]针对图像的旋转和尺度问题提出GoFs(Gabor Orientation Filters)和GCN(Gabor Convolutional Network),在手写数字图像和ImageNet数据集上的实验结果表明该方法的有效性。Woo等[14]基于注意力机制提出通道注意力模块和空间注意力模块,并将其嵌入到CNN 的不同层中,在ImageNet 数据集上验证了该方法的有效性。

这些方法在以上数据集中均取得了不错的分类效果,但没有用于遥感图像场景分类。随着大规模遥感图像场景数据集[15-16]的出现,许多学者将已有模型根据遥感图像场景数据集的特点进行相应的改进,以此得到更高的分类准确率。此外,深度学习方法在遥感图像场景分类领域也取得了不少进展。其中,许夙晖等[17]利用CNN 提取图像的多尺度特征,并使用多核支持向量机实现遥感图像场景分类。Wang 等[18]基于ORN 提出IORN(Improved ORN)模型,用于遥感图像场景分类,能够提取到具有一定旋转不变性的特征。Chen 等[19]受到空间变换网络[20]的启发,提出循环变换网络(Recurrent Transformer Network,RTN),能够基于潜在关系学习到区域特征表示,发掘平移不变区域,提取图像的关键信息,用于遥感图 像 场 景 分 类。Wang 等[21]提 出ArcNet(Attention recurrent convolutional Network)模型,利用长短期记忆(Long Short-Term Memory,LSTM)网络生成循环注意力图,并用注意力图与CNN 高层特征加权的方法对遥感图像场景数据集进行分类,在AID 数据集上的分类准确率相比salM3LBP-CLM 方法提高了3.34 个百分点。以上方法虽然在遥感图像场景分类取得了不俗的分类效果,但是,这些方法在提取特征时平等对待每个像素,模型的特征区分能力仍显不足。

本文在以前工作[22-23]的基础上,受Wang等[24]在图像匹配任务上所做工作的启发,提出了一种基于注意力机制和多尺度特征变换的尺度注意力网络模型,并将其应用于遥感图像场景分类。不同于RTN 中利用图像的空间域信息,对图像作相应的空间变换,提取关键信息的方法,本文在残差网络的卷积层后嵌入注意力图来加权CNN 特征图,增强主要特征,抑制次要特征,从而提取特征图中的关键信息。主要工作如下:1)提出了一种基于最优特征选择的注意力图生成方法,简单、快速而有效;2)嵌入注意力图加权图像低中高层特征的变换,缓解了遥感图像场景存在多个小对象和背景复杂的分类问题;3)基于ResNet50 网络结构和多尺度特征变换构建了尺度注意力网络。

1 基于尺度注意力网络的遥感图像场景分类

本文提出了一种基于注意力机制和多尺度特征变换的尺度注意力网络模型。首先研究了基于超像素扩展的注意力图生成方法,然后将不同尺度注意力图嵌入基于ResNet50 的残差网络依次进行学习,最后提取深度注意力特征进行分类。其中,注意力模型能够捕获场景中主要对象的显著性信息,而嵌入注意力图的残差网络有助于提取场景主要对象的特征信息。图1 说明了本文方法的原理,(a)为注意力图加权后的4个位置的卷积特征图,(b)是相应位置没有注意力加权的卷积特征图,所示图像均为特征图的第一个通道。从卷积层2_x输出特征图(图1 第1 列)和卷积层5_x输出特征图(图1 第4列)对比中可以看出,嵌入注意力图层层加权特征图的方法,能够突出对象信息,增加特征可区分性,因此所提方法具有更好的特征提取能力。基于以上分析,本文提出的方法总体框架如图2所示。

图1 特征加权前后对比Fig.1 Feature comparison before and after weighting

图2 总体框架Fig.2 Overall framework

1.1 注意力图生成

本文提出的注意力图生成过程如图3 所示,包括超像素分割、注意力特征提取及筛选、初始注意力图生成以及注意力图优化。超像素分割是将输入图像细分为多个子区域的过程,该方法使用SLIC(Simple Linear Iterative Clustering)算法[25]对图像进行超像素分割,能够保留对象结构信息并利用原始图像的中层信息,分割后的超像素可以表示为{si}(i=1,2,…,N)。在获得超像素后,从中提取包括颜色特征、纹理特征、方向特征和梯度特征在内的12 个低层特征,并计算这些特征的一维熵,选择一维熵值较大的9 个最优特征,表示为{Fm}(m= 1,2,…,9),一维熵计算公式:

其中PI表示特征中灰度值为I的像素比例。得到最优特征后,计算超像素的显著性分数,生成初始注意力图S0,显著性分数Sal(si)根据全局区域对比度和空间关系计算,即:

其中,c(si)由以下公式计算:

式(2)、(3)、(4)中:Fm(si)表示超像素si对应的第m个 特 征;c(si)为 超 像 素 的 坐 标(xi,yi)与 图 像 中 心 坐 标(x′,y′)之 间 的 距 离;vx、vy是 由 图 像 的 水 平 和 垂 直 信 息 决定的变量;[l a b]表示CIELAB 颜色空间像素的3 个颜色分量;(xi,yi)、(xj,yj)分别表示超像素si、sj的空间坐标;Z为相邻超像素的空间距离;β为常数,取值范围[1,40];dis(si,sj)表示超像素之间的颜色-空间加权距离。

图3 注意力图生成Fig.3 Attention map generation

由于初始注意力图还不足以有效地区分图像的对象和背景区域,需要对初始注意力图进行优化。本方法使用最大类间方差法,根据设定的阈值将S0分割为显著和非显著区域,即图像的前景种子(Foreground Seed,FS)和背景种子(Background Seed,BS),并重新计算超像素的显著性分数Sal′(si),计算公式为:

其中:SalFS(·)和SalBS(·)分别表示FS 和BS 的显著性分数,计算后得到新的注意力图Sc,c=1。接下来,重新使用最大类间方差法获取Sc的前景种子和背景种子,并通过式(5)计算下一次迭代后的注意力图Sc+1。在迭代计算过程中,本方法定义了以下损失函数L(c)来确定迭代是否达到终止条件,即:

其中Sc表示第c次迭代后的注意力图。

通过以上方法生成的注意力图在尺度变换后可以直接嵌入到CNN中,与不同层的特征进行加权(如图4所示);与通过嵌入CNN 的并行模块和通过空间变换突出图像主要信息的注意力机制相比,网络结构修改小,不需要额外的计算和训练,同时不增加网络模型的参数个数,具有快速和有效的特点。

图4 尺度注意力网络结构Fig.4 Scale-attention network structure

1.2 尺度注意力网络结构设计

本文提出的尺度注意力网络以ResNet50 为基础设计,增加了多尺度图像、注意力图和多尺度特征融合层,并重新设计了全连接层,如图4 所示,虚线框标出的为本文方法改进部分。首先,输入层将源图像进行多尺度变换,得到多个不同尺度图像,并对这些图像进行归一化处理。由于输入是k个尺度图像,因此可以看作k个并列的分支网络,每一个分支对应一个尺度图像,各分支共享参数,网络配置与ResNet50 在卷积层1 到卷积层5_x的结构相同。在每个分支网络的卷积层i_x(i=2,3,4,5)后的位置(如图4 所示)嵌入注意力图。对图像进行归一化处理能够在使用随机梯度下降法(Stochastic Gradient Descent,SGD)训练网络时防止梯度消失和梯度爆炸问题。由于各分支的结构相同,卷积核大小不变,不同尺度大小的输入图像经过卷积和池化操作后得到的特征图大小是不同的。为便于后续多尺度特征融合操作,本文在分支网络的最后一层使用全局平均池化,将输出特征图维度大小统一到1×1×2 048。然后,在全局平均池化层后设置特征融合层串联多个尺度图像输出的特征。由于原始ResNet50 仅有一个全连接层,没有使用Dropout 策略来降低节点间的相互依赖性,为了避免模型过拟合,本文在尺度注意力网络的最后设计了两个全连接层,增加了一个Dropout层。最后,使用SoftMax 分类器得到预测的场景类别标签。

本文选用ResNet50 作为网络基本结构的原因在于,ResNet50 比使用卷积层堆叠的CNN,网络层数更深,模型参数更少,特征提取能力更强,其网络配置如表1 所示。ResNet50 是由多个残差模块堆叠在一起构成,与普通卷积层不同的是,残差模块通过一条直连通道,将输入信息直接传到输出,缓解了CNN 在信息传递过程中存在信息丢失的问题,保护了信息的完整性,对存在多个小对象和背景复杂的场景图像,其特征提取能力更强。构成ResNet50 的每一个残差模块都是由卷积核大小分别为1×1、3×3、1×1的三个卷积层串联在一起组成,结构如图5 所示,图中Conv 表示卷积层,BN(Batch Normalization)表示批归一化,ReLu(Rectified Linear Unit)表示线性整流函数。

表1 ResNet50的网络配置Tab.1 Network configuration of ResNet50

尺度注意力网络能够通过在卷积层后嵌入注意力图,提取低中高级特征中的关键信息,使得网络提取的特征包含更多层次的对象信息,逐渐弱化背景复杂对网络性能带来的影响,从而提高模型的分类效果和泛化能力。

图5 残差模块结构Fig.5 Residual block structure

1.3 模型训练

与传统手工特征和特征编码方法相比,卷积神经网络的优势在于能够通过端到端训练学习到判别性的深度特征表示。本文使用随机梯度下降法(SGD)训练尺度注意力网络,训练过程可以分为前向传播和反向传播,每一次前向传播和反向传播为一次迭代过程,共同调整网络参数。前向传播的计算公式为:

其中:Xl为网络第l层的输出,wl为网络第l层的权重值,bl为网络第l层的偏置,f(·)为ReLU 激活函数。反向传播的计算公式为:

其中:α表示学习率,L表示损失函数,尺度注意力网络使用的损失函数计算公式为:

其中:LCE为交叉熵损失函数;C为样本的类别数;x为SoftMax层的输出向量,形如[1,C];label为样本对应的实际标签;x[label]为样本的实际标签对应的预测概率值;x[i]为样本属于第i类的预测概率值。通过前向传播预测输入图像的标签,并通过真实标签与预测标签计算当前模型的损失函数值,判断模型优劣。然后,利用反向传播算法更新网络参数的方法,迭代训练网络模型,缩小模型的预测值与真实标签之间的差距,最终使损失值保持在误差许可的范围,使得提取的特征能够更好地表征遥感图像场景数据,提高模型的识别准确率。

1.4 分类识别

利用前述图3、4 给出的算法处理流程,给定一个输入图像I,就可以获得对应的注意力图S,然后通过微调后的尺度注意力网络得到预测的场景类别标签。首先,对输入图像I进行多尺度变换,获得多个尺度图像Ik,并作归一化处理,即:

其中:μ、std分别表示输入图像的均值和标准差,Ik表示第k个尺度图像。然后,提取不同尺度图像的特征及融合,具体是嵌入注意力图与多个卷积层输出特征加权再作卷积,注意力图与特征图的加权可用以式(11)表示:

其中,Fki表示第k个尺度图像,第i_x卷积层后(图4)输出的特征图,i=2,3,4,5;S表示输入图像对应的注意力图;R(·)表示将图像调整到与Fki同样大小。接着,融合多尺度特征,并依次经过全连接层、Dropout 层、全连接层和SoftMax 层,得到预测的场景类别标签。

2 实验

本文方法在Linux系统下进行实验验证,实验环境是基于Linux 的Pytorch 机器学习框架,采用GPU 进行加速训练,其型号为NVIDIA Tesla V100。

2.1 数据集

本文使用遥感图像场景分类领域中的两个大规模数据集AID[14] 和 NWPU-RESISC (NorthWestern Polytechnical University-Remote Sensing Image Classification)[15]来训练和测试尺度注意力网络。两个数据集的相关参数以及训练比例(训练集占样本总数的比例)如表2 所示。实验中使用的第一个数据集是AID 数据集,包含30 个类别,总共有10 000 张图像。该场景数据集具有从大约8 m到0.5 m的不同分辨率,每个图像的大小被固定为600×600 像素大小,以覆盖各种不同分辨率的场景。第二个数据集是NWPU-RESISC 数据集,包含45 个类别。每类有700 幅图像,每个图像的大小被固定为256×256 像素大小,总共有31 500 张图像,且空间分辨率从每像素约30 m到0.2 m不等。

表2 场景数据集Tab.2 Scene datasets

2.2 实验过程

首先,将数据集输入到注意力模块中产生对应的注意力图;然后,将数据集按比例随机划分为训练集和测试集;接着,使用在ImageNet 图像上训练的ResNet50 预训练模型初始化尺度注意力网络参数,并利用训练集和注意力图微调网络;最后,利用微调后的尺度注意力网络对测试集进行分类预测,得到最终的分类结果。

在尺度选择上,由于尺度大的图像包含的信息更加丰富,细节部分更加清晰,能够提供更细微的特征信息,同时增加了模型的计算量;而尺度小的图像包含的信息不如大尺度图像,同时尺度变换会丢失部分信息,如何选择最优尺度组合成为一个值得研究的问题。本文以224×224 图像大小为基准,在选定的尺度0.7、1、1.4、2 中,即156×156、224×224、313×313、448×448 图像大小,选用不同组合进行交叉验证,最终选取1、1.4,0.7、1、1.4 以及1、1.4、2 这三组尺度组合进行实验。模型的批处理大小为16,完全训练60 次后停止训练,确保网络损失值基本平稳,保障得到的模型的可靠性。模型在以下设定下完成训练:1)使用SGD 优化器,并设置初始学习率为0.002,动量为0.9,权值衰减为0.000 5,训练30 次后将学习率设置为0.001,Dropout 层节点隐藏率为0.5;2)使用交叉熵损失函数。最终的实验结果为五次随机划分数据集进行实验得到的平均准确率。

3 实验结果分析

表3、4 给出了本方法在两种不同数据集上的平均分类准确率,包含本方法以及几种最新方法的结果。其中,CaffeNet结果源于本实验中的实现。为简化起见,表中及下文中的尺度1、2、3、4分别表示尺度0.7、1、1.4、2。

从实验结果可以看出,本文方法(尺度2+3+4)与传统手工特征提取方法salM3LBP-CLM 相比,在AID 数据集的不同训练比例下准确率分别提高了5.61、5.96 个百分点。与经典CNN 方法(ResNet50、CaffeNet、VGG-VD16、GoogleNet)中最好的准确率相比,在不同训练集和不同训练比例下分类准确率分别提高了0.47、0.96、0.90、1.01 个百分点。与现有的基于CNN 改进的ArcNet 方法相比,在AID 数据集的不同训练比例下的准确率提高了3.78、2.62 个百分点。与现有的基于CNN改进的IORN4-VGG16 方法相比,在NWPU-RESISC 数据集的两个不同训练比例下的准确率分别提高了1.09、0.95 个百分点。

以上对比结果说明在网络中嵌入不同尺度注意力图加权再融合的方法能够使得网络提取的特征包含更多的对象信息,逐渐弱化复杂背景对网络性能带来的影响。

另外,本文方法在使用尺度2+3 进行实验时的分类准确高于尺度1+2+3,而在使用尺度2+3+4进行实验时的分类准确率略高于尺度2+3,出现这种结果可能是由于遥感图像场景的高分辨率,使得对图像进行缩放时图像的细节部分被削弱,相对于普通图像丢失的信息更多,导致包含小尺度图像(尺度1)的尺度组合分类准确率有所下降。

表3 在AID场景数据集上的分类结果Tab.3 Classification results on scene dataset AID

表4 在NWPU-RESISC场景数据集上的分类结果Tab.4 Classification results on scene dataset NWPU-RESISC

4 结语

本文提出了一种基于注意力图和多尺度特征变换的尺度注意力网络模型。尺度注意力网络提出了一种简单高效的注意力图生成方法,获得了包含语义对象权重信息的注意力图。并嵌入注意力图与低中高层特征进行加权,有效地提取出特征的重要信息,进一步减小了图像中许多小对象和复杂背景问题对分类的影响。同时,尺度注意力网络以ResNet50 网络为基础构建,增加了多尺度图像、注意力图和多尺度特征融合层,并重新设计了全连接层,即保留了残差网络很强的特征提取能力以及上下文信息抽象能力,因此,学习到了更具判别性的特征表示。最后,本文分别在两个遥感图像场景数据集上进行实验,表现出了比其他方法更高的分类准确率,验证了本文方法的有效性。

猜你喜欢

尺度卷积像素
基于全卷积神经网络的猪背膘厚快速准确测定
像素前线之“幻影”2000
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
论社会进步的评价尺度
“像素”仙人掌
宇宙的尺度
高像素不是全部
9