APP下载

面向遥感图像场景分类的双知识蒸馏模型

2023-11-18李大湘南艺璇刘

电子与信息学报 2023年10期
关键词:分类特征模块

李大湘 南艺璇刘 颖

(西安邮电大学通信与信息工程学院 西安 710121)

1 引言

随着卫星与遥感技术的飞速发展,获取高分辨率遥感图像(Remote Sensing Image,RSI)变得越来越容易,且在农业灾害检测[1]与交通出行[2]等方面得到广泛应用。由于RSI数量的增多,如何利用计算机对RSI进行自动分类,以提高人们基于RSI对地球表面的观测效率具有重要意义。

根据拍摄场景所包含的主要目标存在的差异性,已有RSI分类方法可分为两类:(1)基于手工特征的方法。例如:姜亚楠等人[3]提出一种基于多尺度LBP特征融合的RSI分类方法,一定程度上缓解了类似方法因忽略RSI本征属性及多尺度局部结构而导致获取的信息量少的问题;Chaib等人[4]则在手工特征的基础上,对其再实施稀疏自动编码,这样做可以有效去除冗余信息,且增加了特征的旋转不变、尺度不变及稀疏性,从而提高了RSI场景分类精度但由于RSI均由飞行器从高空多角度鸟瞰随机拍摄,目标对象尺度变化大且无中心分布,这就导致了RSI存在“类内差异大且类间差异小”的问题,则基于手工特征的方法在分类精度方面受限。(2)基于卷积神经网络(Convolutional Neural Network,CNN)的方法。例如:李彦甫等人[5]将自注意力机制融入残差卷积网络,用CNN提取深度语义特征,然后在最后3层嵌入多头自注意力模块来提取RSI复杂的全局信息,以此来提高RSI分类性能;Xu等人[6]提出了一个由图卷积神经网络驱动的深度特征聚合框架,用于RSI场景分类;Chen等人[7]提出了一种基于多分支局部注意网络的RSI场景分类方法,有助于在复杂背景下突出主要目标,提高特征表示能力。实验结果表明,基于大数据驱动的CNN方法一定程度上提高了RSI场景分类精度,但也存在对RSI局部目标感知不足、模型参数量过大的问题。

针对上述问题,如图1所示,本文设计了一个基于双知识蒸馏(Double Know ledge Distillation,DKD)的RSI场景分类新模型。首先,将改进的通道注意力(Channel A ttention,CA)和空间注意力(Spatial A ttention,SA)相结合,构造成一个新的双注意力(Dual A ttention,DA)模块,且设计了一个DA蒸馏函数,以将教师网络中的“注意力知识”迁移到学生网络之中,增强其对RSI局部目标的感知能力;然后,在学生训练过程中,将每批图像的特征建模成一个空间结构关系图(Spatial Structure Graph,SSG),且设计了一个基于距离、边与角度等信息的蒸馏函数,构造成一个空间结构(Spatial Structure,SS)蒸馏模块,以将教师网络中“SS知识”迁移到学生网络之中,增强其对RSI的高层语义提取与表达能力。

图1 设计的DKD模型框架结构示意图

2 所提DKD模型

由图1可见,设计的DKD模型主要由3大部分组成,即复杂的教师网络、轻型的学生网络与蒸馏函数,旨在通过设计的知识蒸馏函数将教师网络中的DA与SS知识迁移到学生网络,使其在参数量很小的条件下,性能接近教师网络[8]。

2.1 教师网络的设计及训练

2.1.1教师网络设计

本节设计了一个新的DA模块,且将其加入到ResNet101[9]的Conv1残差模块之后作为教师网络。如图2所示,设计的DA模块主要由CA及SA两个分支组成,不防设F∈RH×W×C表示任意输入的特征图谱,其中W,H和C分别表示特征图谱的宽度、高度与通道数,DA过程可总结为

图2 双注意力(DA)模块架构示意图

图3 教师网络训练3元孪生框架示意图

其中,⊙表示广播元素乘法,F¯∈RH×W×C表示经过DA模块加权之后得到的特征图,MS ∈RH×W×1表示经SA分支获得的2维空间注意映射,M C ∈R1×1×C表示经CA分支获得的1维通道注意映射。

(1)SA分支。为了让教师网络在特征提取时更能聚焦于RSI的局部区域,且对不同形态的目标进行自适应性,在CBAM方法[10]启发下,引入1×1卷积与可变形卷积理论[11],构造一个新的SA分支(如图2上半部分所示)。设F∈RW×H×C表示输入的特征图谱,其中W,H和C分别表示其宽度、高度与通道数。首先,将F送入1×1卷积层进行处理,其结果再送入3×3可变形卷积层,最后经过Sigm oid操作,得到空间注意力映射M s∈RW×H。具体计算过程为

2.2 学生网络及双知识蒸馏

2.2.1学生网络设计

在知识蒸馏模型中,当一个复杂且高精度的教师网络训练成功之后,就要设计一个与教师网络结构相仿的轻型学生网络,以利于从教师网络接受底层特征提取与高层语义表示能力。本节设计的轻型学生网络包含5个卷积模块、1个平均池化及1个SoftM ax分类层。为了使学生网络更能关注到RSI的局部目标,且能从教师网络中接受相应的DA知识,在其第1个卷积后也添加了一个与教师网络相同的DA模块,详细信息如表1所示。

表1 学生网络具体参数设计

2.2.2双知识蒸馏设计

(1)DA知识蒸馏

为了将教师网络中的DA知识迁移到学生网络,从而提高其前端卷积层对RSI的底层特征捕获能力。设B={(IMGi,y i)|i=1,2,···,BS}表示任意一批训练图像,IMGi与yi分别表示第i幅图像及其标签,BS表示批大小。当B中的图像送入教师网络与学生网络之后,基于归一化均方差函数,定义的DA蒸馏损失为

(2)SS知识蒸馏

设B={(IMGi,y i)|i=1,2,···,BS}表示任意一批训练图像,当这些图像经教师网络与学生网络处理之后,最后一个FC层的输出被视作高层语义特征,分别表示为T b={t i|i=1,2,...,BS}与 Sb={s i|i=1,2,...,BS},其中ti与si表示第i幅图像I MGi分别从教师网络与学生网络得到的高层语义特征。为了将教师网络中的高层语义表示能力迁移到学生网络之中,如图4所示,是本节设计的SS知识蒸馏示意图,旨在利用教师网络中实例间的相互关系来传递结构知识[14]。传统的知识蒸馏只蒸馏单个图像语义特征所带来的知识,而本节设计的SS蒸馏方法,是在传统方法的基础上增加了SS关系中的二元距离和3元角度的知识传递,其设计动机是:构成知识的东西,通过所学的表征关系比通过所学表征个体更好地表现出来。

图4 SS知识蒸馏

首先,以教师网络获得的语义特征Tb={t i|i=1,2,...,BS}为例(ti表示教师网络的特征图谱),构造

2.3 混合损失及算法步骤

为了将教师网络中的DA知识与SS知识迁移到学生网络之中,在DA蒸馏损失LDA(B)与SS蒸馏损失LSS(B)的基础上,且结合标准的交叉熵分类损失LCE(B),本节定义混合型损失LHTL来训练学生网络,其公式为

其中,y i与y˜i分别表示第i幅图像的真实标签向量与预测标签向量。在设计的DKD模型中,利用HTL函数来训练学生网络,可使其从教师网络中获得多种类型的知识,以提高学生网络的分类准确性。最后,为了更好地理解教师网络与学生网络之间的知识蒸馏,学生网络训练及测试步骤总结如算法1所示。。

3 实验结果与分析

3.1 数据集

实验数据集采用RSI场景分类领域中的两个经典大规模数据集AID[15]和NUWPU-45[16],其基本信息是:(1)AID是一个大型航测遥感场景分类数据集,它包含30个场景类别,每类样本有220至420张,数量不等,共有10 000个样本。AID中的样本来自不同的遥感传感器,具有8~0.5m的不同空间分辨率,每张图像的大小为600×600;(2)NUW PU-45是西北工业大学创建的航空图像场景分类公开数据集,该数据集共有场景类45个,每类有700张图像,每张图像的大小为256×256,总样本31500张,且具有30~0.2 m的不同空间分辨率,该数据集的挑战在于不同的空间分辨率、类内强多样性及类间相似性。在实验之前,首先对训练图像进行了标准化预处理,即将RSI的像素值归一化至0-1的范围,然后采用数据扩充技术来增加数据集的多样性,以防止训练过程中的过拟合和偏差[17]。

3.2 实验方法与评价指标

在实验过程中,将RSI的大小统一调整为224×224,且采用以下策略对数据集进行划分:随机选取A ID的20%和50%图像用于构造训练集,其余图像用于测试。同样,随机选取NW PU-45图像的10%和20%用于构造训练集,其余用于测试。模型训练过程中,Epoches与批大小BS分别设置为1 000与32,选择Adam优化器,并将初始学习率lr设为0.001,且采用余弦衰减策略进行更新。

本文采用RSI分类任务中两种常用的指标[16]用于定量评价实验结果,即:(1)总体精度(Overall Accuracy,OA):定义为正确分类的样本数量与所有样本数量的比值;(2)混淆矩阵(Con fusion M atrix,CM):是一个2维表,用于分析类间分类误差和混淆程度,可视化算法的性能。

3.3 消融实验

为了验证知识蒸馏在RSI场景分类中的有效性,本节评估了学生网络从教师网络中蒸馏不同知识的情况下的分类性能,基于数据集A ID及NWPU-45的消融实验结果如表2所示,且与其他模型的复杂度对比如表3所示。“基线”表示学生网络在训练时只使用标签作为监督信息,即LHTL(B)中只保留LCE(B),学生网络的训练不使用任何蒸馏知识;“+DA”或“+SS”分别表示只将教师网络的DA或SS知识作为蒸馏信息来指导学生网络的训练;“+DKD”表示同时使用教师网络中的DA与SS知识蒸馏来指导学生网络训练;“教师”表示用“图3所示3元孪生框架”训练的教师网络。

表2 不同训练比例下消融实验的OA值(%)

表3 教师与学生网络性能比较(以A ID数据集(50%)为例)

从表2所示消融实验结果可以发现,在A ID与NW PU-45两个RSI数据集上,较之无任何知识蒸馏的原始学生网络,采用DA蒸馏训练的学生网络的OA平均提高了5.56%(20%),4.93%(50%)和5.41%(10%),5.17(20%);采用SS蒸馏训练的学生网络的OA平均提高了6.40%(20%),5.20%(50%)和6.64%(10%),5.64(20%);经过DKD训练的学生网络OA平均提高了7.69%(20%),7.61%(50%)和7.61%(10%),7.39(20%)。显然,本文设计的两个知识蒸馏模块是有效的,能提高RSI场景分类精度,主要原因是:DA模块将SA与CA相结合,且设计了一个DA蒸馏函数,能将教师网络的DA知识有效地传递给学生网络,以提升其提取RSI局部信息的能力;SS蒸馏模块在学生网络训练过程中,将每批训练图像的语义特征建模成一个SSG,且设计了融合距离损失、边损失与角度损失的SS蒸馏函数,以将教师网络中SS知识迁移到学生网络之中,增强其对RSI的高层语义提取与表达能力。同时也可看出,两个知识蒸馏模块同时使用,比用任意一个蒸馏模块提升更高,这证实了两个蒸馏模块可以相互补充。由表3的数据也可以看出,经DKD的学生网络分类精度接近教师网络,但教师网络的复杂性(参数量、模型大小与训练耗时)远高于学生网络;同时,也可发现学生网络在精度较高的前提下,其参数量也低于当前其他经典方法。

3.4 综合对比实验

为了进一步验证所提DKD模型的有效性,基于AID和NWPU-45数据集,与近几年的ARCNet-VGG[19],MobileNet[20]与V iT-B-16[21]等基准方法进行综合对比,实验结果如表4所示。

表4 基于AID与NWPU-45数据集的综合对比实验结果(%)

从表4所示的数据可知,基于A ID数据集所提DKD模型在20%和50%的训练比例下,都展现出了最高的OA,分别为95.21%和97.04%;同时,从表4所示数据也可知,基于NWPU-45数据集,所提DKD模型在两种训练比例下OA分别达到了93.88%和95.87%,相比其他效果最好的V iT-B-16[21]方法,OA分别提高了2.92%与2.51%,且较之经典的轻量级模型MobileNet[20],OA分别提高了13.56%与12.61%。由此,在以上两个数据集下的表现可以看出,所提DKD模型在RSI场景分类任务中是有效的。

为了进一步观察所提DKD模型在RSI场景分类中的具体表现,如图5与图6所示,在训练比例20%的情况下,绘制了A ID和NW PU-45数据集测试时的混淆矩阵。

图5 AID数据集训练比例为20%时的混淆矩阵

图6 NWPU-45数据集训练比例为20%时的混淆矩阵

图5展示了A ID数据集在20%训练比例下的混淆矩阵,可以看出,30个场景类别中只有5个的分类精度低于90%。例如:“School”的分类准确率只有84%,是30类中最低的,其中有6%的图像被错分为“Industrial”,主要原因是这2个类别均具有相同或相似的纹理特征(例如圆弧),在局部特征上存在较高的相似性。图6展示了在NWPU-45数据集的混淆矩阵,当训练比例为20%时,在45个类别中只有3类的分类准确率小于90%,其中“Palace”的精确度最低,只达到76%,这是由于该类图像的主要目标是宫殿建筑物,而其他很多类别的图像中也包含有房屋建筑,特别是“Church”类别,它们具有极相似的建筑风格与布局,使得其分类变得困难,导致分类准确率最低。

3.5 模型可视化

对于使用了注意力机制的RSI场景分类算法,为了分析CNN网络在RSI中关注的是什么局部区域,热图是一种非常有效的方法。如图7所示(图像是来自NW PU-45验证集),本节使用G rad-CAM[28]将经过训练的4种不同网络进行了可视化,即利用梯度来计算最后一个卷积层中每个神经元的重要性,以获得感兴趣的决策,可视化结果显示图像中的哪个区域是模型做出分类决策的重要特征,热图中显示越红的区域表示这些地方更具辨别力,是模型在对该图像进行分类时最感兴趣的区域。从图7所示热图可见,经DKD之后学生网络在具有复杂背景的RSI中,较之其他3种方法,其注意力聚焦的感兴趣区域更精准且更完整。

图7 使用Grad-CAM进行可视化对比

4 结论

面向RSI场景分类问题,本文设计了一种新的DKD模型。首先,将改进的CA与SA相结合构造成DA模块,且设计了一个DA蒸馏函数,以将教师网络的DA知识传递到学生网络,提高后者对RSI目标局部信息的提取能力;其次,将每批训练图像的特征建模成一个SSG,且构造了一个SS蒸馏模块,以将教师网络中的SS知识传递给学生网络,从而增强后者对RSI的高层语义提取与表达能力。此外,在两个大型公开RSI数据集上的对比实验结果表明,学生模型在参数数量明显减少的情况下,其精度可接近复杂的教师网络,也优于其他方法,更利于部署在遥感应用平台上。

猜你喜欢

分类特征模块
28通道收发处理模块设计
“选修3—3”模块的复习备考
分类算一算
如何表达“特征”
不忠诚的四个特征
分类讨论求坐标
数据分析中的分类讨论
教你一招:数的分类
抓住特征巧观察
线性代数的应用特征