面向小样本的遥感影像目标识别技术
2021-05-27张萌月陈金勇王港王敏帅通孙康
张萌月 陈金勇 王港 王敏 帅通 孙康
摘 要:为了解决深度学习方法网络模型在小样本遥感图像目标识别场景下过拟合、性能急剧下降等问题,设计了基于度量学习的小样本目标识别方法RS-DN4。在度量模块中选择前k个具有代表性的特征进行目标相似度的计算;引入元学习中阶段式训练理念,执行上万次任务级迭代训练;基于互联网开源遥感影像数据集和自有遥感影像数据集,构建了一套包含21类不同遥感目标切片数据的多尺度、多分辨率的遥感影像数据集RSD-FSC,并据此进行RS-DN4方法的实验验证。结果表明:针对新类小样本目标,当训练样本分别只有1,5和10个时,平均识别准确率可分别达到59.13%,82.55%和87.80%,相对于其他方法,RS-DN4在遥感图像小样本目标识别中具有识别准确率高、泛化能力强等优势。RS-DN4方法实现难度适中,在小样本遥感目标检测识别领域的工程应用场景中具有推广应用价值。
关键词:模式识别;小样本;遥感目标识别;度量学习;阶段式训练
中图分类号:TP75 文献标识码:A
DOI: 10.7535/hbgykj.2021yx02008
Target recognition of few-shot remote sensing image
ZHANG Mengyue1,2, CHEN Jinyong1,2, WANG Gang1,2, WANG Min1,2, SHUAI Tong1, SUN Kang1
(1.The 54th Research Institution of CETC, Shijiazhuang, Hebei 050081, China; 2.CETC Key Laboratory of Aerospace Information Applications, Shijiazhuang, Hebei 050081, China)
Abstract:In order to solve the problems of overfitting and drastic performance degradation of network models with deep learning methods in few-shot remote sensing image target recognition scenarios, the few-shot target recognition method RS-DN4 was designed based on metric learning. The top k representative features in the metric module were selected to calculate the similarity of the targets, and the concept of meta-learning method for episodic training was introduced to conduct thousands of task-level iterative training. In addition, based on the internet open source remote sensing image dataset and own remote sensing image dataset, a multi-scale and multi-resolution remote sensing image dataset RSD-FSC, which contained sliced data of 21 different classes of remote sensing targets, was constructed. On this basis, the RS-DN4 method was verified by experiments. The results show that: for the new few-shot targets, the average recognition accuracy can reach 59.13%, 82.55% and 87.80% respectively when there are only one, five and ten training samples. Compared with other methods, RS-DN4 has the advantages of high recognition accuracy and strong generalization ability in few-shot target recognition of remote sensing images. The RS-DN4 method is moderately difficult to implement and has the value to be promoted in engineering application scenarios in the field of few-shot remote sensing target detection and recognition.
Keywords:pattern recognition; few-shot; remote sensing target recognition; metric learning; episodic training
遙感技术的发展使得获取高质量遥感影像越来越便捷,通过智能解译手段获取其包含地物信息进行遥感影像目标识别,具有广阔的应用空间。基于深度学习的相关思想,研究人员提出了Faster R-CNN,YOLO,R-FCN和SSD等目标检测识别模型,通过海量标注样本的训练,其检测识别效果可以达到甚至超过人工操作的水平。但是,在某些特定的遥感目标识别应用场景中,可获得的标注样本数量十分有限,很难为上述方法提供丰富的训练样本,导致其在模型训练过程中发生过拟合现象,目标识别性能大幅下降。
为了缓解“海量训练样本的需求”和“有限标注样本的现实情况”之间的矛盾,研究人员在自然图像目标识别领域开展了小样本学习(FSL,few-shot learning)研究,即针对某个任务,通过十分有限的训练数据进行模型训练,在测试数据集上获得较高的检测识别性能,其解决方法大致可分为样本增广和模型优化训练两大类。
样本增广方法是通过数据生成手段生成新的样本来丰富样本数量,如生成对抗网络(GANs, generative adversarial networks)可以通过生成网络和判断网络的对抗训练,生成高度逼真的新样本[1-2];RATNER等[3]基于水平翻转、旋转、缩放、添加高斯噪声等几何变化,自定义一个几何变化的序列模型,实现对已有样本的随机几何变化,完成样本数量上的扩增并保证图像中目标不发生严重畸变;ALFASSY等[4]提出的LaSO(label-set operations networks)利用卷积神经网络提取几幅图像的特征,通过对特征进行组合,如取交集、并集、差集等,获得图像中隐含目标的特征,生成新的样本。
模型优化训练方法可分为度量学习、迁移学习和元学习3类,如基于度量学习的原型网络(prototype network),在训练样本的特征空间里,计算每类目标的平均特征表示作为该类目标的特征原型,在新样本的识别中,通过计算新样本的特征向量和原型之间的距离,完成对新样本中目标的分类[5];陈立福等[6]基于迁移学习提出一种监督式预训练的卷积神经网络,首先把数据集进行划分为含有大规模数据的源域数据集和含有小规模数据的目标域数据集,在源域数据集中利用大规模数据预训练一个卷积网络,将其作为初始化模型迁移到目标域中,利用小规模数据进行优化调整,提高了网络的目标识别精度以及收敛速度;JAMAL等[7]提出了TAML(task-agnostic meta-learning)方法,该方法在元学习的框架下,结合基于熵的优化策略以及基于最小化不均衡性的优化策略,有效缓解了元学习器在不同任务上性能不均衡的问题。
上述小样本目标识别方法在自然图像目标识别领域取得了较好的效果,但在遥感目标识别领域,由于成像方式的不同,遥感影像具有成像场景大、目标出现频率低、尺度效应明显、观测角度差异大等特点,使得遥感影像小样本目标识别面临如下挑战。
1)针对某些特定遥感目标和特定场景,可获得的样本极其稀缺,即使通过样本增广方法仍然无法缓解小样本难题。
2)在遥感目标识别领域,某些类型目标样本稀缺,且目标特征类间差异小、类内差异大,给分类识别带来更大的困难。
3)在某些样本数量极其稀缺的场景,采用迁移学习方法时,由于过拟合问题,无法使源模型适应到新类小样本目标识别应用中。
针对上述问题,本文构建了用于小样本目标识别的遥感影像目标切片数据集RSD-FSC(remote sensing dataset of few-shot classification),提出了小样本遥感目标识别算法模型RS-DN4(remote sensing deep nearest neighbor neural network),使用元学习中阶段式训练的方法对模型进行训练,实现小样本场景下遥感目标识别,取得了较好效果。
1 小样本遥感目标识别
基于DN4(deep nearest neighbor neural network)小样本目标识别网络,结合元学习中阶段式训练方法,形成面向遥感应用的小样本目标识别方法RS-DN4。
1.1 骨干网络
DN4模型延续了度量学习的思想,即在某个特征映射空间中,同类目标距离近,不同类目标距离远,以目标之间的距离作为相似度,判断目标的类别属性[8]。网络基本结构如图1所示,主要由特征提取器和特征度量模块2部分组成,分别实现样本中目标特征的提取和目标之间相似度的度量。
图1中特征提取器为没有全连接层的卷积神经网络,用于提取图像的局部特征向量。设输入的样本为X,特征提取器参数为θ的Ψθ,样本经过特征提取器后输出特征图Ψθ(X),包含n个d维的局部特征向量
xi,其中n=h×w,h和w分别为特征向量图的长和宽:
Ψθ(X)=[x1,x2,…,xi,…,xn]∈Rd×n。(1)
图1中度量模块以度量学习为基础,针对小样本问题中类内差异增大的问题,利用测试样本和训练样本集之間的相似度,代替其个体之间的相似度,作为测试样本的识别依据。
首先对训练样本提取特征,构成每类目标的特征向量集:
{[x1,x2,…,xi,…,xn]1,[x1,x2,…,xi,…,xn]2,[x1,x2,…,xi,…,xn]3,…}。(2)
然后针对局部特征xi,从每类目标的特征向量集中寻找相似的前k个局部特征向量{x^1i,x^2i,…,x^ki},计算xi和每个x^i之间的相似度,求和得到每个局部特征分量下测试样本和训练样本集之间的相似度Di:
cos(xi,x^i)=xTix^i‖xi‖·‖x^i‖,Di(q,cm)=∑kj=1cos(xi,x^i)。(3)
对每个局部特征都做式(2)中的计算,得到n个这样的距离,求和作为测试样本的特征和每类目标特征向量集之间的距离D:
D(q,cm)=∑ni=1Di(q,cm)。(4)
式中cm代表第m类目标的训练样本集。通过最小化同类目标之间的距离,最大化不同类目标之间的距离,使模型实现目标类型的识别。
1.2 阶段式训练
阶段式训练方法原理如图2所示,将数据集划分为基类目标样本集(辅助训练集)和新类目标样本集。通过在基类目标样本集上随机采样模拟小样本目标识别任务,不断重复学习如何解决小样本目标识别任务,提高模型的模式学习能力,使模型在新类别小样本集上能够完成训练学习任务,获得对新类别目标的识别能力。
2 实验验证
2.1 数据制备
小样本学习常用的数据集有miniImageNet,Standford Cars等,这些数据集的特点是目标单一,背景简单,有利于分类器学习目标特征[9-10],而且均为自然图像,与遥感影像差异较大,基于此,本文构建了遥感影像典型目标切片样本库,开展研究工作。
基于遥感影像数据集DOTA[11],NWPU VHR-10[12-14],RSD-GOD[15]和自有数据集重新组织样本类别。
根据标注文件提取目标切片,人工清洗标注错误的样本,形成一套用于目标识别的遥感影像目标切片样本集RSD-FSC(remote sensing dataset for few-shot classification),该数据集包含21类目标,分别为航空母舰、钻井平台、油罐、火车、岛屿、舰船、港口、停车场、大货车、游泳池、桥梁、网球场、飞机、小汽车、直升机、交通环岛、篮球场、田径场、棒球场、足球场和机场,共13 944个目标切片,其中航空母舰、钻井平台、停车场、直升机等目标,由于其客观存在的数量较少,属于典型的小样本目标类型。
针对不同尺度的目标获取不同分辨率范围的遥感影像切片,如港口、机场等大尺度目标切片分辨率为10 m和20 m,飞机、直升机、油罐等小尺度目标切片分辨率为0.6 m和0.3 m,停车场目标切片分辨率为0.3~10 m,岛屿切片分辨率为1.2~2.0 m,钻井平台切片分辨率为0.3~2.4 m,桥梁切片的分辨率为1.2 ~10 m。针对同一种目标,包含了从几像素到几百像素的不同尺度的切片样本。样本切片示意图如图3所示,数量分布如表1所示。RSD-FSC数据集的多尺度、多分辨率特性可增强模型的鲁棒性和尺度适应性,同时具备类间差异小、类内差异大等遥感影像目标特性,具备更高的小样本目标识别难度。
2.2 实验设计
1)RS-DN4实验设置
采用DN4模型为骨干网络,为缓解小样本下深度网络过拟合问题,使用网络深度为50层的ResNet_v2_50[16]做特征提取器,采用阶段式训练方法进行小样本遥感目标识别实验。具体仿真实验环境:Linux系统,Python3.7.2,torch0.4.1深度学习开源库。
基于RSD-FSC数据集分别进行5-way 1-shot,5-way 5-shot和5-way 10-shot小样本遥感目标识别实验。在阶段式训练阶段,基类目标类别数量越多,采样形成的小样本目标识别任务越具有多样性,训练得到的模型泛化能力越强,因此本文随机选取5类目标作为新类目标,分别是钻井平台、直升机、桥梁、停车场和舰船,其余16类目标均作为基类目标。
以5-way 1-shot实验为例,在阶段式训练阶段,首先从16类基类目标样本集中随机抽取5类目标,每类目标随机抽取1个训练样本,10个测试样本,构成1个5-way 1-shot小样本目标识别任务,采样形成30 000次这样的任务,进行模型的迭代训练,并按照式(5)更新模型参数θ。
在测试阶段,从每类新类目标中随机抽取1个训练样本,10个测试样本,模型学习训练样本后,对测试样本进行识别,并统计测试样本识别结果,计算平均目标识别准确率pprecision,即正确识别的目标个数与所有目标个数之比,nTP代表正确识别的目标个数,nFP代表错误识别的目标个数:
pprecision=nTPnTP+nFP。(5)
2)对比实验设置
采用2种小样本目标识别方法进行对比实验,分别是原型网络[5]和匹配网络[9],在2种对比方法的特征提取部分同样使用ResNet_v2_50。分别对原型网络和匹配网络进行5-way 1-shot,5-way 5-shot和5-way 10-shot小样本遥感目标识别实验,数据集划分方法、模型训练方式以及迭代次数与RS-DN4实验设置一致。对比实验用于检验RS-DN4中相似度度量方法的有效性,以及相比于其他小样本目标识别算法具有的优越性。
针对阶段式训练方法的有效性,使用原始的训练方法对骨干网络进行训练,即分别使用1,5和10个训练样本对模型进行训练,迭代次数为30 000次。
2.3 实验结果
对RS-DN4在5-way 5-shot小样本遥感目标识别实验训练过程中的Loss值进行记录,如图4所示,可以看到當迭代次数达到15 000时,Loss值开始趋于收敛,在0.5上下振荡,当迭代次数达到30 000时,Loss值更加稳定,此时模型可以稳定地达到较优的目标识别效果。
本方法在新类目标只有1,5和10个训练样本时,平均识别准确率分别为59.13%,82.55%和87.80%,相较于原型网络,平均识别准确率分别提高了7.51%,15.23%,16.62%,相较于匹配网络,平均识别准确率分别提高了10.79%,21.20%和18.71%,均取得较高优势。典型遥感目标识别平均准确率如表2所示。经分析认为本文方法具有绝对优势的原因如下。
1)在原型网络的度量模块中,对各类目标训练样本的特征向量求平均值作为特征原型,计算测试样本和特征原型之间的相似度。但求平均的方法只能得到平均化的特征,而具有差异性的代表特征被丢失了[17]。因此,本方法在度量模块计算相似度时,选择前k个具有代表性的特征作为相似度计算的参考量,保留了具有差异性的代表特征。
2)在目标识别应用中,特征提取器对图像提取特征后,通常会使用全连接层等网络结构把局部特征量化成图像级的特征向量。然而,由于量化过程中存在计算误差,会使最终的图像级特征向量丢失掉许多重要的局部信息,当样本数量充足时,这一损失可能会被弥补,但是在小样本场景下,这个损失使目标识别性能严重下降[8]。因此,本文方法中的特征提取器没有全连接层结构,提取图像的局部特征用于相似度计算时特征表示能力更强。
骨干网络平均识别准确率如表3所示,当不使用阶段式训练方法训练模型,而使用传统方法训练模型时,本文方法中的骨干网络在训练样本分别只有1,5和10个时,平均识别准确率分别为26.70%,20.00%和5.00%,与使用阶段式训练方法训练的模型相比,目标识别准确率大幅下降。经分析认为,阶段式训练方法可以有效缓解小样本带来的过拟合问题,且通过在辅助训练集上的阶段式训练之后,骨干网络在新类小样本目标识别问题上具有泛化能力。
此外,对识别结果分析发现,钻井平台和油罐、火车和桥梁、直升机和飞机等较为相似的目标在原型网络和匹配网络的目标识别过程中容易发生混淆。如图5中的钻井平台形状和维修中的舰船纹理相似,对比方法会将这种形态的钻井平台误识别为舰船,而本文方法通过度量学习和阶段式学习,有效地约束了目标类内、类间距离,提高了小样本目标识别准确率。
3 结 论
针对遥感影像目标识别中,某些目标类别样本少、难以支持大数据训练的难题,提出了以DN4模型为基础的小样本遥感目标识别方法RS-DN4;构建了用于小样本目标识别的遥感影像目标切片样本库RSD-FSC;设计了基于度量学习的小样本遥感目标识别网络模型,用于提取各类目标的代表性特征并区分各类目标;采用元学习中阶段式训练的方法,使模型具有泛化能力,在面对新类小样本遥感目标时,可以通过少量支撑样本实现目标识别。实验结果表明,本文方法在小样本场景下,当训练样本分别只有1,5和10个时,平均识别准确率可分别达到59.13%,82.55%和87.80%,相对于其他典型方法,具有较好的小样本遥感目标识别能力。
本文实验只选择了5类目标作为新类目标,未能完全体现实验的随机性,且在实际应用中目标的检测识别具有更广泛的应用意义,因此在未来的研究中将针对此问题多次随机抽选新类目标进行实验,并开展小样本遥感目标检测识别技术的研究。
参考文献/References:
[1] GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems.[S.l.]:[s.n.], 2014: 2672-2680.
[2] MAO Xudong, LI Qing, XIE Haoran, et al. Least squares generative adversarial networks[C]//2017 IEEE International Conference on Computer Vision(ICCV). Venice: IEEE, 2017: 2794-2802.
[3] RATNER A J, EHRENBERG H R, HUSSAIN Z, et al. Learning to compose domain-specific transformations for data augmentation[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. [S.l.]:[s.n.], 2017: 3239-3249.
[4] ALFASSY A, KARLINSKY L, AIDES A, et al. Laso: Label-set operations networks for multi-label few-shot learning[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). Long Beach: IEEE,2019.DOI:10.1109/CVPR.2019.00671.
[5] SNELL J, SWERSKY K, ZEMEL R. Prototypical networks for few-shot learning[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. [S.l.]:[s.n.], 2017: 4080-4090.
[6] 陳立福, 武鸿, 崔先亮, 等. 基于迁移学习的卷积神经网络 SAR 图像目标识别[J]. 中国空间科学技术, 2018, 38(6): 45-51.
CHEN Lifu, WU Hong, CUI Xianliang, et al. Convolution neural network SAR image target recognition based on transfer learning[J]. Chinese Space Science and Technology, 2018, 38(6): 45-51.
[7] JAMAL M A, QI G J. Task agnostic meta-learning for few-shot learning[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). Long Beach: IEEE, 2019. DOI:10.1109/CVPR.2019.01199.
[8] LI Wenbin, WANG Lei, XU Jinglin, et al. Revisiting local descriptor based image-to-class measure for few-shot learning[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). Long Beach: IEEE, 2019. DOI:10.1109/CVPR.2019.00743.
[9] VINYALS O, BLUNDELL C, LILLICRAP T, et al. Matching networks for one shot learning[C]// Proceedings of the 30th International Conference on Neural Information Processing Systems. [S.l.]:[s.n.], 2016: 3637-3645.
[10]KRAUSE J, STARK M, DENG J, et al. 3D object representations for fine-grained categorization[C]//Proceedings of the 2013 IEEE International Conference on Computer Vision Workshops. [S.l.]:[s.n.], 2013: 554-561.
[11] XIA Guisong, BAI Xiang, DING Jian, et al. DOTA: A large-scale dataset for object detection in aerial images[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 3974-3983.
[12] CHENG Gong, HAN Junwei, ZHOU Peicheng, et al. Multi-class geospatial object detection and geographic image classification based on collection of part detectors[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2014, 98: 119-132.
[13] CHENG Gong, HAN Junwei. A survey on object detection in optical remote sensing images[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2016, 117: 11-28.
[14] CHENG Gong, ZHOU Peicheng, HAN Junwei. Learning rotation-invariant convolutional neural networks for object detection in VHR optical remote sensing images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2016, 54(12): 7405-7415.
[15]ZHUANG Shuo, WANG Ping, JIANG Boran, et al. A single shot framework with multi-scale feature fusion for geospatial object detection[J]. Remote Sensing, 2019, 11(5).DOI: 10.3390/rs.11050594.
[16]HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Identity mappings in deep residual networks[C]//European Conference on Computer Vision. [S.l.]:[s.n.], 2016: 630-645.
[17] WANG Yaqing, YAO Quanming, KWOK J T, et al. Generalizing from a few examples: A survey on few-shot learning[J]. ACM Computing Surveys, 2020, 53(3): 1-34.
收稿日期:2020-11-26;修回日期:2021-02-07;責任编辑:陈书欣
基金项目:中国电子科技集团公司航天信息应用技术重点实验室开放基金(SXX19629X060)
第一作者简介:张萌月(1996—),女,河北邯郸人,硕士研究生,主要从事遥感图像处理方面的研究。
通讯作者:陈金勇研究员。 E-mail: 13001899119@163.com
张萌月,陈金勇,王港,等. 面向小样本的遥感影像目标识别技术[J].河北工业科技,2021,38(2):116-122.
ZHANG Mengyue, CHEN Jinyong, WANG Gang, et al. Target recognition of few-shot remote sensing image[J]. Hebei Journal of Industrial Science and Technology, 2021,38(2):116-122.