APP下载

基于弱监督学习的多标签红外图像分类算法

2022-10-28苗传开娄树理蔡慧敏

光学精密工程 2022年20期
关键词:类别红外注意力

苗传开,娄树理*,李 婷,蔡慧敏

(1.烟台大学 物理与电子信息学院,山东 烟台 264005;2.天津津航技术物理研究所,天津 300308)

1 引言

红外成像由于能够全天候被动工作,且具有隐蔽性好、识别伪装能力强、定位精度高等优点,广泛应用于光电侦察与制导领域。红外图像分类与目标识别作为红外探测与制导的关键技术,一直是国内外研究的热点。但红外图像中背景复杂多样、目标在视场中相对较小,且存在遮挡以及云雾等干扰,因此如何提取特征实现有效分类,进而实现目标准确识别,是目前研究的难点。当前红外图像分类方法中,由于目标图像的多样性及复杂性,常规图像分类反馈信息有限,无法满足多目标、多背景的图像分类任务要求。多标签图像分类技术对空间信息网络中的图像进行内容解析以获取感兴趣的信息,通过反馈多标签的形式更好地实现场景与目标的感知分类。

目前,国内外研究者在图像分类领域进行了大量工作,多标签图像分类也取得了不错的进展。在多标签场景图像分类的研究中,传统经典算法常用的分类器包括支持向量机(Support Vector Machine,SVM)、决策树(Decision Tree,DT)、随机森林等[1],传统分类器在场景分类等任务中表现较好,具有模型结构简单、计算量小等优点,但随着光电侦察与制导领域各类任务复杂程度的增加,对红外图像分类算法的要求越来越高,传统经典算法的性能与适应性难以满足当前重要任务的要求。

随着深度学习等智能算法的发展,近几年图像分类算法得到进一步发展,主要分为两类,一是基于强监督的方法,该方法需要对图像进行目标级标注或像素级标注,强监督的标签获取耗费大量的人力,而且繁重的标记任务容易产生错误,从而影响最终分类效果;另一类是基于弱监督学习的分类方法,弱监督学习能够在大幅度降低标注工作量的情况下,充分、有效地利用数据。由于场景分类分级任务的特殊性,场景类别的标签难以进行强监督中的目标级或像素级标注,而使用弱监督学习,能够更加符合场景分类分级的任务要求,只需要对图片进行图像级标注即可实现多标签图像的分类分级任务。基于弱监督的多标签图像分类算法的实现思路一般有两种,一种是将多标签分类转换为多个单标签分类器的叠加问题,林春焕提出基于多路结构的端到端卷积神经网[2],将多标签分类转换为多路单标签分类计算,在一定程度上解决了多标签之间的类别竞争问题,但该算法没有考虑多标签之间复杂的拓扑关系,忽略了标签之间的相关性,精度及适应性都难以达到要求;另一种是将原有的图像分类算法优化,完成对多标签分类的适应。Sermanet等使用卷积神经网络(Convolutional Neural Networks,CNN)与SVM相结合解决多标签分类的问题[3]。2016年,Wei等提出基于CNN网络的Hyotheses-CNN-pooling(HCP)[4],该网络精度较高,对多标签分类精度具有较大提升,但网络结构过于复杂,算法速度较慢。Wang将CNN与循环神经网络(Recurrent Neural Networks,RNN)相结合,通过表征标签之间的相关性及映射关系来解决多标签分类问题[5],使用预测标签路径方法来解决多标签分类问题。Chen提出SSGRL(Semantic-specific Graph Representation Learning)多标签图像分类器[6],该框架将注意力机制与图神经网络(Graph Neural Network,GNN)相结合,使用图神经网络推理建模标签之间的相关性,网络性能较好,但结构较为复杂。最 新 算 法 引 入Transformer算 法[7-9],设 计CNNtransformer结构,通过多头注意力机制的Transformer算法计算回归多标签的相关性,进一步提高分类精度与性能,但网络结构过于复杂,计算量庞大,且训练困难。

目前多标签图像分类技术主要应用于遥感图像以及医学图像等领域,但在红外前下视图像的分类分级任务中,多标签图像分类是一个较新的方向,具有研究前景与应用价值。本文针对红外图像场景,提出了一种基于弱监督的多标签图像分类技术,针对无人机实拍不同场景、不同视角的红外图像数据集,通过使用主干网络Resnet-50对图像进行特征提取,引入空间注意力机制算法与先进的损失函数,显著提高了多标签学习算法的精度和泛化性,实现了多目标、多场景的红外图像场景感知和分类分级。

2 多标签分类算法模型

在多标签分类中,需要预测未知目标对应的正确标签子集,但随着场景及目标种类的增多,预测过程中候选标签子集数量以及样本预测输出空间也会呈指数增长。因此,当前的多标签分类任务中存在两大难点,一是处理庞大的预测输出空间与标签之间的关系,计算多标签之间的复杂拓扑关系;二是随着数据规模增大,多标签分类任务不可避免的出现正负样本失衡的问题,这种正负样本数量失衡可能在训练过程占据主导地位,进而导致在训练过程中来自正标签的梯度强调不足,导致精度下降。

多标签图像分类可以理解为在常规图像分类基础上进行拓展而得到更加复杂的分类问题,一个实例可以有多个标签描述,或者被分为多个类别。在多标签分类中,将输入对象表示为x,一个对象的标注由多个类别标签组成,数据集标签包含目标类别(如建筑物、农田、舰船等)与场景类别(如城市、郊区、海洋等)。用y=[y1,…,yk]表示对象x所包含的类别,yk∈{0,1},yk=1表示对象x中包含类别k。多标签分类算法将预测每一个标签存在的概率,即p=[p1,…,pk]。多标签分类示意图如图1。

图1 多标签分类示意图Fig.1 Schematic of multi-label classification

2.1 主干网络的设计

在图像分类任务中,对于主干提取网络,通常直接使用最后一层特征层进行分类处理,在进行卷积网络提取特征时,红外目标的重要灰度等信息在浅层卷积神经网络分布比重较高,因此在训练过程中极为重要的是突出浅层卷积神经网络的信息。ResNet网络设计的残差结构能够较好地解决红外图像特征不充分的问题,在训练中使模型达到较好的学习效果。本文使用ResNet-50[10]作为算法的主干网络进行特征提取。原始Resnet-50网络直接应用于分类任务时,一般通过最后的全连接层进行类别回归,生成最终效果,但将网络直接应用于多标签分类任务时,全连接层不仅造成计算冗余,而且不能很好地对多标签进行回归分类。

在网络分类回归部分,本文使用空间残差注意力机制(Class-specific Residual Attention,CSRA)算法[11],为每个类别生成一个特定的特征,提出一个简单的空间注意力,然后将特征图的平均池化结果相结合,充分利用空间注意力捕捉不同类别所占据的不同空间区域,以此实现多标签之间拓扑关系的推理计算。其次,由于多标签分类中,正负标签数量极不平衡[12-13],这种正负不平衡的现象在优化过程中占主导地位,常规的图像分类损失函数如交叉熵损失函数、Focal Loss等无法胜任多标签损失函数的分类任务。为了解决多标签正负样本失衡问题,本文引入适用于多标签分类的损失函数Asymmetric Loss(ASL)[14],控制负样本对损失的贡献,帮助网络从积极样本中学习到更有意义的特征。本文提出的多标签图像分类主干网络(Multi-label Infrared Image Classification,ML_IRI)如图2所示。

图2 多标签图像分类主干网络Fig.2 Backbone network for multi-label image classification

设输入图像为红外图像x∈Rd×h×w,其中d、h、w为图像的维度、高度与宽度,通过主干网络Resnet-50进行特征提取生成特征图:

其中,θ为特征提取网络的参数,在本文中,输入图片大小为224×224,最后主干网络生成特征层 向量为x1,x2,…,x49(xi∈R2048)。

2.2 CSRA注意力机制

在多标签分类任务中,空间注意力机制可以更好地提取图像中的有效区域[15-16],降低红外图像中背景对目标的干扰,进行有效的场景感知,空间信息可以帮助网络模型获取更优的目标所在空间位置。为了更好地适应多背景、多目标的红外图像,本文引入了类特定空间残差注意力机制(CSRA)算法,为每个类别生成特定的特征,通过提出一个简单的空间注意力算法,然后与特征图的平均池化结果相结合,充分利用空间注意力捕捉对象的不同类别所占据的不同空间区域。

将CSRA应用于主干网络提取特征层x1,x2,…,x49(xi∈R2048)之 后,进 一 步 处 理 特 征层,用全连接层将[H,W]展平为HW,然后设mi∈R2048为第i类的分类器,定义si j表 示 第i类 出现在j空间位置上的概率[11]:

然后,我们将每个类别所对应的特征向量定义为特征张量的加权组合,其中第i类的空间注意力得分si为权重,即:

CSRA算法将全局平均池化作为主要特征向量g,并将ai作为特定类别的残差特征,如图3所示,将两个特征向量相加,得到CSRA的注意力特征fi[11]:最后将所有的CSRA特征向量送入分类器回归出最终的预测值y。

图3 CSRA模型Fig.3 CSRA model

其中,C代表多标签分类类别数量。

CSRA能够让模型关注不同物体类别在不同位置的分类得分,因此相比于传统的分类网络,CSRA更加适用于多标签分类的任务。

2.3 ASL损失函数

多标签分类中,正负样本不平衡的问题可能导致在训练过程中对来自正面标签的梯度强调不足,从而导致准确率低下。常用的场景分类损失函数已不足以解决多标签分类中正负样本数量失衡问题,在此引入ASL损失函数。

ASL损失函数针对Focal Loss[17]中的γ进行了修改,使γ->γ+,来解耦正负样本损失函数的下降速率,从而在稀缺正样本中学习到有效特征。

ASL损失函数引入超参数m调整负样本的损失函数曲线,能够动态地降低简单阴性样本的重要性,使优化过程更多地关注阳性样本,式(7)变为:

其中,pm=max(p-m,0),m为网络可调节的超参数。

在训练过程中,网络的权重根据损失的权重进行更新,为了更好地理解ASL的作用,对负样本进行损失梯度分析。对L-进行导数分析,得到:

由式(10)可知,ASL忽略过于简单的负样本权重,专注于更困难的样本,即p<m,pm=1;对于负样本,ASL倾向于平滑的降低其权重,对于过于困难的负样本,ASL会自动降低其权重来减少困难负样本对网络的影响。

ASL损失函数通过不同的γ+与γ-分别控制正负样本对损失函数的贡献,以限制负样本对损失函数的贡献,能有效解决正负样本失衡问题,在多标签图像处理问题上具有显著效果。

3 分析与讨论

3.1 试验设计

为了测试本文算法的实际应用性能,本文选用无人机实采多种背景、多种目标的红外前视图像以及前下视图像,训练集5 570张,测试集582张。根据实际应用情况,对数据集进行弱监督图像级别的多标签标注,对整幅图像进行关键词描述,以达到图像标注的目的,在大幅度降低标注工作量的前提下,更充分地利用数据进行训练。如图4所示,数据集包括城市、郊区、海天等多种背景以及建筑群、工业设施、机场、舰船等多种目标,数据集标签数量为13种,箭头表示标签之间存在包含关系,多标签之间具有复杂的拓扑关系,标准图片大小为640×512。本文选用的数据集包含红外图像常见的多种背景与目标,可以满足目前分类任务的要求。

图4 数据集多标签之间的拓扑关系Fig.4 Topological relationships between dataset multiple labels

本文算法基于多标签图像分类算法进行红外图像的分类分级处理,试验平台为Windows 10操作系统,其中深度学习框架为Pytorch1.8,硬件条件为英特尔Core i9-10900X@3.50 GHz,内存为64 GB,GPU为 一张NVIDIA GeForce RTX 2080Ti,显存为12 GB。训练使用Adam为学习率优化器,初始学习率为0.000 1,使用lr_scheduler算法在训练过程中动态调节学习率,训练基本参数如表1所示。

表1 试验部分参数Tab.1 Partial parameters of the experiment

为了更好地验证多标签分类算法的分类性能与应用性,本文在使用深度学习中通用的Precision、Recall和F1作为评 价指标的同时,将正检率(Correct Detection)、误检率(False Detection)以及漏检率(Missed Detection)作为评价应用性的重要指标,其具体计算公式如下:

其中:P为算法Precision值,R为算法Recall值,C为标签数量,Nci为第i类预测正确的正样本数;Npi为第i类预测的正样本数,Ngi为第i类的正样本数,F1为精确率与召回率的调和平均数。

为了更好地反映模型的应用性能,以图像的正检率(PC)、误检率(PF)与漏检率(PM)作为应用性能的重要评价指标,本文正检率、误检率以及漏检率计算如下:

3.2 结果分析

本文红外图像数据集待测图片共582张,涵盖数据集中所包含的13种应用场景,在基于多标签图像分类算法下,本文将数据集应用于多种经典常用网络,使用正检率、误检率、Recall值等评价标准,综合评价算法分类性能,其算法结果数据见表2。

表2 不同算法结果Tab.2 Results of different algorithm

由上述表格数据可知,本文优化后的算法性能相比于原始算法ResNet-50有较大幅度的提升,针对红外图像的多标签分类适应性更强,与当前优秀的主干网络相比,本文算法虽然漏检率高于Multi_path与ResNeXt101算法,但从多维数据综合分析,本文算法在正检率以及减少错误率上都具有较大优势。在与优秀主干网络对比的同时,本文对多标签分类算法的多支路思想Multi_path算法[4]以及多标签分类算法最新成果的C_train算法[7]进行复现测试,相比于当前提出的多标签分类算法,本文算法针对红外图像数据集具有更强的适应性以及准确性,正检率高于91%,F1值高于96%,从正确检测率以及标签精度综合评价,本文算法具有明显的优势,这也为多场景多目标的红外图像分类处理提供了思路与参考。

表3所示数据为本文消融试验的试验结果,试验数据显示本文优化后各个模块对算法的影响程度。从表3消融试验数据分析可知,CSRA注意力机制的引入充分利用了物体类别的空间注意力,大大降低了误检率与漏检率,提升了算法性能。ASL损失函数能够较好地控制负样本对损失函数的贡献,帮助网络训练到更有意义的特征,应用于原始Resnet-50以及与CSRA算法联合作用时,都具有积极意义。从试验结果来看,空间注意力机制与新的损失函数能够对多标签分类有较好的优化性能,在红外场景中具有较好的适应性与准确性。

表3 消融试验结果Tab.3 Results of ablation experiment

图5为部分测试集测试结果展示,详细标签为a1:机场;a2:低矮建筑、工业区域;a3:城市、建筑物群;a4:城市、建筑物群;a5:郊区、建筑物群、农田;a6:郊区、农田;a7:郊区、水域;a8:海平面、天空、舰船;a9:海平面、天空、舰船。

图5 典型测试结果展示Fig.5 Typical test results display

4 结论

针对红外图像分类分级的特殊任务,本文引入多标签分类算法进行多场景、多目标的分类分级技术研究,针对现有多标签分类算法适应性不足问题,本文引入类特定空间残差注意力机制(CSRA)算法,通过添加空间注意力机制,充分利用空间注意力捕捉对象不同类别所占据的不同空间区域,提高多标签分类算法的性能与适应性;针对正负样本失衡问题,本文引入全新的损失函数ASL,动态降低负样本对损失的贡献,帮助网络从正样本中学习到更有意义的特征,进一步增强了网络的适应性与泛化性。试验结果表明,本文优化后的多标签红外图像分类算法,具有较好的检测效果,正检率在90%以上。本文算法对实采红外图像具有较好的泛化性与准确性,具有较强的实际应用价值,也为红外图像分类分级领域处理提供了新的思路与参考。

猜你喜欢

类别红外注意力
网红外卖
让注意力“飞”回来
论陶瓷刻划花艺术类别与特征
闪亮的中国红外『芯』
一起去图书馆吧
如何培养一年级学生的注意力
8路红外遥控电路
TS系列红外传感器在嵌入式控制系统中的应用
A Beautiful Way Of Looking At Things
选相纸 打照片