基于模型微调的空中无人机小样本目标识别方法

2024-02-04黄灿

计算机测量与控制 2024年1期

黄灿

(中国人民解放军91550部队，辽宁大连 116023)

0 引言

近年来，随着无人机在军事、农业、勘探等多个领域的广泛运用，无人机的种类与功能呈现日益多样化的趋势。举例而言，无人机在军事战场上可完成诸如侦察使命，搜集敌军动态，实时传输情报等任务，从而协助军方制定决策策略。此外，无人机能够形成编队，协同合作，执行复杂的航空使命，如空中打击、干扰等。在农业领域，无人机可精准地进行农田施肥和农药喷洒，减少化学药剂的使用，提升作物产出，同时借助搭载的传感器对农田土壤进行分析，协助农户了解土壤状况，优化种植方案。至于勘探领域，无人机能够用于勘探矿产资源、油气藏等，采集地质信息，助力资源勘探开发。而在地理科考领域，无人机足迹可抵达难以抵达之地，监测环境污染、自然灾害等状况，提供关键的环境数据。除了前述领域，无人机在诸多其他领域也得到广泛应用，包括环境监测、物流派送、电力检查等。随着科技持续演进，无人机的应用范围定将延伸扩展。

无人机为人类生活带来便利的同时，也引发了各种隐私和公共安全问题[1]。随着无人机的普及，防止无人机被用于恶意活动、间谍行为、恐怖袭击以及非法入侵等问题变得至关重要。监测和识别无人机能够帮助预防危害公共安全和国家安全的事件发生。任由无人机自由活动可能侵犯个人和机构的隐私，而无人机的监测和识别技术可以帮助监控其飞行活动，防止隐私泄露等事件的发生。

与此同时，随着无人机数量的增加，空中交通管理会变得更加复杂，无人-有人飞行器共享同一片空域可能引发碰撞风险，有必要建立可靠的空中交通管理系统。特别地，为避免发生航空事故，机场周边区域通常设为无人机禁飞区；为防止军事入侵，通常采用对抗反制技术监测敌方无人机。因此，研发能够快速、准确识别无人机的空域监控系统尤为必要，对于确保公共安全、保护隐私、维护空中交通秩序以及促进技术创新都具有重要的现实意义。

传统的无人机监控方法依赖于雷达[2-4]、音频信号[5-6]或红外[7-10]技术进行感知，但这种方法仅能判定特定空域内是否存在无人机，无法辨识其具体型号。无人机型号辨识在分析无人机功能、评估潜在危害方面具有重要基础性质，因而传统方法的适用范围受限。然而，随着计算机视觉领域中目标检测与识别技术的蓬勃发展，涌现出Faster R-CNN[11]、SSD[12]、YOLO[13]等卓越性能的目标识别算法。这些目标识别算法作为计算机视觉领域的重要组成部分，旨在让计算机能够自动辨识和定位图像或视频中的特定物体。这些物体包括但不限于人、动物、车辆以及各类实体物体。目标识别算法的主要使命在于通过训练，使计算机能够理解与解释图像内容，并在新的未曾接触过的图像中精确寻找和识别这些目标。基于此，借助计算机视觉的无人机目标识别技术为空域监控系统的研发带来全新机遇与挑战[14]。该技术不仅能够检测视野中无人机的位置，还具备对目标进行分类的能力，如图1所示。

图1 无人机目标识别示意图

不同于传统方法，基于图像的无人机目标识别存在一些独特的挑战：1)无人机通常低空飞行，图像背景复杂；2)拍摄距离远，图像前景目标较小；3)缺少大规模无人机数据集，且由于机型的升级更新速度快，新机型的数据集规模明显小于常见机型。目前，已经有部分研究工作围绕前两项挑战做出了努力[14-18]，但仍无法克服新机型的小样本目标识别问题。在计算机视觉中，小样本问题是指在训练数据非常有限的情况下，如何有效地训练模型以实现准确的目标识别、分类或检测。充足的数据是获得一个合格模型的关键。在实际应用中，获取大量标注的无人机图像数据可能是困难的，这导致小样本问题的出现。

针对无人机数据集中新机型样本量少以及识别图像复杂性高的问题，本文提出了一种基于模型微调的空中无人机小样本目标识别方法。通过微调Faster R-CNN算法，迁移小样本数据集上的知识到预训练数据集中，以更好地适应实际场景，提高无人机监测的可行性。Faster R-CNN算法在目标检测领域表现出色，具有高准确性和鲁棒性。利用微调技术，可以通过在预训练模型上进一步优化，使算法在无人机检测任务上具备更高的识别精度和鲁棒性。方法包含预训练和微调两个阶段：首先采用具有大量样本的常见无人机数据集预训练Faster R-CNN模型；然后固定骨干网络权重，并将分类层替换为余弦相似度，利用具有少量样本的新机型数据集更新分类层。

1 空中无人机目标识别相关研究

无人机监测和目标识别的研究虽然具有显著的重要性，但也面临着一系列复杂而具有挑战性的问题。无人机在形态和外观上呈现出多样性，特别是在不同尺寸、形状和颜色的情况下，这种多样性使得使用单一的视觉特征难以实现准确的识别。无人机可能会以各种不同的角度和方向出现在监测设备的视野中，而这些视角的变化导致目标被部分遮挡或者产生形变，从而增加了识别的难度。并且，建筑物、树木、电线等障碍物可能会遮挡无人机，或者无人机可能出现在复杂的背景中，这些因素都会对目标的准确检测和识别产生影响。此外，无人机的监测任务可能涉及多个类别，包括不同型号和尺寸的无人机，甚至可能包括其他类似鸟类的物体。这种多类别的监测要求算法具备更高的复杂性和区分能力。上述分析表明，监测和识别无人机的任务是复杂而具有挑战性的，必须综合考虑算法的创新性、数据的可用性等多个方面的因素，才能够有效解决。

无人机目标检测与识别通常基于雷达、红外和计算机视觉方法实现。雷达是一种传统的主动探测方法，最早应用于军事领域[2-4]。然而，雷达对环境具有潜在的侵入性。基于音频的检测方法在城市环境中存在一定的局限性[5-6]。基于红外的检测方法受到分辨率的限制，设备并不能有效地检测到小型无人机[7-10]。传统探测方法在实际应用中具有不同的局限性，且都无法对无人机机型进行判别。基于计算机视觉的方法弥补了上述缺点，能够兼顾目标检测与分类[14-18]。针对空中无人机图像背景复杂、前景特征难以辨别的问题，Liu等人提出了一种基于高分辨率相机阵列的无人机目标识别方法，实现了空中无人机的细粒度分类[15]。刘孙相与等人针对空中目标小的问题，基于视频中目标二阶运动参量以及重力方向运动参量提出了一种无人机目标识别方法[18]。Dilshad等人[19]提出了一种新颖的无人机目标位置感知框架，通过使用轻量级卷积神经网络实时处理来自视觉传感器的数据来检测无人机的目标位置。假设无人机处于物联网环境中，首先应用物体检测技术来检测感兴趣的物体。随后，应用光学字符识别技术提取有用的上下文信息。最后，提取的信息被转发到地图应用编程接口，以确定无人机的目标位置。Zhou等人[13]针对无人机视角下的小物体开发了一种特殊的检测方法。在YOLOv3的基础上，首先通过连接两个具有相同宽度和高度的残差网络单元来优化子模块中的残差块。然后，通过增加早期层的卷积操作来丰富空间信息，从而改进整个无人机目标检测结构的感受野[20]。

然而，在实际无人机目标检测任务中，获取严格且充足的数据集通常具有一定的困难。特别是在某些特定场景下，获得大量标注的无人机数据可能会变得复杂。这种情况可能导致数据不足问题，从而影响模型的训练与性能。此外，对于新型无人机样本的获取也具有挑战，这些样本可能与常见机型存在较大的差异。上述方法在解决无人机小样本识别问题方面尚存在一定局限性。

2 空中无人机小样本目标识别方法

本文所提出的方法旨在解决空中无人机小样本目标识别的问题，其过程涵盖两个关键阶段，以实现有效的模型学习。这两个主要阶段为：

首先，第一阶段以丰富的常见机型数据集为基础，对Faster R-CNN模型进行训练。通过使用样本数量充足的数据集构建预训练模型，该模型有效地捕捉和学习目标的特征信息。这一阶段专注于提升常见机型目标识别的性能，为后续的小样本学习奠定坚实基础。

其次，第二阶段转向面对样本量较少的新机型数据集。在保持常见机型目标识别性能不受影响的前提下，进行微调网络。通过有针对性地调整模型参数，能够使其在小样本场景下实现对新机型目标的识别。这一阶段的目标是充分利用少量新机型数据，使模型在小样本情况下也能表现出良好的目标识别能力。

通过上述双重阶段的训练方法，能够有效地构建出适用于空中无人机目标识别的小样本模型。此方法不仅能够在常见机型上实现高效目标识别，同时也能够应对新机型的小样本挑战，为无人机目标识别任务提供了一种可行且有效的解决方案。

2.1 基于Faster R-CNN的模型预训练

Faster-RCNN是一种综合性的目标检测模型，其架构包括主干网络、区域候选网络(RPN，region proposal network)、兴趣区域池化(ROI Pooling，region of interest pooling)模块以及全连接层。整体模型框架如图2所示，在这个框架中，各个组件紧密协同工作，实现了高效的目标检测过程。

图2 Faster R-CNN模型示意图

2.1.1 主干网络

主干网络负责提取输入样本的抽象特征，通常包含多个卷积层和池化层，用于逐层地提取图像的低级到高级的特征。这些特征能够捕捉图像中的不同层次的信息，从边缘、纹理到更高级的语义特征。在原始的Faster R-CNN中，主干网络采用的是VGG16[21]。主干网络的输出会被送入RPN来生成候选区域，然后再传入后续的分类和回归网络来完成目标的定位和识别。

深层次的网络结构有助于增强模型的特征表达能力，考虑到深层网络中容易出现梯度消失和梯度爆炸的问题，本文采用ResNet-34[22]作为主干网络。该模型通过残差块之间的跳跃连接将浅层特征与深层特征融合，进而防止模型退化。主干网络由33个卷积层和1个最大池化层构成，输入维度为224×224×3，输出特征维度为7×7×512。

2.1.2 RPN网络

RPN是一种深度学习网络，用于生成图像中可能包含目标的候选区域，其网络结构如图3所示。它同样也是Faster R-CNN目标检测算法的核心组成部分之一，能够帮助算法在输入图像中识别出可能的目标位置，从而提高检测的效率和准确性。RPN的主要概念是基于锚框(Anchor Box)的思想。锚框是预定义的一系列固定尺寸和宽高比的矩形框，它们被放置在输入图像上的不同位置，用来覆盖各种可能的目标位置。RPN在锚框上应用卷积神经网络，通过对每个锚框进行分类和回归，来判断这些框中是否包含目标以及如何调整它们以更好地匹配实际目标位置。

图3 RPN结构示意图

RPN网络的输入可以是任意大小的特征图，其输出是不同的建议矩形区域，每个区域都有判断其是否为目标前景的评分。RPN采用滑动窗口的方式提取候选区域，并首次提出了Anchor机制。本文采用3×3的滑动窗口，每经过一个像素区域，就以当前像素点为中心生成Anchor。Anchor的尺寸分别为128×128，256×256和512×512，每种尺寸有1∶1、1∶2、2∶1三种长宽比，因此每个区域有9个Anchor。在训练过程中，RPN会对每个Anchor进行二分类，判断其包含目标前景的概率；此外，RPN还通过1×1的卷积生成Anchor的坐标偏移量。由于不是所有的Anchor都对网络训练有用，因此将前景与背景交并比大于0.7的Anchor视为正样本，其它为负样本。通过排序后，分别筛选出128个正样本和负样本用于训练。

(1)

(2)

(3)

公式(2)中边界框参数tx，ty，tω，th的计算方式如下：

tx=(x-xa)/ωa

(4)

ty=(y-ya)/ωa

(5)

tω=log(ω/ωa)

(6)

th=log(h/ha)

(7)

2.1.3 ROI Pooling

ROI(region of interest)是指图像中的一个特定区域，通常是包含了感兴趣目标或信息的部分。在计算机视觉中，ROI是指那些需要特别关注和处理的图像区域，可能是目标、物体、区域等。ROI可以通过不同的方式定义，如矩形框、多边形等。ROI的概念是为了在图像处理或计算机视觉任务中，聚焦于感兴趣的区域，从而减少处理的计算量、提高效率，并且能够更好地捕捉到相关的信息。

由于RPN模块输出的建议区域大小不一致，因此需要ROI Pooling模块将网络得到的建议区域大小统一。ROI Pooling在目标检测中的应用能够有效地处理不同尺寸的目标区域，保持重要的特征信息，并提高计算效率，从而在目标检测任务中发挥重要作用。其原理示意图如图4所示，该模块有两个输入：主干网络提取的特征图和RPN输出的建议区域。ROI Pooling根据Anchor将感兴趣区域映射到特征图的对应位置，然后将该区域根据预设尺寸进行划分，在本文中设定为5×5。对每个小区域内的像素进行最大池化操作，即可得到统一大小的感兴趣区域。

图4 ROI Pooling模块示意图

2.1.4 全连接层

全连接层的输入为ROI Pooling层的输出，主要用于分类和输出边界框。这里的分类和RPN中的分类不同，RPN中只是二分类，区分目标还是背景；此处的分类是识别所有正样本 Anchor中的物体具体属于哪一类。全连接层的网络结构如图5所示，包含两层维度为1 024的全连接层，采用ReLU作为激活函数。输出层中n为类别数量，该层分别输出目标类别和边界框位置。在FasterR-CNN中，全连接层的输出损失LFc与RPN层是一样的[11]。

图5 全连接层示意图

2.1.5 模型预训练

预训练使用的数据为具有大量样本的常见机型图像。传统的Faster R-CNN采用分阶段的训练策略，即先训练RPN模块，然后固定住RPN模块参数，用RPN生成的建议框训练ROI Pooling和全连接层部分。本文的预训练采用联合训练RPN模块和全连接层的方式，损失函数如公式(8)所示。其中，LRPN为RPN网络的损失，用于衡量预测锚框是否包含目标和背景的分类结果与真实标签之间的差异。LFc为Faster R-CNN中全连接层的输出损失。

L=LRPN+LFc

(8)

损失函数L的作用是通过计算预测结果与真实标签之间的误差，反馈到模型中，使模型能够不断调整权重和偏置，逐渐优化目标检测的性能。通过最小化损失函数，Faster R-CNN可以学习到更准确的目标定位和分类规则，从而提高目标检测算法的性能。

2.2 小样本目标识别模型微调

在小样本微调阶段，创建一个覆盖所有无人机类别(常见机型和新机型)的小规模无人机训练集，每类仅有K个样本。

Faster R-CNN模型用于目标分类的全连接层计算公式为：

f(x)=w·x+b

(9)

其中：x为上一层的输入，w为当前层权重，b为决策偏置。全连接层的点积具有无界性，容易出现极值，因此决策是有偏的。本文采用余弦相似度代替全连接层，如公式(10)所示。

(10)

余弦相似度计算了权重向量w与输入向量x的夹角θ，输出值介于[-1，1]之间，有效避免了权重分布出现极值的问题。

此外，在微调时固定住主干网络、RPN模块和全连接层的权重，随机初始化模型最后的分类层和边界框回归层，并只更新这两层的参数。微调过程的损失函数与公式(8)相同，学习率设定为预训练时的0.1倍。

3 实验结果与分析

3.1 数据集及实验环境

本研究选用了一个涵盖真实环境中采用图像传感器获取的数据以及从网络检索获得的无人机图像的数据集作为研究对象。经由专业团队对数据集中的无人机型号和目标位置进行精确标注，确保数据的准确性与可信度。整个数据集共包括来自14种不同机型的无人机图像，总计达22 913个样本。详细的数据分布情况如图6所示，显然可见，数据样本的分布呈现出一定的不均衡性。针对AJ-TMOP-300、FUNSNAP iDOL、EVO LITE、JOUAV CW-007、WALKERA FURIOUS 215等机型这些较新的无人机，由于其样本数量有限，导致难以获取足够的数据。鉴于此，本研究在方法设计中将这5个新机型设定为小样本类别，并将其用于微调空中无人机小样本目标识别模型。另外，其他九种机型则属于常见机型类别，由于拥有较大数量的样本数据，将用于预训练空中无人机目标识别模型。

图6 无人机目标检测数据集分布

模型的训练与测试是在Dell T7920工作站进行的，主要硬件配置为2块2080TI显卡，64 G内存。软件环境为Ubuntu 18.04，基于Pytorch深度学习框架进行程序设计。

3.2 无人机小样本目标识别模型效果分析

模型预训练的数据集按照训练集∶验证集∶测试集=60%∶15%∶25%进行划分。训练时对输入图像进行随机翻转、随机裁剪和色彩变换以增强数据集，采用随机梯度下降进行优化，动量设置为0.9，权重衰减为0.000 1，学习率为0.01，共迭代80次。图7(a)展示了预训练过程中损失曲线和分类准确率的变化。从图中可以发现，大概在60次迭代后模型达到稳态。小样本微调阶段首先划分一个小规模的平衡数据集，该数据集中每种机型仅包含K个样本用于训练，其它用于测试。所采用优化器与预训练相同，学习率设置为0.001，迭代40次。图7(b)为K=10时训练集上的损失和准确率变化。30次迭代后，模型即可收敛。

图7 预训练和微调过程中的损失和准确率曲线

本文分别采用平均准确率(AP，average precision)和平均精度均值(mAP，mean average precision)评估模型性能。AP反映了每类空中目标检测的平均精度，mAP表示所有类别空中目标识别AP的平均值，后者是算法对空中目标识别的整体效果。表1展示了预训练和小样本微调后的实验结果。预训练后，模型对于9种常见机型的mAP为93.6%。本文测试了3种小样本情况，即新机型的训练集每类仅有5个、10个和50个样本。从表1的结果可知，本文提出的基于模型微调的小样本目标识别方法可以通过几个标记样本即可学习到该类别的识别与分类，且随着样本数量的增加，识别精度进一步升高。这是因为在第一阶段的预训练中，特征提取器经过大量样本的学习，已经学到了无人机目标图像的泛化特征表示，即使在微调时出现新的机型，这些新机型的特征已经被模型所掌握，因此只需要重新调整特征的组合权重即可从少量样本中泛化新类。由图8的目标识别效果可知，模型可以准确的输出图像中的无人机目标位置。此外，从表1中可以发现，在小样本微调后，模型依然对常见机型有较好的识别效果，3种微调后模型对常见机型的目标识别mAP分别为91.8%、92.1%和92.9%，相比于小样本微调前，对常见机型的识别能力并没有过多的损失。

表1 预训练和小样本微调后无人机目标识别精度 %

图8 空中无人机目标识别效果

3.3 小样本微调的消融实验

为了验证提出方法的有效性，进行了一系列消融实验，对微调过程的主要步骤进行了深入研究，实验结果详见表2。本实验所采用的小样本数据集包含了来自5种新机型的无人机图像，每个类别的训练集仅包含50个样本。在实验中，对不同训练方式进行了比较。直接训练意味着使用小样本数据集直接训练Faster R-CNN。预训练+微调表示先使用9种常见机型训练Faster R-CNN，再使用5种新机型的小样本平衡数据集微调模型，但分类层依然采用全连接层。表2中的本文方法与表1中的微调方式不同，这里仅使用5种新机型的数据更新模型，因此模型不具有对其它9种常见机型的目标识别能力。观察实验结果发现，直接训练会导致模型过度拟合，无法在测试集上达到良好的泛化性能。与直接微调预训练模型的全连接层相比，采用余弦相似度代替全连接层并进行微调的效果更佳。这是因为余弦相似度的应用有助于消除决策偏差，减小类内距离，同时扩大类间差异，从而提升了目标识别效果。这些实验结果有力地验证了本文所提方法在小样本目标识别问题上的有效性与优越性。

表2 K=50时小样本微调的消融实验结果 %

3.4 小样本目标识别对比实验

为进一步评估本文提出的无人机小样本目标识别方法的有效性，本文与Kang等人[23]提出的FSRW模型和Wang等人[24]提出的MetaDet模型进行了对比。这两种方法是基于元学习的方法，在小样本目标识别任务中性能显著。在训练时，仍然使用9种常见机型训练FSRW和MetaDet，并使用5种具有少量样本的新机型用于小样本测试。小样本测试时的标记样本数量为K=50。表3记录了每种方法的mAP，从表中数据可知，本文方法的小样本目标识别效果好于其它方法。与其它方法相比，本文基于微调的方法更容易实现，且通过联合常见机型数据集的训练，模型能够在学习小样本新机型目标识别的同时，不干扰常见机型的识别。由于算法因素，FSRW和MetaDet模型经过训练后只能对小样本新机型进行目标识别，而无法识别常见机型。

表3 小样本目标识别方法对比 %

4 结束语

本文针对空中无人机目标识别任务中用于训练模型的新机型样本少的问题，提出了一种基于模型微调的小样本目标识别方法。方法以Faster R-CNN为基础架构，首先采用具有充足训练数据的常见机型数据集对模型进行预训练，然后使用常见机型和新机型联合构建的小样本平衡数据集微调Faster R-CNN最后的全连接层。实验结果表明，本文方法在K=5，K=10和K=50的小样本情况下对所有机型的mAP分别为88.6%，89.2%和90.8%。

尽管本文实现了对空中无人机的小样本目标识别，但识别精度还不够理想。这与主干网络的特征提取能力有关，如何提高主干网络的表征能力将会是下一步研究工作的重点。