基于空间注意力和可变形卷积的无人机田间障碍物检测
2023-03-07杜小强李卓林马锃宏杨振华王大帅
杜小强 李卓林 马锃宏 杨振华 王大帅
(1.浙江理工大学机械工程学院,杭州 310018;2.浙江省种植装备技术重点实验室,杭州 310018;3.龙泉市菇源自动化设备有限公司,龙泉 323700;4.中国科学院深圳先进技术研究院,深圳 518055;5.广东省机器人与智能系统重点实验室,深圳 518055)
0 引言
随着机器人技术和人工智能的快速发展,植保无人机逐渐成为我国农业航空产业的重要组成部分[1]。但是我国农田非结构化特点突出,随机离散化分布的障碍物(树木、电线杆、建筑、人、电线塔等)对无人机飞行安全构成严重威胁[2]。准确识别障碍物是无人机进行避障和路径规划的前提,对保证无人机作业效率和飞行安全至关重要。
传统的无人机障碍物检测方法是利用距离探测传感器,如激光雷达[3]、微波传感器[4]、超声波传感器[5]等,感知障碍物的存在。但是,这类方法会受到传感器性能和环境的限制,只能获取有限的距离和轮廓[2]。虽然现今已有研究证明能够通过激光传感器或深度相机等获得的点云直接识别障碍物类别[6],但是由于点云数据的稀疏性,感知障碍物的类别精度较低[7]。为了在RGB空间对障碍物进行描述,部分研究人员还研究了基于机器学习算法和单目相机的目标感知方法,但此类方法依赖于人工选取图像特征,计算耗时较长,难以满足无人机高动态、高实时性作业的要求。
近年来,随着人工智能的迅速发展,基于卷积神经网络的深度学习算法在计算机视觉领域展现出强大的性能。随着精准农业的发展,人工智能在其他领域的发展成果开始迁移到农业领域[8-14]。但是深层神经网络计算量大,模型运行速度慢;又由于我国农田环境复杂,非结构化特点突出,随机离散化分布的障碍物会导致障碍物检测困难,直接将Mask R-CNN应用于非结构化农田环境下的障碍物检测,会导致模型的精度下降。
MNIH等[15]最早提出注意力机制。将注意力机制与神经网络结合,将有利于从空间域、通道域深度挖掘图像信息的特征,进而提高神经网络模型的检测精度和速度。黄林生等[16]将多尺度卷积结构和注意力机制结合,提出一种农作物病害识别模型。熊俊涛等[17]在Deeplab V3网络的基础上引入稠密特征传递方法和注意力模块,实现在复杂野外环境中为智能疏花提供视觉支持,并且该模型具有较强的鲁棒性和识别率。注意力机制的引入,增强了有用特征的权重,减弱了无用特征的影响,进一步提高了特征提取能力,提高了模型的鲁棒性。
标准卷积的常规采样难以适应目标的形状变化[18],为此,DAI等[19]提出可变形卷积,替代传统的标准卷积,通过对卷积核中每个采样点位置增加可学习的偏移量,从而增加空间采样位置,可变形卷积核的大小和位置可以根据图像内容发生自适应的变化,从而提高目标检测的精度。SUN等[20]通过将RGB图像与近红外图像融合,并引入可变形卷积对R-FCN模型进行改进,解决自然环境中的复杂背景和夜间光线不足造成甜菜幼苗和杂草识别困难的问题。可变形卷积的引入提高了网络对图形几何变形的适应能力,进而提高模型的特征提取能力。
我国非结构化农田环境中随机离散分布的障碍物对植保无人机的飞行安全和作业效率有直接影响。传统图像识别方法依赖人工提取特征,计算耗时较长,难以适应非结构化田间复杂环境下的实时作业要求。深度学习算法虽然在图像分类、目标检测和图像分割等领域应用广泛,但在农田障碍物检测中的应用尚有不足。
本文基于空间注意力机制和可变形卷积对Mask R-CNN模型进行优化,解决现有的深度学习模型对田间障碍物的检测精度低、鲁棒性较差等问题。
1 数据集构建
在文献[21]的研究基础上,通过无人机航拍、手持相机拍摄和网络搜索等方法,采集多环境、多场景、多视角下的田间典型障碍物图像信息,对文中数据集进行补充,包括树木、电线杆、建筑、电线塔、无人机、人共6类障碍物,一共6 000幅图像。同时,为了减少计算量,降低模型训练时间,将原图像调整为416像素×416像素。随后,用Labelme图像标注工具标注出障碍物图像轮廓,共标注目标11 578个,制作成COCO格式的数据集。在数据集中随机选取4 800幅图像作为训练集,600幅图像作为验证集,600幅图像作为测试集,比例为8∶1∶1。图1为6类障碍物图像。
图1 田间障碍物图像示例
2 田间障碍物实例分割模型
Mask R-CNN是一种先进的实例分割算法,具有目标检测和实例分割两大功能,能够精确地检测目标并准确地分割目标,在性能上超过了Faster R-CNN,是一种综合性能优异的实例分割算法。Mask R-CNN是一个两阶段的框架,第1阶段是通过主干网络(残差神经网络(ResNet)和特征金字塔网络(Feature pyramid network, FPN))提取图像特征,并通过区域生成网络生成感兴趣区域;第2阶段用于分类提议区域并生成边界框和掩膜。
针对非结构化农田障碍物的特点,对现有的Mask R-CNN实例分割网络进行改进,构建一种适用于田间障碍物图像检测和分割的网络。本文主要对主干网络做出以下改进:在ResNet网络的阶段2、阶段3、阶段5加入空间注意力机制和可变形卷积。
2.1 基础网络选取
在计算机图像视觉里,卷积神经网络的网络层数越深,能获取到的信息就越多,特征也就越丰富。但是随着网络层数的不断加深,就会出现梯度消失或梯度爆炸的问题[22],导致优化效果更差,测试数据和训练数据的准确率降低。针对这个问题,对输入层和中间层进行归一化操作,这可以使得具有数十层的网络能够开始用反向传播进行随机梯度下降(SGD),从而让网络达到收敛。然而当更深层次网络开始收敛时,出现网络退化问题,增加层数却导致更大的误差。为解决这个问题,HE等[23]提出了残差网络。残差网络的核心在于ResNet残差块结构。
ResNet残差块使用Shortcut connection(捷径连接)的连接方式进行Identity mapping(恒等映射),将输入x与经过堆叠的权重层得到的F(x)进行跨层连接,既不增加额外参数,也不会增加计算复杂性。当x和F维度相同时有
y=F(x,{Wi})+x
(1)
其中
F=W2σ(W1x)
(2)
式中x、y——残差块输入、输出向量
F(x,{Wi})——要学习的残差映射
σ——ReLU函数
Wi——权重
当x和F的维度不相同时,需要对输入x进行线性映射来匹配维度,即
y=F(x,{Wi})+Wsx
(3)
式中Ws——线性映射函数
对于更深层次的网络,为了减少训练时间,将ResNet的瓶颈(Bottleneck)架构设计成3层堆栈,如图2所示,这3层分别是1×1、3×3和1×1卷积,第1个1×1卷积将256维的通道降到64维,再通过另一个1×1卷积将维度还原,既保持了精度,又减少了计算量。神经网络层数越多,对于原始数据的映射越多,可以得到更深层次的信息,但是模型训练时间也会越长,对应的权重文件也越大,不利于模型在移动终端的部署。
图2 瓶颈结构
2.2 注意力机制
注意力机制最早由MNIH等[15]提出并引入图像分类领域,视觉注意力机制体现了人类视觉系统主动选择关注对象并加以集中处理的视觉特性,该特性能有效提升图像内容筛选、目标检索等图像处理能力。从人工智能角度看,注意力机制是机器学习中的一种数据处理方法,本质是利用相关特征图学习权重分布,再用学到的权重施加在原特征图之上,最后进行加权求和以快速提取稀疏数据的重要特征[24]。
在Transformer attention[25]的最新版本中,注意权重被表示为4个注意因子(ε1、ε2、ε3、ε4)的总和,这4个注意因子所涉及的依赖关系的性质各不相同。ε1对于查询和关键内容更敏感;ε2更关注查询内容和相对位置;ε3仅仅关注关键内容;ε4仅仅关注相对位置。ZHU等[26]对当前空间注意机制进行深入研究,通过分析不同注意因子的不同组合对于不同领域(图像目标检测、图像语义分割、神经机器翻译)的效果,得出注意因子为ε3(Key content only)的空间注意力机制,比4个注意因子(ε1、ε2、ε3、ε4)总和的空间注意力机制在图像方面的精度和效率更佳。
目标检测模型的3大组件(backbone、neck、head)中,backbone(本文采用ResNet网络)的主要作用是特征提取,另外ResNet网络由5个阶段组成,其中阶段2~5都由瓶颈层组成,瓶颈层的主要作用是进行特征提取。因此本文将在ResNet网络的阶段2~5的瓶颈层中串联插入一个空间注意力模块,如图3所示,增强有用信息,抑制噪声等干扰元素的权重。并且继续探索在ResNet不同的阶段中加入空间注意力机制对于田间障碍物实例分割模型鲁棒性的影响。
图3 加入空间注意力机制模块的残差块结构
2.3 可变形卷积
由于非结构化田间障碍物形态各异,面积大小不一,这给障碍物识别任务带来了很大的困难,而且以往的卷积神经网络对整体特征的提取是依靠其固定的卷积结构,对于形态各异的目标特征提取的适应、调节能力较弱,目标识别能力不强,泛化能力差。实际上,传统的神经网络的卷积核通常是固定尺寸、固定大小(3×3、5×5),难以自适应目标的形状变化[18]。为了解决限制传统卷积神经网络识别能力的这一难题,DAI等[19]提出了一种可变形卷积网络,替代传统的标准卷积,经研究表明,通过可变形卷积网络增加可训练的偏移量,从而适应目标形状的变化,有利于提高目标检测的鲁棒性[27-29]。
二维卷积的操作步骤为:①在输入特征图x上使用规则网格R进行采样。②用ω加权的采样值进行求和。一个3×3的卷积为
R={(-1,-1),(-1,0),…,(0,1),(1,1)}
(4)
对于标准的卷积过程,输出特征图y中每个位置y(P0)的计算公式为
(5)
式中Pn——R中所有采样位置
P0——输入特征图中每个位置
可变形卷积过程公式为
(6)
式中 ΔPn——采样点偏移量
可见,可变形卷积就是在传统的卷积操作上加入了一个采样点的偏移量ΔPn,以调整关键元素的采样位置,如图4所示。可变形卷积只为神经网络模型增加少量的参数和计算,但是大大提高了目标检测的精度[30]。
图4 卷积核大小为3×3的正常卷积核可变形卷积的采样方式
本文利用可变形卷积替代ResNet网络瓶颈层中的3×3卷积,与空间注意力机制共同改进ResNet网络,改进得到的基于空间注意力机制和可变形卷积的实例分割网络模型(ResNet-50+SA+DCN(2,3,5))整体结构如图5所示。
图5 利用可变形卷积和空间注意力机制改进的Mask R-CNN实例分割网络
3 试验与结果分析
3.1 试验环境
试验选用的处理器为Intel(R)Core(TM)i7-10700K,主频3.8 GHz,8核,16 MB缓存;64 GB内存;NVIDIA GeForce RTX2080TI(11GB)GPU用于加速计算。操作系统是Ubuntu 20.04,编程语言选用Python,选择PyTorch深度学习框架实现网络模型的搭建、训练和调试。
3.2 模型训练与对比分析
考虑模型训练效果以及试验条件,本文模型采用迁移学习,主干网络采用ImageNet预训练的ResNet-50网络作为初始输入权重。模型训练的周期为24,每个周期迭代的次数为2 400;设置学习率为0.002 5,采用线性增加策略动态调整学习率,初始学习率为2.4×10-4,当迭代次数为500时,学习率调整为预设置的2.5×10-3;动量因子为0.9,权重衰减系数为0.000 1,优化算法为随机梯度下降(SGD),损失函数为对数交叉熵损失(Cross entropy loss)。
3.2.1主干网络选择分析
Mask R-CNN模型的主干网络选择ResNet-50、ResNet-101,通过平均精度均值(mAP)、参数量、推断时间和损失值对比,确定适合非结构化田间障碍物实例分割的主干网络深度。试验中,控制其他条件不变,只改变主干网络的深度,两个不同深度模型的性能对比如图6所示。
图6 ResNet-50和ResNet-101的损失值曲线
图6中ResNet-50和ResNet-101的损失值均随着迭代次数的增加逐渐下降并收敛,最终趋于稳定。2个网络的损失曲线相差不大,基本重合,模型训练的总损失分别约为0.2和0.18,一定程度上说明了2个模型具有相似的性能。此外通过表1的mAP比较,可以看出ResNet-101的mAP略微高于ResNet-50,但是相差不大,仅为2个百分点左右,但是ResNet-101模型参数量远高于ResNet-50,约为6.276×107;推断时间也比ResNet-50长。考虑到非结构化障碍物识别模型将用于无人机,且无人机检测需要实时性强,机载端内存有限,考虑到ResNet-101网络对本文研究的非结构化农田障碍物分割提取任务有较大的冗余,降低网络深度对模型的性能影响不大,但是能提高模型的运算速度。综上所述,选择ResNet-50最为合适。
本文以ResNet-50为主干网络构建Mask R-CNN实例分割模型,并用空间注意力机制和可变形卷积对主干网络进行改进。确认模型深度为ResNet-50后,分析利用空间注意力机制和可变形卷积改进模型的有效性。首先利用空间注意力机制对Mask R-CNN进行改进,与原网络性能进行比较。主要从mAP、AP50、AP75、APS、APM、APL、参数量和推断时间进行性能分析。增加注意力机制模型的测试结果如表1、2所示。表1中,mAP指的是交并比从0.5开始,间隔0.05一直取值到0.95然后求得的平均值;AP50指交并比为0.5时的平均精度;AP75指交并比为0.75时的平均精度;APS、APM、APL分别对应面积小于322像素(小目标物体)、面积大于322像素小于962像素(中等目标物体),面积大于962像素(大目标物体)测试平均精度。
3.2.2改进后的网络性能分析
由表1可知,加入空间注意力机制后的模型(ResNet-50+SA)比原模型在各项性能上都有了不同程度的提升。从Bbox来看,ResNet-50+SA模型比改进前模型的mAP高5.8个百分点,特别是小面积物体的平均精度(APS),提高20.1个百分点;从Mask来看,改进后比改进前模型的mAP提高4.3个百分点,APS提升比较显著,为18个百分点;另外改进后模型的参数量仅增加8.6%。
从表2可知,不论是Bbox还是Mask,加入空间注意力机制后的模型比Mask R-CNN模型性能都有提升,其中电线杆的特征是细长,属于小面积目标。这种小面积目标的平均精度(AP)从40.1%、27.5%提升到53.6%、33.1%,分别提高13.5、5.6个百分点。
表2 不同模型各个类别的AP值对比
从APS和电线杆AP可知,空间注意力机制提高了模型对于细小物体特征的提取能力。空间注意力机制的引入可以在获得较高AP值的基础上,使模型参数量增长较少。
在加入空间注意力机制的基础上,将瓶颈层的3×3卷积调整为可变形卷积,两者结合共同改进Mask R-CNN,为了进一步优化ResNet-50+SA +DCN模型的性能,本文从ResNet阶段2~5的组合((2,3)、(2,4)、(2,5)、(3,4)、(3,5)、(4,5)、(2,3,4)、(2,3,5)、(3,4,5)、(2,3,4,5))中分别引入2个模块,并对这些组合进行遍历,分析试验在不同阶段组合中引入空间注意力模块和可变形卷积模块对于模型的影响。其中,(2,3)是从ResNet的阶段2、阶段3引入2个模块;(3,4,5)是从ResNet的阶段3、阶段4、阶段5引入2个模块;(2,3,4,5)是从ResNet的阶段2、阶段3、阶段4、阶段5引入2个模块,以此类推。测试结果如表1、2所示。
从表1、2可知,不论从ResNet的哪个阶段引入可变形卷积,ResNet-50+SA+DCN模型的综合性能都比仅引入空间注意力机制的ResNet-50+SA模型性能更优。从ResNet的2个阶段引入空间注意力机制和可变形卷积分析,ResNet-50+SA+DCN(4,5)模型比其他模型的权重文件更大;从ResNet的3个阶段引入空间注意力机制和可变形卷积分析,ResNet-50+SA+DCN(3,4,5)模型比其他模型的权重文件更大。由此可知,在ResNet的前阶段引入空间注意力机制和可变形卷积,能够加强网络前阶段对重点特征信息的提取能力和提升网络对不同尺寸的目标适应能力,减少网络后阶段需要处理的数据量,从而减少模型的参数量。从ResNet的全部4个阶段进行改进对网络性能提升不大,但是2个模块的引入带来的参数量会增加网络的负荷,导致模型的参数量偏大。
从总体的mAP值和各类别的AP值、参数量、推断时间进行分析,由表1、2可知,从3个阶段((3,4,5)、(2,3,5))引入空间注意力机制和可变形卷积模块比其他模型的综合性能更优。此外对比ResNet-50+SA+DCN(2,3,5)和ResNet-50+SA+DCN(3,4,5)两个模型,ResNet-50+SA+DCN(2,3,5)模型的参数量更小,速度更快;而且ResNet-50+SA+DCN(2,3,5)模型在Mask上的mAP更高,而且模型的参数量比ResNet-50仅增长6.6%,比ResNet-50+SA的参数量更少。
由表1分析可知,从Bbox来看,本文提出的ResNet-50+SA+DCN(2,3,5)模型在mAP上比YOLACT高5.9个百分点,比PointRend高1.5个百分点。从Mask来看,ResNet-50+SA+DCN(2,3,5)在mAP上比YOLACT高2.3个百分点,比SOLO高15.3个百分点,但是比PointRend低3.5个百分点;另外,ResNet-50+SA+DCN(2,3,5)的APS比YOLACT高14.9个百分点,比SOLO高25.5个百分点,比PointRend高2.8个百分点。从参数量来看,SOLO模型的参数量最少,比ResNet-50+SA+DCN(2,3,5)少1.056×107,其中PointRend的参数量最多,比ResNet-50+SA+DCN(2,3,5)多9.10×106;在推断时间方面,ResNet-50+SA+DCN(2,3,5)的推断时间比YOLACT少4.4 ms,比SOLO少1.3 ms,比PointRend少3.2 ms。
从表2分析可知,从Bbox的AP值来看,ResNet-50+SA+DCN(2,3,5)比PointRend、YOLACT、SOLO模型的性能都更加优异,但是从Mask的AP值来看,PointRend模型的性能更为优异。PointRend模型利用计算机图像渲染技术提高了Mask的AP值,但是在参数量、推断时间、Bbox方面的性能低于本文提出的ResNet-50+SA+DCN(2,3,5)模型。
综上所述,本文将在ResNet的阶段2、阶段3、阶段5引入空间注意力机制模块和可变形卷积模块,构建适用于非结构化农田障碍物识别模型ResNet-50+SA+DCN(2,3,5),模型资源开销低,为后期将目标识别与分割模型移入内存有限的无人机设备提供了可能。
3.2.3不同模型输出结果分析
为了更直观地解释引入空间注意力机制和可变形卷积对Mask R-CNN模型性能的提升,通过图像输出结果对不同模型进行分析。
如图7b所示,目标人物的头部没有完全识别,加入空间注意力机制后,模型识别效果(图7c、7d)比Mask R-CNN模型的识别(图7b)更准确;其次图7c目标手部还没有完全覆盖,加入可变形卷积模块后(图7d),目标的轮廓分割效果最好,网络提取的特征更好地覆盖在目标对象区域。如图8c、8d所示,加入空间注意力模块后的模型特征提取能力更强,可以识别到更多的物体。此外,加入可变形卷积后模型ResNet-50+SA+DCN能够识别到更远处的物体(图8d)。但是对于较远处被阻挡的目标还是会出现无法识别的情况。
图7 不同模型的输出结果(人)
图8 不同模型的输出结果(电线杆与建筑)
综上所述,ResNet-50+SA和ResNet-50+SA+DCN模型提取的特征更好地覆盖在目标对象区域,说明在现有的Mask R-CNN模型加入空间注意力机制模块可以增强有用信息,提高网络模型的特征提取能力;而加入可变形卷积模块可以使模型增大感受野,提高模型对目标不同尺寸的适应能力,进一步说明了本文对网络的改进是有效的,可以为无人机障碍物识别提供视觉支持。
4 结论
(1)为了建立适用于无人机田间障碍物识别的网络模型,本文以空间注意力机制和可变形卷积改进ResNet特征提取网络,进而优化Mask R-CNN实例分割模型,可以实现非结构化农田障碍物的识别与分割。
(2)为了提高利用空间注意力机制和可变形卷积改进Mask R-CNN模型的有效性,分析从ResNet的阶段2~5中的不同组合中引入2个模块对于模型性能的影响,最终确定在ResNet的阶段2、阶段3、阶段5引入2个模块的性能最优,ResNet-50+SA+DCN(2,3,5)模型的Bbox和Mask的mAP值分别为71.3%、62.3%,与仅加入空间注意力机制的模型相比,Bbox和Mask的mAP值分别提高1.0、1.1个百分点,参数量和推断时间也有了相应的优化。
(3)与YOLACT、SOLO、PointRend模型相比,ResNet-50+SA+DCN(2,3,5)在Bbox上的mAP更高,推断时间更短,实时性更好;另外,与Mask R-CNN模型相比,本文模型在小面积目标的检测方面,性能更加优异。因此,ResNet-50+SA+DCN(2,3,5)模型在非结构化田间障碍物识别与分割任务中具有优异的表现,并且在控制模型检测速度的情况下,用很小的资源开销明显提升了模型检测准确率,较好地平衡了模型复杂度和识别精度,充分证明了ResNet-50+SA+DCN(2,3,5)模型在非结构化农田障碍物识别与分割上的优越性。