基于多尺度注意力和深度可分离卷积的农田杂草检测*

2023-06-05王建翠惠巧娟吴立国

中国农机化学报 2023年5期

王建翠，惠巧娟，吴立国

(1. 银川能源学院信息传媒学院,银川市,750100; 2. 银川科技学院信息工程学院,银川市,750021;3. 宁夏葡萄酒与防沙治沙职业技术学院,银川市,750199; )

0 引言

农田杂草根除对作物质量、产量以及农业经济的稳定至关重要。中国是粮食生产和消费大国,然而杂草因不受控制的迅速生长,导致农作物光、肥和水等资源极易短缺,严重影响作物的质量和产量。农田杂草带来的经济影响遍及世界,据“除草剂发展与推广应用大会”指出,全世界一年因杂草导致农作物减产达年产量的11.8%,约8亿人一年的储备[1-2]。因此,研究出一种准确有效的农田杂草定位与检测模型,对于提升农作物的产量和质量具有重要的意义。

传统农业杂草根除主要借助化学药品,虽然简单直接,但缺乏针对性。此外,过度使用化学药品将会导致环境污染,进而影响人类身体健康。因此,如何利用绿色手段根除杂草变得十分迫切。随着深度学习技术的迅速发展[3-5],在玉米研究领域得到了广泛的应用[6-9]。如亢洁等[10]提出了一种多尺度融合模块和特征增强的杂草检测模型,利用不同的扩张卷积来增大感受野,强化嵌入层的特征,提高模型识别性能。孙俊等[11]提出了一种空洞卷积结合全局池化的卷积神经网络识别杂草算法,通过设置不同的膨胀系数来定位与识别杂草。李彧等[12]提出了一种基于全卷积神经网络的玉米田间杂草识别算法,主要通过数据增强的方法扩增数据集,提升模型的检测性能。温德圣等[13]针对不同光照条件下杂草识别特征信息容易缺失的问题,提出了一种基于深度卷积神经网络的杂草识别方法,通过在卷积神经网络基础上构建Inception V3分类器,根据比对待检测物体与标准对照物之间的差异性,给出识别结果。樊湘鹏等[14]提出了一种基于Faster R-CNN的杂草识别方法,通过在不同田间场景下测试表明模型具有较高的鲁棒性。

上述杂草识别算法虽然在特定场景中可以实现较好地检测精度,且主要针对杂草单一生长的场景,对于杂草与农作物交叉生长的复杂场景,检测性能不佳。此外,现有基于深度网络的杂草检测模型采用大量数据样本进行训练,时间开销较大。针对上述问题,本文提出一种基于多尺度注意力与深度可分离卷积的农田杂草检测算法,旨在提高杂草检测的精度,推进深度学习在农业生产中的应用。

1 数据集构建与预处理

1.1 图像采集

本文以农田中的杂草为研究对象,选取常见的12种杂草。分别为看麦娘、马唐、狗尾草、菟丝子、刺儿菜、野燕麦、荠菜、车前草、千根草、狗牙根、马齿苋和牛筋草。所有图像均在农田大自然环境下采集,图像采集设备为索尼FDR-AX60高清数码相机,主要拍摄时间段为04:00～08:00、11:00～13:00、15:00～17:00和19:00～22:00,总共拍摄1 920张杂草图片,每类杂草160幅,图像分辨率为224像素×224像素的三通道彩色图像,格式为JPEG,所采集的部分图像如图1所示。

图1 部分样本图像

为了增强模型的泛化性和鲁棒性,本文在相同的时间段采集了包含多种杂草的图像,总共560张。并合并所有数据样本,按照7∶3的比例划分训练样本和测试样本。最后,利用LabelImg软件对采集的杂草图像进行标注。

1.2 数据增强

深度网络的高识别性能依赖于大量带标注的训练样本,因此,为了丰富图像包含的目标信息,对所采集的样本进行数据增强。此处,采用裁剪、缩放、旋转和亮度变化等方式将原始图片扩增5倍,并仅对杂草数据集中的训练集进行数据增强。以看麦娘与农作物交叉生长的图片为例,展示扩增后的图像,如图2所示。

(a) 原始图片

(b) 亮度增强

图2 图像增强效果

2 模型设计

特征提取质量的高低直接影响下游杂草检测任务的识别性能,本文充分考虑深度网络在时间开销和识别精度上的要求。在原始VGG-16网络的基础上,引入深度可分离卷积减少模型参数量,旨在降低模型的运行时间开销;其次,为了提高杂草等目标物体的关注度和特征表征能力,利用注意力机制强化目标物体特征表达的鲁棒性。

2.1 深度可分离卷积

图3给出了传统VGG-16模型的结构[15],包括13个卷积层、5个池化层、3个全连接层和1个分类层,虽然结构简单,但参数量大,导致模型训练时间过长,不利于实际应用对于实时性的要求[16]。因此,本文将标准卷积块中的部分卷积层分解为深度卷积DC(Depthwise Convolution)和逐点卷积PC(Pointwise Convolution)[17],构造深度可分离卷积(Depthwise Separable Convolution,DSC)。在保持特征提取质量不变的情况下,降低模型对于硬件资源的高要求,从而提升模型训练和推断的速度,深度可分离卷积示意图如图3所示。

图3 VGG-16结构

深度可分离卷积将标准卷积过程分解为多个等效的深度卷积和逐点卷积,深度可分离卷积神经网络结构如图4所示。通过在深度卷积部分分解滤波器来降低参数量,在识别性能变化可接受的范围内尽可能通过减少模型参数量来降低模型的训练时间开销。

图4 深度可分离卷积神经网络结构

图4中,首先将图片Ii∈R3×h×w(h和w表示图片的长和宽)经过一次卷积运算,沿通道方向生成若干张特征图;然后,利用卷积核大小为Dk×Dk的多个卷积块将特征图沿着深度方向进行加权组合,得到输入图片在深度空间的特征映射;然后,在逐点卷积运算过程中,利用1×1的卷积核进行卷积滤波。因此,深度卷积和逐点卷积可以拼接成卷积核大小为Dk×Dk的标准卷积。其中,标准卷积运算过程中的参数量Csc由式(1) 计算可得。

Csc=Dk×Dk×M×N

(1)

式中:Dk——卷积核的大小;

M——输入通道;

N——输出通道。

深度卷积DC和逐点卷积PC组合的深度可分离卷积DSC计算过程中涉及的参数量由式(2)计算可得。

Cdsc=Dk×Dk×M+M×N

(2)

相比标准卷积的计算参数量Csc,深度可分离卷积的计算参数量Cdsc成本下降了r,计算如式(3)所示。

(3)

特别地,输出通道N较大,因此式(3)中r的值约为1/Dk2。此处,采用卷积核大小为3×3,因此,相比传统标准卷积的参数计算量,深度可分离卷积大约可以降低9倍。

2.2 注意力机制

人类在观看事物时,并非第一时间接受整个物体,而是有选择性地关注部分区域[18]。注意力机制最早应用在自然语言处理任务中,通过引入长距离上下文信息,有效解决了长距离依赖的问题[19]。近年来,被广泛地应用到视觉任务中,通过建立空间上的长距离依赖,解决卷积核感受野局限的问题。此处,为了提高VGG-16 提取特征的表达能力,提高农田杂草的定位与识别的准确性,在利用深度可分离卷积改进的VGG-16 中引入通道注意力和空间注意力机制[20],构造一种多尺度注意力机制的卷积神经网络(Multi-Scale Attention Convolution,MSAC),结构如图5所示。

图5 多尺度注意力卷积结构

1) 在改进后的网络结构中,首先利用3×3、5×5、7×7的卷积核对原始输入杂草图片进行卷积运算,获取不同尺度的特征图,并将不同尺度下的特征进行融合;然后,按照原始VGG-16的数据流向对融合特征进行池化和卷积操作。

2) 在注意力机制中,沿通道和空间两个维度进行深层次特征提取,并在此基础上,引入全局特征,缓解因过度聚焦局部特征导致全局特征信息丢失的问题。其中,通道注意力和空间注意力特征图可由式(4)和式(5)表示。

Fc=Mc(F)⊗F

(4)

Fs=Ms(Fc)⊗Fc

(5)

式中:Fc——通道注意力特征图;

Fs——空间注意力特征图;

Mc——通道注意力卷积;

Ms——空间注意力卷积;

⊗——哈达玛运算;

F——多尺度融合特征经中间层卷积运算后的特征图。

3) 在第4个卷积层之后,仍采用原始VGG-16的数据流向,映射特征图到深度特征空间,获取更丰富的高级语义信息。

3 结果与分析

3.1 试验环境

试验运行环境采用Linux系统,显卡显存为32 G的NVIDIA V100 GPU;采用PyTorch深度学习框架,Cuda环境为NVIDIA CUDA 11.0,Python 3.7。

综合硬件设备,设定批处理大小为16,动量为0.9;设定初始化学习率为0.000 1,损失函数采用交叉熵损失。此外,为解决模型过拟合问题,引入Dropout随机删除部分神经元,本文Dropout取值0.5。

由图6可知,本文模型训练180次后损失逐渐趋于平稳,因此设定迭代轮次为180。

图6 损失曲线

3.2 评价指标

采用精准率P、召回率R和F1-score为评价指标,具体计算如式(6)～式(8)所示。

(6)

(7)

(8)

式中:Tp——正确识别出的样本数;

Fp——错误识别的样本数;

Fn——未识别出的样本数。

3.3 结果分析

为验证本文模型的有效性,分别构造Yolov5、Faster R-CNN和本文模型,并进行对比分析,详细结果如表1所示。

表1 识别结果对比Tab. 1 Identification and comparison results

可以看出,相比主流的Yolov5和Faster R-CNN模型,本文模型在精准率方面,分别提升2.35%和1.72%;在召回率方面,分别提升3.23%和1.36%;在F1方面,分别提升2.47%和0.90%;在时间开销方面,分别降低61.74%和70.25%。

图7给出了本文模型对于单一杂草生长场景中杂草检测的可视化结果。

(a) 04:00～08:00

(b) 11:00～13:00

(d) 19:00～22:00

通过分析各阶段结果可知,在11:00～13:00阶段和15:00～17:00阶段,由于光照充足,整体检测效果较好,模型的平均精确率为0.938。虽然在04:00～08:00阶段和19:00～22:00阶段存在光照不足的问题,但模型平均检测精确率仍可以达到0.928。综上,在不同时间段,本文模型受天气等自然环境的影响较小,验证了本文模型具有较好的鲁棒性。

图8给出了本文模型对于杂草与农作物交叉生长环境下的检测可视化结果。可以看出,在更具有挑战性的复杂环境下,本文模型平均精确率可以达到0.934,能够较好地区分杂草和农作物,检测准确性较高。同时,不同阶段的平均精确率差距较小,进一步验证了本文模型具有较好的鲁棒性。

(a) 04:00～08:00

(b) 11:00～13:00

(d) 19:00～22:00

图9给出了本文模型、Yolov5和Faster R-CNN模型对于相同图片的检测可视化结果。

(a) YOLOV5

(b) Faster R-CNN

可以看出,本文模型平均精确率为0.956,Yolov5模型的平均精确率为0.935,Faster R-CNN模型的平均精确率为0.93。本文模型识别精度高,优势显然。主要原因是本文模型采用多尺度注意力机制,在全局特征的基础上,进一步细粒度的挖掘局部特征,强化输入图片映射到深度空间中的特征质量,进一步验证了本文模型对于杂草定位与识别的有效性,对于农业杂草根除等具有重要的指导意义。

3.4 消融试验

为探究深度可分离卷积和多尺度注意力机制对所提出模型性能提升的作用,分别设计不同的变体模型,并进行对比分析,如表2所示。从变体模型1和模型2可以看出,相比使用标准卷积来提取特征,深度可分离卷积可以降低66.21%的检测时间开销;从变体模型1和模型3可知,引入多尺度注意力机制后,模型的检测精准率、召回率和F1分别达到94.71%、94.88%和93.86%。相比仅采用单一特征的检测模型,利用多尺度特征分别可以提高2.87%、2.48%和2.09%的检测精准率、召回率和F1。从变体模型2和模型4、模型3和模型4两组试验可以看出,引入多尺度注意力机制虽然导致检测时间开销增加了1.91%,但精准率、召回率和F1值效果提升显著;引入深度可分离卷积模块在保持精准率、召回率和F1值的基础上,检测时间开销降低了207.72 ms,因此,可以忽略因增加部分模块导致极小的性能损失。综上,上述几组对比试验验证了多尺度注意力机制和深度可分离卷积在本文模型性能提升扮演着重要的角色。

表2 消融试验Tab. 2 Identification and comparison results

4 结论

针对传统农田杂草模型对杂草识别与定位不精确的问题,提出一种基于多尺度注意力与深度可分离卷积的农田杂草检测算法。

1) 所提出模型精准率为94.69%、召回率为94.88%、F1值为93.82%、检测时间开销为108.31 ms,优于经典对比模型的检测性能,验证了所提出模型对于农田杂草检测的高效性。

2) 利用深度可分离卷积改进现有VGG-16主干网络,检测时间开销降低了207.72 ms,有效缓解了模型时间开销大的问题;此外,无论在单一杂草生长场景还是杂草与农作物交替生长的复杂场景中,多尺度注意力机制可以强化深度空间中农田杂草特征的表达能力,对模型的精准率、召回率和F1评价指标均具有积极作用。

3) 通过在多个杂草数据样本中进行测试,验证了本文模型的高效性。在农田荒地治理、杂草根除和农业机械化管理等任务中具有较高的实际应用价值。在未来的工作中,主要通过提高输入图片映射到深度空间中的特征表达能力,提高下游任务的泛化性能和鲁棒性。