APP下载

融合注意力机制和深度超参数化卷积的遥感影像桥梁目标检测算法

2023-11-20余培东

科学技术创新 2023年25期
关键词:注意力卷积桥梁

余培东

(中铁第一勘察设计院集团有限公司,陕西 西安)

引言

随着我国空间科学技术的迅速发展,遥感对地观测数据呈指数级增长,如何有效利用遥感影像数据成为一项难点[1]。遥感影像目标检测是遥感大数据智能解译的一项关键技术,在人员搜救、侦查、监测和预警等军民领域有着重要的应用价值[2]。计算机技术的发展,特别是深度学习技术的突破,基于深度学习的遥感影像目标分类和检测成为遥感领域的研究热点,应用深度学习技术进行遥感影像快速自动化处理使得遥感技术的现代化成为可能。

作为遥感影像中一种典型人工目标,桥梁通过连接两块陆地,在整个交通网络中具有枢纽地位。桥梁目标的快速准确检测,在军事制导领域、灾后救援以及地理信息系统更新领域等具有重要价值[3]。

针对传统目标检测算法在遥感影像桥梁检测中精度较差的缺陷,本文以经典单阶段目标检测算法YOLOv4为基础,融入注意力机制模块,同时采用深度超参数化卷积替代原始卷积层,提出了一种具有高检测精度的遥感影像桥梁目标检测算法,有效提高了算法的遥感影像桥梁目标检测精度。

1 算法原理及改进

1.1 YOLOv4 算法

Alexey Bochkovskiy 通过融入多种算法的核心思想,最终提出了性能显著提高的YOLOv4 算法[4],其主要创新点集中在四个方面:

(1) 数据输入部分采用Mosaic 数据增强、标签平滑、CmBN 正则化以及自对抗训练等手段,使算法更好的适应单GPU 训练的同时,有效提升了算法的抗干扰能力和泛化性。

(2) 使用CSPDarknet53 网络结构,在网络结构轻量化的同时保持了较好的算法性能。

(3) 使用FPN+PAN 的特征提取模块提升算法特征提取能力。

(4) 损失函数采用CIOU Loss,非极大值抑制算法使用DIOU NMS。能够有效提升算法对小尺寸、重叠目标的检测性能。

1.2 注意力机制模块

自首次使用SE 模块的SENet[5]问世并取得成功,研究人员对于注意力机制的研究热潮便从未停止,空间域注意力机制、通道域注意力机制以及混合域注意力机制等领域的研究成果层出,并在多种领域得到应用。

SE 模块可以学习输入信息不同通道特征的重要程度,进而提升模型对通道维度特征的关注度,使目标检测性能得到提升;CBAM[6](Convolutional Block Att-ention Module)在SE 模块基础上,通过结合空间和通道两个维度的注意力机制,解决了关注什么特征以及哪里的特征更有意义的问题,从而取得了更好的效果。

1.3 深度超参数化卷积

为了解决复杂模型容易过拟合的现象,Cao[7]等人提出DO_Conv,(深度超参数化卷积, Depthwise Over parameterized Convolut-ional Layer)。DO_Conv 在普通卷积层中添加深度增强卷积层,同时使用不同的二维卷积核在每个通道中完成卷积计算,通过增加模型可学习参数量的方式构成超参数。在模型推理阶段,DO_Conv 被转换为普通卷积,因此这种方式不会增加模型推理中的计算复杂度。实验证明,使用DO_Conv 可以在加快模型训练速度的同时获得比传统卷积层更好的效果。

2.2 实验结果及分析

(1) 注意力机制对比实验

以YOLOv4 算法为基础,使用多尺度训练和fp_16训练策略进行模型训练,分别嵌入SE 模块和CBAM 模块并在实验数据集中训练检测,比较不同算法的各项检测指标来衡量模块性能优势。不同算法在两个数据集的预测结果例图分别如图1(左列为高分桥梁数据集,右列为DOTA 桥梁数据集。目标漏检用绿框标识,目标误检用红×标识),表1 通过实验结果评价指标详细对比了各种算法的检测结果。

表1 嵌入注意力机制的算法检测结果

图1 注意力机制对比实验例图

2 实验设置及结果分析

2.1 实验设置

(1) 实验平台:基于Win 10 操作系统,选取NVIDIA 3090 显卡,显存24 GB,在CUDA 加速下完成模型训练检测。使用Pytorch 深度学习框架,python 版本为3.8.4。

(2) 实验数据集:第一个数据集为高分桥梁数据集[8],分辨率668-1 000,包含图像2 000 幅;第二个数据集为DOTA 数据集,提取出包含桥梁的图像并进行分割处理,获取分辨率为1 000× 1 000 的图像1 300 幅,构成DOTA 桥梁数据集。

实验过程中,按照3:3:4 的比例划分训练集、验证集和测试集,比较检测结果评价指标来衡量算法性能。

(3) 模型训练策略:采用多尺度训练(将输入图像的尺寸设置为320×320 到608×608 不等,尺寸区间内随机增加32 的整数倍,共计有10 类不同尺寸的输入图像)和fp_16 训练策略[9]。

(4) 实验结果评价指标:选取深度学习目标检测中常用的查准率P(Precision)、召回率R(Recall)、平均准确率AP(Average Precision)、检测速度FPS 以及模型平均训练一批次所需时间T(Time)五项指标进行算法性能评估。

图1 中三组实验结果之间的区别不太明显,从三组对比实验例图中粗略观察较难发现明显差异,但是可以看出嵌入SE 模块算法的目标误检核和漏检相对较少。检测结果评价指标更加准确地展示了三组实验的最终结果:嵌入CBAM 模块小幅度提高了算法在高分桥梁数据集的检测精度,但在DOTA 桥梁数据集中反而使算法检测精度降低,而它对模型训练时间的提升却十分显著;相比较而言,SE 模块对模型训练时间增加更少,降低算法检测速度也更少,但能小幅度提升模型检测准确率P 和召回率R,最终能够获得最大的精度提升(使高分桥梁数据集的AP 提升1.3% ,使DOTA 桥梁数据集的AP 提升1.4%)。实验证明SE 模块在遥感影像桥梁目标检测中比CBAM 模块更有优势,故选取SE 模块作为注意力机制嵌入算法。

(2) 替换卷积层对比实验

根据上部分实验的结果选取SE 模块作为注意力机制嵌入算法,在此基础上,使用DO_Conv 替换算法原始卷积层,提出D-YOLO 算法,并与RetinaNet、YOLOv3、CenterNet 等经典单阶段目标检测算法进行对比实验。按照实验设置分别在两个数据集中进行算法训练检测,不同算法在两个数据集的目标检测结果示例如图2 所示,表2 中各项实验结果评价指标详细展示了不同算法之间的性能差异。

表2 替换卷积层前后算法与其他单阶段目标检测算法检测结果对比

图2 替换卷积层前后算法与其他单阶段目标检测算法检测结果例图(第一行为高分桥梁数据集,第二行为DOTA桥梁数据集)

从图2 可以看出,RetinaNet 算法不存在误检,但漏检严重;YOLOv3 算法和CenterNet 算法的误检和漏检现象较为均衡;YOLOv4+SE 算法漏检和误检相对更少,而D-YOLO 算法漏检和误检最少,整体表现更好。进一步对比表2 中各项检测结果评价指标可以发现,RetinaNet 算法、YOLOv3 算法和CenterNet 算法均保持了极高的检测准确率,但检测召回率很低,因此算法AP 值较低;YOLOv4 改进算法在保持较高检测准确性的同时,大幅提升了目标检测召回率,使得算法AP 值有明显提升。而在检测效率方面,CenterNet 算法具有最高的检测效率,其他几种算法的检测效率较为接近。

本文提出的D-YOLO 算法相比较其他三种经典单阶段目标检测算法有明显优势,同时在实验(1)基础上进一步提升了算法的目标检测精度,最终将YOLOv4 算法在两个数据集中的AP 值分别提升2.1%和1.9%(从78.3%提升至80.4%、从65.3%提升至67.2%),有力证明了本文改进算法的有效性。

结束语

针对现有深度学习目标检测算法在遥感影像桥梁目标检测中检测精度不足的缺陷,本文以YOLOv4 算法为基础,通过嵌入注意力机制模块以及替换卷积层的方式进行算法改进,并通过设计对比实验验证本文改进算法的有效性:实验结果证明:

(1) 相比较与CBAM 模块,SE 模块在少量增加模型训练成本的前提下,能够获得更高的算法检测精度提升,更适宜在目标检测算法中应用。

(2) DO_Conv 可以在不损失模型推理速度的同时有效提高算法对桥梁目标的检测精度,相比较传统卷积层具有一定的性能优势。

猜你喜欢

注意力卷积桥梁
让注意力“飞”回来
基于3D-Winograd的快速卷积算法设计及FPGA实现
从滤波器理解卷积
手拉手 共搭爱的桥梁
句子也需要桥梁
基于傅里叶域卷积表示的目标跟踪算法
“扬眼”APP:让注意力“变现”
高性能砼在桥梁中的应用
A Beautiful Way Of Looking At Things
一种基于卷积神经网络的性别识别方法