APP下载

动态场景下融合YOLOv5s的视觉SLAM 算法研究

2024-07-17赵燕成魏天旭仝棣赵景波

无线电工程 2024年4期
关键词:光流法目标检测

摘 要:为了解决视觉同步定位与建图(Simultaneous Localization and Mapping,SLAM) 系统在动态场景下容易受到动态物体干扰,导致算法定位精度和鲁棒性下降的问题,提出了一种融合YOLOv5s 轻量级目标检测网络的视觉SLAM 算法。在ORB-SLAM2 的跟踪线程中添加了目标检测和剔除动态特征点模块,通过剔除图像中的动态特征点,提高SLAM 系统的定位精度和鲁棒性。改进了YOLOv5s 的轻量化目标检测算法,提高了网络在移动设备中的推理速度和检测精度。将轻量化目标检测算法与ORB 特征点算法结合,以提取图像中的语义信息并剔除先验的动态特征。结合LK 光流法和对极几何约束来剔除动态特征点,并利用剩余的特征点进行位姿匹配。在TUM 数据集上的验证表明,提出的算法与原ORB-SLAM2 相比,在高动态序列下的绝对轨迹误差(Absolute Trajectory Error,ATE) 和相对轨迹误差(Relative Pose Error,RPE) 均提高了95% 以上,有效提升了系统的定位精度和鲁棒性。相对当前一些优秀的SLAM 算法,在精度上也有明显的提升,并且具有更高的实时性,在移动设备中拥有更好的应用价值。

关键词:视觉同步定位与建图;动态场景;轻量级网络;目标检测;LK 光流法

中图分类号:TP39 文献标志码:A 开放科学(资源服务)标识码(OSID):

文章编号:1003-3106(2024)04-0900-11

0 引言

同步定位与建图(Simultaneous Localization andMapping,SLAM)是移动机器人在进入陌生环境后实现自主定位与导航的关键技术[1],已应用于自动驾驶、生物医疗和无人机等多个领域。当前SLAM 系统主要借助相机、惯性测量单元(InertialMeasurement Unit,IMU)、激光雷达和超声波雷达等传感器,视觉SLAM 是使用相机作为外部传感器进行SLAM 技术。得益于计算机视觉技术的进步,视觉SLAM 以其低廉的成本、丰富的环境信息和广泛适应性受到了学者的广泛研究。在2007 年,Klein等[2]提出了一种基于关键帧的SLAM 解决方案,即并行跟踪和建图(Parallel Tracking and Mapping,PTAM),是视觉SLAM 领域的重大突破,使得基于视觉的SLAM 系统成为研究热点。目前,视觉SLAM 主要分为2 类:特征点法和直接法。其中,PTAM、ORBSLAM2[3]是基于特征点法的优秀算法,而LSD-SLAM[4]、DSO[5]则是基于直接法的优秀算法。当前,基于特征点和直接法的视觉SLAM 算法都是建立在静态环境假设下实现高精确度和鲁棒性,但在现实的生活场景中会出现大量诸如行人、动物和汽车的动态物体,当环境中出现较多此类动态物体时,会使SLAM 系统的定位精度和鲁棒性严重下降,甚至导致建图失败。

针对上述在动态环境中视觉SLAM 遇到的问题,国内外学者主要从基于几何、基于光流和基于深度学习三方面进行研究。一是基于几何的算法,Kundu 等[6]提出了一种方法,通过使用多视几何约束来检测物体的静止或运动状态。该方法利用对极线约束和机器人运动知识来估计图像像素沿着对极线的位置界限,以便检测环境中的运动物体。此外,为了准确分类物体的状态,还应用了贝叶斯框架来区分是否为动态物体。Palazzolo 等[7]提出了一种基于TSDF 的映射方法,能够在动态环境中跟踪相机的姿态。该算法采用了有效的直接跟踪方法,并利用编码在Truncated Signed Distance Function(TSDF)中的颜色信息来估计传感器的姿态。同时,该算法还结合了体素哈希表示方法,通过基于配准残差和空闲空间表示的算法来过滤动态特征,从而实现了在动态环境中的稠密建图。二是基于光流的算法,Fang 等[8]提出了一种基于点匹配技术和均匀采样策略的光流方法有效实现了检测和跟踪移动目标,并引入卡尔曼滤波器改善了检测和跟踪效果,但该算法在提高计算速度的同时损失了一部分精度。Zhang 等[9]提出了一种基于光流的稠密RGBD SL通过稠密的RGBD 点云建立三维地图,使用光流算法来提取当前帧与上一帧之间的运动信息,并计算相应的光流残差提升更准确和高效的动态、静态分割,然后将动态物体进行剔除,在动态和静态环境下都实现了精准和高效的性能。三是基于深度学习的算法,随着深度学习在计算机视觉领域的发展,越来越多的研究人员运用目标检测和语义分割的方法识别并剔除场景中的动态特征点并取得了优秀的效果。清华大学Yu 等[10]在ORB-SLAM2 基础上提出一种名为DS-SLAM 的方法。该方法加入了语义分割和稠密地图创建线程,并采用SegNet[11]语义分割网络和运动一致性检测方法相结合的方式,以剔除对系统影响大于设定阈值的特征点,提高系统在动态环境下的鲁棒性和稳定性。该算法经过验证具有显著的效果改进。同样,在ORB-SLAM2 基础上Bescos 等[12]提出了DynaSLAM 算法,该算法利用Region-based Convolutional Neural Network(Mask R-CNN)[13]分割和多视图几何法结合来检测潜在的动态特征并剔除动态元素,从而提升了系统的准确性,但该算法存在着耗时严重和实时性差的问题。在结合目标检测方面,Zhong 等[14]提出了Detect-SLAM系统,将目标检网络———Single Shot MultiBoxDetector(SSD)[15]和SLAM 系统结合,通过预训练好的目标检测网络对图像序列中物体进行检测,然后在ORB 特征提取阶段将动态特征点剔除,极大地提高了动态环境中SLAM 的准确性和鲁棒性。Wang等[16]提出了一个动态场景下的语义SLAM 系统,将深度学习方法和基于LUT SLAM 相结合,利用YOLOv3 目标检测算法对特定的运动物体进行检测并剔除,生成了剔除移动物体的稠密点云图。

为了减少环境中动态物体对算法的影响,本文针对室内的动态场景提出了一种融合YOLOv5s 轻量级目标检测网络的视觉SLAM 算法,运用改进后的轻量化目标检测算法、光流法和结合对极几何约束的方法来剔除场景中的动态特征点,在保证实时性的同时提高视觉SLAM 系统在动态场景中的定位精度和鲁棒性。

本文有以下两方面的改进和创新:

① 将YOLOv5s 的原普通卷积替换为更加轻量级的Ghost 卷积,以减少网络参数大小;在网络中添加Coordinate Attention(CA)机制,以增强网络对于重要信息的捕捉能力;同时将损失函数CIoU 修改为EIoU,提高模型的稳定性和性能。从而提高算法的推理速度和检测精度。

② 在ORB-SLAM2 的框架中添加了目标检测模块和剔除动态特征点模块,将目标检测算法、LK 光流法和对极几何约束相结合,以此剔除环境中的动态特征点。

1 系统框架与流程

ORB-SLAM2 是一种基于特征点的单目/ 双目/RGB-D 视觉SLAM 系统,可以通过相机捕捉的图像数据来实现同时定位和地图构建,具有稳定性高、运行速度快和易于实现等优点,是目前视觉SLAM 领域应用最为广泛的系统,包含跟踪线程、局部建图和闭环检测3 个主要的线程,系统框架如图1所示。

2 基于YOLOv5s 的轻量化目标检测算法

YOLO 系列作为一阶目标检测算法的杰出代表,相比传统算法,YOLO 算法的结构简单,具有较快的检测速度和较高的检测精度。YOLOv5 在YOLOv4 的基础上优化了网络结构、训练策略并进行了数据增强,使得其在速度和精度上都有所提升。因YOLOv5 的轻量化特性,其训练和推理速度比当前最新的YOLOv7 和YOLOv8 也要快很多,并且具有较低的内存占用,这使得YOLOv5 在移动设备或者资源受限的系统应用场景中更具优势,而YOLOv5s 是YOLOv5 系列中模型最小、运行速度最快的网络[17],对硬件设备要求较低,因此更适合在移动端部署。

考虑到室内动态环境中的检测对象以大目标为主和移动设备算力的限制,为进一步满足动态场景中的目标检测和保证系统能够实时运行的需要,本节以YOLOv5s 网络为基础,改进了一种基于YOLOv5s 的轻量化目标检测算法:① 将网络的普通卷积替换为更加轻量化的Ghost 卷积,从而减少网络的计算量,提高运行速度;② 在Backbone 中添加CA 注意力机制,以增强网络对于重要信息的捕捉能力;③ 使用新的EIoU 损失函数替代原YOLOv5s使用的CIoU,提高模型的稳定性和性能。改进后的YOLOv5s 网络结构如图2 所示。

2. 1 替换Ghost 卷积

随着计算机视觉应用场景的不断扩大和多样化,轻量级网络结构的研究和应用成为当前热点之一。在YOLOv5s 网络中,主干网络是整个模型的核心组成部分,决定了模型的性能和速度。然而,传统的主干网络如Darknet53 具有较多的参数和计算量,导致模型较大且运行速度较慢。受限于移动设备的硬件条件和环境影响,为提高模型的轻量化和速度,本文将YOLOv5s 网络原有的普通卷积层替换为更加轻量化的深度可分离卷积GhostConv,如图3所示为Ghost 模块[18]。

GhostNet 采用轻量化的分组卷积和通道注意力机制,以保持高准确率的同时减少网络的计算量和存储空间;使用反向残差模块来加速模型训练和降低模型的复杂度。因此,将原有的普通卷积层替换为GhostConv 不仅可以提高YOLOv5s 的速度,还可以减少网络的参数量和存储空间,更利于在嵌入式和资源受限的移动设备进行实时目标检测。

2. 2 添加CA 注意力机制

在深度学习中,注意力机制已被广泛应用于图像识别、自然语言处理等任务中,取得了良好的效果。注意力机制是一种加强模型特征表达能力的计算单元,可以让模型在处理数据时更关注重要的部分,同时减少不必要的计算。在加入Ghost 模块后,参数量和计算量都大幅降低,加快了训练和推理速度,但同时也减少了网络对全局特征的提取。因此,为减少冗余信息和增强特征图中重要的特征信息,本文选择在Backbone 添加CA 机制[19]。CA 机制模块如图4 所示。

算法流程主要如下:

① 输入特征图:特征图输入到CA 机制中进行处理。

② 通道权重计算:对于输入的特征图,分别进行全局平均池化操作和全局最大池化操作,得到2 个不同的特征向量。将这2 个特征向量经过一个全连接层进行变换,得到一个通道权重向量。

③ 特征重要性调整:将通道权重向量乘以输入特征图,得到加权特征图。通道权重的作用是调整每个特征通道的重要性,因此加权特征图中每个通道的特征表示的重要性得到了调整。

④ 通道信息融合:加权特征图通过一个Sigmoid 函数进行激活,得到一个权重矩阵。权重矩阵与输入特征图进行逐元素相乘,得到经过通道信息融合的特征图,这个特征图中的每个像素都包含了整个特征图中所有通道的信息,并且每个通道的重要性已经被调整。

CA 机制作为一种轻量级通道注意力机制,与SE、CBAM 注意力机制不同,其不涉及空间位置信息,而是关注不同通道间的关系和位置信息,通过自适应地调整每个通道的权重,可有效地提升YOLOv5s 网络的准确性。

2. 3 引入EIoU 损失函数

在目标检测中,一个检测框与真实框匹配通常采用Intersection over Union(IoU)指标来度量。IoU通过计算检测框和真实框之间的重叠部分面积与并集面积之比得到,定义如下:

IoU = P ∩ R/P ∪ R, (1)

式中:P 为检测框,R 为真实框。YOLOv5s 使用CIoU[20]作为模型的损失函数,CIoU 同时考虑到回归框宽高比例以及真实框与预测框中心距离,计算如下:

式中:ρ2(b,bgt )为图预测框和真实框中心点之间的欧氏距离,c 为能够同时包含真实框和预测框最小矩形框对角线距离,α 为权重函数,v 为预测框和真实框长宽比的相似性。定义如下:

CIoU 损失函数已有效解决了IoU、DIoU 存在的问题,但由于v 仅反映纵横比的差异,因此CIoU 可能会以不恰当的方法优化相似性,即存在当目标框非常小或者存在较大的偏移时,损失函数的值会出现较大的偏差。为解决这一问题,本文使用新的EIoU[21]替换CIoU 作为YOLOv5s 的损失函数,EIoU函数计算如下:

EIoU 在CIoU 的基础上计算宽高的差异值代替了纵横比,有效解决了CIoU 的问题,并且采用FocalLoss 处理难易样本不平衡的问题。引入EIoU 损失函数的网络模型训练速度更快、收敛更稳定,能够更好地适应动态场景下目标检测需求。

3 动态特征点剔除算法设计

3. 1 基于轻量化目标检测网络的语义信息提取

在计算机视觉领域,语义信息通常指对图像中对象的类别、位置、姿态和形状等高级概念的理解和表达,可以利用语义信息理解场景和动态目标,以此提升在动态场景下SLAM 系统的鲁棒性。

传统的特征点法SLAM 系统采用特征点提取和匹配的方法,在位姿初始化时对两帧图像进行处理,接着通过RANSAC(Random Sample Consensus)等方法去除一些误匹配和动态点。在动态场景中当环境中的动态数量过多时,传统SLAM 系统的位姿初始化精度会严重下降。考虑本文针对室内场景进行研究,场景中的动态目标以人或动物为主,因此选择人或动物作为先验的动态目标。本文在ORBSLAM2的跟踪线程上添加目标检测模块,运用改进后的轻量化网络YOLOv5s 进行目标检测,并提取场景中图像的语义信息,然后将提取的语义信息和ORB 特征提取相结合获取图像信息,利用目标检测算法预测一些先验的动态区域并剔除其中的动态特征点,将保留下的特征点进入下一环节进行跟踪匹配,从而获得更准确的相机位姿估计。

3. 2 基于光流法的特征跟踪和匹配

由于光流法只需要对少量的特征点进行追踪,而不需要处理整张图像,特征点可以通过快速角点检测等方法进行提取,能够快速地计算出相邻2 帧图像中运动的点,具有很好的实时性。因此通过前面语义信息滤除先验动态特征点后,使用LK 光流法[22]对剩余的特征点进行追踪和匹配。LK 光流法示意如图5 所示。

光流法有3 个主要假设条件:① 亮度恒定,这是光流法的基本设定;② 小运动,必须满足;③ 空间一致性。

在t 时刻处于(x,y)的像素为I(x,y,t),则t+dt时刻处于(x+dt,y+dt)的像素点,根据假设①有:

I(x,y,t) = I(x + dx,y + dy,t + dt)。(6)

根据假设②,对式(6)进行泰勒展开并保留一阶项:

根据假设③,利用最小二乘法完成对u、v 的求解后,可以对某个像素点在图像中的位置进行跟踪估计,然后使用光流法对像素点匹配。

3. 3 动态特征点剔除

借助语义信息剔除先验的动态特征点和基于光流法获得基础矩阵后,可以得到每对特征点对应的极线,采用对极几何约束通过计算每个特征点到其对应极线的距离,判断该点是否为动态特征点。

假设图6 中t1 、t2 时刻的2 个像素特征点p1 、p2是匹配的特征点对,其齐次坐标表示如下:

理想状态下点到极线的距离D = 0,但因相机获取的图像受周围环境噪声、光线等影响会产生畸变,所以距离D≠0,因此通过设置阈值β 来判断。若D>β,则认为是动态特征点,进行剔除;若D<β,则认为是静止的点,予以保留。

考虑到单纯地使用一种目标检测或光流法剔除场景中的动态特征点不够全面,本文将改进后的轻量化目标检测算法、光流法以及对极几何约束相结合来剔除场景中的动态特征点。因此在ORBSLAM2 框架的跟踪线程中添加了目标检测模块和剔除动态特征点模块,改进后的跟踪线程如图6 所示。首先,利用改进后的YOLOv5s 轻量化算法来检测图像中的目标并提取语义信息,将语义信息与ORB 特征提取相结合,剔除先验的动态特征点;其次,采用光流法将剩余的特征点进行跟踪匹配并计算出基础矩阵;最后,使用对极几何约束设置的阈值进行第二次剔除动态特征点。剩余的静态特征点被用于位姿估计,以减少环境中动态物体的影响,从而提升系统的鲁棒性和定位精度。

4 实验结果分析

为验证本文提出的算法整体性能和有效性,分别对2、3 节改进后的算法进行了实验验证。

4. 1 轻量化目标检测算法验证

4. 1. 1 数据集

考虑到室内场景中的动态物体以人为主,为验证改进后的YOLOv5s 算法的有效性,本实验选取了COCO 数据集中“人”类别的图片进行训练和测试,共计10 800 张图片。

4. 1. 2 性能评估

目标检测算法的性能通常用均值平均精度(mean Average Precision,mAP)反映模型在召回率不同的情况下的精度表现,较高的mAP 值表示模型在高召回率下能保持较高的准确率,因此mAP 值越高,说明模型的性能越好。计算如下:

本文进行了消融实验,比较了采用不同策略(替换Ghost 卷积、添加CA 机制和引入EIoU 损失函数)对模型性能的影响。在数据集上,通过设置IoU阈值为0. 5,以mAP @ 0. 5 作为评价指标,结果如表1 所示。

从表1 可以看出,相比原版YOLOv5s 算法,使用Ghost 卷积替换原卷积后,模型参数量降低至3. 35 MB,检测速度提高了29 帧/ 秒,检测精度略有降低1. 9% 。此外,添加CA 机制和EIoU 损失函数对检测精度均有一定提升。与原版相比,本文改进的算法在mAP 上增加了3. 9% ,模型大小减小了40. 2% ,检测速度提高了19 帧/ 秒。这些改进实现了对轻量级目标检测算法在移动设备上的需求,既提高了检测精度又满足了实时性的要求。

4. 2 改进后ORBSLAM2 算法验证

4. 2. 1 TMU 数据集

为验证改进后ORBSLAM2 算法的有效性,采用由德国慕尼黑工业大学提供的TUM 数据集[23],它包含了机器人在室内环境中采集的RGBD 彩色图像和深度图像,已成为SLAM 领域最广泛使用的评估数据集之一,被用于评估和比较不同算法的性能。本文选取了TUM 数据集中4 个不同的图像序列fr3 _ walking _ xyz、fr3 _ walking _ halfsphere、fr3 _walking_static 和fr3 _sitting_static。其中walking 序列是高动态场景下的数据集,sitting 序列是低动态场景下的数据集。

4. 2. 2 动态特征点剔除效果对比

在动态特征点剔除过程中,为了保留存在于动态物体检测框中的静态目标特征点,本文将能检测到的物体分为高动态、中等动态和低动态物体。仅当物体的特征点处于高动态物体检测框并且未处于低动态物体检测框时才将其剔除。图7 展示了动态特征点剔除前后的效果,其中图7 (a)为剔除前的特征点图像,图7 (b)为运用本文算法剔除动态特征点后的图像。改进后的方法有效检测图像中的物体信息,并剔除了场景中的高动态物体“人”,同时保留了“电脑”“键盘”“椅子”等低动态物体。

4. 2. 3 轨迹误差结果对比

实验结果采用绝对轨迹误差(AbsoluteTrajectory Error,ATE )和相对轨迹误差(RelativePose Error,RPE)作为评价指标,并使用均方根误差(RMSE)、平均误差(Mean)和标准差(SD)来衡量。同时将提升效率定义为Improvement:

Improvement = ((m - n)/n) × 100% , (15)

式中:m、n 分别是本文方法和ORB_SLAM2 的运算结果。表2、表3 和表4 分别为改进前后算法的ATE、RPE(平移部分)和RPE(旋转部分)运算结果。

在ATE 方面,从表2 中可以看出,本文改进后的算法相比于原ORBSLAM2 算法在fr3 _walking_xyz 序列中RMSE、Mean 和SD 分别提升了97. 46% 、97. 55% 和97. 15% ,其他3 个动态序列中也有明显的提升。该对比实验证明了本文算法在高动态场景中具有较好的性能,可以显著提升定位精度和鲁棒性。在低动态序列fr3_sitting_static 中RMSE、Mean和SD 仅仅提升了11. 63% 、9. 33% 和9. 30% ,提升效果相对不明显。在低动态序列中,绝大多数物体的位置、姿态是相对固定的,因此在序列中很难找到具有显著动态特征的物体或者区域,导致可以用来进行跟踪的特征点非常有限,而ORBSLAM2 在低动态环境下具有较好的表现,因此很难在低动态序列中大幅提高其性能。在RPE 方面,从表3 和表4可以看出在高动态序列中提升效果明显,同样在低动态序列中提升效果不明显。

为了更加直观体现本文算法与ORB-SLAM2 算法的效果对比,分别绘制了高动态序列下的ATE 和RPE 对比图,其中ORBSLAM2 算法(上),本文算法(下)。图8 为ATE 对比,图中的黑色曲线表示相机的真实轨迹,蓝色部分表示估计的轨迹。红色线段则是二者的误差,误差越小,红色线段就越短,表示系统的精度越高。图9 为RPE 对比,可以看出本文算法相比于ORBSLAM2 算法,误差的波动范围很小,其稳定性更好。不难看出,在动态场景下本文算法相比原算法的定位精度和鲁棒性都有显著的提升。

4. 2. 4 其他算法对比

为了验证本文算法的先进性,将其与近年来比较优秀的SLAM 算法进行了比较。其中,DS-SLAM和DynaSLAM 是基于ORB-SLAM2 框架,采用语义分割算法提取动态场景的语义信息;DetectSLAM 则利用YOLOv3 目标检测算法对特定的动态物体进行检测并剔除;文献[24]是基于几何与运动约束进行特征匹配,来减少动态特征点和错误匹配点的影响。表5 和表6 展示了本文算法与其他算法误差对比和部分算法平均运行时间对比。

综合比较表5 和表6 可以看出,与DS-SLAM 算法相比,本文算法在高动态场景下的定位精度和运行时间效率均得到了显著提升,在walking_xyz 和walking _ static 序列上ATE 的RMSE 分别降低了31. 6% 、6. 2% ,平均运行时间降低了39. 2% ;与DynaSLAM 算法相比,本文算法在定位精度方面的表现相近,但在运行时间方面快了7 倍多,运行速度更快,这是因为DynaSLAM 采用了Mask R-CNN 实例分割算法,处理图像时较为耗时;同时,与DetectSLAM 算法和文献[24]中的算法进行对比,本文算法在定位精度也有着不同程度的提升。通过以上比较,进一步验证了本文算法的先进性。

5 结束语

本文提出了一种融合YOLOv5s 轻量级目标检测网络的视觉SLAM 算法,旨在解决动态场景下视觉SLAM 系统受到动态物体影响导致定位精度和鲁棒性下降的问题。该算法采用了基于YOLOv5s 的轻量化目标检测算法来实时检测动态物体,再结合ORB-SLAM2 算法提取图像中的语义信息并剔除先验的动态特征,最后通过LK 光流法和对极几何约束来剔除动态特征点。实验结果表明,相比原ORBSLAM2 算法,该算法在高动态序列下的ATE 和RPE 均提高了95% 以上,并且在保证实时性的同时,提高了定位精度和鲁棒性,相比当前一些优秀的SLAM 算法,在精度和实时性上有着显著的提升。因此,本文提出的融合YOLOv5s 目标检测的视觉SLAM 算法具有较好的实际应用前景。下一步,考虑采用多传感器融合和使用新的算法框架(如ORB-SLAM3)进行优化改进,使算法适应更多场景的需要。

参考文献

[1] 赵燕成,房桐,杜保帅,等. 移动机器人视觉SLAM 回环检测现状研究[J]. 无线电工程,2023,53(1):129-139.

[2] KLEIN G,MURRAY D. Parallel Tracking and Mappingfor Small AR Workspaces[C]∥2007 6th IEEE and ACMInternational Symposium on Mixed and AugmentedReality. Nara:IEEE,2007:225-234.

[3] MURARTAL R,TARDOS J D. ORBSLAM2:An Opensource SLAM System for Monocular,Stereo,and RGBDCameras[J]. IEEE Transactions on Robotics,2017,33(5):1255-1262.

[4] ENGEL J,SCHOPS T,CREMERS D. LSDSLAM:Largescale Direct Monocular SLAM [C]∥ Computer Vision -ECCV 2014,Zurich:Springer,2014:834-849.

[5] MATSUKI H,STUMBERG L V,USENKO V,et al. Omnidirectional DSO:Direct Sparse Odometry with FisheyeCameras [J ]. IEEE Robotics and Automation Letters,2018,3(4):3693-3700.

[6] KUNDU A,KRISHNA K M,SIVASWAMY J. Moving Object Detection by Multiview Geometric Techniques from aSingle Camera Mounted Robot[C]∥2019 IEEE / RSJ International Conference on Intelligent Robots and Systems.St. Louis:IEEE,2009:4306-4312.

[7] PALAZZOLO E,BEHLEY J,LOTTES P,et al. ReFusion:3D Reconstruction in Dynamic Environments for RGBDCameras Exploiting Residuals[C]∥2019 IEEE / RSJ International Conference on Intelligent Robots and Systems.Macau:IEEE,2019:7855-7862.

[8] FANG Y Q,DAI B. An Improved Moving Target Detectingand Tracking Based on Optical Flow Technique andKalman Filter[C]∥2009 4th International Conference onComputer Science & Education. Nanning:IEEE,2009:1197-1202.

[9] ZHANG T W,ZHANG H Y,LI Y,et al. FlowFusion:Dynamic Dense RGBD SLAM Based on Optical Flow[C]∥2020 IEEE International Conference on Robotics and Automation. Paris:IEEE,2020:7322-7328.

[10] YU C,LIU Z X,LIU X J,et al. DSSLAM:A SemanticVisual SLAM Towards Dynamic Environments[C]∥2018IEEE / RSJ International Conference on Intelligent Robotsand Systems. Madrid:IEEE,2018:1168-1174.

[11] BADRINARAYANAN V,KENDALL A,CIPOLLA R. SegNet:A Deep Convolutional EncoderDecoder Architecturefor Image Segmentation[J]. IEEE Transactions on PatternAnalysis and Machine Intelligence,2017,39 (12 ):2481-2495.

[12] BESCOS B,FACIL J M,CIVERA J,et al. DynaSLAM:Tracking,Mapping,and Inpainting in Dynamic Scenes[J]. IEEE Robotics and Automation Letters,2018,3(4):4076-4083.

[13] HE K M,GKIOXARI G,DOLL?R P,et al. Mask RCNN[C]∥ Proceedings of the IEEE International Conferenceon Computer Vision. Venice:IEEE,2017:2961-2969.

[14] ZHONG F W,WANG S,ZHANG Z Q,et al. DetectSLAM:Making Object Detection and SLAM Mutually Beneficial[C ]∥ IEEE Winter Conference on Applications ofComputer Vision. Lake Tahoe:IEEE,2018:1001-1010.

[15] LIU W,ANGUELOV D,ERHAN D,et al. SSD:SingleShot MultiBox Detector [C]∥ European Conference onComputer Vision. Amsterdam:Springer,2016:21-37.

[16] WANG Z M,ZHANG Q,LI J S,et al. A ComputationallyEfficient Semantic SLAM Solution for Dynamic Scenes[J]. Remote Sensing,2019,11(11):1363.

[17] 伍子嘉,陈航,彭勇,等. 动态环境下融合轻量级YOLOv5s 的视觉SLAM[J]. 计算机工程,2022,48(8):187-195.

[18] HAN K,WANG Y H,TIAN Q,et al. GhostNet:More Features from Cheap Operations [C]∥ Proceedings of the2020 IEEE / CVF Conference on Computer Vision and Pattern Recognition. Seattle:IEEE,2020:1580-1589.

[19] HOU Q B,ZHOU D Q,FENG J S. Coordinate Attention forEfficient Mobile Network Design[C]∥Proceedings of the2021 IEEE / CVF Conference on Computer Vision and Pattern Recognition. Nashville:IEEE,2021:13713-13722.

[20] ZHENG Z H,WANG P,REN D W,et al. Enhancing GeometricFactors in Model Learning and Inference for Object Detection and Instance Segmentation[J]. IEEE Transactions onCybernetics,2022,52(8):8574-8586.

[21] ZHANG Y F,REN W Q,ZHANG Z,et al. Focal and Efficient IOU Loss for Accurate Bounding Box Regression[J]. Neurocomputing,2021,506:146-157.

[22] LUCAS B D,KANADE T. An Iterative Image RegistrationTechnique with an Application to Stereo Vision[C]∥IJCAI’81:Proceedings of the 7th International Joint Conference on Artificial Intelligence. Vancouver:Morgan Kaufmann Publishers Inc. ,1981:674-679.

[23] STURM J,ENGELHARD N,ENDRES F,et al. A Benchmark for the Evaluation of RGBD SLAM Systems[C]∥IEEE / RSJ International Conference on Intelligent Robotsand Systems. Vilamoura:IEEE,2012:573- 580.

[24] 艾青林,刘刚江,徐巧宁. 动态环境下基于改进几何与运动约束的机器人RGBD SLAM 算法[J]. 机器人,2021,43(2):167-176.

作者简介

赵燕成 男,(1999—),硕士研究生。主要研究方向:视觉SLAM、深度学习。

魏天旭 男,(1997—),硕士研究生。主要研究方向:深度学习、网络控制系统。

仝 棣 男,(1996—),硕士研究生。主要研究方向:目标检测、神经网络。

(*通信作者)赵景波 男,(1971—),博士,教授。主要研究方向:机器人工程、计算机控制。

基金项目:国家自然科学基金(51475251);青岛市民生计划(2237xdny18nsh)

猜你喜欢

光流法目标检测
基于光流法的流体运动预测技术适用性研究
基于高斯混合模型的人群异常检测
基于背景分类的监控视频中的运动目标检测算法综述
Matlab下视频处理系统设计与实现
视频中目标检测算法研究
行为识别中的人体运动目标检测方法
权重系数自适应光流法运动目标检测
移动机器人图像目标识别
基于背景建模法的运动目标检测
基于P3电位的目标检测研究