动态场景下融合YOLOv5s的视觉SLAM 算法研究

2024-07-17赵燕成魏天旭仝棣赵景波

无线电工程 2024年4期

摘要：为了解决视觉同步定位与建图（ＳｉｍｕｌｔａｎｅｏｕｓＬｏｃａｌｉｚａｔｉｏｎａｎｄＭａｐｐｉｎｇ，ＳＬＡＭ）系统在动态场景下容易受到动态物体干扰，导致算法定位精度和鲁棒性下降的问题，提出了一种融合ＹＯＬＯｖ５ｓ轻量级目标检测网络的视觉ＳＬＡＭ算法。在ＯＲＢ-ＳＬＡＭ２的跟踪线程中添加了目标检测和剔除动态特征点模块，通过剔除图像中的动态特征点，提高ＳＬＡＭ系统的定位精度和鲁棒性。改进了ＹＯＬＯｖ５ｓ的轻量化目标检测算法，提高了网络在移动设备中的推理速度和检测精度。将轻量化目标检测算法与ＯＲＢ特征点算法结合，以提取图像中的语义信息并剔除先验的动态特征。结合ＬＫ光流法和对极几何约束来剔除动态特征点，并利用剩余的特征点进行位姿匹配。在ＴＵＭ数据集上的验证表明，提出的算法与原ＯＲＢ-ＳＬＡＭ２相比，在高动态序列下的绝对轨迹误差（ＡｂｓｏｌｕｔｅＴｒａｊｅｃｔｏｒｙＥｒｒｏｒ，ＡＴＥ）和相对轨迹误差（ＲｅｌａｔｉｖｅＰｏｓｅＥｒｒｏｒ，ＲＰＥ）均提高了９５％以上，有效提升了系统的定位精度和鲁棒性。相对当前一些优秀的ＳＬＡＭ算法，在精度上也有明显的提升，并且具有更高的实时性，在移动设备中拥有更好的应用价值。

关键词：视觉同步定位与建图；动态场景；轻量级网络；目标检测；ＬＫ光流法

中图分类号：ＴＰ３９文献标志码：Ａ开放科学（资源服务）标识码（ＯＳＩＤ）：

文章编号：１００３－３１０６（２０２４）０４－０９００－１１

０引言

同步定位与建图（ＳｉｍｕｌｔａｎｅｏｕｓＬｏｃａｌｉｚａｔｉｏｎａｎｄＭａｐｐｉｎｇ，ＳＬＡＭ）是移动机器人在进入陌生环境后实现自主定位与导航的关键技术［１］，已应用于自动驾驶、生物医疗和无人机等多个领域。当前ＳＬＡＭ系统主要借助相机、惯性测量单元（ＩｎｅｒｔｉａｌＭｅａｓｕｒｅｍｅｎｔＵｎｉｔ，ＩＭＵ）、激光雷达和超声波雷达等传感器，视觉ＳＬＡＭ是使用相机作为外部传感器进行ＳＬＡＭ技术。得益于计算机视觉技术的进步，视觉ＳＬＡＭ以其低廉的成本、丰富的环境信息和广泛适应性受到了学者的广泛研究。在２００７年，Ｋｌｅｉｎ等［２］提出了一种基于关键帧的ＳＬＡＭ解决方案，即并行跟踪和建图（ＰａｒａｌｌｅｌＴｒａｃｋｉｎｇａｎｄＭａｐｐｉｎｇ，ＰＴＡＭ），是视觉ＳＬＡＭ领域的重大突破，使得基于视觉的ＳＬＡＭ系统成为研究热点。目前，视觉ＳＬＡＭ主要分为２类：特征点法和直接法。其中，ＰＴＡＭ、ＯＲＢＳＬＡＭ２［３］是基于特征点法的优秀算法，而ＬＳＤ-ＳＬＡＭ［４］、ＤＳＯ［５］则是基于直接法的优秀算法。当前，基于特征点和直接法的视觉ＳＬＡＭ算法都是建立在静态环境假设下实现高精确度和鲁棒性，但在现实的生活场景中会出现大量诸如行人、动物和汽车的动态物体，当环境中出现较多此类动态物体时，会使ＳＬＡＭ系统的定位精度和鲁棒性严重下降，甚至导致建图失败。

针对上述在动态环境中视觉ＳＬＡＭ遇到的问题，国内外学者主要从基于几何、基于光流和基于深度学习三方面进行研究。一是基于几何的算法，Ｋｕｎｄｕ等［６］提出了一种方法，通过使用多视几何约束来检测物体的静止或运动状态。该方法利用对极线约束和机器人运动知识来估计图像像素沿着对极线的位置界限，以便检测环境中的运动物体。此外，为了准确分类物体的状态，还应用了贝叶斯框架来区分是否为动态物体。Ｐａｌａｚｚｏｌｏ等［７］提出了一种基于ＴＳＤＦ的映射方法，能够在动态环境中跟踪相机的姿态。该算法采用了有效的直接跟踪方法，并利用编码在ＴｒｕｎｃａｔｅｄＳｉｇｎｅｄＤｉｓｔａｎｃｅＦｕｎｃｔｉｏｎ（ＴＳＤＦ）中的颜色信息来估计传感器的姿态。同时，该算法还结合了体素哈希表示方法，通过基于配准残差和空闲空间表示的算法来过滤动态特征，从而实现了在动态环境中的稠密建图。二是基于光流的算法，Ｆａｎｇ等［８］提出了一种基于点匹配技术和均匀采样策略的光流方法有效实现了检测和跟踪移动目标，并引入卡尔曼滤波器改善了检测和跟踪效果，但该算法在提高计算速度的同时损失了一部分精度。Ｚｈａｎｇ等［９］提出了一种基于光流的稠密ＲＧＢＤＳＬ通过稠密的ＲＧＢＤ点云建立三维地图，使用光流算法来提取当前帧与上一帧之间的运动信息，并计算相应的光流残差提升更准确和高效的动态、静态分割，然后将动态物体进行剔除，在动态和静态环境下都实现了精准和高效的性能。三是基于深度学习的算法，随着深度学习在计算机视觉领域的发展，越来越多的研究人员运用目标检测和语义分割的方法识别并剔除场景中的动态特征点并取得了优秀的效果。清华大学Ｙｕ等［１０］在ＯＲＢ-ＳＬＡＭ２基础上提出一种名为ＤＳ-ＳＬＡＭ的方法。该方法加入了语义分割和稠密地图创建线程，并采用ＳｅｇＮｅｔ［１１］语义分割网络和运动一致性检测方法相结合的方式，以剔除对系统影响大于设定阈值的特征点，提高系统在动态环境下的鲁棒性和稳定性。该算法经过验证具有显著的效果改进。同样，在ＯＲＢ-ＳＬＡＭ２基础上Ｂｅｓｃｏｓ等［１２］提出了ＤｙｎａＳＬＡＭ算法，该算法利用Ｒｅｇｉｏｎ-ｂａｓｅｄＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ（ＭａｓｋＲ-ＣＮＮ）［１３］分割和多视图几何法结合来检测潜在的动态特征并剔除动态元素，从而提升了系统的准确性，但该算法存在着耗时严重和实时性差的问题。在结合目标检测方面，Ｚｈｏｎｇ等［１４］提出了Ｄｅｔｅｃｔ-ＳＬＡＭ系统，将目标检网络———ＳｉｎｇｌｅＳｈｏｔＭｕｌｔｉＢｏｘＤｅｔｅｃｔｏｒ（ＳＳＤ）［１５］和ＳＬＡＭ系统结合，通过预训练好的目标检测网络对图像序列中物体进行检测，然后在ＯＲＢ特征提取阶段将动态特征点剔除，极大地提高了动态环境中ＳＬＡＭ的准确性和鲁棒性。Ｗａｎｇ等［１６］提出了一个动态场景下的语义ＳＬＡＭ系统，将深度学习方法和基于ＬＵＴＳＬＡＭ相结合，利用ＹＯＬＯｖ３目标检测算法对特定的运动物体进行检测并剔除，生成了剔除移动物体的稠密点云图。

为了减少环境中动态物体对算法的影响，本文针对室内的动态场景提出了一种融合ＹＯＬＯｖ５ｓ轻量级目标检测网络的视觉ＳＬＡＭ算法，运用改进后的轻量化目标检测算法、光流法和结合对极几何约束的方法来剔除场景中的动态特征点，在保证实时性的同时提高视觉ＳＬＡＭ系统在动态场景中的定位精度和鲁棒性。

本文有以下两方面的改进和创新：

① 将ＹＯＬＯｖ５ｓ的原普通卷积替换为更加轻量级的Ｇｈｏｓｔ卷积，以减少网络参数大小；在网络中添加ＣｏｏｒｄｉｎａｔｅＡｔｔｅｎｔｉｏｎ（ＣＡ）机制，以增强网络对于重要信息的捕捉能力；同时将损失函数ＣＩｏＵ修改为ＥＩｏＵ，提高模型的稳定性和性能。从而提高算法的推理速度和检测精度。

② 在ＯＲＢ-ＳＬＡＭ２的框架中添加了目标检测模块和剔除动态特征点模块，将目标检测算法、ＬＫ光流法和对极几何约束相结合，以此剔除环境中的动态特征点。

１系统框架与流程

ＯＲＢ-ＳＬＡＭ２是一种基于特征点的单目／双目／ＲＧＢ-Ｄ视觉ＳＬＡＭ系统，可以通过相机捕捉的图像数据来实现同时定位和地图构建，具有稳定性高、运行速度快和易于实现等优点，是目前视觉ＳＬＡＭ领域应用最为广泛的系统，包含跟踪线程、局部建图和闭环检测３个主要的线程，系统框架如图１所示。

２基于ＹＯＬＯｖ５ｓ的轻量化目标检测算法

ＹＯＬＯ系列作为一阶目标检测算法的杰出代表，相比传统算法，ＹＯＬＯ算法的结构简单，具有较快的检测速度和较高的检测精度。ＹＯＬＯｖ５在ＹＯＬＯｖ４的基础上优化了网络结构、训练策略并进行了数据增强，使得其在速度和精度上都有所提升。因ＹＯＬＯｖ５的轻量化特性，其训练和推理速度比当前最新的ＹＯＬＯｖ７和ＹＯＬＯｖ８也要快很多，并且具有较低的内存占用，这使得ＹＯＬＯｖ５在移动设备或者资源受限的系统应用场景中更具优势，而ＹＯＬＯｖ５ｓ是ＹＯＬＯｖ５系列中模型最小、运行速度最快的网络［１７］，对硬件设备要求较低，因此更适合在移动端部署。

考虑到室内动态环境中的检测对象以大目标为主和移动设备算力的限制，为进一步满足动态场景中的目标检测和保证系统能够实时运行的需要，本节以ＹＯＬＯｖ５ｓ网络为基础，改进了一种基于ＹＯＬＯｖ５ｓ的轻量化目标检测算法：① 将网络的普通卷积替换为更加轻量化的Ｇｈｏｓｔ卷积，从而减少网络的计算量，提高运行速度；② 在Ｂａｃｋｂｏｎｅ中添加ＣＡ注意力机制，以增强网络对于重要信息的捕捉能力；③ 使用新的ＥＩｏＵ损失函数替代原ＹＯＬＯｖ５ｓ使用的ＣＩｏＵ，提高模型的稳定性和性能。改进后的ＹＯＬＯｖ５ｓ网络结构如图２所示。

２．１替换Ｇｈｏｓｔ卷积

随着计算机视觉应用场景的不断扩大和多样化，轻量级网络结构的研究和应用成为当前热点之一。在ＹＯＬＯｖ５ｓ网络中，主干网络是整个模型的核心组成部分，决定了模型的性能和速度。然而，传统的主干网络如Ｄａｒｋｎｅｔ５３具有较多的参数和计算量，导致模型较大且运行速度较慢。受限于移动设备的硬件条件和环境影响，为提高模型的轻量化和速度，本文将ＹＯＬＯｖ５ｓ网络原有的普通卷积层替换为更加轻量化的深度可分离卷积ＧｈｏｓｔＣｏｎｖ，如图３所示为Ｇｈｏｓｔ模块［１８］。

ＧｈｏｓｔＮｅｔ采用轻量化的分组卷积和通道注意力机制，以保持高准确率的同时减少网络的计算量和存储空间；使用反向残差模块来加速模型训练和降低模型的复杂度。因此，将原有的普通卷积层替换为ＧｈｏｓｔＣｏｎｖ不仅可以提高ＹＯＬＯｖ５ｓ的速度，还可以减少网络的参数量和存储空间，更利于在嵌入式和资源受限的移动设备进行实时目标检测。

２．２添加ＣＡ注意力机制

在深度学习中，注意力机制已被广泛应用于图像识别、自然语言处理等任务中，取得了良好的效果。注意力机制是一种加强模型特征表达能力的计算单元，可以让模型在处理数据时更关注重要的部分，同时减少不必要的计算。在加入Ｇｈｏｓｔ模块后，参数量和计算量都大幅降低，加快了训练和推理速度，但同时也减少了网络对全局特征的提取。因此，为减少冗余信息和增强特征图中重要的特征信息，本文选择在Ｂａｃｋｂｏｎｅ添加ＣＡ机制［１９］。ＣＡ机制模块如图４所示。

算法流程主要如下：

① 输入特征图：特征图输入到ＣＡ机制中进行处理。

② 通道权重计算：对于输入的特征图，分别进行全局平均池化操作和全局最大池化操作，得到２个不同的特征向量。将这２个特征向量经过一个全连接层进行变换，得到一个通道权重向量。

③ 特征重要性调整：将通道权重向量乘以输入特征图，得到加权特征图。通道权重的作用是调整每个特征通道的重要性，因此加权特征图中每个通道的特征表示的重要性得到了调整。

④ 通道信息融合：加权特征图通过一个Ｓｉｇｍｏｉｄ函数进行激活，得到一个权重矩阵。权重矩阵与输入特征图进行逐元素相乘，得到经过通道信息融合的特征图，这个特征图中的每个像素都包含了整个特征图中所有通道的信息，并且每个通道的重要性已经被调整。

ＣＡ机制作为一种轻量级通道注意力机制，与ＳＥ、ＣＢＡＭ注意力机制不同，其不涉及空间位置信息，而是关注不同通道间的关系和位置信息，通过自适应地调整每个通道的权重，可有效地提升ＹＯＬＯｖ５ｓ网络的准确性。

２．３引入ＥＩｏＵ损失函数

在目标检测中，一个检测框与真实框匹配通常采用ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ（ＩｏＵ）指标来度量。ＩｏＵ通过计算检测框和真实框之间的重叠部分面积与并集面积之比得到，定义如下：

ＩｏＵ＝Ｐ ∩ Ｒ／Ｐ ∪ Ｒ，（１）

式中：Ｐ为检测框，Ｒ为真实框。ＹＯＬＯｖ５ｓ使用ＣＩｏＵ［２０］作为模型的损失函数，ＣＩｏＵ同时考虑到回归框宽高比例以及真实框与预测框中心距离，计算如下：

式中：ρ２（ｂ，ｂｇｔ）为图预测框和真实框中心点之间的欧氏距离，ｃ为能够同时包含真实框和预测框最小矩形框对角线距离，α 为权重函数，ｖ为预测框和真实框长宽比的相似性。定义如下：

ＣＩｏＵ损失函数已有效解决了ＩｏＵ、ＤＩｏＵ存在的问题，但由于ｖ仅反映纵横比的差异，因此ＣＩｏＵ可能会以不恰当的方法优化相似性，即存在当目标框非常小或者存在较大的偏移时，损失函数的值会出现较大的偏差。为解决这一问题，本文使用新的ＥＩｏＵ［２１］替换ＣＩｏＵ作为ＹＯＬＯｖ５ｓ的损失函数，ＥＩｏＵ函数计算如下：

ＥＩｏＵ在ＣＩｏＵ的基础上计算宽高的差异值代替了纵横比，有效解决了ＣＩｏＵ的问题，并且采用ＦｏｃａｌＬｏｓｓ处理难易样本不平衡的问题。引入ＥＩｏＵ损失函数的网络模型训练速度更快、收敛更稳定，能够更好地适应动态场景下目标检测需求。

３动态特征点剔除算法设计

３．１基于轻量化目标检测网络的语义信息提取

在计算机视觉领域，语义信息通常指对图像中对象的类别、位置、姿态和形状等高级概念的理解和表达，可以利用语义信息理解场景和动态目标，以此提升在动态场景下ＳＬＡＭ系统的鲁棒性。

传统的特征点法ＳＬＡＭ系统采用特征点提取和匹配的方法，在位姿初始化时对两帧图像进行处理，接着通过ＲＡＮＳＡＣ（ＲａｎｄｏｍＳａｍｐｌｅＣｏｎｓｅｎｓｕｓ）等方法去除一些误匹配和动态点。在动态场景中当环境中的动态数量过多时，传统ＳＬＡＭ系统的位姿初始化精度会严重下降。考虑本文针对室内场景进行研究，场景中的动态目标以人或动物为主，因此选择人或动物作为先验的动态目标。本文在ＯＲＢＳＬＡＭ２的跟踪线程上添加目标检测模块，运用改进后的轻量化网络ＹＯＬＯｖ５ｓ进行目标检测，并提取场景中图像的语义信息，然后将提取的语义信息和ＯＲＢ特征提取相结合获取图像信息，利用目标检测算法预测一些先验的动态区域并剔除其中的动态特征点，将保留下的特征点进入下一环节进行跟踪匹配，从而获得更准确的相机位姿估计。

３．２基于光流法的特征跟踪和匹配

由于光流法只需要对少量的特征点进行追踪，而不需要处理整张图像，特征点可以通过快速角点检测等方法进行提取，能够快速地计算出相邻２帧图像中运动的点，具有很好的实时性。因此通过前面语义信息滤除先验动态特征点后，使用ＬＫ光流法［２２］对剩余的特征点进行追踪和匹配。ＬＫ光流法示意如图５所示。

光流法有３个主要假设条件：① 亮度恒定，这是光流法的基本设定；② 小运动，必须满足；③ 空间一致性。

在ｔ时刻处于（ｘ，ｙ）的像素为Ｉ（ｘ，ｙ，ｔ），则ｔ＋ｄｔ时刻处于（ｘ＋ｄｔ，ｙ＋ｄｔ）的像素点，根据假设①有：

Ｉ（ｘ，ｙ，ｔ）＝Ｉ（ｘ＋ｄｘ，ｙ＋ｄｙ，ｔ＋ｄｔ）。（６）

根据假设②，对式（６）进行泰勒展开并保留一阶项：

根据假设③，利用最小二乘法完成对ｕ、ｖ的求解后，可以对某个像素点在图像中的位置进行跟踪估计，然后使用光流法对像素点匹配。

３．３动态特征点剔除

借助语义信息剔除先验的动态特征点和基于光流法获得基础矩阵后，可以得到每对特征点对应的极线，采用对极几何约束通过计算每个特征点到其对应极线的距离，判断该点是否为动态特征点。

假设图６中ｔ１、ｔ２时刻的２个像素特征点ｐ１、ｐ２是匹配的特征点对，其齐次坐标表示如下：

理想状态下点到极线的距离Ｄ＝０，但因相机获取的图像受周围环境噪声、光线等影响会产生畸变，所以距离Ｄ≠０，因此通过设置阈值β 来判断。若Ｄ＞β，则认为是动态特征点，进行剔除；若Ｄ＜β，则认为是静止的点，予以保留。

考虑到单纯地使用一种目标检测或光流法剔除场景中的动态特征点不够全面，本文将改进后的轻量化目标检测算法、光流法以及对极几何约束相结合来剔除场景中的动态特征点。因此在ＯＲＢＳＬＡＭ２框架的跟踪线程中添加了目标检测模块和剔除动态特征点模块，改进后的跟踪线程如图６所示。首先，利用改进后的ＹＯＬＯｖ５ｓ轻量化算法来检测图像中的目标并提取语义信息，将语义信息与ＯＲＢ特征提取相结合，剔除先验的动态特征点；其次，采用光流法将剩余的特征点进行跟踪匹配并计算出基础矩阵；最后，使用对极几何约束设置的阈值进行第二次剔除动态特征点。剩余的静态特征点被用于位姿估计，以减少环境中动态物体的影响，从而提升系统的鲁棒性和定位精度。

４实验结果分析

为验证本文提出的算法整体性能和有效性，分别对２、３节改进后的算法进行了实验验证。

４．１轻量化目标检测算法验证

４．１．１数据集

考虑到室内场景中的动态物体以人为主，为验证改进后的ＹＯＬＯｖ５ｓ算法的有效性，本实验选取了ＣＯＣＯ数据集中“人”类别的图片进行训练和测试，共计１０８００张图片。

４．１．２性能评估

目标检测算法的性能通常用均值平均精度（ｍｅａｎＡｖｅｒａｇｅＰｒｅｃｉｓｉｏｎ，ｍＡＰ）反映模型在召回率不同的情况下的精度表现，较高的ｍＡＰ值表示模型在高召回率下能保持较高的准确率，因此ｍＡＰ值越高，说明模型的性能越好。计算如下：

本文进行了消融实验，比较了采用不同策略（替换Ｇｈｏｓｔ卷积、添加ＣＡ机制和引入ＥＩｏＵ损失函数）对模型性能的影响。在数据集上，通过设置ＩｏＵ阈值为０．５，以ｍＡＰ＠０．５作为评价指标，结果如表１所示。

从表１可以看出，相比原版ＹＯＬＯｖ５ｓ算法，使用Ｇｈｏｓｔ卷积替换原卷积后，模型参数量降低至３．３５ＭＢ，检测速度提高了２９帧／秒，检测精度略有降低１．９％。此外，添加ＣＡ机制和ＥＩｏＵ损失函数对检测精度均有一定提升。与原版相比，本文改进的算法在ｍＡＰ上增加了３．９％，模型大小减小了４０．２％，检测速度提高了１９帧／秒。这些改进实现了对轻量级目标检测算法在移动设备上的需求，既提高了检测精度又满足了实时性的要求。

４．２改进后ＯＲＢＳＬＡＭ２算法验证

４．２．１ＴＭＵ数据集

为验证改进后ＯＲＢＳＬＡＭ２算法的有效性，采用由德国慕尼黑工业大学提供的ＴＵＭ数据集［２３］，它包含了机器人在室内环境中采集的ＲＧＢＤ彩色图像和深度图像，已成为ＳＬＡＭ领域最广泛使用的评估数据集之一，被用于评估和比较不同算法的性能。本文选取了ＴＵＭ数据集中４个不同的图像序列ｆｒ３＿ｗａｌｋｉｎｇ＿ｘｙｚ、ｆｒ３＿ｗａｌｋｉｎｇ＿ｈａｌｆｓｐｈｅｒｅ、ｆｒ３＿ｗａｌｋｉｎｇ＿ｓｔａｔｉｃ和ｆｒ３＿ｓｉｔｔｉｎｇ＿ｓｔａｔｉｃ。其中ｗａｌｋｉｎｇ序列是高动态场景下的数据集，ｓｉｔｔｉｎｇ序列是低动态场景下的数据集。

４．２．２动态特征点剔除效果对比

在动态特征点剔除过程中，为了保留存在于动态物体检测框中的静态目标特征点，本文将能检测到的物体分为高动态、中等动态和低动态物体。仅当物体的特征点处于高动态物体检测框并且未处于低动态物体检测框时才将其剔除。图７展示了动态特征点剔除前后的效果，其中图７（ａ）为剔除前的特征点图像，图７（ｂ）为运用本文算法剔除动态特征点后的图像。改进后的方法有效检测图像中的物体信息，并剔除了场景中的高动态物体“人”，同时保留了“电脑”“键盘”“椅子”等低动态物体。

４．２．３轨迹误差结果对比

实验结果采用绝对轨迹误差（ＡｂｓｏｌｕｔｅＴｒａｊｅｃｔｏｒｙＥｒｒｏｒ，ＡＴＥ）和相对轨迹误差（ＲｅｌａｔｉｖｅＰｏｓｅＥｒｒｏｒ，ＲＰＥ）作为评价指标，并使用均方根误差（ＲＭＳＥ）、平均误差（Ｍｅａｎ）和标准差（ＳＤ）来衡量。同时将提升效率定义为Ｉｍｐｒｏｖｅｍｅｎｔ：

Ｉｍｐｒｏｖｅｍｅｎｔ＝（（ｍ－ｎ）／ｎ） × １００％，（１５）

式中：ｍ、ｎ分别是本文方法和ＯＲＢ＿ＳＬＡＭ２的运算结果。表２、表３和表４分别为改进前后算法的ＡＴＥ、ＲＰＥ（平移部分）和ＲＰＥ（旋转部分）运算结果。

在ＡＴＥ方面，从表２中可以看出，本文改进后的算法相比于原ＯＲＢＳＬＡＭ２算法在ｆｒ３＿ｗａｌｋｉｎｇ＿ｘｙｚ序列中ＲＭＳＥ、Ｍｅａｎ和ＳＤ分别提升了９７．４６％、９７．５５％和９７．１５％，其他３个动态序列中也有明显的提升。该对比实验证明了本文算法在高动态场景中具有较好的性能，可以显著提升定位精度和鲁棒性。在低动态序列ｆｒ３＿ｓｉｔｔｉｎｇ＿ｓｔａｔｉｃ中ＲＭＳＥ、Ｍｅａｎ和ＳＤ仅仅提升了１１．６３％、９．３３％和９．３０％，提升效果相对不明显。在低动态序列中，绝大多数物体的位置、姿态是相对固定的，因此在序列中很难找到具有显著动态特征的物体或者区域，导致可以用来进行跟踪的特征点非常有限，而ＯＲＢＳＬＡＭ２在低动态环境下具有较好的表现，因此很难在低动态序列中大幅提高其性能。在ＲＰＥ方面，从表３和表４可以看出在高动态序列中提升效果明显，同样在低动态序列中提升效果不明显。

为了更加直观体现本文算法与ＯＲＢ-ＳＬＡＭ２算法的效果对比，分别绘制了高动态序列下的ＡＴＥ和ＲＰＥ对比图，其中ＯＲＢＳＬＡＭ２算法（上），本文算法（下）。图８为ＡＴＥ对比，图中的黑色曲线表示相机的真实轨迹，蓝色部分表示估计的轨迹。红色线段则是二者的误差，误差越小，红色线段就越短，表示系统的精度越高。图９为ＲＰＥ对比，可以看出本文算法相比于ＯＲＢＳＬＡＭ２算法，误差的波动范围很小，其稳定性更好。不难看出，在动态场景下本文算法相比原算法的定位精度和鲁棒性都有显著的提升。

４．２．４其他算法对比

为了验证本文算法的先进性，将其与近年来比较优秀的ＳＬＡＭ算法进行了比较。其中，ＤＳ-ＳＬＡＭ和ＤｙｎａＳＬＡＭ是基于ＯＲＢ-ＳＬＡＭ２框架，采用语义分割算法提取动态场景的语义信息；ＤｅｔｅｃｔＳＬＡＭ则利用ＹＯＬＯｖ３目标检测算法对特定的动态物体进行检测并剔除；文献［２４］是基于几何与运动约束进行特征匹配，来减少动态特征点和错误匹配点的影响。表５和表６展示了本文算法与其他算法误差对比和部分算法平均运行时间对比。

综合比较表５和表６可以看出，与ＤＳ-ＳＬＡＭ算法相比，本文算法在高动态场景下的定位精度和运行时间效率均得到了显著提升，在ｗａｌｋｉｎｇ＿ｘｙｚ和ｗａｌｋｉｎｇ＿ｓｔａｔｉｃ序列上ＡＴＥ的ＲＭＳＥ分别降低了３１．６％、６．２％，平均运行时间降低了３９．２％；与ＤｙｎａＳＬＡＭ算法相比，本文算法在定位精度方面的表现相近，但在运行时间方面快了７倍多，运行速度更快，这是因为ＤｙｎａＳＬＡＭ采用了ＭａｓｋＲ-ＣＮＮ实例分割算法，处理图像时较为耗时；同时，与ＤｅｔｅｃｔＳＬＡＭ算法和文献［２４］中的算法进行对比，本文算法在定位精度也有着不同程度的提升。通过以上比较，进一步验证了本文算法的先进性。

５结束语

本文提出了一种融合ＹＯＬＯｖ５ｓ轻量级目标检测网络的视觉ＳＬＡＭ算法，旨在解决动态场景下视觉ＳＬＡＭ系统受到动态物体影响导致定位精度和鲁棒性下降的问题。该算法采用了基于ＹＯＬＯｖ５ｓ的轻量化目标检测算法来实时检测动态物体，再结合ＯＲＢ-ＳＬＡＭ２算法提取图像中的语义信息并剔除先验的动态特征，最后通过ＬＫ光流法和对极几何约束来剔除动态特征点。实验结果表明，相比原ＯＲＢＳＬＡＭ２算法，该算法在高动态序列下的ＡＴＥ和ＲＰＥ均提高了９５％以上，并且在保证实时性的同时，提高了定位精度和鲁棒性，相比当前一些优秀的ＳＬＡＭ算法，在精度和实时性上有着显著的提升。因此，本文提出的融合ＹＯＬＯｖ５ｓ目标检测的视觉ＳＬＡＭ算法具有较好的实际应用前景。下一步，考虑采用多传感器融合和使用新的算法框架（如ＯＲＢ-ＳＬＡＭ３）进行优化改进，使算法适应更多场景的需要。

参考文献

［１］赵燕成，房桐，杜保帅，等．移动机器人视觉ＳＬＡＭ回环检测现状研究［Ｊ］．无线电工程，２０２３，５３（１）：１２９－１３９．

［２］ＫＬＥＩＮＧ，ＭＵＲＲＡＹＤ．ＰａｒａｌｌｅｌＴｒａｃｋｉｎｇａｎｄＭａｐｐｉｎｇｆｏｒＳｍａｌｌＡＲＷｏｒｋｓｐａｃｅｓ［Ｃ］∥２００７６ｔｈＩＥＥＥａｎｄＡＣＭＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎＭｉｘｅｄａｎｄＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ．Ｎａｒａ：ＩＥＥＥ，２００７：２２５－２３４．

［３］ＭＵＲＡＲＴＡＬＲ，ＴＡＲＤＯＳＪＤ．ＯＲＢＳＬＡＭ２：ＡｎＯｐｅｎｓｏｕｒｃｅＳＬＡＭＳｙｓｔｅｍｆｏｒＭｏｎｏｃｕｌａｒ，Ｓｔｅｒｅｏ，ａｎｄＲＧＢＤＣａｍｅｒａｓ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＲｏｂｏｔｉｃｓ，２０１７，３３（５）：１２５５－１２６２．

［４］ＥＮＧＥＬＪ，ＳＣＨＯＰＳＴ，ＣＲＥＭＥＲＳＤ．ＬＳＤＳＬＡＭ：ＬａｒｇｅｓｃａｌｅＤｉｒｅｃｔＭｏｎｏｃｕｌａｒＳＬＡＭ［Ｃ］∥ ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ－ＥＣＣＶ２０１４，Ｚｕｒｉｃｈ：Ｓｐｒｉｎｇｅｒ，２０１４：８３４－８４９．

［５］ＭＡＴＳＵＫＩＨ，ＳＴＵＭＢＥＲＧＬＶ，ＵＳＥＮＫＯＶ，ｅｔａｌ．ＯｍｎｉｄｉｒｅｃｔｉｏｎａｌＤＳＯ：ＤｉｒｅｃｔＳｐａｒｓｅＯｄｏｍｅｔｒｙｗｉｔｈＦｉｓｈｅｙｅＣａｍｅｒａｓ［Ｊ］．ＩＥＥＥＲｏｂｏｔｉｃｓａｎｄＡｕｔｏｍａｔｉｏｎＬｅｔｔｅｒｓ，２０１８，３（４）：３６９３－３７００．

［６］ＫＵＮＤＵＡ，ＫＲＩＳＨＮＡＫＭ，ＳＩＶＡＳＷＡＭＹＪ．ＭｏｖｉｎｇＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎｂｙＭｕｌｔｉｖｉｅｗＧｅｏｍｅｔｒｉｃＴｅｃｈｎｉｑｕｅｓｆｒｏｍａＳｉｎｇｌｅＣａｍｅｒａＭｏｕｎｔｅｄＲｏｂｏｔ［Ｃ］∥２０１９ＩＥＥＥ／ＲＳＪＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｎｔｅｌｌｉｇｅｎｔＲｏｂｏｔｓａｎｄＳｙｓｔｅｍｓ．Ｓｔ．Ｌｏｕｉｓ：ＩＥＥＥ，２００９：４３０６－４３１２．

［７］ＰＡＬＡＺＺＯＬＯＥ，ＢＥＨＬＥＹＪ，ＬＯＴＴＥＳＰ，ｅｔａｌ．ＲｅＦｕｓｉｏｎ：３ＤＲｅｃｏｎｓｔｒｕｃｔｉｏｎｉｎＤｙｎａｍｉｃＥｎｖｉｒｏｎｍｅｎｔｓｆｏｒＲＧＢＤＣａｍｅｒａｓＥｘｐｌｏｉｔｉｎｇＲｅｓｉｄｕａｌｓ［Ｃ］∥２０１９ＩＥＥＥ／ＲＳＪＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｎｔｅｌｌｉｇｅｎｔＲｏｂｏｔｓａｎｄＳｙｓｔｅｍｓ．Ｍａｃａｕ：ＩＥＥＥ，２０１９：７８５５－７８６２．

［８］ＦＡＮＧＹＱ，ＤＡＩＢ．ＡｎＩｍｐｒｏｖｅｄＭｏｖｉｎｇＴａｒｇｅｔＤｅｔｅｃｔｉｎｇａｎｄＴｒａｃｋｉｎｇＢａｓｅｄｏｎＯｐｔｉｃａｌＦｌｏｗＴｅｃｈｎｉｑｕｅａｎｄＫａｌｍａｎＦｉｌｔｅｒ［Ｃ］∥２００９４ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ＆Ｅｄｕｃａｔｉｏｎ．Ｎａｎｎｉｎｇ：ＩＥＥＥ，２００９：１１９７－１２０２．

［９］ＺＨＡＮＧＴＷ，ＺＨＡＮＧＨＹ，ＬＩＹ，ｅｔａｌ．ＦｌｏｗＦｕｓｉｏｎ：ＤｙｎａｍｉｃＤｅｎｓｅＲＧＢＤＳＬＡＭＢａｓｅｄｏｎＯｐｔｉｃａｌＦｌｏｗ［Ｃ］∥２０２０ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＲｏｂｏｔｉｃｓａｎｄＡｕｔｏｍａｔｉｏｎ．Ｐａｒｉｓ：ＩＥＥＥ，２０２０：７３２２－７３２８．

［１０］ＹＵＣ，ＬＩＵＺＸ，ＬＩＵＸＪ，ｅｔａｌ．ＤＳＳＬＡＭ：ＡＳｅｍａｎｔｉｃＶｉｓｕａｌＳＬＡＭＴｏｗａｒｄｓＤｙｎａｍｉｃＥｎｖｉｒｏｎｍｅｎｔｓ［Ｃ］∥２０１８ＩＥＥＥ／ＲＳＪＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｎｔｅｌｌｉｇｅｎｔＲｏｂｏｔｓａｎｄＳｙｓｔｅｍｓ．Ｍａｄｒｉｄ：ＩＥＥＥ，２０１８：１１６８－１１７４．

［１１］ＢＡＤＲＩＮＡＲＡＹＡＮＡＮＶ，ＫＥＮＤＡＬＬＡ，ＣＩＰＯＬＬＡＲ．ＳｅｇＮｅｔ：ＡＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎａｌＥｎｃｏｄｅｒＤｅｃｏｄｅｒＡｒｃｈｉｔｅｃｔｕｒｅｆｏｒＩｍａｇｅＳｅｇｍｅｎｔａｔｉｏｎ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，２０１７，３９（１２）：２４８１－２４９５．

［１２］ＢＥＳＣＯＳＢ，ＦＡＣＩＬＪＭ，ＣＩＶＥＲＡＪ，ｅｔａｌ．ＤｙｎａＳＬＡＭ：Ｔｒａｃｋｉｎｇ，Ｍａｐｐｉｎｇ，ａｎｄＩｎｐａｉｎｔｉｎｇｉｎＤｙｎａｍｉｃＳｃｅｎｅｓ［Ｊ］．ＩＥＥＥＲｏｂｏｔｉｃｓａｎｄＡｕｔｏｍａｔｉｏｎＬｅｔｔｅｒｓ，２０１８，３（４）：４０７６－４０８３．

［１３］ＨＥＫＭ，ＧＫＩＯＸＡＲＩＧ，ＤＯＬＬ？ＲＰ，ｅｔａｌ．ＭａｓｋＲＣＮＮ［Ｃ］∥ ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ．Ｖｅｎｉｃｅ：ＩＥＥＥ，２０１７：２９６１－２９６９．

［１４］ＺＨＯＮＧＦＷ，ＷＡＮＧＳ，ＺＨＡＮＧＺＱ，ｅｔａｌ．ＤｅｔｅｃｔＳＬＡＭ：ＭａｋｉｎｇＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎａｎｄＳＬＡＭＭｕｔｕａｌｌｙＢｅｎｅｆｉｃｉａｌ［Ｃ］∥ ＩＥＥＥＷｉｎｔｅｒＣｏｎｆｅｒｅｎｃｅｏｎＡｐｐｌｉｃａｔｉｏｎｓｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ．ＬａｋｅＴａｈｏｅ：ＩＥＥＥ，２０１８：１００１－１０１０．

［１５］ＬＩＵＷ，ＡＮＧＵＥＬＯＶＤ，ＥＲＨＡＮＤ，ｅｔａｌ．ＳＳＤ：ＳｉｎｇｌｅＳｈｏｔＭｕｌｔｉＢｏｘＤｅｔｅｃｔｏｒ［Ｃ］∥ ＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ．Ａｍｓｔｅｒｄａｍ：Ｓｐｒｉｎｇｅｒ，２０１６：２１－３７．

［１６］ＷＡＮＧＺＭ，ＺＨＡＮＧＱ，ＬＩＪＳ，ｅｔａｌ．ＡＣｏｍｐｕｔａｔｉｏｎａｌｌｙＥｆｆｉｃｉｅｎｔＳｅｍａｎｔｉｃＳＬＡＭＳｏｌｕｔｉｏｎｆｏｒＤｙｎａｍｉｃＳｃｅｎｅｓ［Ｊ］．ＲｅｍｏｔｅＳｅｎｓｉｎｇ，２０１９，１１（１１）：１３６３．

［１７］伍子嘉，陈航，彭勇，等．动态环境下融合轻量级ＹＯＬＯｖ５ｓ的视觉ＳＬＡＭ［Ｊ］．计算机工程，２０２２，４８（８）：１８７－１９５．

［１８］ＨＡＮＫ，ＷＡＮＧＹＨ，ＴＩＡＮＱ，ｅｔａｌ．ＧｈｏｓｔＮｅｔ：ＭｏｒｅＦｅａｔｕｒｅｓｆｒｏｍＣｈｅａｐＯｐｅｒａｔｉｏｎｓ［Ｃ］∥ Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０２０ＩＥＥＥ／ＣＶＦＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．Ｓｅａｔｔｌｅ：ＩＥＥＥ，２０２０：１５８０－１５８９．

［１９］ＨＯＵＱＢ，ＺＨＯＵＤＱ，ＦＥＮＧＪＳ．ＣｏｏｒｄｉｎａｔｅＡｔｔｅｎｔｉｏｎｆｏｒＥｆｆｉｃｉｅｎｔＭｏｂｉｌｅＮｅｔｗｏｒｋＤｅｓｉｇｎ［Ｃ］∥Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０２１ＩＥＥＥ／ＣＶＦＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．Ｎａｓｈｖｉｌｌｅ：ＩＥＥＥ，２０２１：１３７１３－１３７２２．

［２０］ＺＨＥＮＧＺＨ，ＷＡＮＧＰ，ＲＥＮＤＷ，ｅｔａｌ．ＥｎｈａｎｃｉｎｇＧｅｏｍｅｔｒｉｃＦａｃｔｏｒｓｉｎＭｏｄｅｌＬｅａｒｎｉｎｇａｎｄＩｎｆｅｒｅｎｃｅｆｏｒＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎａｎｄＩｎｓｔａｎｃｅＳｅｇｍｅｎｔａｔｉｏｎ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＣｙｂｅｒｎｅｔｉｃｓ，２０２２，５２（８）：８５７４－８５８６．

［２１］ＺＨＡＮＧＹＦ，ＲＥＮＷＱ，ＺＨＡＮＧＺ，ｅｔａｌ．ＦｏｃａｌａｎｄＥｆｆｉｃｉｅｎｔＩＯＵＬｏｓｓｆｏｒＡｃｃｕｒａｔｅＢｏｕｎｄｉｎｇＢｏｘＲｅｇｒｅｓｓｉｏｎ［Ｊ］．Ｎｅｕｒｏｃｏｍｐｕｔｉｎｇ，２０２１，５０６：１４６－１５７．

［２２］ＬＵＣＡＳＢＤ，ＫＡＮＡＤＥＴ．ＡｎＩｔｅｒａｔｉｖｅＩｍａｇｅＲｅｇｉｓｔｒａｔｉｏｎＴｅｃｈｎｉｑｕｅｗｉｔｈａｎＡｐｐｌｉｃａｔｉｏｎｔｏＳｔｅｒｅｏＶｉｓｉｏｎ［Ｃ］∥ＩＪＣＡＩ’８１：Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ７ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ．Ｖａｎｃｏｕｖｅｒ：ＭｏｒｇａｎＫａｕｆｍａｎｎＰｕｂｌｉｓｈｅｒｓＩｎｃ．，１９８１：６７４－６７９．

［２３］ＳＴＵＲＭＪ，ＥＮＧＥＬＨＡＲＤＮ，ＥＮＤＲＥＳＦ，ｅｔａｌ．ＡＢｅｎｃｈｍａｒｋｆｏｒｔｈｅＥｖａｌｕａｔｉｏｎｏｆＲＧＢＤＳＬＡＭＳｙｓｔｅｍｓ［Ｃ］∥ＩＥＥＥ／ＲＳＪＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｎｔｅｌｌｉｇｅｎｔＲｏｂｏｔｓａｎｄＳｙｓｔｅｍｓ．Ｖｉｌａｍｏｕｒａ：ＩＥＥＥ，２０１２：５７３－５８０．

［２４］艾青林，刘刚江，徐巧宁．动态环境下基于改进几何与运动约束的机器人ＲＧＢＤＳＬＡＭ算法［Ｊ］．机器人，２０２１，４３（２）：１６７－１７６．

作者简介

赵燕成男，（１９９９—），硕士研究生。主要研究方向：视觉ＳＬＡＭ、深度学习。

魏天旭男，（１９９７—），硕士研究生。主要研究方向：深度学习、网络控制系统。

仝棣男，（１９９６—），硕士研究生。主要研究方向：目标检测、神经网络。

（*通信作者）赵景波男，（１９７１—），博士，教授。主要研究方向：机器人工程、计算机控制。

基金项目：国家自然科学基金（５１４７５２５１）；青岛市民生计划（２２３７ｘｄｎｙ１８ｎｓｈ）