视觉与惯性传感器融合的SLAM技术综述

2020-12-03杨观赐王霄远蒋亚汶

贵州大学学报(自然科学版) 2020年6期

杨观赐，王霄远，蒋亚汶，李杨

(贵州大学现代制造技术教育部重点实验室，贵州贵阳 550025)

同时定位和建图(simultaneous localization and mapping, SLAM)[1-2]是指将移动机器人置于未知环境中的未知位置时，移动机器人自动逐步构建与环境一致的地图，并同时使用该地图确定其自身在地图中的位置。SLAM系统由前端和后端组成，前端主要负责执行数据关联，后端主要负责状态推断。在确保计算效率的同时，如何确保地图和位姿估计的全局一致性和高精度，如何解决非线性、数据关联和界标特性等问题引起了众多学者的关注。

典型SLAM解决方案[3]主要利用视觉传感器，虽然取得了不错的效果，但是当移动机器人处于低纹理、光照变化和图像模糊、以及高速运动时表现欠佳。视觉传感器低速运行时能够有较精确地环境特征跟踪表现，但是随着速度的增大，特征跟踪的准确性迅速降低；惯性传感器(inertial measurement unit，IMU)能够跟随运动速度变化，不受运动场景和运动速度的限制而准确测量出角速度和线性加速度，但是当其长时间运行时，IMU因其自身偏置而产生估计累计漂移[3-4]。融合使用视觉和惯性传感器可以提供丰富的运动和环境结构信息。为了发挥视觉传感器和IMU的优势，规避它们的劣势，人们研制了视觉传感器和IMU融合的SLAM(visual-inertial SLAM, VI-SLAM)系统(见图1)[5]，采用基于优化或基于滤波的技术采集物理量，然后运用特定的方法估算这些物理量，从而获得对自身运动和场景结构的可靠估计[6-7]。

图1 几种典型的视觉惯性传感器

当前，VI-SLAM已广泛应用于机器人导航[5,12-18]，无人机[19-27]，增强现实[28-32]，虚拟现实[33]以及无人驾驶[34]等领域，而传感器的校准、系统的初始化、数据的处理和融合方法、闭环检测的精度和效率等因素都会对VI-SLAM系统产生影响[8]。为了更好地把握VI-SLAM领域取得的成果，本文从VI-SLAM系统、视觉惯性里程计、定位和建图技术以及VI-SLAM的研究平台方面进行了综述，并展望了发展趋势。

1 视觉惯性SLAM系统技术分类

图2是VI-SLAM系统的框架结构图。系统启动时，首先校准传感器；系统运行过程中，不同传感器分别采集环境结构信息和机器人运动信息；在预处理所采集的数据后，使用不同的融合策略进行数据融合；最后利用融合的数据实现定位和建图。接下来，将综述基于关键帧的VI-SLAM系统、稠密VI-SLAM系统、紧密耦合的VI-SLAM系统和协作式的VI-SLAM系统的技术特点。

图2 视觉惯性SLAM系统的框架

1.1 基于关键帧的VI-SLAM系统

对于传感器数据的融合，基于过滤的融合策略与非线性优化方法相比，后者在鲁棒性、精度和计算复杂度上更具优势。文献[35]将惯性测量数据集成到基于关键帧的视觉SLAM中，将IMU误差项以全概率的方式与界标重投影误差集成在一起进行联合优化非线性成本函数，并利用“关键帧”概念边缘化过去状态部分来维持有限大小的优化窗口，从而确保实时性操作。文献[36]提出了基于关键帧的视觉惯性协作式同时定位和建图框架，在建图和定位高效协作方面具有优势。文献[37]提出的基于关键帧的单目和双目相机视觉惯性融合的SLAM系统，能够获得更好的局部一致轨迹和地图估计，并通过局部跟踪、位姿图优化和闭环检测实现VI-SLAM的定位准确性和全局一致性。此外，它能够根据先前构建的地图进行重新定位并继续执行SLAM。文献[38]提出的实时单目VI-SLAM系统在消除漂移方面性能良好，它通过融合单目视觉惯性里程计特征实现重定位，然后执行4-DOF位姿图优化校正漂移。此系统可以通过重用地图和重新定位相机获得机器人在已有地图中的绝对位姿，通过全局位姿图优化将当前地图与先前地图合并。

1.2 稠密VI-SLAM系统

文献[39]提出的稠密VI-SLAM系统，可以同时优化相机的位姿、速度、IMU偏置和重力方向，构建稠密的环境3D场景地图。文献[40]构建了一种基于动态网格与双目摄像头的稠密视觉惯性SLAM系统。该系统将空间划分为网格，在线重建场景的完全稠密地图。文献[41]研究了具有结构约束的稠密平面惯性SLAM框架。它使用手持式RGB-D传感器和IMU重建大型室内环境的稠密3D模型，通过结构约束减少输出建图中的漂移和失真。文献[42]提出的方法能够从摄像头的运动情况和稀疏深度推断稠密深度信息，从极稀疏的点云中恢复场景几何形状。文献[10]使用直接法同时优化IMU测量和视觉数据，形成了基于直接法的VI-SLAM，可以用于实时的场景稠密地图在线重建和跟踪。而为了平衡精度和计算效率，文献[43]提出了基于半直接法的VI-SLAM，它集成了特征法的准确性和直接法的快速性，在估计机器人的运动和稀疏场景的结构方面具有优势。

1.3 紧密耦合的VI-SLAM系统

移动机器人具有实时定位和地建图功能才能真正自主地运行。其路径规划和决策依赖于机器人对周围环境的及时准确建图和状态估计。对此，文献[44]提出了基于传感器时间同步校准的紧密耦合实时VI-SLAM框架，它能够在动态的环境中进行准确、实时的位姿估计和建图。文献[45]提出的多合一多传感器视觉惯性融合SLAM，通过同步和校准多传感器，实现紧密耦合的视觉惯性跟踪和并行建图。此方法能够与其他传感器模态松散耦合。由于视觉惯性系统具有非线性的特点，其性能在很大程度上取决于初始值的准确性，因此，文献[46]提出了提高初始状态估计准确性的方法。即：在已知重力大小的基础上，通过优化其切线空间上的二维误差状态细化估计的重力矢量，然后分别估计加速度计的偏置。此外，它还提出了确定何时初始化成功的自动终止条件，一旦初始状态估计收敛，就使用初始估计值启动非线性紧密耦合的VI-SLAM系统。

鉴于视觉惯性里程计(visual-inertial odometry, VIO)方法缺乏闭合回路的能力，并且即使传感器不断地重新访问同一位置，轨迹估计也会出现累积漂移，文献[47]提出了一种新颖的紧密耦合的VI-SLAM系统。该系统可以闭合回路并重用其地图，能在已建图的区域实现对传感器的零漂移定位；其局部建图线程在插入新的关键帧之后将执行局部BA(bundle adjustment)，优化最后N个关键帧和由这些关键帧所观察到的所有点特征。为了获得鲁棒的SLAM，文献[48]提出了可以实时匹配全局最优结果的基于紧密耦合的非线性优化单目VI-SLAM。此系统采用多线程、异步自适应数值优化求解器，自适应地识别SLAM图的边界条件并进行同步和异步求解。为了实现移动机器人重启后快速的实时定位，文献[49]提出了基于地图元素与关键帧数据库的离线地图构建方法，并通过序列化方法进行保存与加载，之后，设计了基于离线地图的加载重定位方法，并形成了离线地图与建图轨迹的可视化方法。此系统能根据所得离线地图进行重定位和全局定位跟踪。

1.4 协作式VI-SLAM系统

近年来，协作式VI-SLAM系统研究也得到了快速的发展。针对多个单目摄像头，文献[50]研究了两个智能体间协作实现VIO的方法；文献[51]提出了基于交换的视觉惯性数据包的分散数据共享方法；文献[52]利用多摄像头采集的数据融合惯性测量数据进行在线校准初始化。围绕同时存在摄像头-IMU和双目摄像头的惯性里程计系统，文献[53]设计了可以在线估计初始值并同时校准传感器的方法；文献[54]通过融合事件相机和惯性测量数据，提供准确的状态估计。文献[55]将较大室内空间内多个用户在不同时刻使用移动设备收集的视觉和惯性测量数据进行融合，从而实现协作建图。协作式VI-SLAM系统能够最大限度地感知周围环境、提供丰富的传感数据供系统使用。虽然在环境退化的情况下，系统也能表现出高精度和鲁棒性，但是协作式VI-SLAM系统要求较大的计算能力。

2 视觉惯性里程计

视觉惯性里程计使用相机与IMU采集的数据进行融合以估算机器人状态。VIO系统将来自视觉传感器和IMU的数据融合处理，获得对视觉传感器运动的更好测量。机器人高速运动时，相机帧之间可能无法进行特征匹配，IMU可以提供信息，使系统仍然保持较准确的位姿估计。同时，视觉图像信息可以弥补机器人低速运动时IMU存在的漂移问题[56]。在VIO和VI-SLAM系统中，视觉图像和IMU采集数据主要使用基于滤波方法或非线性优化方法进行数据融合。根据传感器融合测量方法不同，VIO系统分为松耦合和紧密耦合的方法。松耦合方法分别对图像和IMU数据进行预处理，然后进行融合；紧密耦合方法则直接融合相机和IMU的原始测量值找到最佳估计。表1是视觉惯性传感器数据融合方法的比较情况。与松耦合方法相比，紧密耦合方法更准确，更可靠[57]。

表1 融合方法对比

图3是视觉惯性里程计的结构图。VIO方法主要分为基于传统的方法和基于深度学习的方法。其中，传统的方法又细分为5类：基于扩展卡尔曼滤波器(extended Kalman filter，EKF)的VIO，基于点线特征的VIO，基于优化的VIO，基于直接方法的VIO和基于事件相机的VIO。值得注意的是，虽然当前基于事件相机的VIO方法较少，但是由于事件相机具有擅长捕捉亮度变化、在较暗和强光场景下也能输出有效数据的特点，基于事件相机的VIO方法值得期待，因此对此类方法进行了单独分析。基于深度学习的方法又细分为基于端到端学习的方法和基于监督学习的方法。

图3 视觉惯性里程计结构图

2.1 基于传统方法的VIO

2.1.1基于EKF的VIO

为充分利用视觉和惯性传感器采集的信息，文献[58]提出基于扩展卡尔曼滤波器的半直接VIO方法，该方法几乎可以在原始传感器级别上紧密融合视觉传感器和惯性测量数据，同时结合了紧密耦合的视觉惯性扩展卡尔曼滤波器的优点以及直接光度法的鲁棒性和精度。文献[59]提出的基于全密集紧密耦合直接滤波的VIO方法同时估计所有像素的深度和机器人状态，通过向状态向量添加深度和强度信息，能够一步更新所有条目。文献[60]提出以机器人为中心的基于扩展卡尔曼滤波器的直接VIO框架。该方法以机器人为中心，结合光度误差的直接反馈，通过迭代扩展卡尔曼滤波器处理界标跟踪，可以实现多相机支持，对相机和IMU进行在线校准。文献[61]直接使用图像块的像素强度误差来实现精确的跟踪性能，具有良好的鲁棒性。

考虑到滤波器中计算雅可比的标准方法会导致准确性下降，文献[62]提出的多状态约束卡尔曼滤波器算法主要包括3个部分: EKF误差状态转换矩阵的封闭式计算、定向误差的参数化、在过滤器中选择线性化的点。在此基础上，文献[63]提出的基于滤波器的双目VIO方法，在计算效率和鲁棒性方面表现更优。与此同时，文献[64]基于文献[62]的框架，通过构建新的初始化方法设计了一种新的VIO算法，能够通过分析跟踪的特征自动检测静止场景，并根据静态IMU数据初始化滤波器状态。文献[65]提出了一种实时VIO算法。该算法通过确保其线性化系统模型的正确可读，对相机-IMU校准参数进行在线估算，从而确保实现一致性的估计。为了确保提供的测量信息足以在线校准相机的固有参数，文献[66]设计了视觉惯性系统的非线性可观测性分析方法，通过在线校准相机固有参数提高位姿估计的准确性。而文献[67]提出的基于RGB-D相机和IMU的VIO方法，不仅可以估算相机的运动轨迹，还可以在线校准重力场和相机与IMU之间的相对位姿以提高位姿估计准确性，并通过迭代优化减少线性误差。此外，文献[68]将IMU测量值与相机提供的视觉特征轨迹的观察结果相融合，实时生成高精度状态估计值。

2.1.2基于点线特征的VIO

相比于点特征，线特征能够提供更多的环境几何结构信息，在无法可靠检测或跟踪点特征的低纹理环境或照明变化场景中，线特征可以有效提高系统的鲁棒性。为了同时使用点和线特征，文献[69]提出了基于滤波的紧密耦合双目视觉惯性里程计系统。此系统在滑动窗口上对点和线要素进行处理，并使用闭环技术减少累计漂移。为了解决相机轨迹估计的问题并构建基于惯性测量和视觉观察结构的3D地图，文献[57]提出了基于点线特征的紧密耦合VIO系统。系统主要包含两个模块：前端负责传播IMU主体状态，检测/匹配点线特征(见图4)，后端用于估计和优化自身状态。文献[70]通过构建具有几何信息的环境特征图，合并IMU测量数据为视觉定位算法提供先验和比例信息。然后，基于稀疏图像对准的运动估计获得初始位姿估计，进一步执行特征对准以获得子像素级特征相关性。最后，通过最小化局部地图点和线的重投影误差，获得高精度的位姿和3D界标。文献[71]通过使用平行线的图像投影相交点消除角度漂移，从而提高了基于特征的VIO精度。文献[72]简化了基于融合点和线特征匹配的方法和VIO初始化策略。在VIO初始化过程中，将恒定速度约束应用于运动中的机器人，动态地加快了初始状态变量的获取；通过优化滑动窗口模型构造点特征和由线特征表征的稀疏图。

图4 视觉惯性传感器、点和线观测示意图[57]

2.1.3基于优化的VIO

虽然VIO能够通过非线性优化获得较高精度的状态估计，但是随着运行时间增长、运动轨迹增长，实时优化变得不可行。鉴于此，文献[73]将选定关键帧之间的惯性测量值预先集成到单个相对运动约束中。为了更好地利用视觉惯性测量值、减少线性化导致的次优性，文献[8]提出了基于关键帧的紧密耦合视觉惯性融合框架。此方法中，速度和IMU偏置作为时间序列，利用线性化和边缘化获取关键帧、估计位姿以及输出稀疏地标的3D地图。文献[74]通过特征检测和稀疏光流算法跟踪特征，将加速度计偏置纳入测量模型，采用紧密耦合的非线性优化方法将预集成的IMU测量值与双目摄像头的视觉测量值进行融合，进而提高了系统的准确性和效率。

2.1.4基于直接方法的VIO

文献[75]提出的紧密耦合的直接双目VIO方法，将双目相机与IMU结合，可以实时准确地估计相机运动，实现对环境的半密集3D重建。鉴于单目视觉里程计无法测距，基于直接稀疏的单目里程计算法，文献[76]提出了直接的紧密耦合的VIO系统。此系统通过添加IMU和最小化能量函数中的光度和IMU测量误差，估计相机的位姿和稀疏场景几何形状。文献[77]研究了融合IMU和双目摄像头的直接稀疏VIO方法，能够获得可读的半稠密地图，重建3D场景。

2.1.5基于事件相机的VIO

基于事件相机的VIO，通过异步检测相机上所有像素的图像强度变化构建视觉感应模型。相机高速率捕获场景变化，可以处理非常快的运动而不会出现图像模糊，文献[78]提出了融合事件相机和惯性测量数据的VIO方法。此方法可以精确跟踪相机6自由度位姿，以较小的漂移来跟踪较长的相机轨迹。文献[79]考虑重叠时空窗口中的事件，通过使用当前的相机运动和场景结构进行对准，从而产生补偿运动的事件帧，然后将所获得的特征轨迹集成到基于关键帧的非线性优化VIO算法，从而实现相机的6自由度位姿、速度和IMU偏置的估计。

2.2 基于深度学习的VIO

传统的视觉惯性融合方法依赖于已有图像特征，在无特征区域、运动模糊、环境中的动态元素多和照明变化大、以及无纹理场景等情况下表现不佳，这限制了其应用。深度学习方法因其强大的特征提取能力，能从高维数据中输出有意义的特征，这为视觉惯性融合提供了新途径。

2.2.1基于端到端学习的方法

文献[80]研究了以机器人为中心的EKF端到端可训练VIO算法。它的EKF在IMU的基础上传播其状态，并在更新步骤中融合了来自深度学习网络的视觉相对位姿测量值和噪音；系统通过反向传播进行端到端训练，能根据目标优化整个系统。为了增强SLAM系统的鲁棒性，文献[56]提出了一种端到端惯性网络模型。此模型能够建模相机位姿和IMU之间的关系，能够根据图像序列预测相机的旋转等复杂的运动轨迹。为了处理不完备的传感数据，文献[81]提出了一种新颖的端到端学习传感器数据融合框架。此框架能够融合单目摄像头图像和惯性测量数据，能够选择性地处理传感器模态特征，并按比例生成鲁棒的轨迹估计。受处理原始高维数据的深度学习模型启发，文献[82]设计了用于执行VIO的完全可训练的端到端递归网络训练模型。该方法将VIO视为逐序列回归问题，将中间特征进行数据融合，通过自适应学习校准错误以缓解漂移。

2.2.2基于监督学习的方法

为了集成深度学习和传统VIO方法的优点，文献[83]将传统的VIO方法集成到端到端的无监督的深度神经网络。通过引导学习的深度图像比例估计按比例缩放的轨迹，在学习的过程中执行VIO估计场景深度。文献[84]提出了无监督的深度神经网络框架，将来自不同参考系的未校准的、时间上松散的同步多模态数据组进行里程计估计；通过整合IMU测量并生成假设轨迹，根据缩放后的图像投影误差的雅可比矩阵相对于像素坐标的空间网格，在线校正假设轨迹估计。文献[85]提出使用在线纠错模块解决定位问题。通过训练，检测和纠正中间网络输出的误差，并最小化所产生的误差估计。

针对动态目标和无纹理场景，文献[86]研究了从3D几何约束中获取监督信号的自监督端对端单目VIO网络(DeepVIO)。通过融合网络的姿态反馈，更新IMU的附加偏置，改善IMU位姿估计，根据3D图像序列估算视觉惯性传感器的绝对轨迹。表2是基于深度学习的VIO方法特点总结。

表2 基于深度学习的VIO方法总结

3 定位与建图

实现高精度和高效率的同时定位与建图是机器人在复杂环境下执行特定任务的前提。本小节将综述具有代表性的基于视觉惯性传感器融合的同时定位与建图方法。

3.1 定位

在长时间的运行过程中，估计器的漂移往往会破坏与全局地图的对准。文献[87]提出的实时快速定位系统，集成了VIO和定位功能，运用已构建的地图消除估计器漂移的影响。文献[88]将VIO估计器的局部地图合并到全局一致性的地图中，然后针对该地图执行在线重新定位，以削减VIO系统中的漂移。

由于大型地图定位技术存在高计算复杂性以及高模型内存消耗，因此当前的方法要么局限于小型工作区，要么依赖服务器端系统在跟踪本地位姿的同时查询全局模型与之匹配。文献[89]提出了针对全局3D地图估计和相机位姿跟踪的框架，将全局位姿估计融合到视觉惯性SLAM系统中，使用搜索结构加快在地图中的全局定位，能够在资源有限的移动平台上执行实时姿态估计和跟踪。文献[90]提出了以机器人为中心的视觉惯性导航系统。它通过所设计的高效、轻巧的机器人视觉惯性里程计算法，仅使用单目视觉让机器人能够在充满挑战的环境中实现一致的定位。

3.2 建图

视觉传感器和IMU在自我运动估计和环境建图中可作为互补传感器用于增强SLAM系统的鲁棒性。对于全局一致性的建图，将视觉信息和惯性信息组合起来充满挑战。通常，大多数系统的特征提取都作用在具有较大时间间隔的关键帧上，这使得惯性数据随着时间间隔的持续，其蕴含的有用信息量减少。文献[91]提出使用非线性因子恢复从VIO中提取包含在关键帧之间累计的视觉和惯性信息，用于实现视觉惯性全局一致性的建图。文献[92]构建了将所生成的本地深度图和全局地图融合与维护的方法，提出了实时视觉惯性建图系统。而针对传感器的起始姿势转换未知的问题，文献[55]提出了使用多个传感器在不同时段收集的数据进行协作建图的方法。此方法将协作建图算法转化为约束优化问题，在观察的点和线要素之间施加几何约束，将各个传感器独立估计的轨迹和地图融合成一张地图。针对动态复杂环境下系统长期运行导致的问题，文献[93]提出了基于自回归建模和地图预测的长期单目视觉惯性SLAM。首先根据存储模型将地图点分为静态和半静态地图点，然后对从时间序列模型中获取的半静态地图点的不同状态进行建模和预测。如果预测结果不理想，则将预测图与当前图融合，从而利于下一帧获得更好的预测效果。

4 视觉惯性融合研究平台

这一节综述当前用于VI-SLAM研究的平台：Maplab、VINS-Mono、VINS-RGBD、VersaVINS和OpenVINS。表3是它们的简要比较统计表。

表3 VI-SLAM研究平台比较

Maplab[94]是一个通用的视觉惯性建图和定位的开放框架。该框架提供多会话建图工具集合，支撑地图合并、视觉惯性批处理优化和回环闭合。其在线前端可以创建视觉惯性地图、跟踪本地化地图中的全局无漂移位姿。

VINS-Mono[11]是一种单目视觉惯性状态估计器。系统从测量数据预处理开始，初始化过程提供所有必要的值来引导基于非线性优化的VIO；带有重定位模块的VIO紧密集成了预集成的IMU测量值，特征观察和从闭环中重新检测到的特征；最后，位姿图模块执行4-DOF全局优化以消除漂移并实现重用目的，同时系统还可以通过有效的保存和加载地图来实现地图的重用。

VINS-RGBD[95]是基于VINS-Mono提出、用于机器人的轨迹估计和建图。它扩展了VINS-Mono系统，在初始化过程以及VIO阶段使用深度数据。系统集成了基于二次采样深度数据和八叉树滤波的建图系统以支持回环闭合在内的实时建图。

VersaVIS[9]是一种开放式多功能多相机视觉惯性传感器研究平台，支持各种相机和IMU的传感器融合,可支持移动机器人部署、集成和扩展应用程序。该平台支持IMU执行多台相机的时间同步，能够实现视觉惯性SLAM、多相机应用、多模式建图、重建和基于对象的建图。

OpenVINS[96]集成了块滑动窗口卡尔曼滤波器，支持相机参数在线校准和时间偏移校准；具有不同表示形式和一致性的第一雅可比估计的SLAM界标处理功能；提供状态管理的模块化系统、可扩展的视觉惯性系统模拟器以及用于算法评估的工具箱。

5 未来的发展趋势

在过去的十几年中，由于传感器技术、计算机计算性能和深度学习的快速发展，视觉惯性融合的SLAM技术领域取得了突破性进展。在工程实际中，由于机器人所处环境结构的复杂性、传感器自身的局限性、初始化精度和传感器校准以及数据融合的处理方式等问题，VI-SLAM仍然面临诸多挑战，以下几个方面可能是值得关注的方向。

(1)视觉-惯性传感器在线校准。相机-IMU的空间位置校准和校准参数在系统长时间的运行过程中经常会发生漂移，从而引起后续定位和建图累计误差。当前，虽然已经有很多学者研究了传感器的校准方法，但是往往仅针对有限的参数或者特定型号的传感器进行校准，且实时性表现仍然欠佳。因此，高效的视觉-惯性传感器在线校准方法是值得深入研究的方面。

(2)基于深度学习的状态估计。在实际的运行过程中，高精度可靠的状态估计是机器人实现自主功能的重要前提。近年来，深度学习方法得到了快速的发展，在图像特征提取和匹配方向出现了很多优秀的方法，提供了直接处理原始、高维数据的能力，而无需使用领域知识通过人工制作的特征提取器[80-81,85]。同时，基于深度学习的图像处理方法在应对视觉退化环境，如快速运动、运动模糊和光照变化等因素具有较强的适应性。因此，如何直接利用深度学习的方式，从传感器采集数据同本地或者更高级别的数据特征、知识图谱融合学习，形成智能高效的状态估计方法是一个有前景的方面。

(3)VI-SLAM系统化闭环检测。如果机器人能够进行精准的闭环检测，则可以在节省计算量的同时显著地减少轨迹估计的累计误差，从而提高定位精度和建图效率。虽然文献[43,97-98]中的方法可以实现闭环检测的功能，但也有许多需要提升的方面。突破视觉惯性闭环检测的新理论和新方法，对于提高机器人自主探索环境的能力，提高轨迹估计的精度和效率、定位和建图的能力具有重要意义。

(4)VI-SLAM系统自主环境感知。鲁棒的SLAM自主感知要求能够自主进行高级别的场景理解和自主无人执行高级别任务[99]。如何构建可用于指导完成高级别任务的丰富语义地图，如何提高VI-SLAM系统感知环境和数据并具备认知能力等是值得深入研究的方面。

6 结束语

视觉惯性传感器的互补融合使用极大地促进了SLAM技术的发展，尤其是在VIO方向；结合深度学习方法也取得了不错的效果。目前，视觉惯性传感器互补融合的研究中一部分成果已经得到了实际的应用。但是，VI-SLAM系统在实际运行时，机器人所处的环境是复杂的、外界干扰因素也是多样的，这让VI-SLAM的推广应用变得困难。在未来，随着智能机器人技术的发展，机器人所能实现的功能将会越来越复杂，因此在实现高精度、高效率的定位和建图方面依然有很多的研究工作要做。只有实现实时的、高精度、鲁棒的VI-SLAM系统，才能促进VI-SLAM技术向广泛实际应用转化。