基于路面分割的高精度地图创建优化方法研究
2019-07-11钱宇晗徐汉卿王春香贺越生
钱宇晗, 杨 明,徐汉卿,王春香,贺越生, 梁 熠
(1.上海交通大学机器人研究所, 上海 200240; 2.上海交通大学自动化系,上海 200240; 3.系统控制与信息处理教育部重点实验室,上海 200240; 4. 军委装备发展部某中心, 北京 100034)
0 引言
地面无人平台无论在军事领域还是民用领域都有着广阔的应用前景,越来越多的地面无人平台如无人驾驶汽车[1-2]、无人配送平台[3]、救灾机器人[4]等正在走进人们的视野。高精度地图作为地面无人平台的核心技术,提供丰富的地理位置信息,除了对地面无人平台的定位匹配、路径规划乃至运动控制[5-6]有着至关重要的作用之外,还能在许多恶劣天气和环境下(如雨天、夜晚)提高无人平台的行驶安全[7]。
高精一方面是指地图中包含的数据定位精度高,误差在10cm以内;另一方面也指地图中包含的数据粒度细,信息种类丰富。为了获取高精度地理位置信息,采集时就要求定位精度高。而数据粒度细则需要采集数据全面。
高精度地图分为视觉高精度地图[8]与点云高精度地图[9-10]。视觉高精度地图与点云高精度地图相比,由于具有采集速度快、语义信息明显、数据量更小的优点而广泛使用。但在地图采集的过程中,路径上难免存在其他障碍物遮挡图像导致信息缺失,当障碍物为动态障碍物且与采集平台同向等速行驶时遮挡尤为严重,会导致后期标注时大范围的地面信息丢失。同时采集平台的全球定位系统(Global Positioning System,GPS)容易受到遮挡而产生误差,这会导致高精度地图在生成过程中匹配度下降,精度降低。
针对障碍物遮挡问题,可采用车辆识别去除[11],但会在图像上留下空白区域,需要进一步补全被遮挡的路面信息。针对GPS误差问题,目前有两种主流解决方案。一种基于视觉即时定位与地图构建(Simultaneous Localization and Mapping,SLAM)的解决方案,在图像上根据特征点配准来进行相对位姿估计[12-13]。但该方案对采集环境要求较高,若图像被动态障碍物遮挡严重则会导致有效特征点减少,匹配精度降低。且视觉SLAM对采集频率还有较高要求,大范围地图制作会导致采集数据量过大的问题。还有一种解决GPS误差问题的方案是采用扩展卡尔曼滤波(Extended Kalman Filter,EKF)[14],在GPS信号差的情况下根据当前状态进行位姿预测。这种方案在GPS信号短时间内丢失会有效果,但无法处理GPS长时间处于信号弱或抖动造成的定位误差问题。
基于上述问题,本文在SLAM方法的基础上提出了一种基于图像语义分割的高精度地图优化创建方法。该方法先采用DeepLab v3+深度学习框架[15-16],语义分割出全景图像中的路面信息,将全景图垂直投影获取俯视图。然后利用图像配准方法,将去除了动态障碍物的图像进行位姿匹配,同时将匹配结果与里程计信息融合到图像原有的GPS信息中,利用图像叠加填补遮挡盲区。最后得到精度更高且无动态障碍物干扰的高精度地图。
1 路面信息的语义分割
目前,视觉高精度地图大多以车辆采集为主,采集车辆配备相机、高精度GPS、惯性测量单元(Inertial Measurement Unit,IMU)等传感器,可以采集具有地理信息的图像数据。在相机的种类选择上,全景相机由于具有视野范围广的优点,是高精度地图图片采集的最佳选择方案。图1所示为数据采集硬件框架示意图。
图1 数据采集硬件框架示意图Fig.1 Scheme of the integrated navigation system measurement
之所以选用全景相机,是因为单一相机视野固定,如果某帧图像被遮挡,则其前后帧图像被遮挡的区域几乎相同,无法获知被遮挡的路面信息。全景相机视野广,可以获取周围360°的水平影像,即使某个镜头的特定区域被遮挡,当移动平台移动时,其他镜头也可以捕捉到对应位置的图片。因此,选用全景相机作为地图采集相机最为合理。
图像在垂直投影的过程中,图中许多具有高度的物体会沿着图像中心方向被拉长,当遮挡物体靠近采集平台且具有一定高度时,这一现象造成的遮挡会相当大,如图2所示。
图2 图像被动态车辆遮挡严重Fig.2 Image occluded by dynamic vehicles seriously
如果在采集过程中遮挡物体与采集平台以相同方向、速度相近行驶,会造成大量采集图像的遮挡,在俯视图叠加之后会产生大区域的遮挡盲区,对后期的地图标注带来极大的不便。
而语义分割可以实现像素级的车辆识别,通过语义分割结果在图像中去除遮挡车辆、行人以及道路以外的图像。在后期地图制作时,利用图像重叠,将其他图像没有被动态物体遮挡的区域覆盖之前剔除的空白区域,即可补全遮挡盲区。如果遮挡物体为静态障碍物(如停在路边的车辆),该方法也能最大程度地补全障碍物周边区域。
由于全景图中存在较大的畸变场景,且尚无开源的大型全景数据集,因而全景图的语义分割有较大挑战性。本文基于对全景图成像的理解,先采用DeepLab v3+模型对全景相机的各个原图进行分别语义分割,再将语义分割好的图片拼接成具有语义信息的全景图像。
DeepLab v3+是目前在PASCAL VOC 2012和Cityscapes上表现最为优异的分割网络之一,其结合了金字塔池化模块与编码器-解码器的优势,对目标边界的分割较为精确。同时其进一步探索了Xception模型,将深度可分卷积应用到了金字塔型的空洞池化(Atrous Spatial Pyramid Pooling, ASPP)和编码器上,使编码器-解码器网络更加强大。如图3所示,DeepLab v3+模型对图像中的大畸变、光线变化、复杂场景的语义分割结果较为理想,仅极端环境下(如阳光直射全景相机的水平镜头)才会影响检测结果。
图3 全景图语义分割流程图Fig.3 Flow chart of the panorama semantic segmentation
在获得了全景图的语义信息后,同时对原始全景图与全景语义图进行垂直投影,获得具有语义信息的俯视图,去除动态障碍物以及路沿以外的部分,保留其中的路面部分。其中由于投影造成的锯齿状路沿,则采用高斯滤波与二值化进行平整处理。
2 高精度地图的构建方法
去除了遮挡及路沿以外的信息后,图像会在该区域留下透明空白。在地图的制作过程中,通过图像的叠加可以将路面上由于动态遮挡造成的空白补全。对于静态物体遮挡,图像叠加也能利用从不同角度拍摄的图像补全静态物体四周的路面,仅静态物体的正下方无法补全。
全景图像在采集后需垂直投影,形成俯视图后才可以进行地图的制作。全景相机成像模型为球体,其像素位置与球体模型位置的关系如图4所示。
图4 全景图像-球体模型对应图Fig.4 Panoramic image-spherical model corresponding graph
设球体模型上一点P(xc,yc,zc),对应到全景图上的像素坐标(u,v),则其对应关系为
(1)
从球体坐标投影到地面如图5所示。球面上的点利用经纬度坐标描述,记球面与地面切于S点,S点在球面中的坐标为(α0,β0),而在地面坐标系上的坐标为(0,0)。
图5 球体模型-地面对应图Fig.5 Spherical model-ground correspondence map
假设地面始终保持水平,成像球面半径为h,则球面上一点P′经纬度坐标为(α,β)投影到地面(u,v)的变换公式为
(2)
如果GPS采集准确,则可直接通过地图制作软件,将之前采集到的地理位置信息融入到俯视图中即可生成地图的底图,后期再通过标注可直接用于无人平台的高精细语义地图。整个高精度地图制作流程如图6所示。
图6 地图制作流程图Fig.6 Flow chart of HD map making
但在实际过程中,GPS难免存在误差,导致俯视图拼接时并不准确。为了获取更准确的图像位姿关系,还需要进行图像配准。
3 俯视图的图像配准
去除遮挡之后,俯视图上原先被遮挡的区域出现空白,此时可以利用临近图像没有被遮挡的部分进行叠加补齐。但相邻图像的GPS与航向角信息难免存在误差,尤其是在道路上方存在树木、桥梁遮挡的部分比较严重。若直接使用采集到的位姿信息做图像叠加,遮挡空白区域的填补就有不准确的可能性,给后期标注工作带来不便。
图像配准得到图像间的相对位姿结果可以弥补GPS、航向的误差。同时俯视图仅提取路面信息,去除了动态障碍物以及高物体不同角度投影的干扰之后,图像配准的精度可以得到进一步提高。在路面平整条件下,特征点匹配矩阵为旋转平移的正定阵。
3.1 俯视图配准
在去除了遮挡车辆以及道路两侧场景之后,在水平面假设成立的情况下,保留的路面图像之间相似度较高,传统的图像匹配算法就可以在极短的时间内得到较好的匹配结果。本文特征点选取采用经典的尺度不变特征变换(Scale-Invariant Feature Transform,SIFT)算法[17],该方法对旋转和亮度变化具有较好的适用性,且对视角变化和噪声也有一定程度的稳定性。首先在全景图的俯视投影图上直接进行特征点提取;提取特征点后,根据图像之间的位姿信息,保留图像重叠部分的特征点,将不重叠区域的特征点舍掉;随后,根据之前的语义分割结果,进一步过滤,将动态障碍物等过滤,仅保留道路上的特征点。整体流程如图7所示。
图7 俯视图语义分割及配准流程图Fig.7 Flow chart of top view semantic segmentation and registration
通过迭代最近点(Iterative Closest Points, ICP)算法[18]可以得到图像之间匹配上的特征点。通过随机抽样一致(Random Sample Consensus, RANSAC)算法[19]寻找一致的样本点。假设俯视图A中的特征点为[xiyi]T,俯视图B为俯视图A的前一帧采集的图片,其特征点为[xi-1yi-1]T,在地面水平的情况下其对应关系为
(3)
式中,Δθ为2张图片的相对旋转角,Δx、Δy为2张图片的相对位移,通过求解该方程组的最小二乘法近似解,可以得到2张图片的旋转及平移参数。图像匹配结果如图8所示,白色框为前一帧图像在后一帧图像的预测位置。
图8 图像配准示意图Fig.8 Schematic diagram of image registration
3.2 定位优化
本文认为在大部分场景下,地图采集平台的GPS精度较高,仅在被遮挡时可能会产生较大误差。仅用特征点匹配进行图像位姿配准会产生累计误差,产生闭环问题。在采集图像时可以采集到里程计信息,里程计不受外界干扰,稳定性高。因此,需要融合GPS、里程计以及图像配准三者来进行图像定位。
GPS根据采集时的卫星数量判断其可靠性,ICP匹配的相对位姿关系可靠性一方面根据ICP匹配的可靠点数计算,一方面根据匹配点之间的线性关联程度计算。在融合过程中,融合定位方程如下
Pi=
(4)
其中,Pi为第i帧图像的位姿,PGPSi为数据采集时的GPS位姿,ΔPICP为根据图像配准得到的前后两帧的相对位姿关系,m为GPS连接的卫星数量,M为GPS可靠时的最少星数,s为ICP匹配点的对数,p为根据ICP匹配点的线性相关程度,Δx为两帧测量GPS的直线距离与里程计距离的差值,ε为经验参数。当GPS星数比标准值大且GPS移动距离与里程计数值相符时,直接采用GPS值作为定位值;若GPS星数比标准值少或GPS移动距离与里程计数值不符时,则此帧数据以前一帧的位姿为基础加上图像配准的相对位姿。在GPS卫星数目恢复后,将前一段连续的融合定位误差平均分配到这一段融合的结果中,从而减少闭环误差。
4 实验及结果分析
本次实验选用的相机为PointGrey的Lady-bug5全景相机,该全景相机为球形全景相机,包括5个水平相机以及1个顶部相机。采集平台使用的是上海交通大学智能车实验室的CyberTiggo智能车。该平台配备了双频GPS接收机、惯导IMU等告知定位传感器。全景相机及采集平台如图9所示。
图9 全景相机及CyberTiggo实验平台Fig.9 Panoramic camera and CyberTiggo experimental platform
本文方案主要适用于解决两种问题场景:1)动态遮挡物与采集平台同向驾驶的大面积遮挡问题; 2)采集平台上面GPS信号被遮挡导致的定位不准确问题。因此,实验分为两部分进行验证。
4.1 障碍物去除实验
本次实验场景选取在高架道路上,实验车辆在采集的过程中有多辆车以接近采集车辆的速度进行超车,在采集过程中有连续15帧图像被遮挡,多辆动态障碍物在采集平台的周围造成了地面信息的大面积遮挡。根据前文所提到的方法,首先在每个相机单独的采集图像中进行语义分割,随后拼接成一副语义全景图,将其进行俯视图投影,利用语义信息去除其中的遮挡车辆,仅保留地面,如图10所示。
(a)动态障碍物遮挡
(b)动态障碍物去除图10 单帧图像的动态障碍物遮挡与动态障碍物去除Fig.10 Dynamic obstacle occlusion and removal in single frame image
利用图片叠加,可以补全动态车辆遮挡所造成的地面信息缺失。在实际实验中,每隔6.85m采集一次数据,而图像在汽车行驶方向上大约有30m的跨度,因此连续两帧图像大约有77%的重叠区域,间隔一帧时也有54.3%的重叠区域。因遮挡而被去除的区域可以在临近的6帧图像里面寻找补全图像。叠加后的动态障碍物去除效果如图11所示。
(a)动态障碍物去除前
(b)动态障碍物去除后图11 图像叠加后动态障碍物去除效果图Fig.11 Removal of dynamic obstacles after image overlay
可以看到,经过路面的语义分割提取之后,动态车辆的遮挡情况得到了解决。地面信息被完全显示出来。经实验验证,在保证安全行驶车距的前提下,在常见的城市道路拥堵环境中该方法都是有效的。
同时对于静态物体所造成的遮挡,该方法也能将静态物体四周被遮挡的区域进行补全,如图12所示。
(a)单帧图像遮挡区域
(b)叠加后对静态物体周边补全图12 静态物体遮挡效果图Fig.12 Occlusion effect of static objects
4.2 GPS干扰实验
由于遮挡区域难以获取精确定位,因此该实验采用在空旷地区采集的定位真值,然后在真值中添加随机误差以模拟GPS遮挡情景。采集区域如图13所示。
图13 测试区域示意图Fig.13 Schematic diagram of the test area
采集路径总长度约为4315m,根据里程计的数据,每隔6.85m进行一次数据采集,共采集图像630张。其中随机选取100个点添加误差,误差距离小于15m,航向角偏差小于30°。先去除障碍物的干扰,随后仅采用路面上的特征进行图像配准,在融和了GPS值与图像配准结果后得到了优化后的定位结果。对噪声数据及优化结果分别进行到GPS真值距离误差的计算,实验结果如图14所示。
图14 优化前后误差分布对比图Fig.14 Error distribution comparison chart before and after optimization
从图14中可以明显看出,优化后整体误差较优化前下降不少,部分抖动误差可以直接被消除。具体数值如表1所示。
表1 优化前后误差数据对比
由于存在连续误差,因此图像配准也有无法纠正的部分定位误差,但最大误差仍降低了近41%。同时整个地图定位误差均值与均方差降低了68%,极大地改善了地图的连续性,验证了所提出的优化算法在遮挡环境下的有效性与可行性。图15所示为优化前后地图的局部细节对比。
(a)优化前
(b)优化后图15 优化前后地图局部对比图Fig.15 Local map comparison before and after optimization
5 结论
针对目前高精度地图制作中的动态障碍物遮挡地面及GPS信号被遮挡问题,本文设计了一种基于路面分割的高精度地图创建优化方法。该方法利用全景相机视野广的特点,通过深度学习进行了障碍物识别去除与地面补充,城区拥堵道路实验结果也显示出该方法在车辆密集的环境下仍能采集完整的地面信息。同时由于该方法融合了GPS和图像配准结果,降低了定位抖动误差,在模拟遮挡环境实验中证实了该方法能够提高高精细地图的整体精度,验证了该高精细地图创建方法的可行性与有效性。
根据实验结果发现,该方案仍存在一些不足之处,下面几个问题仍需在以后的工作中继续改进:1)当GPS误差逐渐且连续长时间增大时,图像配准算法也无法纠正,如何解决这一问题是以后工作的重点;2)直道上路面平整,特征点较少,图像匹配较为困难,配准算法需要进一步加强,可以考虑将路沿的直线模型匹配;3)语义分割提取路面时,分割边缘不精准,造成地图美观性不好,还需改进算法,将不连续的小块路面去除。