基于二维概率网格的语义地图构建
2023-10-17张栋翔邓一民李天然
张栋翔 邓一民 李天然
(上海汽车集团股份有限公司,上海 200041)
1 前言
近年来,随着语义分割、目标检测等领域的快速发展,语义地图因其稳定、可靠且占用内存空间小等优势,在智能导航中受到广泛关注。
通过视觉语义构建地图的方法可以分为2 类:点云语义地图构建与概率语义地图构建。秦通等[1]基于点云配准(Iterative Closest Point,ICP)算法构建停车场的库位语义地图,由于点云密集易混淆,而未提取斑马线。胡佳欣[2]采用航位推算和基于ICP算法的语义点云匹配方法,在鸟瞰视觉(Bird’s Eye View,BEV)顶视图上采用ORB 特征点(Oriented FAST and Rotated BRIEF Features,ORB Features)进行回环检测和全局优化,但该方法为构建清晰的斑马线地图,需要载体的行驶路径形成回环,且使用特征点作为辅助手段,增加了系统的复杂性。Zaganidis 等[3]采用正态分布变换(Normal Distance Transform,NDT)方法验证了语义点云建图的鲁棒性和准确性,利用不同类别点云的法向量构成的NDT直方图估计局部地图之间的相似性,并在此基础上添加语义回环检测,但该研究对象为立体相机捕获的点云。
Yang 等[4]融合语义立体框与特征点,提出立方体 建 图(Cube Simultaneous Localization and Mapping,CubeSLAM)方法,结合图像的模式识别技术,通过单目视觉提取物体的三维立体框。该方法可有效降低视觉漂移,提高相机位姿估计的精度,同时证明了语义识别和基于特征点的同步定位与地图构建(Simultaneous Localization And Mapping,SLAM)技术可相互促进,目标识别可提供更大范围的几何和尺度约束,SLAM 技术能够进一步提升目标识别的精度。Bowman 等[5]对识别结果使用期望最大化(Expectation Maximization)进行数据关联,进一步优化了机器人及地标的位姿。与CubeSLAM 类似,该方法在采用最大似然估计推导出的最小二乘优化中增加约束,从而提高建图精度。受Bowman的启发,Doherty[6]认为数据关联在概率上呈现非高斯分布,提出使用最大混合类(Max-Mixture-Type)模型,将多个可能性数据关联进行先验性建模。在推理过程中,用最大边缘化法(Max-Marginalization)去除数据关联中的变量,同时保持标准的服从高斯分布的后验假设,最终完成基于非高斯概率分布的语义地图的构建。Bowman和Doherty等人的方法主要针对特征点与目标语义框的数据关联,并未阐述图像分割的语义点云匹配问题。
构建语义地图时,图像分割引起的语义误识别、边界像素分割不佳等问题,将导致无法正确进行语义匹配。因此,本文提出二维概率网格语义法,针对图像分割得到的语义点云,构建概率语义地图,对语义观测的时间先后顺序和空间连续性进行建模,无需借助特征点(如ORB Features),不保留短时间内的语义感知错误,从而滤除噪声,构建稳定、清晰的地图。
2 系统概述
在智能驾驶的应用场景中,通过地平面上的车道线、斑马线、箭头、停止线等静态地标构建语义地图。本文以上述交通标志为背景,阐述概率网格语义匹配策略。
2.1 框架
如图1所示,智能车辆可安装多个相机,能够在360°范围内覆盖车辆周边视野。惯性测量单元(Intertial Measurement Unit,IMU)、GPS、轮速和转向盘角度等传感器信息为视觉语义信息提供先验位姿。语义信息网格化后,基于先验位姿对语义信息进行匹配,并将匹配结果转换为概率化网格。根据匹配过程中的约束,对地图进行最小二乘优化。其优化和匹配的结果反馈到多源信号的融合端,从而对先验信息进行纠正。最后,将大于给定概率阈值的网格设为地标物体占据的网格,输出语义地图。
图1 智能车辆语义地图构建框架
2.2 环视标定拼接
使用智能车辆的多个单目相机采集图像,结合相机外参标定和图像拼接技术,将载体周边空间的物体的体素投影到与地面平行的平面,空间维度由三维降低到二维,物体的尺度在水平方向上保持不变。通过时序同步将采集的图像实时拼接成覆盖车辆周围360°范围的顶视图。而对于位于载体行驶轨迹一定空间范围内的物体,在一段时间内,智能载体对其覆盖的平面进行多次观测,将平面的各点映射到顶视图像。
2.3 语义像素的分割提取
从2.2节的顶视图中提取所有组成车道线、斑马线、箭头、停止线以及可通行空间边缘线等语义的像素。上述语义信息大多属于静态的背景,对光照变化不敏感,不受天气变化影响,因而可鉴别性强。典型的车辆周边不同类别的语义信息如图2所示。
图2 顶视图的语义类别
2.4 网格语义预处理
对车辆周边的语义空间进行二维网格化预处理,如图3 所示,车辆周边以分辨率λ进行网格化。对含有语义信息的网格标记为“1”,没有语义信息的网格标记为“0”,同时对不同类别的语义进行标记。
图3 语义网格化
2.5 多源信息融合的位姿估计
将多传感器信号进行时间戳对齐,利用卡尔曼滤波或因子图(Georgia Tech Smoothing and Mapping,GTSAM)融合车载惯导、轮速计、转向盘角度等信息,为车辆的位姿估计提供初始值χa=(Pa,θa),其中,Pa为车辆的位置坐标,θa为车辆的姿态朝向。
2.6 概率网格语义匹配
对语义网格进行概率化处理,采用最大化后验概率的方法进行匹配。图4所示为车辆顶视图转换的网格,通过概率网格语义匹配构建概率网格语义地图。其中,交通标志的网格概率大于背景网格。具体步骤如下:
图4 网格匹配过程
a.定义地图上某位置的网格(网格A)有语义(Hit,标记为“1”)的概率为α,无语义(Miss,标记为“0”)的概率为(1-α),并对网格A 的概率P进行初始化:
随着车辆移动,相机对网格A 在不同时刻进行观测,同时对网格A的概率进行更新:
式中,Pt为t时刻网格A 的概率;z=1、z=0 分别表示观测结果为有语义、无语义;Chit、Cmiss分别为观测结果为有语义和无语义时传感器的更新系数,由传感器的属性决定;f-1()为式(1)的反函数。
那进献钓竿的部下难免有些不悦,但还是强打精神讨好说:“下端重才稳得住,用起来更顺手。”说着就将握把那一截拧下,使劲在地面方砖上敲打,笃笃有声,这还不算,他还高高举起那一截,朝地上摔去。一声脆响之后,那一小截钓竿完好无损。
b.考虑到角度对语义匹配结果的影响,以2.5节的初始位姿朝向θa为中心,在窗口(-τ,+τ)内,以δ为角度间隔,在已有地图上对当前帧进行匹配,并在窗口内找到使式(3)最大的值,即当前车辆的朝向估计值θb,保持朝向不变,以2.5 节的初始移动车辆位置Pa为中心,在窗口内找到使式(3)概率最大的值Pb,令χb=(Pb,θb):
建图过程中车辆位姿和地图中地标状态(包括网格的位置估计和网格概率)联合概率的最大似然估计[7]为:
式中,Zt为t时刻的2D 语义网格,包括由顶视图转换的像素网格、以初始位姿χa为参考位置的周边语义网格的状态;Zt j为上述2D语义网格中各网格的语义状态;χt为t时刻的位姿;ut为t时刻车辆的运动状态;m为地图中的网格状态;P(·|·)为条件概率。
当式(3)取得最大值时,式(4)为最大概率值。
c.为了得到精确值,建立误差模型,在初值χb附近添加扰动,采用最小二乘优化法得到精确解:
式中,Zhit为有语义的网格,表示此时精确解χ*使当前顶视图中含有语义网格与已有地图中含有语义网格相互匹配。
确定车辆的位姿χ*后,通过式(2)更新地图中已有网格的概率,同时创建新网格并赋予初始概率。
随着顶视图转换的网格持续更新,按照上述步骤执行,从而增量地构建地图,见图4(地图中数字表示概率的取值,无实际意义)。基于顶视图的多次观测产生的2D语义网格,对网格A的概率进行迭代更新。同理,地图中各网格的概率可多次更新,且不易受到偶尔的语义错误影响。因此,短时间内的语义识别错误或像素分割错误不会在地图上留下痕迹,从而提高地图的准确性。
3 试验结果
3.1 试验算法流程
图5 算法实现框架
3.2 试验环境
本文使用乘用车的4个环视相机采集的原始图像数据,在时间戳同步的基础上,将原始图像拼接为顶视图,其覆盖范围为14 m×14 m,网格化分辨率为288×288。试验运行的处理器为Intel@CoreTMi7-4710MQ, 主频2.5 GHz,内存8 GB。根据经验,Chit和Cmiss分别设置为0.55和0.49。
使用深度层聚合(Deep Layer Aggregation,DLA)为网络的主干结构,通过U-Net[8]进行语义分割,从顶视图中提取不同类型的语义。
由于环境具有复杂性,图像分割时均会存在不同程度的噪声。图6所示为地下车库典型场景中不同类型的语义噪声。此外,图中均存在斑马线界限不清晰以及部分条纹线未识别的问题。图6b 中道路间的地面由于白炽灯光反射被误识别为车道线。
图6 语义分割的噪声
3.3 试验结果
比较本文提出的概率网格匹配法与NDT 语义点云匹配法所构建的语义地图。如图7 所示,DNT法不能抵抗语义分割产生的噪声,其构建的语义地图存在语义边界不清晰,甚至无法区分纹理的现象,在U形转弯处语义混淆现象尤其明显。
图7 NDT法构建的语义点云地图
本文提出的概率网格匹配法构建的语义地图如图8 所示。与图7 相比,概率网格匹配法能有效抵抗语义噪声,U 形转弯区域所包含的斑马线条纹清晰可见。从细节上看,NDT 法构建的点云地图语义轮廓粗糙、混叠不清晰,完全无法区分与条纹状斑马线相似度高且容易匹配错误的语义,而本文提出的概率网格匹配法构造的斑马线纹理清晰且正确。
图8 概率网格匹配法构建的语义点云地图
图9 所示为卡尔曼滤波融合的里程计轨迹(简称里程计轨迹)、基于NDT 语义点云匹配的建图轨迹和基于概率网格匹配的建图轨迹。
图9 里程计、NDT及概率网格建图轨迹
以里程计轨迹为基准,比较其他2 种方法的建图轨迹与里程计轨迹之间的相对位姿误差(Relative Pose Error,RPE),如图10所示。
图10 NDT与概率网格建图RPE曲线
表1列出了基于NDT语义点云匹配及基于概率网格语义匹配的RPE参数。由表1可知,概率网格匹配法与NDT 点云语义匹配法多项指标接近,但概率网格匹配法最大RPE 远小于NDT 点云匹配法的RPE。RPE 比较的是不同轨迹上相邻两帧之间的位姿变换,作为计算RPE 基准的车辆里程计轨迹是相对精确的。RPE 越大,表明建图轨迹与车辆里程计轨迹之间的误差越大,NDT 法建图轨迹在部分区域与实际路径相差甚远。
表1 相对位姿误差比较 m
4 结束语
本文提出二维概率网格语义法进行概率语义地图构建,基于多源信息融合提供位姿先验信息,在联合概率的最大似然估计框架下,先确定角度,后确定位置,通过窗口搜索得到初始匹配位姿,再使用最小二乘法优化网格概率更新,得到智能载体的最终位姿。利用语义观测在空间和时间上的连续性,对各网格的概率进行多次更新,从而消除噪声的影响,获得了清晰的语义地图。试验结果证明了所提出方法的有效性。
此外,本文提出的方法无需多次使用相机采集原始图像信息(例如从原始图像上提取特征点),在计算过程中避免使用和存储原始图像,可节约计算资源和存储资源,降低成本。
未来,将构建大范围的三维语义地图,如在多层地库的场景中尝试利用本文提出的网格匹配和概率更新法构建语义地图。本文提出的语义匹配方法还可用于开发代客泊车定位算法。需要指出的是,本文所述的方法不限于智能驾驶,其他类似可获取行驶轨迹的顶视图场景均适用。