采用超像素标注匹配的交通场景几何分割方法
2018-08-14胡江策卢朝阳李静邓燕子刘阳
胡江策, 卢朝阳, 李静, 邓燕子, 刘阳
(西安电子科技大学通信工程学院, 710071, 西安)
交通场景图像分割在机器人自动导航、无人机着陆点判断以及可穿戴设备中应用非常广泛。交通场景图像分割就是对交通场景中物体进行分割并对物体所属种类进行判断。本文参照文献[1]中场景几何结构的划分方式,将交通场景划分为天空、垂直物和道路3类,研究如何实现交通场景的几何分割。
对于交通场景分割,传统方法主要有逐像素计算标注方法[2-4]、强调分割区域特征方法[4-6]等,这些方法大多都需要定义几个类别并且每个类别都需进行模型训练。模型训练一般要耗费很长时间,但是当增加新的训练图像或者类别时又要重新进行模型训练。针对这一问题,有些学者提出了非参数[7-9]方法,虽然该类方法可解决模型训练类方法耗时较长的问题,但是该类算法需要搜索集,并且搜索集的大小对算法效果有很大影响。
深度学习给上述问题带来了新的解决思路,但是该类方法[10-11]不仅对计算机硬件的要求高,而且需要大量精确的像素级真值标注。在利用深度学习模型时,模型的许多参数都要根据具体情况不同进行适当调节,而参数的调节和设定依赖于实验者的经验和反复实验,这些因素带来了很大的局限性。
基于以上问题,本文提出了一种采用超像素标注匹配的交通场景几何分割方法。对于一张待分割交通场景图像,首先在搜索集中对其进行相似性匹配,找到一组和待分割图像相似的图像,然后对待分割图像进行超像素分割,并计算各超像素块特征。根据待分割图像各超像素块的特征在相似图像集中找到与其相似的超像素块。根据相似的超像素块计算待分割图像各超像素块属于某一类别的似然比,将似然比最大的类标签分配给待分割图像超像素块,从而得到交通场景初步分割结果。为了提高分割正确率,根据初步分割结果计算出一元势,结合原图像采用全连接条件随机场模型[12]对初步分割结果进行优化,可实现交通场景的几何分割。实验结果表明,本文方法能够有效地将交通场景图像分割为天空、道路和垂直物体3个类别。
1 交通场景的初次分割
1.1 全局特征的提取
全局特征主要用于搜索一组与待分割交通场景图像相似的图像,本文所用全局特征为Gist特征[13]。Gist特征主要包括场景的空间频率、颜色和纹理等信息,能够比较全面地对一幅图像进行描述。在进行分割时,首先对待分割图像和搜索集中图像进行Gist特征提取,然后计算待分割图像Gist特征向量与搜索集中每幅图像Gist特征向量之间的欧氏距离,最后将计算的距离按照从小到大进行排序,取前50张作为相似图像集。
1.2 超像素分割
相似图像集用来完成测试图像标注任务。在进行标注时逐像素标注效率太低,因此本文选择对超像素块进行标注。超像素分割就是将纹理、颜色等特征相似的像素进行分组,用超像素块来代替像素,在图像处理时最小处理单位为超像素块,这样做能减少问题的复杂性。采用基于图的超像素分割方法[14]来进行超像素分割,因为该方法分割的超像素块能够较好地聚集属于单个物体的特征,具体效果如图1所示。为了更好地区分各超像素块,对各超像素块进行了随机上色。
图1 基于图的超像素分割方法结果示例
1.3 超像素特征的提取
描述物体的视觉特征有颜色、形状、纹理、空间位置等。本文对超像素块特征的提取从这4方面进行考虑。在进行特征提取时借鉴了文献[15]和文献[8]中特征提取的方式,并进行了特征修改和适当添加。
超像素特征包含描述颜色的特征:RGB各分量的均值和标准差、RGB颜色直方图、LAB空间颜色直方图(各通道11个等级);描述形状的特征:外接框内的8×8像素的形状掩膜(外接框是完全包含超像素块的最小矩形框)、外接框的宽高分别与图像宽高的比值、外接框面积与图像面积的比值;描述纹理的特征:纹理基元直方图和扩张纹理基元直方图、量化SIFT直方图和量化扩张SIFT直方图、上下左右边界的量化SIFT直方图;描述位置的特征:外接框内掩膜在图像中的位置、位置框上边缘相对于图像上边缘的高度;描述外表的特征:图像三通道(8×8像素)的缩略图、超像素块外接框的灰度Gist特征。
在进行实验前需要对搜索集中的所有图像进行超像素分割,并计算出所有图像的超像素块特征,将图像的超像素块特征和其所属类标签放到一起。
1.4 初次分割
将测试图像进行超像素分割并计算分割后各超像素块特征,然后对每个待分割图像超像素块sr和搜索集中类别l之间进行似然比计算;将计算的似然比最大的类标签分配给各超像素块,从而得到整张图像的初次分割结果。
根据概率论的相关知识可得
2 初次分割结果优化
由于采取标注匹配方式来完成初次分割,所以会出现错误分割的情况,为了降低分割结果对搜索集的依赖性并提高分割正确率,采用全连接条件随机场模型来对初步分割结果进行优化。
X是定义在一组变量{X1,X2,…,XB}上的随机场,每个变量的值域是一组标签L={l1,l2,…,lB};同时随机场I定义在一组变量{I1,I2,…,IB}上,I包括可能输入图像的尺寸;X包括可能的像素级图像标注;Ij是像素j的颜色向量;Xj是分配给像素j的标签。条件随机场[12](I,X)可表示为吉布斯分布
式中:T(X|I)表示吉布斯分布;Z(I)为配分函数;exp(·)指底数为e的指数函数;G=(V,E)是定义在随机场X上的图,CG为G一元和二元团的集合;φc(Xc|I)表示势函数,一个标注为x∈L的吉布斯能量[12]为
式中:E(·)表示吉布斯能量,为简化表达,后文用ψ(·)(x(·))代表φ(·)(x(·)|I)。
在成对全连接条件随机场中,对应的吉布斯能量可表示为
式中:i和j的范围均为1~N,ψu(xi)为一元势,根据初步分割结果计算得来,ψp(xi,xj)为二元势,其具体形式为
为了减少错误分割,本文借鉴文献[12]用对比度敏感的双核势函数来完成图像的分割和标注,该函数能够考虑各像素点和所有像素点之间的关系,能够提高分割的正确率和精度。双核势函数定义按照3维的颜色向量Ii和Ij以及位置pi和pj来定义,表达式如下
式中:等式右边第1项为外表核,用来判断相邻同颜色像素是否为同一类别;θα为相邻程度控制参数;θβ为相似程度控制参数;θr为平滑程度控制参数;借鉴文献[12],本文中选取θα=60,θβ=10;等式右边第2项为平滑核,其对分割精度影响不大,为减少计算量选取ω2=0。
本文采用平均场[12]来近似随机场,平均场近似计算在所有分布中使得相对熵F(Q‖P)最小的分布Q(X),而不是求P(X)的准确分布,Q(X)可表示为各独立边缘的乘积
为了使相对熵最小并保证Q(X)和Qi(Xi)为有效分布,需要满足以下迭代更新公式
式中:l的取值分别为天空、道路和垂直物3类;l′表示与l不同的类;Qi(xi=l)为各类的分布;Q(X)为最后结果分布。
3 方法流程
本文算法的执行共包括5个步骤,具体步骤为:
步骤1对输入图像进行Gist特征的提取,然后进行超像素分割并提取超像素特征;
步骤2根据Gist特征在搜索集中搜索与输入图像相似的50幅图像构成相似图像集;
步骤3根据超像素特征以及所要分割的类别利用朴素贝叶斯原理进行似然比计算;
步骤4根据计算的似然比为输入图像的各超像素块匹配标注,得到初步分割结果;
步骤5根据初步分割的结果结合原图像,应用全连接条件随机场进行优化得到最后结果。
4 实验与分析
4.1 实验设置
SiftFlow数据集共包括2 688幅不同场景的图像,其中包括181张高速道路交通场景图像和506幅城市交通场景图像,图像大小为256像素×256像素。该数据集中每张图像都有几何分割真值标注。
为了验证本文方法的有效性,在SiftFlow数据集中交通场景图像上进行实验,并与文献[1]方法、文献[8]局部标注方法和文献[10]方法进行实验对比。从687张交通场景图像中任意选取200张作为搜索集,其他图像作为测试图像来验证本文方法。采用Matlab2016进行编程实现,计算机配置为Intel E7400/4GB RAM。
对于实验结果的评估,本文采用像素分割正确率Ra[17]、平均召回率Rb[18]两个指标和混淆矩阵[1]来客观评价分割结果。将所有测试图像的像素分割正确率的平均值作为本文方法的像素分割正确率。将3类方法的召回率的平均值作为本文方法的平均召回率,Rb的计算方式如下
式中:分别用1、2、3代表天空、道路和垂直物。Ndg表示类别d被标记成类别g的像素数。
4.2 实验结果及数据分析
(a)原图像 (b)几何分割真值图像
(c)文献[1]方法的结果 (d)文献[8]局部标注方法的结果
(e)文献[10]方法的结果 (f)本文方法的结果图2 各类方法几何分割实验结果对比
(a)实际拍摄交通场景图像 (b)本文方法几何分割的结果图3 实际拍摄交通场景分割的结果
在除搜索集外的图像上进行测试,图2为本文方法和其他方法实验结果对比,分别用白色、灰色和黑色3种颜色代表天空、垂直物和道路3类。图3给出了本文方法在实际拍摄交通场景进行实验的结果。方法的分割结果和其对应的真值图像相似度越高方法分割效果越好,由图2中各类方法的分割的结果可以看出,本文方法分割的结果更接近真值图像。通过统计测试结果绘制出图4的混淆矩阵,表1给出了各种方法的性能比较。
为了进一步验证方法的适应性,在实际拍摄的交通场景图像上进行了实验,由图3可以看出,本文方法可实现较好的分割效果,能分割出比较完整的区域,证明了本文方法具有良好的适应性。
由图4可以看出:本文方法对天空和垂直物体的召回率为0.94,而对道路的召回率为0.88。由混淆矩阵可见,本文方法易将道路误判为垂直物体,其原因为道路和垂直物体的交接处存在阴影、车辆和行人等因素的干扰,进而影响道路的分割。
图4 文中分割方法的混淆矩阵
由表1可以看出,本文方法的分割正确率和平均召回率都优于文献[1]方法、文献[8]局部标注方法和文献[10]方法。虽然本文方法分割正确率低于文献[4]方法,但召回率比文献[4]方法略高,并且本文方法无需进行模型训练。
表1 各种方法的性能比较
与文献[1]方法相比,本文方法对于空间结构较不完整的场景,即某一类别占图像比例较少时的情况,分割效果更好。
文献[8]局部标注方法的相似图像集搜索需要3个全局特征,本文只需要一个Gist特征作为全局特征来进行相似图像集搜索,这样降低了计算量;并且在搜索集数相同时,本文方法的分割精度在一定程度上高于文献[8]的局部标注方法。
文献[10]方法需要长时间的模型训练,本文方法不需要进行模型训练。当文献[10]方法的训练集数和本文搜索集数相同时,本文方法的分割效果优于文献[10]的方法。此外,文献[10]方法为逐像素标注方法,分割结果存在较多错误分割的小区域,而本文方法对超像素块进行标注,此类情况较少。
本文提到的模型训练类方法都需要先进行模型训练然后再使用模型,模型的训练和应用是两个独立的过程,因此训练时间对模型应用没有直接的影响。但是模型训练一般要耗费较长的时间,当增加了新的训练图像或者类别时就要重新进行模型训练,灵活性较差,而本文方法无需进行模型训练,更加灵活。
为了验证阈值t的选择对实验结果的影响,阈值t在20~120范围内变动,将阈值t的变动对算法Ra的影响制成折线图,如图5所示。由图5可以看出,当阈值t取值为80时算法的整体Ra为0.92,取得最大值,所以本文方法选取阈值t为80。
图5 算法整体Ra随t的变化
除了比较方法的分割效果之外,本文还对方法的复杂度和执行时间进行了讨论,对于一张像素为M×H的交通场景图像,若用逐像素标注的方法,计算复杂度为O(MH)。本文方法对超像素块进行标注,假设M×H的交通场景图像分割为K个超像素块,本文采用基于图的超像素分割方法,K远小于M×H,本文方法在标注时的计算复杂度为O(l)。
各类方法处理一张图像所用平均运行时间对比见表2。由表2可以看出:本文方法的执行效率优于文献[1]和文献[8]中局部标注的方法。虽然本文方法与文献[4]方法执行速度稍慢,但本文方法的平均召回率优于文献[4];文献[10]方法执行时间较短,但是该方法前期的模型训练需要耗费数小时的时间。
本文方法的不足之处是在光照比较强烈的区域、路面和垂直物交接处情况比较复杂时会存在错误分割的情况,此外,本文方法的运行时间较长,无法达到实时处理,在以后的工作中将会对存在的问题进行进一步的改进。
表2 各种方法平均运行时间的对比
5 结 论
与一些传统方法相比,本文提出的采用超像素标注匹配的交通场景几何分割方法优越性在于:本文方法不需要进行复杂的模型训练,而是通过对超像素块进行标注匹配完成分割任务。与逐像素处理相比,超像素块标注匹配能够明显减少计算量,在一定程度上提高分割结果的精度。另外,全连接条件随机场模型对初次分割结果进行优化能够有效降低对搜索集数量的要求。实验结果表明,本文方法能够有效地实现交通场景的几何分割并提高分割的精度和效率。