基于多尺度特征表示的城市道路检测

2014-06-02李骏扬金立左费树岷马军勇

电子与信息学报 2014年11期

李骏扬金立左费树岷马军勇

基于多尺度特征表示的城市道路检测

李骏扬①金立左*①费树岷①马军勇②

①(东南大学自动化学院南京 210096)②(光电控制技术重点实验室洛阳 471009)

基于图像的车辆周边场景分析是近来车辆主动安全的热门研究方向，但对于复杂路况的道路识别目前依然是一个难题。该文提出一种适用于城市复杂道路场景的单目视觉路面识别算法。该方法结合多尺度的稀疏编码，在大尺度上利用道路的局部纹理信息，在较小尺度，特别是中等尺度上利用空间上下文信息，对车辆的可行驶区域进行识别。实验表明，该方法提高了道路与周边环境中相似纹理的区分能力；在铺设良好的结构化道路，或者车道线、路界缺失，光照复杂的道路场景中，该方法都取得了较好的检测结果。

模式识别；路面识别；路面纹理；多尺度稀疏表示；K奇异值分解(K-SVD)；正交匹配追踪(OMP)

1 引言

为了提高汽车驾驶的安全性，近年来，研究人员对各种辅助驾驶与无人驾驶系统展开了广泛与深入的研究，车辆周边环境的感知是该领域的关键技术难题，而基于图像的车辆周边环境感知，依然是目前研究的热点[1]。本文基于车载单目摄像机拍摄的道路场景，针对城市道路的复杂环境，结合局部纹理与多尺度的特征，特别是中等尺度图像中的上下文信息，对道路进行识别，并在多种环境的测试中取得了较好的结果。

车辆前方的可行驶区域识别是车辆周边环境感知的重要问题。所谓可行驶区域，一般是指车辆周围平坦且质地坚硬的区域[2]。道路可以分为结构性道路和非结构性道路。结构性道路一般由车道线明显地标记出道路的走向，如高速公路和部分铺设良好的城市道路。仅依靠平坦地势或前车碾压维持的野外道路称为非结构性道路[2]。而位于城市或乡村的半结构性道路则介于两者之间，道路可能狭窄、龟裂，或崎岖不平，铺设材质多样，缺少车道线或车道线模糊不清，且路边常有障碍物遮挡。

常用的城市场景中的道路识别方法包括车道线检测、道路纹理分类和场景分割等。在结构化道路场景中可以使用车道线的检测来替代道路识别[3]。基于色彩信息[4]、纹理特征[5]、Gabor特征[6]等局部纹理信息的分类方法也经常被使用。场景分割则利用像素或超像素之间的相邻关系，将场景划分为包括道路在内的若干个区域，常用方法有分水岭、谱聚类、条件随机场、马尔可夫随机场等。另外，消失点[7]、地平线[4]、摄相机参数、GPS和地图信息[8]等先验知识的引入也能提高道路识别的准确率。

给道路场景识别带来困难的一个重要因素是阳光、阴影，以及路面水迹等带来的剧烈亮度变化。文献[9]采用光照模型来去除这种干扰，在树荫和潮湿路面上取得了一定的效果，但是这种方法无法克服局部曝光过度与昏暗度场景下噪声的影响。文献[10]采用随机游走图像分割在一些苛刻的环境下对道路进行识别。文献[11]将稀疏编码和马尔可夫随机场相结合对道路进行无监督分割，但是该方法依然对光照敏感。道路识别的另一个困难在于路面与周边环境可能具有相似的纹理，如建筑立面、隧道墙壁等。文献[12]采用的方法注重于纹理的统计特征而忽略了道路的结构信息，在城市道路的识别上效果一般。文献[13]则使用了多层卷积神经网络对图像中的超像素块进行分类取得了一定的效果。

单纯的纹理特征容易受到周边环境的干扰，因此图像在空间上的上下文特征将对道路边界的准确划分起到重要的作用。图像的不同尺度会反映图像的不同信息。大尺度图像可以反映出图像的局部纹理特征。而中等尺度的图像在平滑了道路的细节纹理后，所展现出道路的上下文结构特征，是道路划分的重要依据。例如，当道路和建筑的纹理相似，从图像的中间到两侧边缘，其场景的顺序更有可能是道路、植被、建筑，而非道路、植被、道路。对道路局部区域稀疏表示可以反映道路的局部纹理。当图像尺度缩小后，对较小尺度的图像进行稀疏编码则可以更好地反映道路的结构特性，因此，本文利用稀疏编码，从多个尺度提取图像特征，并结合局部纹理，对场景中的道路进行分割。

2 多尺度城市道路特征提取与检测

本文首先对图像进行金字塔结构的逐层高斯滤波与亚采样，通过多个尺度的特征识别，逐层提取道路结构与纹理信息。在金字塔的底端，着重于路面纹理，越到金字塔的顶端，周边信息就包含得越丰富，而在金字塔的中间层，则可以充分地利用道路的结构信息(见图1)。在每一个不同的尺度中，通过信号重建和奇异值分解(Singular Value Decomposition, SVD)提取含有路面特征信息的字典，然后使用字典对本层图像的各个分片进行稀疏表示，对多层特征进行联合。稀疏表示对于道路结构特征的提取是有效的，但实验表明，在对于城市道路的局部纹理特征的提取上，稀疏表示并不一定能得到最好的效果，本文将底层局部纹理特征与多层稀疏表示相结合，通过机器学习对图像中的分片进行分类。最后，本文对分类结果进行后处理以确定道路边界的细节。

2.1无监督路面特征学习

在多尺度的路面特征提取过程中，对每一个尺度的图片进行随机分片，并随机抽取其中的分片，使其均值为0，正规化后进行K均值(K-Means)聚类，作为初始字典，然后通过K-SVD对各层字典进行更新。

2.2 路面的稀疏特征表示

将每一个路面样本都分解为有限个字典的线性表示，通常可以采用匹配追踪(Matching Pursuit, MP)算法[15]和正交匹配追踪(Orthogonal Matching Pursuit, OMP)算法[16]，OMP较MP算法收敛更快。由于字典是过完备的，从数学意义上讲，MP问题实际上是一个欠定方程组求解问题。为了满足矩阵的0范最小(也就是矩阵尽可能地稀疏)，且分解后的误差最小，该问题可以描述为

2.3 路面检测器

道路分类的整体结构如图1所示。

2.4 基于梯度与上下文信息的后处理

参数,和是对不同空间的敏感度的调节，本文实验中。按照双阈值的方法，将二值化，向外扩张2个像素，并细化，得到较为连续的边缘响应E,。对分类器分类的结果F()进行高斯平滑，以模糊锯齿状的分类边缘，并得到G。结合边缘信息E对道路进行划分

2.5 算法步骤

算法实现步骤示于表1。

表1算法步骤

3 实验结果与分析

在实验中，本文采用了4个数据库，一个是本文作者创建的多场景道路图像数据库(MSRID)，另外3个公开数据库分别是CVC[9], DIPLODOC[18]和CamVid[19]。MSRID从车载摄像机所录制的各种场景的录像中截取700张图像，将图片尺度缩小为480×320像素以用于道路识别，并用多边形手动标记出路面和非路面区域。MSRID采集的图片分为7个场景：宽幅路面、城市街巷小道、前方有车辆遮挡、日光与树荫、黄昏清晨低光照路面、交叉路口和城市隧道。

3.1 底层道路纹理分类

实验表明，GLCM的分类效果要好于LBP。由于LBP侧重于表达纹理的变化，而城市道路往往在纹理细节上并不明显，使得LBP得到了较多的噪声信息，所以基于统计的GLCM会得到更好的效果。而在4种不同的色彩空间上，HSV色彩空间会获得更好的效果。通过实验，本文选择HSV空间GLCM特征作为道路底层纹理特征。HSV色彩空间中的LBP和GLCM分类的受试者操作特征(Receiver Operating Characteristic, ROC)曲线见图2(b)。ROC曲线横轴为假阳性率(False Positive Rate, FPR), FPR = FP/(TN + FP); ROC曲线纵轴为真阳性率(True Positive Rate, TPR), TPR=TP/(TP +FN)。

3.2 无监督道路特征提取

在每个尺度，对场景图片提取10万个随机分片作为样本，采用KSVD生成字典。字典仅保留灰度信息。本文采用了6个不同尺度的稀疏编码，每个尺度都是前者的1/2，且包含150至300个原子。

图3比较了两个纹理相似的区域在多层稀疏编码中的不同表现，并体现出中等尺度图像在提供上下文信息中的作用。在底层纹理中，车道线和车身编码相似。在1/2尺度中，车身的编码基本保持了原样，车道线则开始呈现。随着尺度的缩小，车道线逐渐清晰，并在1/16尺度中消失，而1/16尺度的车身图像编码中可以看到车辆底部在地面上留下的阴影。在顶层尺度中则很难直观地看到有用的信息。

3.3 路面分类结果

“SSSR”表示单尺度稀疏表示(Single-Scale Sparse Representation), “MSSR”表示具有个尺度的多尺度稀疏表示(Multi-Scale Sparse Representation)。前缀“T-”表示该方法结合了局部纹理(Texture)，后缀“-PP”表示后处理(Post- Processing)之后的最终结果。在不加入底层纹理时，我们采用逐层递增的方式对多层稀疏表示的分类效果进行了10折交叉验证对比，图2(a)显示了从单层到6层稀疏表示的分类ROC曲线，表2 SSSR~ MSSR6显示了不同层数稀疏特征的分类效果，随着层数的增多，分类效果有明显提升。

将HSV空间中灰度共生矩纹理特征与6层稀疏表示特征结合，并进行10折交叉验证，分类效果如图2(b)和表3的T-MSSR6。与其它文献的方法相比较，SSSR在道路识别上没有优势，MSSR6对道路的识别率有所提升，而底层纹理的引入(T-MSSR6)明显改善了识别率。Boosting方法具有一定的抗过拟合特性，从图2 (d)中可以看到，随着训练轮数的增加，训练准确率接近于1，但是分类准确率保持在一个稳定值。表3中Acc高于其它指标的原因在于图像中拥有大量的非路面区域(TN+FP)。道路识别的命中率Rec体现了路面识别的完整性，而预测率Pre则体现对道路区域的准确性，Pre越高，过检的区域就越小。

表2 LBP与灰度共生矩在不同色彩空间的路面分类效果比较(%)

图2 不同的路面分类器分类效果

图3 相似区域在多层稀疏编码中的对比(最左列图像为原始图像，右侧6列图像给出了不同尺度稀疏编码中响应最强烈的原子)

表3不同层数的稀疏表示分类器10折交叉验证(%)

方法AccFRecPre MeanStdMeanStdMeanStdMeanStd CB85.71±0.236.27±0.2457.57±1.6227.23±0.7359.18±3.6031.50±1.0065.09±1.5420.11±1.05 TB89.97±0.564.96±0.5776.90±0.6711.49±0.8879.51±2.6313.00±1.7577.35±2.2816.13±1.05 H-HBT89.62±0.844.38±0.4275.26±1.7811.70±1.6576.45±3.7212.69±1.7476.41±3.2815.05±0.80 SSSR85.13±0.145.78±0.1958.71±0.4323.08±0.9659.08±1.0128.66±0.6468.32±0.6815.77±0.30 MSSR286.09±0.114.79±0.2063.13±0.6016.54±0.7961.42±1.1322.47±0.6471.63±0.5013.61±0.62 MSSR387.70±0.183.82±0.2068.36±0.5511.92±0.6865.53±0.8516.71±0.7975.26±0.6811.79±0.73 MSSR489.61±0.192.87±0.1574.30±0.548.39±0.6072.54±0.7512.20±0.9378.31±0.7510.61±0.65 MSSR591.77±0.102.16±0.1280.09±0.326.52±0.4579.82±0.769.74±0.9681.70±0.648.84±0.77 MSSR693.50±0.071.56±0.1184.52±0.244.90±0.3985.36±0.546.77±0.7984.38±0.527.42±0.56 T-MSSR695.26±0.251.81±0.1388.58±0.585.13±0.3389.15±0.426.37±0.4088.48±1.006.78±0.74 T-MSSR6-PP97.03±0.072.18±0.2192.79±0.195.89±0.6590.80±0.388.64±0.8195.55±0.334.94±0.79

图像的后处理过程(T-MSSR6-PP)可以对道路分割效果进行进一步的提升(详见表3中的数据)。后处理是在HSV空间下完成的，实验表明，周边被植被覆盖的道路，或空间可能提供较清晰的路界；而对于色彩差异不明显的路边界，空间能提供更好的划界依据。T-MSSR6-PP较T-MSSR6和MSSR6，在其它指标有所提高的同时，Pre有明显的提高，这说明后处理可以有效地去除路面的过检区域。图2(c)比较了5种不同路面识别方法的ROC曲线，分别为MSSR6, T-MSSR6，以及CB[4], TB[5]和H-HBT[13]方法，通过在MSRID上的对比实验，本文的方法要优于文献[4,5,13]提出的方法。

3.4 不同场景下道路识别比较

本文在MSRID的7个不同的场景下进行了10折交叉验证，分类器是在所有场景下统一训练得到的，验证结果如图4和表4所示。图4第1行为阳光下的宽幅路面，由于路面色彩偏黄色，所以单纯基于色彩的方法无法准确地识别路面；第2行是城市街巷，并结合了弯道；第3行图片中有大面积的白色车身，在背光的情况下其局部特征与路面接近；在第4和第5行，树荫与清晨的湿滑路面造成了路面较大的亮度变化；第6行图像中的路口左侧有宽广的路面区域，且有车辆遮挡；最后一行是在城市隧道中，隧道墙壁与顶面材质对路面识别有较强的干扰。从图4的不同的场景中可以看到，本文方法T-MSSR6总体上比其他方法具有更好的识别效果。

表4的数据说明本文的方法适用于多种场景，并分别在这些场景上优于其它文献提出的方法。本文的方法在宽幅路面、车辆遮挡和交叉路口获得了最好的识别效果，隧道场景的识别效果次之，而在街巷小道、阳光树荫，以及昏暗环境的情况下，识别率略低。在狭窄的街巷，T-MSSR6-PP在Acc指标上与其它场景的平均值相当，但是指标F, Rec和Pre低于其它场景，主要原因是较小的路面面积导致FP和FN给这3个指标带来更大的影响，而该场景FN+FP的平均值比其它场景平均值低2.5%。树荫场景和昏暗场景中路面的亮度变化，以及隧道场景中的隧道壁与路面纹理的相似性，对分类效果略有影响。尽管在不同的场景下有所差异，本文方法在不同场景下各项指标的标准差优于其它文献提出的方法。

表4 本文方法与其它方法在不同场景下的平均道路分类效果比较(%)

图4 MSRID数据库中7类不同场景下，不同路面分类器的分类效果比较(白色区域表示分类器正确的路面分类(TP)，黑色区域表示分类器正确的非路面分类(TN)，红色区域为分类器过检测的区域(FP)，绿色为分类器的漏检区域(FN))

3.5 在其它数据集上的比较

在其它公开的数据库上，本文方法的实现结果与文献中其它方法的实验结果进行了对比。图5为T-MSSR6-PP在不同数据库，不同场景中的路面识别效果。对于这些复杂道路状况，本文提出的方法，均能得到较好的识别效果，并好于文献中提出的方法(见表5)。

4 结束语

本文通过路面样本多尺度线性稀疏表示，结合路面底层纹理的识别方法，对路面进行识别，并对路界进行了划分，该方法既适用于平行的结构化路面，也适用于路况复杂的城市道路。实验表明，该方法能够克服光照、阴影、树荫、水迹带来的路面纹理变化，能够在纹理相似的情况下通过中等尺度图像中上下文特征对道路进行较为准确的识别。

图5 本文方法在不同数据库中的道路检测效果(第1行为路面原始图像，第2行为后处理后的最终效果。白色为正确检测的路面区域(TP)，黑色为正确检测的非路面区域(TN)，红色区域为过检测的区域(FP)，绿色为漏检区域(FN))

表5本文方法与其它方法在不同数据库中的识别效果比较(%)

数据集方法AccFQRecPre MeanStdMeanStdMeanStdMeanStdMeanStd CVC[9]I-I Based[9]N/AN/A89.510.0N/AN/AN/AN/AN/AN/A T-MSSR6-PP97.71.896.92.394.04.196.03.497.93.0 DIPLODOC[18]RWA[10]N/AN/AN/AN/A92.83.695.73.596.92.7 T-MSSR6-PP98.10.996.91.694.02.895.62.798.21.6 CamVid[19]App-SFM[20]95.3N/AN/AN/AN/AN/AN/AN/AN/AN/A CPF-CNN7[13]95.5N/AN/AN/AN/AN/AN/AN/AN/AN/A T-MSSR6-PP96.21.093.51.687.82.893.52.893.52.7

注：N/A表示文献中该数据未提供

[1] Hillel A B, Lerner R, Levi D,.. Recent progress in road and lane detection: a survey[J]., 2012, DOI: 10.1007/S00138-011-0404-2.

[2] Guo C Z, Mita S, and McAllester D. Robust road detection and tracking in challenging scenarios based on Markov random fields with unsupervised learning[J]., 2012, 13(3): 1338-1354.

[3] Yenikaya S, Yenikaya G, and Duven E. Keeping the vehicle on the road - a survey on on-road lane detection systems[J]., 2013, 46(2): 1-43.

[4] Shinzato P Y, Grassi V, Osorio F S,.. Wolf. Fast visual road recognition and horizon detection using multiple artificial neural networks[C]. Proceedings of the Intelligent Vehicles Symposium, Alcalá de Henares, Spain, 2012: 1090-1095.

[5] Graovac S and Goma A. Detection of road image borders based on texture classification[J]., 2012, 9(242): 1-12.

[6] Espinoza R T and Torriti M T. Robust lane sensing and departure warning under shadows and occlusions [J]., 2013, 13(3): 3270-3298.

[7] Kong H, Sarma S E, and Tang F. Generalizing Laplacian of Gaussian filters for vanishing-point detection[J]., 2013, 14(1): 408-418.

[8] Shang E, An X J, Li J,.. Robust unstructured road detection: the importance of contextual information[J]., 2013, 10(179): 1-8.

[9] Alvarez J M and Lopez A M. Road detection based on illuminant invariance[J], 2011, 12(1): 184-193.

[10] Siogkas G K and Dermatas E S. Random-walker monocular road detection in adverse conditions using automated spatiotemporal seed selection[J]., 2013, 14(2): 527-538.

[11] Liu Y C and Chen H T. Unsupervised scene segmentation using sparse coding context[J]., 2011, DOI: 10.1007/S00138-011-0401-5.

[12] Kang Y, Yamaguchi K, Naito T,.. Road image segmentation and recognition using hierarchical bag-of- textons method[C]. Proceeding of the 5th Pacific Rim Symposium on Image and Video Technology, Gwangju, South Korea, 2011, 7087: 248-256.

[13] Alvarez J M, Gevers T, LeCun Y,.. Road scene segmentation from a single image[C].Proceeding of the 12th European Conference on Computer Vision, Florence, Italy, 2012: 376-389.

[14] Aharon M, Elad M, and Bruckstein A. The K-SVD: an algorithm for designing of overcomplete dictionaries for sparse representation[J]., 2006, 54(11): 4311-4322.

[15] Mallat S G and Zhang Z. Matching pursuits with time- frequency dictionaries[J]., 1993, 41(12): 3397-3415.

[16] Tropp J A and Gilbert A C. Signal recovery from random measurements via orthogonal matching pursuit[J]., 2007, 53(12): 4655-4666.

[17] Friedman J, Hastie T, and Tibshirani R. Additive logistic regression: a statistical view of boosting[J]., 2000, 38(2): 337-374.

[18] Zanin M, Messelodi S, and Modena C M. DIPLODOC road stereo sequence - FBK technical report Nr 164010[R]. Trento, Italy: Fondazione Bruno Kessler, 2013.

[19] Brostow G, Fauqueur J, and Cipolla R. Semantic object classes in video: a high-definition ground truth database[J]., 2009, 30(2):88-97.

[20] Sturgess P, Alahari K, Ladický L,.. Combining appearance and structure from motion features for road scene understanding[C]. British Machine Vision Conference, London, UK, 2009.

李骏扬：男，1980年生，讲师，研究方向为模式识别与智能系统.

金立左：男，1972年生，副教授，研究方向为模式识别与智能系统.

费树岷：男，1961年生，教授，博士生导师，研究方向为控制理论与控制工程.

Urban Road Detection Based on Multi-scale Feature Representation

Li Jun-yang①Jin Li-zuo①Fei Shu-min①Ma Jun-yong②

①(,,210096,)②(-,471009,)

Vision-based road detection is a popular area in research of driving security, however, detecting in complex road scenery is still a challenging topic. An approach is proposed to detect drivable road region from monocular images in urban environments. The algorithm is based on multi-scale sparse representation, with local texture in large scale, and context in medium scale. Experiments show that, distinguishing the similar texture of pavements from that of surrounding buildings and obstacles brings a well-performance in structured roads as well as the diverse road environments such as lack of lanes or clear boundaries but full of complex illuminations.

Pattern recognition; Road detection; Road texture; Multi-scale sparse representation; K-Singular Value Decomposition (K-SVD); Orthogonal Matching Pursuit (OMP)

TP391.41

1009-5896(2014)11-2578-08

10.3724/SP.J.1146.2014.00271

金立左 jinlizuo@gmail.com

2013-03-04收到，2014-06-13改回

航空科学基金(20115169016)，国家省部级基金和江苏省自然科学基金(BK20131296)资助课题