APP下载

基于PP-MRF模型的单目车载红外图像三维重建

2015-08-25沈振一孙韶媛赵海涛

关键词:三维重建车载面板

沈振一, 孙韶媛, 赵海涛

(1. 东华大学 a. 信息科学与技术学院; b. 数字化纺织服装技术教育部工程研究中心, 上海 201620;2. 华东理工大学 信息科学与工程学院, 上海 200237)

基于PP-MRF模型的单目车载红外图像三维重建

沈振一1a, 1b, 孙韶媛1a, 1b, 赵海涛2

(1. 东华大学 a. 信息科学与技术学院; b. 数字化纺织服装技术教育部工程研究中心, 上海 201620;2. 华东理工大学 信息科学与工程学院, 上海 200237)

针对车载红外图像的特点,提出了一种使用超像素分割和面板参数马尔科夫随机场(PP-MRF)相结合的单目车载红外图像三维重建方法.该方法首先通过超像素分割得到在纹理和亮度上相近的一系列小的区域,即超像素,然后训练PP-MRF模型,使它能对待测试图像的各个超像素进行面板参数的分析和深度估计.通过实验证明了该方法能够有效地对单目车载红外图像做出深度估计及三维重建.

图像处理; 三维重建; 车载红外图像; 面板参数马尔科夫随机场(PP-MRF); 深度估计

随着车载红外辅助驾驶系统在民用领域的普及,车载红外图像处理的研究越来越被人们所关注,其中红外图像的深度估计已经成为近年来的研究热点.车载红外图像三维重建的研究,建立在红外图像深度估计研究的基础上,其作为车载红外图像研究的一个全新领域具有重大的意义.

近年来,双目可见光的三维重建工作逐渐趋向成熟,其中以belief propagation算法[1]为基础进行三维重建,在目前的立体视觉领域中应用非常广泛.但是相对而言,单目图像的三维重建工作发展较晚,其中最具代表性的是shape-from-shading[2]和shape-from-texture[3]两类方法,但是这些算法在表面纹理与色彩变化不明显时,三维重建效果较差.文献[4-6]提出的基于面板参数马尔科夫随机场模型(PP-MRF)的单目图像三维重建在正确率、效果方面都比其他算法有明显的提高.

在红外图像的深度估计方面,已有的基于主成分分析与BP神经网络的红外深度估计算法[7]和基于支持向量机的红外图像深度估计算法[8],只是对像素点和周围一定范围的像素点之间进行特征提取,没有考虑到实际面板之间的构成关系,所以无法对红外图像进行正确的三维重建.

鉴于PP-MRF模型在可见光领域的三维重建的成功应用,将此模型应用于车载红外图像,并针对车载红外图像的特点做出改进,使其更加注重于对道路和天空等较大面板结构特性的分析和把握,能够更好地对车载红外图像进行三维重建.本文针对车载红外图像三维重建,首先对红外图像进行超像素分割和特征提取,并对基于PP-MRF模型的三维重建方法进行改进,使它适用于车载红外图像的三维重建,再通过样本集训练得到图像模型参数,最后对待测试的车载红外图像进行面板结构分析和三维重建.算法流程如图1所示.

图1 算法流程框图Fig.1 The algorithm flow chart

1 超像素分割及特征提取

1.1超像素分割

超像素是指具有相似纹理、颜色、亮度等特征的相邻像素构成的图像块.相比可见光图像,红外图像缺少丰富的纹理和色彩信息,但是相对而言其包含着较为明显的边缘特征.基于这些特点,超像素分割能够在红外图像上分割出很多小面板类,并且较好地保持图像边界,分割速度较快,非常适合后续面板参数的估计.

文献[9]提出了基于图论的超像素分割方法,文献[10]提出了基于熵率的超像素分割方法.本文采用基于图论的超像素分割以及最小生成树的思想,目的是使同一区域内的元素尽可能相似,不同区域的元素尽可能不相似.该算法把图像中的每个像素点看作一个顶点,顶点和顶点之间存在着一条边e,每条边上含有对应的权值w(e),所有顶点的集合为V,将V分割成很多小区域C,这样把区域C中的任意像素点E作为顶点,每个区域都可以看作一个树形结构.

对于子集C⊆V的内部差异,就是该区域的最小生成树(MST)上的最大权值.内部差异计算如式(1)所示.

(1)

两部分子集C1, C2⊆V之间的差异为连接这两部分的最小权值边.外部差异计算如式(2)所示.

(2)

如果C1和C2区域之间的外部差异大于C1和C2的任意一个内部差异,则C1和C2为不同的部分,否则就认定为同一个部分,判断算法如式(3)所示.

(3)

1.2特征提取

对于每个超像素而言,需要计算一系列的特征值来捕捉每个超像素所蕴含的视觉特征,同时需要对图像闭合曲线边界和折叠处进行检测.本文使用Law’s掩膜对图像进行多尺度的特征提取,其特征如图2所示.

图2 Law’s掩膜Fig.2 Law’s mask

图2中前9个是Law’s特征掩膜,后6个是不同方向的边缘检测器,两两之间相隔30°.另外还需要统计超像素的形状和位置特征.Law’s特征和超像素本身的形状和位置特征相结合,构成整个超像素的特征向量.

在超像素特征提取时,使用Law’s掩膜的卷积输出结果为Fn(x, y), n=1, 2, …, 15.定义每个超像素块上的纹理能量如式(4)所示.

(4)

其中,当k=2, 4时的Ei(n)分别代表了超像素纹理的能量和峰度特性,因此每个超像素有15×2=30个特征.采用Law’s掩膜对超像素在3个尺度上进行卷积处理,并分别在每个尺度上进行特征提取.在每个尺度上同时对周围相邻接的其他4个最大的超像素也进行提取,这样可以很好地包括超像素本身的特征以及和周围超像素之间的关系.最后加上形状和位置特征14个.所以整个特征维数为15×2×3×(4+1)+14=464维.

由上述可知,提取的特征不仅包含了图像的局部特征与全局特征,还包括了超像素之间的闭合曲线与折线的特征.

2 面板参数马尔科夫随机场(PP-MRF)模型

2.1面板参数α

图3 面板参数α与di距离示意图Fig.3 The illustration of plane parameter αand distance di

2.2PP-MRF模型

在建立模型时,不仅需要考虑包含图像的局部特征,同时需要兼顾面板之间的邻接、共面、共线等关系.面板参数的定义如式(5)所示.

(5)

其中:αi和αj为超像素i和j的面板参数;Xi={xi,si:si=1, 2, …,Si}为超像素中所有点的特征向量,Si为超像素i中包含的像素点个数,xi, si为超像素i中的第si个像素的特征;Ri={Ri,si:si=1, 2, …,Si}和Rj={Rj,sj:sj=1, 2, …,Sj}为从摄像头中心到超像素i和j上每一个像素点的单位向量的集合;vi从局部特征来描述面板参数的可信度;yij为2个超像素边缘上所有点是闭合曲线边界的概率;θ为需要整定的参数,其参数值与面板所在的行数相关.其中,f1(·)对面板参数α与像素的局部特征xi, si之间关系进行建模,f2(·)主要在超像素i, j之间存在闭合曲线边界的情况时,由于闭合曲线的存在会对面板参数的值产生影响,此时需要对面板之间的关系进行建模.f2(·)的定义如式(6)所示.

(6)

通过选用不同的函数h(·)和在不同超像素之间的像素对{si,sj}来分别对邻接性、共面性和共线性这些重要的结构关系进行描述和捕捉.面板间的结构关系如图4所示.

(1) 邻接性结构.在超像素i,j连接的边界上分别选取si和sj,如图4(a)所示,那么式(7)可以很好地对邻接性给出概率模型.

hsi, sj(αi, αj, yij, Ri, Rj)=

(7)

(2) 共面性结构.在相邻接的超像素上选取像素对s″i和s″j,如图4(b)所示,如果相邻接的超像素之间确实存在共面关系,那么在理论上面板参数αi与αj的值相等.共面性的关系函数如式(8)所示.

(8)

如果两个超像素共面,那么在hs″i, s″j(·)=hs″i(·)hs″j(·)的条件下hs″i, s″j(·)的理论值为1.

(3) 共线性结构.超像素的共线性也是需要考虑的重要问题,如图4(c)所示,如果在图像平面上2个超像素共线,那么在实际的3D模型中,它们共线的概率就非常高.共线性关系函数如式(9)所示.

hsj(αi, αj, yij, Rj, sj)=

(9)

如果两个面板共线的概率越大,那么在hsi, sj(·)=hsi(·)hsj(·)的条件下hsi, sj(·)的理论值越趋近1.可以利用项hsi, sj(·)找出图像平面中2个超像素之间存在的所有长直线.

(a) 邻接 (b) 共面 (c) 共线图4 面板间的结构关系Fig.4 The relationship between planes

3 PP-MRF模型三维重建的改进和训练

3.1车载红外图像的PP-MRF模型三维重建改进

(10)

水平线的概率如式(11)所示.

(11)

其中:k为斜率;u∈[0, 1]为比例系数,其与长直线中心点所处的位置相关.根据先验知识,水平线出现在图像整个高度的1/3~1/2处的概率较大.设共有N条长直线,则最终水平线l由式(12)确定,即最大概率所对应的那条直线为水平线.

p(l)=max(p(li))i∈1, 2,…, N

(12)

拥有水平线的超像素面板若在上方即为天空,否则即为道路.在进行车载红外图像三维重建时,再结合相应的深度信息,就可以确定道路和天空的相对位置和三维结构特性.道路在结构上近似于水平的展开,而天空的深度为无穷远.

Sj=maxSt∈δ(i)

αi=αj

(13)

通过上述改进,增强了面板之间的相互依赖关系,便于在三维重建时更好地把握全局的三维效果,使得三维重建算法有更强的鲁棒性,适应于车载红外图像多变的道路场景.

3.2PP-MRF模型训练

由式(5)可知,θ为待学习参数,由于在图像的不同行上θ的含义是不一样的,比如在行数比较低时,参数θ所在行上的像素是道路的可能性比较大,在行数比较高时θ所在行上的像素是远处的天空和树木的概率比较大,所以将θ细分为10种不同的参数值.θr∈464(r=1, 2, …, 10),每种参数分类都代表了图像中对应行的情况.

本文使用多条件学习(MCL)[11-12],把整个复杂的学习问题拆分成一系列的条件概率问题,简化了学习的复杂性.将参数θ的估计转为线性极小化的问题.所使用的训练图像和对应的深度图像来自康奈尔大学计算机学院的官方网站, 400幅训练图像的分辨率为2 272像素×1 704像素,对应的深度图像为55像素×305像素×4像素.第一维度是图像的x轴坐标,第二维度是y轴坐标,第三维度是透视的深度,第四维度为真实的距离坐标,坐标单位为m.

4 实验步骤及结果分析

4.1算法步骤总结

本文的算法步骤总结如下:

(1) 获取训练图像和对应的深度图及摄像头参数;

(2) 对训练图像进行超像素分割;

(3) 从对应的深度图中计算相应的面板参数;

(4) 将超像素进行特征提取,提取出一个464维的特征向量,使用对应的特征向量和面板参数作为输入参数进行训练,整定PP-MRF的模型参数θ;

(5) 对于测试图像,同样进行超像素分割,利用PP-MRF对超像素做面板参数估计与结构分析.在结构分析的基础上寻找水平线,找出道路和天空对应的超像素,确定道路平面和天空的相对位置;

(6) 对于较小超像素的面板参数做出修正.由面板参数计算每个面板上的像素深度值,最后再结合结构信息进行三维重建.

4.2超像素分割和图像结构的分析

根据上述基本原理,在对原图像进行超像素分割后,根据训练好的车载红外PP-MRF模型,对面板的邻接性、共线性、共面性结构进行分析,以及面板参数和对应面板上每一像素点进行深度估计.根据以上分析结果对车载红外图像进行三维重建.对分割后的每一部分超像素赋予一种随机色彩,以便于观察.红外图像的超像素分割效果及对比如图5所示.

(a) 测试图像

(b) 本文使用图论的超像素分割

(c) 熵率的超像素分割图5 超像素分割结果Fig.5 The result of superpixel segmentation

从图5可以看出,基于熵率的超像素分割容易产生非常小的超像素区域.由于需要对超像素进行面板参数分析,细小的超像素区域不利于面板参数的估计.根据以上实验结果可知,基于图论的超像素分割算法更加适用于车载红外图像的分割.

长直线一般意味着图像含有较大的面板,把图像中的长直线找到并且标示出来,便于对图像结构的判断.超像素中长直线标示与水平线的确定结果如图6所示.

(a) 长直线

(b) 水平线图6 长直线及水平线标示Fig.6 The long straight line and horizontal line

4.3面板的深度估计和三维重建

(a) 测试图像

(b) 本文深度估计图

(c) 理想情况的深度效果图7 深度估计结果Fig.7 The results of depth estimation

本文算法和基于支持向量机(SVM)算法在车载红外图像深度估计上的结果比较如图8所示.由图8可知,本文所使用的基于PP-MRF模型的深度估计算法,在对大面板的深度估计上有很大的优势,面与面之间的深度值相对连续,而SVM算法直接对像素和深度之间的关系进行学习,从而导致最后估计的深度值不连续而无法进行三维重建,而且在道路和天空方面的深度估计结果上,相比较而言本文算法的结果更加正确.车载红外图像的三维重建效果如图9所示.

(a) 测试图像

(b) 本文算法

(c) SVM算法图8 深度估计结果比较Fig.8 Comparison of depth estimation

(a) 测试图像

(c) 三维重建视角2图9 车载红外图像三维重建结果Fig.9 The three-dimensional reconstruction results of vehicular infrared images

5 结 语

本文借鉴可见光中的三维重建技术,提出了一种基于超像素分割与PP-MRF模型相结合的车载红外图像三维重建技术.利用超像素分割的过分割特性,将红外图像分成一系列的面板,然后再利用改进的车载红外PP-MRF模型估计每个面板的参数、深度信息和相应的结构特性.由于实验条件的限制,本文在使用多条件学习时所选用的训练样本是由可见光图像在YUV颜色空间里的Y通道的亮度值与对应的深度图所构成,所以训练得到的PP-MRF模型在局部特征估计面板参数的准确性会有所降低.实验结果表明,此方法在车载红外图像的三维重建方面能比较正确地对道路和天空等进行重建,但是重建的精细度尚有待提高,后续将对车载红外图像的三维重建做进一步的深入研究.

[1] KLAUS A, SORMANN M, KARNER K. Segment-based stereo matching using belief propagation and a self-adapting dissimilarity measure[C]//International Conference on Pattern Recognition. 2006:15-18.

[2] MLKI A, WATANABE M, WILES C. Geotensity: Combining motion and lighting for 3d surface reconstruction[J]. International Journal of Computer Vision, 2002,48(2): 75-90.

[3] PAYET N, TODOROVIC S. Scene shape from textures of objects[C] //The 24th IEEE Conference on Computer Vision and Pattern Recognition. 2011: 20-25.

[4] SAXENA A, SUN M, ANDREW Y N. Learning 3-D scene structure from a single still image[C]// IEEE 11th International Conference. 2007: 1-8.

[5] SAXENA A, SUN M, ANDREW Y N. Make 3D: Learning 3-D scene structure from a single still image[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(5): 820-840.

[6] SAXENA A, CHUNG S H, ANDREW Y N. Learning depth from single monocular images[C]//Neural Information Processing Systems. 2005: 1-8.

[7] 孙韶媛, 李琳娜, 赵海涛.采用KPCA和BP神经网络的单目车载红外图像深度估计[J].红外与激光工程,2013, 42(9): 2348- 2352.

[8] 席林, 孙韶媛, 李琳娜, 等.基于SVM 模型的单目红外图像深度估计[J].激光与红外, 2012, 42(11): 1311-1315.

[9] FELZENSZWALB P F, HUTTENLOCHER D P. Efficient graph-based image segmentation[J]. International Journal of Computer Vision,2004,59(2): 167-181.

[10] LIU M Y, TUZEL O, RAMALINGAM S, et al.Entropy rate superpixel segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recogniction 2011: 2097-2104.

[11] PAUL C, WANG X R, MCCALLUM A. Multi-conditional learning for joint probability models with latent variables[C]// In NIPS Workshop Advances Structured Learning Text and Speech Processing. 2006:192-201.

[12] MCCALLUM A, PAUL C, DRUCK G, et al. Multi-conditional learning: Generative/ discriminative training for clustering and classification[C]//National Conference on Artificial Intelligence.2006:433-439.

Three-Dimensional Reconstruction from Monocular Vehicular Infrared Images Based on PP-MRF Model

SHENZhen-yi1a,1b,SUNShao-yuan1a,1b,ZHAOHai-tao2

(a. College of Information Science and Technology; b. Engineering Research Center of Digitized Textile & Fashion Technology, Ministry of Education, 1. Donghua University, Shanghai 201620, China; 2. School of Information Science and Engineering, East China University of Science and Technology, Shanghai 200237, China)

A three-dimensional reconstruction method of monocular vehicular infrared image, which combines super pixels segmentation and the plane parameter-Markov Random Field ( PP-MRF ) model, is proposed based on the characteristics of the vehicular infrared image. Firstly, the image is segmented into a series of small areas where the texture and brightness are similar, i.e. super-pixels. Then the PP-MRF model is trained, which can analyze the plane parameters and estimate the depth of each super-pixel of the testing image. The experimental results show that the proposed method can estimate the depth value of monocular vehicular infrared images and rebuild the 3D scene properly.

image processing; three-dimensional reconstruction; vehicular infrared image; plane parameter-Markov Random Field(PP-MRF); depth estimation

1671-0444(2015)03-0341-07

2014-11-26

国家自然科学基金资助项目(61072090,61205017,61375007)

沈振一(1990—),男,浙江嘉兴人,硕士研究生,研究方向为红外图像处理、机器学习.E-mail: szy1900@qq.com

孙韶媛(联系人),女,副教授,E-mail:shysun@dhu.edu.cn

TN 219

A

猜你喜欢

三维重建车载面板
一种车载可折叠宿营住房
石材家具台面板划分方法
基于Mimics的CT三维重建应用分析
高速磁浮车载运行控制系统综述
MasterCAM在面板类零件造型及加工中的应用
奔驰S级48V车载电气系统(下)
Photoshop CC图库面板的正确打开方法
智能互联势不可挡 车载存储需求爆发
基于关系图的无人机影像三维重建
三维重建结合3D打印技术在腔镜甲状腺手术中的临床应用