基于加权局部梯度直方图的头部三维姿态估计

2015-03-07崔汪莉卫军胡纪鹏刘哲

西安交通大学学报 2015年11期

关键词：肤色直方图权值

崔汪莉,卫军胡,纪鹏,刘哲

(1.西安交通大学机械制造系统工程国家重点实验室,710049,西安;2.西安交通大学机械工程学院,710049,西安;3.西安邦威电子科技有限公司,710049,西安)

基于加权局部梯度直方图的头部三维姿态估计

崔汪莉1,卫军胡1,纪鹏2,刘哲3

(1.西安交通大学机械制造系统工程国家重点实验室,710049,西安;2.西安交通大学机械工程学院,710049,西安;3.西安邦威电子科技有限公司,710049,西安)

在实时估计人的头部三维姿态时,基于局部梯度方向直方图的面部特征表示方法容易受到背景和环境的影响,其检测精度无法满足实际需求。为了减少图像或视频序列中背景和环境的影响,提出了一种新的对面部特征进行描述的方法,即基于肤色权值和高斯权值加权的局部梯度方向直方图特征表示方法。在具体计算时,首先进行人脸检测并将人脸区域缩放到统一大小,然后计算人脸区域每个像素点对应的梯度方向,接着计算肤色权值并利用肤色权值和高斯权值对梯度方向进行加权得到加权局部梯度方向直方图,从而强化面部特征在直方图中的比重,有效减小背景对头部三维姿态估计的影响,最后利用非线性支持向量回归机求解加权局部梯度方向直方图与头部三维姿态之间的关系。实验结果表明:该特征表示方法具有更高的检测精度。

三维头部姿态估计;肤色权值;高斯权值;局部梯度方向直方图;非线性支持向量回归机

头部三维姿态检测是计算机视觉领域一个非常重要的研究内容,在人脸识别、人机交互和疲劳驾驶检测等方面有着非常广泛的应用前景。例如,在机场、地铁站、火车站等安全通道进行身份验证时,对多个摄像头捕捉到的人脸图像进行三维姿态估计,筛选出最接近正面的图片进行人脸识别,能够提高人脸识别的准确度。在人机交互方面,通过头部三维姿态检测对人的头部运动进行分析。在疲劳驾驶检测中,通过监控视频,计算驾驶员的头部三维姿态,判断其大致的视线方向,再结合眨眼、打哈欠的频率等参数,推断驾驶员的疲劳程度和注意力,及时给予提醒,有效减少交通事故。

头部三维姿态检测是根据输入图像或者视频序列确定人的头部在三维空间中的3个姿态参数,即对应于xyz的平面旋转角度、垂直深度旋转角度、侧深度旋转角度3个空间坐标轴的偏转角度[1],姿态示意图如图1所示。

图1 头部三维姿态示意图

常见的头部三维姿态检测方法主要包括表观模板法、检测器阵列法、流形嵌入法、弹性模板法、几何法、跟踪法等[2]。几何法(geometric methods)主要结合人脸特征点的位置和几何关系进行头部姿态的计算[3],几何法直观、简单,但是在很大程度上依赖于人脸特征点定位的准确程度,对于偏转角度较大的情形往往无法准确定位出人脸特征点的位置,据此计算的头部姿态误差非常大,尤其对于没有深度信息的人脸图像,其俯仰角的计算误差也是非常大的,所以几何法在实际应用中具有一定的局限性。跟踪法(tracking methods)通过对视频流中帧与帧之间脸部某些特征点的跟踪来计算头部三维姿态[4],但是如果头部运动速度较快,在两帧之间变化较大,特征点的跟踪精度会受到影响,存在误差逐帧累积的可能,相对而言,利用单张图片信息进行三维姿态判断的方法精度更高。

近年来,机器学习在头部姿态检测中也得到了应用,Erik采用局部梯度方向(LGO)直方图表示图像的梯度方向特征,使用非线性支持向量回归(SVR)得到其与姿态角度之间的关系,从而进行三维姿态角度的判定[5]。虽然LGO能够很好地描述图像的面部区域特征,计算速度快,但是我们在开发疲劳驾驶实时检测系统时,利用OPENCV中的Adaboost人脸检测方法从视频或图像中检测到的人脸区域中往往包括了各种背景,如图2所示,人脸框中的非人脸区域会影响LGO对脸部特征的描述。本文的目标就是减少背景因素对面部特征的影响,提高检测精度。

图2 基于Adaboost的人脸检测结果

肤色是人特有的一种特征,可以有效区分背景和脸部区域,如果在头部姿态的特征表示中考虑肤色因素,会减少背景对检测结果的影响。对每个采样点使用高斯加权也可有效减少人脸框四周区域的权重,提高面部区域在整个特征表示中的权重,这是因为背景区域往往分布在靠近人脸框的位置。因此,本文提出了一种适用于普通光照条件下的基于肤色和高斯加权的头部三维姿态估计方法,即用肤色权值和高斯权值对人脸区域的局部梯度方向直方图进行加权,从而减弱背景区域对计算头部三维姿态的影响,提高检测的精确度。

1 LGO直方图

LGO直方图是描述人脸面部特征的一种非常有效的方法,与尺度不变特征变换(Sift)[6]相类似,需要计算局部梯度方向并用直方图来描述,但是不同的是,它将整个脸部区域作为一个整体,用一个直方图描述子进行描述;用Sift描述人脸特征时,需要确定人脸关键点的个数以及位置,然后对于每个关键点都需要用一个直方图描述子进行描述。LGO直方图的计算方法可以描述为:首先利用公式把检测得到的彩色人脸区域图像转换成对应的灰度图像

hgray=0.299R+0.587G+0.114B

(1)

然后把它分成M×N个子区域,对于任意一个子区域中位置为(x,y)的像素点计算其对应的梯度方向ox,y,权值为1,如图3所示,其中每个小格中箭头方向就是对应像素点的梯度方向,对这些梯度方向用直方图进行统计。梯度方向角度的范围是0～360°,也是直方图的统计范围,在本文中取每45°为一个柱(Bin),共分为8个柱,即O=8,将360°分为8个柱的示意图如图3所示。绘制每个子区域的梯度方向累加值,从而得到一个M×N×O的三维梯度方向直方图,如图4所示,(m,n,o)表示该直方图对应的一个柱。其中(x,y)位置的梯度方向ox,y由以下步骤求得:对于上面得到的灰度图像,分别用3×3的sobel算子滤波得到(x,y)位置的像素点对应的横向亮度差分近似值Xx(x,y)及纵向亮度差分近似值Xy(x,y),从而求得其对应的梯度方向[5]

ox,y=

(2)

图3 梯度方向示意图

图4 2×2×8的LGO示意图

用一个3×3×3的核对LGO直方图进行平滑来防止混叠效应,从而得到人脸区域特征的最终表示方法,即

(3)

式中:a,b,c∈(-1,0,1);g(·)是脉冲函数,即

2 加权LGO直方图

根据上述过程计算LGO直方图时,由于经过Adaboost检测得到的人脸区域中往往带有一定的背景区域,而LGO直方图是对人脸检测框内部整个区域的描述,包括一些背景区域,而这些非人脸区域对于LGO直方图的描述也会造成一定影响,导致其只能近似描述出人脸区域的特征。为了削弱背景区域对特征描述的影响,本文利用肤色加权和高斯加权进行改进得到加权LGO直方图。为了计算加权LGO直方图,首先需要进行肤色检测。

2.1 肤色区域检测

采用OPENCV中提供的Adaboost人脸检测方法,得到一个包含部分背景的人脸区域。为了方便,把检测到的人脸区域统一到同样大小进行处理。为了尽可能准确地检测出人脸的肤色区域,需要先进行一系列均值滤波、光照补偿等预处理工作。

大量的研究表明[7]:人的肤色在YCbCr色彩空间有着比其他色彩空间更好的聚类特性,主要体现为肤色在色度上的差异远远大于亮度上的差异。所以,本文选择在YCbCr色彩空间进行人脸区域肤色部分的检测。RGB色彩空间到YCbCr色彩空间的转换公式为[8]

(4)

根据统计学原理,像肤色这样的随机样本在CbCr色度空间应该符合高斯分布[9],通过拟合可以用高斯肤色模型表示,然后可以根据高斯分布的概率表达式求得图像中像素点的肤色似然值P(Cb,Cr),该值越大,对应的点越接近肤色。对应的表达式为

(5)

式中:z=(Cb,Cr);μ是均值,表达式为

C是协方差矩阵,且

μ、C的值可以通过样本统计得到,其中N是统计样本的总个数。

根据以上步骤计算人脸区域位置为(x,y)的像素点对应的肤色似然值P(Cbx,y,Crx,y),其中Cbx,y、Crx,y是该像素点对应的色度分量。上述计算结果可以构成对应的肤色似然图,如图5所示,从图中可以很明显地分辨出人脸的肤色区域。

图5 肤色似然图

2.2 加权LGO直方图

加权LGO直方图是对每个点的梯度方向进行加权,它的权值包括肤色权值和高斯权值。其中,肤色加权主要是计算出人脸检测框内部的肤色区域,对应像素是肤色的权值较大,非肤色的权值较小,可以有效减少非肤色区域的影响。高斯加权主要是为了让人脸检测框的中心区域(一般人脸在人脸检测框的中间)所对应的权值略微大些,这样不容易受到人脸周围的背景区域的影响,同时进行平滑,能够去除一些噪声的影响。肤色和高斯加权是对脸部区域的位置为(x,y)的像素点计算得到的梯度方向ox,y进行加权,新的权值变为1×肤色权值×高斯权值。

本文用以下2种方法确定肤色权值:一是把肤色区域进行二值化处理的结果当作权值,也就是说,如果式(5)计算得到的某点的肤色似然值大于0.5,则认为该点属于肤色区域,其权值为1,否则属于非肤色区域,权值为0。肤色二值化加权的权值表达式为

另一种方法则是直接将式(5)计算得到的肤色似然值作为肤色权值,即

高斯权值用二维高斯函数表示,即

式中:(x0,y0)是人脸框中心位置;r是人脸框的外接圆半径。

(x,y)处的梯度方向的权值可以表示为

(6)

根据上述描述并结合LGO直方图的计算方法,即对梯度方向的权值进行统计可以得到两种加权LGO直方图,它们的肤色权值分别为肤色二值化值和肤色似然值。

3 非线性支持向量回归机

上述得到的加权LGO直方图是人脸区域特征的一种新的表示方法,计算结果是一个M×N×O维的特征。求解该特征到某个对应姿态的映射就可以求得特征与三维姿态之间的关系,这是一个非线性回归问题,可以用非线性支持向量回归机(SVR)[10-11]求解。

非线性SVR的基本思想是通过一个非线性映射Φ把输入数据x投影到一个高维特征空间H中,然后在这个高维空间中用函数f(x)=ωΦ(x)+b来拟合数据(xi,yi),其中xi∈Rd,yi∈R,i=1,2,…,l,l是样本数,从而在原来的低维空间取得非线性回归的效果。在利用非线性SVR求解头部特征和头部三维姿态之间的对应关系时,xi是第i个样本对应的头部特征,即第i个样本的加权LGO直方图,而yi是第i个样本对应的头部三维姿态中其中的一个,这样便可以通过训练得到对应的回归器。求解此类问题一般是通过最小化超平面来实现的,该非线性SVR问题可描述为

(7)

其中的约束表示预测值与实际值的差距小于ε。

对该问题进行求解,得到回归函数为

(8)

式中:γ是核参数,且γ>0。

本文在实验时利用OPENCV中的LibSVM自动训练并优化参数,同时对非线性SVR进行求解。为了计算头部三维姿态,使用了垂直深度旋转、平面旋转、侧深度旋转3个回归器,输入都是加权LGO直方图。为更好地求解回归参数,将训练输入和测试输入的每一个成分的尺度进行了归一化处理,算法的流程图如图6所示。

图6 训练过程流程图

4 实验结果与误差分析

本文采用波士顿大学3D头部跟踪使用的视频和测量的头部三维姿态角度数据对算法性能进行测试[12]。在这些视频中人的头部三维姿态角度连续、完整,比较符合实际应用中头部偏转角度的要求。用4个人的数据作为训练样本,1个人的数据作为测试样本。在训练和测试前,需要将视频流转换成一系列对应的图像,其中训练图像2 536张,测试图像697张,并将人脸区域统一到34×34像素大小进行处理,把人脸分成4×4个子区域。

进行2次实验,把加权LGO和原始LGO进行了比较。实验1对如图7所示的图片进行测试,结果如表1所示。表中的真实值是通过仪器检测出的头部三维姿态的实际值,误差是真实值和测试值之差的绝对值。可以看出,加权LGO直方图能够更好地估计头部三维姿态。

图7 测试图像示例

实验2对测试库中的所有697张图片进行测试,在计算肤色权值的时候分别采用了二值化、似然值两种方法。表2给出了真实值与测试值的平均误差,其中Ep、Ey、Er分别为3个角度对应的平均误差。

表1 测试结果对比 (°)

表2 平均误差 (°)

从表2可以看出,在LGO直方图的基础上利用肤色权值和高斯权值进行加权,对头部三维姿态的3个参数的估计结果都得到了明显提升。其中加权LGO方法在垂直深度和侧深度两个参数的估计方面更有优势,精度平均能提高2°左右,但是对于平面旋转这个参数的估计,相对于原始LGO方法则提高较少。对于两种加权LGO直方图,主要根据肤色权值的计算方法不同加以区分。其中,基于肤色似然值的LGO直方图可以很好地描述肤色的分布情况,从而提高肤色区域在计算加权LGO直方图时的权重,而且可以通过肤色似然值的不同显示出肤色不同区域之间的细小差异,比如鼻子部分等,保留了肤色的更多细节。基于肤色二值化值的LGO直方图是在肤色似然值的基础上进行计算的,在阈值选择比较精确时能够比较好地区分背景区域和肤色区域,使得肤色和非肤色的界限比较明显,容易突出轮廓。这两种肤色权值表示方法都能比较好地区分背景和人脸部分,在具体使用中,尤其是在疲劳驾驶检测中,主要涉及两个参数的估计,从表2可以看出,两种方法的结果差别不大,所以可以使用肤色似然值或者肤色二值化值作为肤色权值。

5 结论

本文对局部梯度方向直方图进行了改进,体现在计算梯度方向时用肤色权值和高斯权值进行加权处理。使用肤色权值加权可以有效减少人脸检测框中背景区域的影响,使用高斯加权则在进一步减少背景区域影响的基础上起到了平滑的作用。从实验1、2的结果可以看出,经过肤色权值和高斯权值加权的局部梯度方向直方图有着比原始LGO直方图更好的效果,对垂直深度旋转角度和侧深度旋转角度这两个参数的估计提高了2°左右。这两个参数是实际应用中经常需要计算的,其中垂直深度主要体现低头、打哈欠等动作,侧深度主要体现摇头、左右观察等动作,这两个参数往往就可以大致判断出头部的转向。在疲劳驾驶检测系统中,在光线条件能够检测到人脸肤色的情况下,用本文方法进行头部三维姿态检测可以大致估计出驾驶员的头部三维姿态,并据此判断其是否处于瞌睡、四处张望等状态。对于夜间的情况,可以考虑用去除背景区域的红外图像进行处理。

[1] JI Qiang . 3D face pose estimation and tracking from a monocular camera [J]. Image and Vision Computing, 2002, 20(7): 499-511.

[2] MURPHY-CHUTORIAN E, TRIVEDI M M. Head pose estimation in computer vision: a survey [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(4): 607-626.

[3] WANG J G, SUNG E. EM enhancement of 3D head pose estimated by point at infinity [J]. Image and Vision Computing, 2007, 25(12): 1864-1874.

[4] 赵刚强. 基于视觉的大范围头部姿态跟踪关键技术研究 [D]. 杭州: 浙江大学, 2009.

[5] MURPHY-CHUTORIAN E, DOSHI A, TRIVEDI M M. Head pose estimation for driver assistance systems: a robust algorithm and experimental evaluation [C]∥Intelligent Transportation Systems Conference. Piscataway, NJ, USA: IEEE, 2007: 709-714.

[6] LOWE D G. Distinctive image features from scale-invariant keypoints [J]. International Journal of Computer Vision, 2004, 60(2): 91-110.

[7] HSU R L, ABDEL-MOTTALEB M, JAIN A K. Face detection in color images [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(5): 696-706.

[8] 龚理专, 王威. 基于肤色信息和主分量分析的人脸实时检测系统 [J]. 计算技术与自动化, 2005, 24(1): 92-94. GONG Lizhuan, WANG Wei. Real-time face detection system based on skin information and principal component analysis [J]. Computing Technology and Automation, 2005, 24(1): 92-94.

[9] 李伟, 孙世新. 基于肤色分割的人脸检测算法研究 [D]. 西安: 电子科技大学, 2006.

[10]BASAK D, PAL S, PATRANABIS D C. Support vector regression [J]. Neural Information Processing-Letters and Reviews, 2007, 11(10): 203-224.

[11]董国君, 余辉. 基于RBF核的SVM核参数优化算法 [J]. 新疆大学学报: 自然科学版, 2009(3): 355-358. DONG Guojun, YU Hui. Optimization algorithm of SVM kernel parameters based on RBF kernel [J]. Journal of Xinjiang University: Natural Science Edition, 2009(3): 355-358.

[12]LA C M, SCLAROFF S. Fast reliable head tracking under varying illumination [C]∥ IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 1999: 604-610.

[本刊相关文献链接]

俱莹,殷勤业,陈媛,等.发射聚焦式的多天线跳空安全通信技术.2015,49(6):22-26.[doi:10.7652/xjtuxb201506004]

刘天良,郑海红,罗圣美,等.改进的混合动静态背景的分割方法.2015,49(2):25-30.[doi:10.7652/xjtuxb201502005]

杨建伟,桂小林,安健,等.一种信任关系网络中的社团结构检测算法.2014,48(12):80-86.[doi:10.7652/xjtuxb2014 12013]

杨阳,廖学文,高贞贞,等.多小区终端直通异构网络中利用图论的资源分配方案.2014,48(10):22-28.[doi:10.7652/xjtuxb201410004]

赵建伟,贾维敏,姚敏立,等.移动卫星通信系统组合姿态估计算法.2014,48(8):36-41.[doi:10.7652/xjtuxb201408007]

任茂栋,梁晋,唐正宗,等.数字图像相关法中的优化插值滤波器.2014,48(7):65-70.[doi:10.7652/xjtuxb201407012]

屈鉴铭,刘志镜,贺文骅.结合有向场景运动模式的粒子滤波行人跟踪方法.2014,48(12):74-79.[doi:10.7652/xjtuxb 201412012]

储颖,牟轩沁,洪伟.采用形状一致性特征的盲图像质量评价方法.2014,48(8):12-17.[doi:10.7652/xjtuxb201408003]

袁飞,朱利,张磊.利用超图图割的图像共分割算法.2014,48(2):20-24.[doi:10.7652/xjtuxb201402004]

赵军,赵继,张雷.焊缝结构光图像处理与特征提取方法.2013,47(1):114-119.[doi:10.7652/xjtuxb201301022]

田方浩,姚敏立,周淑华,等.宽带移动卫星通信系统低成本姿态估计算法.2013,47(6):44-49.[doi:10.7652/xjtuxb 201306008]

(编辑赵炜)

Head Pose Estimation Using Weighted Localized Gradient Orientation Histogram

CUI Wangli1,WEI Junhu1,JI Peng2,LIU Zhe3

(1. State Key Laboratory of Manufacturing Systems Engineering, Xi’an Jiaotong University, Xi’an 710049, China;2. School of Mechanical Engineering, Xi’an Jiaotong University, Xi’an 710049, China;3. Xi’an Bang Wei Electronic Technology Co., Ltd., Xi’an 710049, China)

When used for real-time 3D head-pose estimation, the facial features based on the localized gradient orientation histogram are easily affected by the environment and background so that the detection accuracy cannot meet the practical requirements. To reduce the influence of environment and background in images and video sequences, this paper presents a new weighted localized gradient orientation histogram to represent the facial features. During the computation, faces are detected and made the same size firstly. The gradient orientations of every point in the facial area are computed and then weighted by its skin-color probability and a Gaussian random value. Based on these gradient orientations a weighted localized gradient orientation histogram is obtained, in which the role of facial area is increased and that of environment and background are reduced. Finally the relationship between the 3D head-pose and the new features is computed using nonlinear support vector regression method. The results of numerical experiments show that this new method has a reletively high detection accuracy.

3D head pose estimation; skin-color weights; Gaussian weight; localized gradient orientation histogram; nonlinear support vector regression

2015-03-13。

崔汪莉(1989—),女,硕士生;卫军胡(通信作者),男,副教授。

10.7652/xjtuxb201511012

TH137

0253-987X(2015)11-0071-06