不同光照和姿态下的航拍车辆检测方法

2016-10-18刘松松罗子安

北京工业大学学报 2016年7期

关键词：像素点直方图航拍

毛征，刘松松，张辉，孟灿，罗子安

（北京工业大学电子信息与控制学院，北京 100124）

不同光照和姿态下的航拍车辆检测方法

毛征，刘松松，张辉，孟灿，罗子安

（北京工业大学电子信息与控制学院，北京 100124）

为了解决在不同光照和姿态下的航拍车辆检测准确度低的问题，基于Fourier-HOG算法提出了一种航拍车辆检测方法.该方法是基于滑动窗口的检测方法.首先，在处理过程中引入图像预处理，可以将背景区域进行有选择的剔除，大大节省检测时间和降低虚警率；其次，提取航拍图像基于局部敏感直方图的光照不变性特征；然后，再提取旋转不变的Fourier-HOG特征.将此特征在线性支持向量机中对车辆目标与非车辆目标进行分类.在后续处理阶段，引入非极大值抑制来降低误检目标.实验结果表明:所提出的车辆检测方法在谷歌地图数据集上进行测试，其检测准确度较高，且时间消耗低于原始的Fourier-HOG检测方法，该方法是一种较为有效的航拍车辆检测方法.

车辆检测；局部敏感直方图；Fourier-HOG特征；支持向量机；非极大值抑制

nonmaximum suppression

近年来，针对来源于航拍视频的分析已经发展成了一个很重要的课题［1］.该项技术的应用范围非常广泛，比如在军事侦查、交通管控、空中警察等领域都起着十分重要的作用［2］.与传统的地面监控系统相比，空中监测系统在检测地面快速移动目标和广阔区域监控方面拥有巨大优势，因此航拍监测系统成为当今最重要的监测系统之一［3］.1997年美国国防高级研究项目署（DARPA）资助的萨尔诺夫戴维研究中心针对航拍视频图像研发出了检测和跟踪地面目标的处理技术［4］.2005年美国中央佛罗里达大学开发了一套COCOA系统，该系统是针对无人机航拍图像进行地面目标检测与跟踪［5］.针对地面车辆的检测已成为航拍视频分析的一个重要方面.尽管卫星和空中监测平台的分辨率和可靠性不断提高，但是针对不同光照不同姿态下的航拍地面车辆检测仍然是一个十分具有挑战性的问题.

首先，航拍过程中面临的一个难题就是光照变化对目标外观的影响.研究发现，同一个物体在姿态相同却处于不同光照环境时，不能唯一地识别为同一个目标［6］.为了解决这个难题，大量的基于光照不变性特征的方法被提出［7］.早期的研究是基于光照恒定的条件下对目标轮廓进行检测［8］.最近，Harr-like特征和在线子空间模型算法被用于复杂光照条件下的目标检测中［9］.

其次，航拍过程中检测车辆的姿态变化也是面临的一大挑战.Hinz等［10］提出使用分层模型来描述车辆层次特征，由于没有确切的车辆假设模型，因此该方法具有较高的灵活性.然而此方法在背景与车辆目标区分度较低或有阴影情况时容易漏检.方向梯度直方图（histogram of oriented gradient，HOG）是Dalal等［11］在2005年的CVPR上提出的.HOG特征在车辆特征提取方面具重要的应用，然而HOG特征却不具有旋转不变性，对发生旋转的车辆不能准确检测.当同一个目标在不同姿态下出现时旋转不变性变得非常重要，机器视觉中传统的处理旋转不变性的方法一种是基于姿态归一化方法，如文献［12］提出的SIFT描述子在检测到的感兴趣点上通过将局部坐标系调整到占主导地位的梯度方向上，从而得到旋转不变特性.另一种是基于学习算法，文献［13-14］分别采用随机蕨和结构化SVM进行学习分类.

本文为了解决不同光照条件下不同姿态车辆的检测问题，首先，采用基于局部敏感直方图的光照不变性特征处理航拍图像.通过光照不变性特征提取过程将光照较亮的区域降低亮度，较暗的区域增强亮度，并且同一区域在不同光照下的光照不变性特征不会因光照不同而改变.然后，采用基于Fourier变换的旋转不变性HOG特征来处理检测过程中面临的姿态变化问题.通过提取光照特征和Fourier-HOG特征提取能够高效地检测出不同光照条件下不同姿态的航拍目标.

1　航拍目标检测

本文采用的航拍目标检测基于先验知识的分类、判断.首先，使用线性支持向量机对特征进行分类处理来提取先验模型；然后，对航拍图像进行预处理、特征提取、分类、后续处理进而得到检测结果.

1.1光照不变性特征

传统的图像直方图是一个一维数组，反映特定事件发生频率的强度值通常是一个整数.I代表一幅图像，与之相对应的图像直方图［15］为

式中:Iq为像素q点处的灰度值；W为目标模板总像素数；B为总的灰度级个数.Q（Iq，b）的定义为

计算每个像素点处的局部敏感直方图，每个像素点的亮度值乘以一个权重后累加，权重随着距离该像素点距离以指数方式下降.因此，中心像素点周围的像素点的亮度值信息都被考虑在内，但远离中心像素点的像素点亮度信息可以被忽略［16］.像素点p处的局部敏感直方图包括像素点左侧和右侧两部分的信息，计算完整的像素点p处的局部敏感直方图为

式中:q为像素点位置；α∈（0，1），为权重，本文取0.5.

在实践中，为了降低计算的复杂度本文采用归一化的直方图.归一化因子的计算为

通过式（5）可以得到归一化因子的计算与灰度级B无关.依据式（5）可得每个像素点处的归一化因子计算复杂度为O（1）.此外，归一化因子独立于图像内容之外，因此可以预先计算进一步降低计算的复杂度.

通过计算像素点的局部敏感直方图，建立了光照不变性特征

式中:p点的灰度级为bp，整个目标模板的灰度级个数为B； rp=kIP，其中k为常系数，本文取0.1，Ip是目标模版的平均亮度，平均亮度值越大，权重值越小.仿真结果表明，在剧烈光照变化下，式（6）中的Γp值基本不变，所以将此作为光照不变性特征.图1（b）所示为经过光照不变性特征提取后的图像.从图像（b）中可以清晰地看到原来处于强烈光照下的车辆变暗了，处于阴影部分的车辆变亮了.通过光照处理凸显了阴影部分的特征信息.是HEp（b）的权重；

为了提高目标检测效率，减少检测时间和降低虚警率，本文在光照特征提取完成后再进行基于梯度信息和灰度信息的背景滤除.在图1（b）图像基础上，采用滑动窗口检测方法将包含汽车可能性极低的检测窗口剔除.本文提出一个基于梯度信息的预处理方法.

首先将航拍图像灰度化，在滑动检测窗口上计算一个梯度矩阵，只保留水平Gx和垂直Gy梯度分量，计算梯度模值M，只有最大模值的梯度被保留而其余部分被滤除.梯度模值高于阈值T的检测窗口信息被保留，低于阈值T的部分被滤除.阈值低的部分说明该区域内没有包含足够的梯度信息，很可能属于平坦区域，比如空的路面等.通过此预处理，使得在计算图像描述符时运算量大大降低，提高了检测的效率.

其次，对图像进行直方图统计处理［17］.一个包含车辆目标的检测窗口内一定会有一个双模强度直方图.其中一个模代表车辆本身的灰度信息，另一个模代表占主导地位的目标周围背景信息.文中将灰度化的图像量化成M个灰度级.检测窗口含有单模强度时将被滤除，因为其出现概率较高的区域很可能是道路、植被区域或者建筑物屋顶.

通过预处理，可以减少特征提取的区域，从而减少处理时间.对于图1（a）的原始图像，背景滤除后的结果如图2所示，其中大部分道路和植被被滤除而车辆信息被保留，为了直观将滤除部分用阴影代替.应用此预处理技术在谷歌地图数据集上进行滤除操作，统计结果表明，每幅图像滤除率都能在25%～40%，所以本文算法较原始的Fourier-HOG算法在特征提取阶段减少了至少25%的计算量，因此本文算法消耗时间较原始Fourier-HOG算法大大减低.

1.2Fourier-HOG特征

针对HOG特征对旋转不变性的缺陷，Liu等［18］提出了基于Fourier变换的HOG特征很好地解决了上述问题.

给出一幅原始图像I，当图像发生旋转时，旋转图像变为

式中:Rg为旋转角度 g下的旋转矩阵；Tg（x）:=º代表函数间的复合.图像的旋转也会引起图像梯度的变化，梯度内的变化不仅是幅值的变化，相位同样也会发生变化，所以正确的梯度变换为

如图3所示，当一幅图像逆时针旋转90°时，图像的属性也会随之发生变化.与旋转角度对应的旋转矩阵Rg变为假设图中a点的坐标为I（3，2），与之对应的该点的梯度为d=D（3，2）.通过式（7）得出经过旋转后像素点a′的坐标为a′=I′（-2，3）.通过式（8）可以得到旋转后的梯度为d′而不是 d″，且 d′=Rgd=RgD（3，2）=RgD（Rg-1［-2，3］T）.

图像在2D空间的旋转变化在傅里叶空间中仅表示为简单的平移操作，根据群表示理论［19］，在2D旋转的不可约表示通过函数eima（m∈Z Z）表示.在某种意义上采用傅里叶基的优点是傅里叶基和相应的膨胀系数是不可约表示的.本文选择将梯度方向量子化处理，即在每个像素点创建一个方向分布函数h.假设一个像素点处的图像梯度为d∈R R2，与之相对应的方向为Φ（d），这个像素点的分布函数h可以用一个冲击响应函数表示

函数h的傅里叶系数表示为

式中:m∈Z Z，ψm（d）为ψm（Φ（d））的缩写.为了提高上述傅里叶系数的鲁棒性、降低冗余，本文采用空间聚集操作和对傅里叶系数进行局部归一化处理.空间聚集操作可以在傅里叶系数上通过空间卷积实现，核函数采用各向同性的三角核函数或者高斯核函数，同样，归一化处理也采用卷积核函数进行操作.通过空间聚集和卷积归一化后得到傅里叶空间描述符为

假设旋转情况 g，对应的旋转矩阵为 Rg. Tg（x）:=R-1gx，αg是相应的旋转角度.由式（11）得

HOG胞元只能描述局部区域信息，描述一个具有复杂空间结构的较大区域时需要计算一个区域描述符.多数基于HOG特征的描述符采用极坐标形式的空间面元划分，此种方法较分区网格空间面元划分更具有旋转适应性.

采用极坐标系内处理是因为在极坐标中相位和幅值是分开的，旋转角度的变化只发生在相位部分而幅值部分具有旋转不变性.一个理想的极坐标可以表示为U（r，φ）=P（r）ψ（φ）的基函数.傅里叶基的角部分具有完全正交性，所以只需要选择一个合适的径向基P（r）来建立一个描述Fourier-HOG域的2D基.通常选择在半径样本内操作，2D基为

式中:j∈N0；k∈Z Z.本文通过在HOG域内的平滑空间聚集（低通滤波操作）和径向方向的降采样（根据该函数K1的尺度）操作能够很好地保存图像的特征信息.

通过计算基函数Uj，k和Fourier-HOG域内的 ~Fm的卷积可以得到一个区域内的描述HOG的特征.

通过式（14）可以得到旋转阶数为k-m.为了建立旋转不变性的描述符，需要把旋转阶数置0，本文引入共轭复数的概念，由式（14）取共轭，将原复数与其共轭复数相乘，取出两式旋转阶数相等的情况

式（15）就是求得的具有旋转不变性的Fourier-HOG区域描述符.

目标检测的第一步是获取先验知识模型.首先针对已经确知的正负样本进行光照不变性特征和背景滤除处理，其次再通过式（15）所得的 Fourier-HOG描述符来进行特征提取，然后通过线性支持向量机进行分类建模，最后建立先验知识分类模型.第二步是对未知目标进行检测识别.光照对航拍图像的影响是非常大的，首先对图像进行光照处理并进行背景滤除，提取Fourier-HOG特征；其次依据第一步建立的先验知识分类模型对提取后的特征在线性支持向量机中进行分类判别；最后获得目标检测结果.

1.3非极大值抑制处理

本文引入非极大值抑制技术来消除多个虚假检测目标.由于本文采用滑动窗口进行检测，对一个真实目标的检测往往会产生多个检测目标，本文设置当2个检测到的目标重合度高于50%时，只保留其中置信度最高的目标，其余目标被剔除.通过非极大值抑制处理大大降低了误检测率.图4（a）所示为非极大值抑制处理前的局部结果，仿真图显示在同一个目标处检测出多个目标.采用非极大值抑制处理后的结果如图4（b）所示，这种情况完全消失.

2　实验分析

本文训练集数据来源于谷歌地球旧金山数据集，选择1 200个包含汽车目标在不同方向不同背景下的图像块作为正样本，选择3 000个不包含车辆的不同背景的图像块作为负样本，部分样本如图5所示.将各个图形块进行归一化为64×64像素大小的图像，得到一个4 200个样本的训练集数据，然后使用线性支持向量机来进行训练和分类.应用HOG算法、Schmidt and Roth［20］算法、Fourier-HOG算法和本文提出算法在谷歌地图洛杉矶数据集上进行测试，得到的检测结果如图6所示.

图6（a）显示HOG算法对光照变化适应性不强，阴影处检测率不高，而且对不同姿态下的车辆检测率也存在较多漏检情况.图6（b）和（c）显示Schmidt and Roth算法在阴影处检测效果高于HOG算法但低于 Fourier-HOG算法，但是 Schmidt and Roth算法和Fourier-HOG算法的误检率较HOG算法高.图6（d）显示本文算法无论在阴影区域还是不同姿态下的检测效果都高于以上3种方法且误检率很低.

将本文算法与以上几种经典算法（Fourier-HOG+ linear SVM，HOG+linear SVM，Schmidt and Roth）进行比较，本文采用Precision-Recall曲线作为算法性能的一个评价标准，图7为以上几种算法的PR曲线。Precision-Recall曲线横坐标表示召回率（Recall）、纵坐标表示精确度（Precision），其计算公式为

式中:tp为正确检测目标个数；fp为误检测目标个数；fn为漏检测目标个数.

3　结论

1）提出了基于局部敏感直方图的光照不变性特征和Fourier-HOG特征融合算法.该算法不仅可以准确检测出航拍目标中姿态发生变化的车辆，而且提高了原始Fourier-HOG算法对阴影中车辆的检测准确度.由于本文算法在特征提取阶段加入背景滤除操作，较原始的 Fourier-HOG算法降低了25%～40%的计算量，从而提高了检测效率.

2）将本文算法与其他几种经典算法在谷歌地图数据集上进行Precision-Recall测试，证明本算法具有更好的检测效果.

［1］KUMAR R，SAWHNEY H，SAMARASEKERA S，et al. Aerial video surveillance and exploitation［J］.Proc IEEE，2001，89（10）:1518-1539.

［2］EMST I，SUJEW S，THIESSENHUSEN K U，et al. LUMOS—airbome traffic monitoring system［J］.Proc IEEE Intell Transp Syst，2003，1:753-759.

［3］CHENG H Y，WENG C C，CHEN Y Y.Vehicle detection in aerial surveillance using dynamic bayesian networks ［J］.Image Processing，IEEE Transactions on，2012，21 （4）:2152-2159.

［4］LIPTON A，KANADE T，FUJIYOSHI H，et al.A system for video surveillance and monitoring［M］.Pittsburg: Carnegie Mellon University，2000.

［5］ALI S，SHAH M.COCOA:tracking in aerial imagery［J］∥Proceedings of SPIE-The International Society for Optical Engineering，2010，5（1）:101-114.

［6］JACOBS D W，BELHUMEUR P N，BASRI R.Comparing images under variable illumination［C］∥IEEE Computer SocietyConferenceonComputerVisionandPattern Recognition.Santa Barbara，California:IEEE，1998: 610-617.

［7］CHEN H F，BELHUMEUR P N，JACOBS D W.In search of illumination invariants［C］∥IEEE Conference on Computer Vision and Pattern Recognition.Hilton Head Island，Sauth Carolina:IEEE，2000，1:254-261.

［8］ISARD M，BLAKE A.Condensation—conditional density propagation for visual tracking［J］.International Journal of Computer Vision，1998，29（1）:5-28.

［9］KIM D，LEE D，MYUNG H，et al.Object detection and tracking for autonomous underwater robots using weighted template matching［C］∥OCEANS，2012-Yeosu.New York:IEEE，2012:1-5.

［10］HINZ S，BAUMGARTNER A.Vehicle detection in aerial images using generic features grouping and context［M］. Berlin:Springer-Verlag，2001:45-52.

［11］DALAL N，TRIGGS B.Histograms of oriented gradients for human detection［C］∥IEEE Conference on Los Alamitos:Computer Vision and Pattern Recognition，2005.San Diego:IEEE，2005:886-893.

［12］LOWE K D G.Distinctive image features from scaleinvariant keypoints［J］.International Journal of Computer Vision，2004，60（2）:91-110.

［13］ÖZUYSAL M，CALONDER M，LEPETIT V，et al.Fast keypoint recognition using random ferns［J］.Pattern Analysis and Machine Intelligence，IEEE Transactions on，2010，32（3）:448-461.

［14］VEDALDI A，BLASCHKO M，ZISSERMAN A.Learning equivariant structured output SVM regressors［C］∥Computer Vision（ICCV）.Barcelona，Spain:IEEE，2011:959-966.

［15］HE S，YANG Q，LAU R W H，et al.Visual tracking via locality sensitive histograms［C］∥Computer Vision and Pattern Recognition（CVPR）.Portland:IEEE，2013: 2427-2434.

［16］王宣，刘晶红.遮挡环境下采用分层局部敏感直方图的实时目标跟踪［J］.吉林大学学报（工学版），2015，45（2）:663-669. WANGXuan，LIUJing-hong.Multilayerlocality sensitive Histograms based real-time target tracking under rocclusion［J］.Journal of Jilin University（Engineering Science），2015，45（2）:663-669.（in Chinese）

［17］ELMIKATY M，STATHAKI T.Car detection in highresolution urban scenes using multiple image descriptors ［C］∥Pattern Recognition（ICPR）.Stockholm:IEEE，2014:4299-4304.

［18］LIU K，SKIBBE H，SCHMIDT T，et al.Rotationinvariant HOG descriptors using fourier analysis in polar and spherical coordinates［J］.International Journal of Computer Vision，2014，106（3）:342-364.

［19］LENZ R.Group theoretical methods in image processing ［M］∥LENZ R.Group theoretical methods in image processing.New York:Springer-Verlag，1990:413.

［20］SCHMIDT U，ROTH S.Learning rotation-aware features: from invariant priors to equivariant descriptors［C］∥Computer Vision and Pattern Recognition（CVPR），2012 IEEE Conference on.Providence:IEEE，2012:2050-2057.

（责任编辑吕小红）

Vehicle Detection From Aerial Photographing Under Different Illumination and Pose

MAO Zheng，LIU Songsong，ZHANG Hui，MENG Can，LUO Zi'an
（College of Electronic and Control Engineering，Beijing University of Technology，Beijing 100124，China）

To solve the problem of low detection accuracy of vehicle detection from aerial photographing under different lighting conditions and different postures，a new method based on the Fourier-HOG algorithm was proposed.This method was based on a sliding-window detection approach.First，image preprocessing，which selectively removed the background region，greatly improved the efficiency of detection and reduced the false alarm rate.Second，illumination invariant features were extracted based on local sensitive histogram and then the rotation invariant Fourier-HOG features were extracted.Finally，from the above features，the vehicle and non-vehicle were discriminated in a linear support vector machine（SVM）classifier.For post-processing，nonmaximum suppression technique was used to reduce a target multiple-detection.Results of the proposed vehicle detection on the Google Map dataset show that it has a higher degree of detection accuracy and consumes less time than that of the original Fourier-HOG detection method.Therefore，this method is a valid vehicle detection from aerial photographing.

vehicle detection；locality sensitive histogram；Fourier-HOG；support vector machines；

TP 391.9

0254-0037（2016）07-0982-07

10.11936/bjutxb2015090038

2015-09-15

国家自然科学基金资助项目（81370038）

毛征（1959—），男，教授，主要从事光电跟踪和系统仿真方面的研究，E-mail:maozheng@bjut.edu.cn