结合视觉显著性和空间金字塔的遥感图像机场检测
2014-03-25郭雷姚西文韩军伟程塨钱晓亮
郭雷, 姚西文, 韩军伟, 程塨, 钱晓亮
(西北工业大学 自动化学院, 陕西 西安 710072)
从遥感图像中自动检测机场目标,在飞机导航、军事侦察和精确打击等领域有着重要的实用价值,受到人们越来越多的关注。近些年来,多数检测算法[1-4]通过提取机场跑道的线性特征或机场目标候选区域的形状、SIFT等特征进行辨识检测,但巨幅遥感图像背景复杂,通常存在与机场目标特征属性相似的物体干扰,仅依靠上述特征,无法有效区分,影响机场检测的准确率。基于超完备字典的图像稀疏编码是一种新的图像表示理论,利用超完备字典的冗余性可以有效地捕捉图像的各种结构特征,形成对机场目标的鲁棒表征。
本文提出了一种新颖的遥感图像机场检测算法,通过构建滑动窗口检测器,将目标检测问题转化为模式分类问题,为了提高检测的效率,引入基于改进LSD算法[5]的窗口目标初判方法,如果窗口没有存在目标的可能性则不进行后续处理,如果窗口可能存在目标,则对窗口图像按照空间金字塔表示方法进行稀疏编码,为了更鲁棒地表征窗口图像,采用基于视觉显著性的特征抽取策略,形成描述窗口的全局特征向量,对该特征向量进行分类判别,判定该窗口中是否含有目标,最后采用局部邻域抑制算法完成机场检测任务。
1 视觉显著性引导抽取的空间金字塔特征表示
1.1 基于过完备字典的图像稀疏表示
图像在过完备字典下的稀疏表示是指图像可以完全或近似地由字典中少量的原子的线性组合表示。给定过完备字典D=[d1,d2,…,dk],x为图像的向量展开形式,通过(1)式求解图像x在过完备字典D中的最稀疏表示
(1)
λ为正则化参数。
为了获得图像更稀疏、更精确的表示,过完备字典的学习也是一个重要的方面。字典学习就是一种寻找稀疏表示下最优基的构造,并能满足稀疏表示唯一的条件约束。对于所有的训练集,需要求解
(2)
式中:xi表示每一个训练样本,si表示训练样本xi在字典D下的稀疏表示。虽然(2)式对于D和S=
1.2 空间金字塔特征表示
本文按照文献[7]提出的金字塔模型,将窗口图像在空间上进行3层金字塔划分,其第0层仍是原图像,第1层对图像进行2×2分块,第2层对图像进行4×4分块,一共可以得到21个不同大小和不同空间位置的图像区域。由于图像区域中的单个稀疏编码特征对于图像的旋转、噪声等比较敏感,不能形成对图像区域的鲁棒表达。为了克服稀疏编码的这个缺点,在图像局部区域,对稀疏编码特征进行最大抽取,依靠稀疏编码的统计特性来获得鲁棒的特征表达。
max:zj=max{|si|},i=1,2,…M
(3)
式中:M表示第j个图像区域中稀疏编码特征的数目,si表示每个图像子块(Patch)的稀疏编码。在每个图像区域中的稀疏编码特征进行抽取得到特征向量zj。但是在遥感图像中,背景复杂、杂物较多,容易抽取图像中的一些杂物的特征。
面对复杂场景,人类能迅速地将自己的注意力聚集在一些显著的目标上,从而对这些目标进行优先处理, 这是人类视觉注意机制在发挥重要作用,视觉注意机制保证了人类对视觉图像中相关信息进行选择和处理的能力。我们在特征抽取过程中,加入视觉注意选择机制,即:
zj=max{|si|·smj},i=1,2,…M
(4)
式中:smj为图像第j个局部区域的视觉显著图。利用视觉显著来对稀疏编码特征进行选择抽取,使得抽取后的特征能够更倾向于对前景目标进行表征,而对背景杂物等无关信息进行抑制。经过实验对比,我们采用基于图像空间频域分析的FT算法[8]计算遥感图像显著图,这个算法利用颜色、亮度特征的中央-周边算子来得到显著图,有确切边界的突出显著区域、计算效率高。
对窗口图像每一区域进行显著引导抽取后,将抽取后的向量进行归一化后,采用(5)式将其连接起来形成窗口图像的空间金字塔特征的最终表示形式。
(5)
本文对窗口的特征表示方法,既考虑了稀疏编码对图像主要特征和内在结构的有效表达,采用空间金字塔表示方法又融合了局部特征的空间位置信息,同时引入具有选择作用的视觉显著性模型,增强了对目标与背景杂物等的区分能力,使最终的特征表示更鲁棒。
2 基于滑动窗口的机场检测
基于滑动窗口的目标检测,核心思想是将目标检测问题转化为对滑动窗口的二值分类问题,即判定滑动窗口属于目标类还是背景类。
本文检测框架如图1所示。为了克服滑动窗口检测效率低、计算量大的缺点,本文设计了基于改进LSD算法的目标存在性初判步骤, 在初判后只对可能含有目标的滑动窗口进行特征提取及分类判别,大大减少了需要进一步处理的滑动窗口的数量,提高了检测效率。LSD算法采用基于假设检验的Helmholtz Principle准则对直线段进行判定,需要很大计算量,由于本文提取直线段仅是为了对目标的存在性进行初步判断,并不需要对直线段进行精确判定,我们可以简化判定规则,使用外接矩形长短轴之比对直线结构进行判定,既保证了检测效果,又提高了处理速度。
训练时,截取包含完整机场目标的最小图像作为正样本,120×120像素左右大小的背景图像作为负样本,按照上述金字塔特征的抽取方式提取正负样本的特征,并将此特征作为输入来训练线性SVM分类器。测试时,利用训练好的SVM分类器对测试图像中不同位置、不同尺寸的滑动窗口进行判定分类,检测过程中容易出现多个相互重合的目标类窗口,需要进一步处理来合并压缩窗口区域得到目标的精确范围,本文对传统的非极大值抑制方法进行了改进,同时考虑窗口的目标置信值和空间重合情况,先挑选最置信的窗口然后再对窗口进行压缩,使其精确、可靠、高效地定位目标区域,过程如下:
1) 对于判定为目标类的所有窗口,根据其目标置信值进行排序,首先选出置信值最大的滑动窗口;
2) 接着挑选剩余窗口中置信值最大的滑动窗口,并按照公式(6)计算和已经挑选出来的窗口的重叠率,如果重叠率a0大于0.8,则放弃该窗口,否则将其选出。
(6)
式中:wn为目前需要判断的窗口,wp为已经挑选出来的窗口。
3) 重复步骤2),直到所有符合要求的窗口都被选出。
4) 创建同测试图像一样大小的目标概率图像,根据步骤3)选出的滑动窗口在目标概率图像相应位置赋该窗口的目标置信值,在目标概率图像上应用非极大值抑制方法,得到目标的最置信区域。
图1 本文检测框架图
3 实验及结果分析
本文在Intel Xeon E5504处理器,6G内存的硬件环境和Matlab R2011a,Windows7 64位操作系统的软件环境下进行了实验。实验数据采用从中科院国际数据服务中心下载的红外遥感图像,波段为Band7-中红外,空间分辨率为30 m。从中截取了30幅包含机场目标的最小目标图像和270幅120×120像素大小的背景图像用来训练SVM分类器,以及140幅400×400像素大小的图像作为测试图像。
本文的机场检测算法中采用改进的LSD算法进行目标存在初判来提高基于滑动窗口的目标检测速度,采用基于视觉显著引导抽取的金字塔特征表示方式来鲁棒表征滑动窗口,为了充分说明这2个关键性步骤对算法性能的影响,设计了2个基准方法:基准方法1采用普通的max抽取方式来获得滑动窗口的金字塔特征表示;基准方法2直接在测试图像上进行检测,没有对窗口中是否存在机场目标进行预判断。并同文献[3]中的方法进行了比较,比较结果如表1所示。
表1 各种检测方法结果对比表
从表1中可以看出,对滑动窗口进行目标存在预判断,可以显著提高检测速度,而且仅仅损失了3%的识别率和增加了2%的虚警率,在实际应用中完全可以接受这样的代价。在红外遥感中检测机场时,普通的max特征抽取方式没有本文的特征抽取方式表现好,但仍强于文献[3]的方法,主要是因为文献[3]仅采用SIFT特征对机场目标进行表征并且采用像素级的分割方式来获得目标潜在区域,不能有效区分机场和其他背景杂物,虚警率比较高,而且检测速度比较慢。
4 结 论
本文提出一种结合视觉显著性和空间金字塔的遥感图像机场检测算法,对传统的金字塔特征提取进行了改进,通过引入视觉显著来对特征进行引导抽取形成对滑动窗口的鲁棒表征。基于滑动窗口的目标检测一般效率比较低,通过改进的LSD算法对滑动窗口中是否存在机场目标进行初步判断,来减少需要分类判定的窗口的数目,大大提高了检测的速度。实验结果表明,本文提出的特征抽取方式能够鲁棒表征窗口,提高了机场检测的识别率和降低了虚警率,有一定的实际应用价值,但处理速度距实时处理还有一定的差距,需进一步深化研究。
参考文献:
[1] 曲延云, 郑南宁,李翠华. 基于支持向量机的机场检测算法[J]. 西安交通大学学报, 2006,40(6):709-713
Qu Yanyun, Zheng Nanning, Li Cuihua. Airport Detection Algorithm Based on Support Vector Machine[J]. Journal of Xi′an Jiaotong University, 2006,40(6):709-713 (in Chinese)
[2] 张立平, 张红,王超,等. 大场景高分辨SAR图像中机场快速检测方法[J]. 中国图象图形学报, 2010, 15(7):1112-1120
Zhang Liping, Zhang Hong, Wang Chao, et al. A Fast Method of Airport Detection in Large-Scale SAR Image with High Resolution[J]. Journal of Image and Graphics, 2010, 15(7):1112-1120 (in Chinese)
[3] Tao C, Tan Y, Cai H, et al. Airport Detection from Large IKONOS Images Using Clustered SIFT Keypoints and Region Information[J]. IEEE Geoscience and Remote Sensing Letters, 2011, 8(1): 128-132
[4] Wang X, Wang B, Zhang L. Airport Detection in Remote Sensing Images Based on Visual Attention[C]∥Proceedings of Neural Information Processing, 2011: 475-484
[5] Von Gioi R G, Jakubowicz J, Morel J M, et al. LSD: A Fast Line Segment Detector with a False Detection Control[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(4): 722-732
[6] Lee H, Battle A, Raina R, et al. Efficient Sparse Coding Algorithms[C]∥Proceedings of Advances in Neural Information Processing Systems, 2006: 801-808
[7] Lazebnik S, Schmid C, Ponce J. Beyond Bags of Feature: Spatial Pyramid Matching for Recognizing Natural Scene Categories[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2006: 2169-2178
[8] Achanta R, Hemami S, Estrada F, et al. Frequency-Tuned Salient Region Detection[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2009: 1597-1604