基于多尺度分析的稠密SIFT特征提取方法

2018-07-19秦志光

计算机工程与设计 2018年7期

肖哲，秦志光，丁熠，蓝天，于跃

(电子科技大学信息与软件工程学院，四川成都 610054)

0 引言

尺度不变特征变换(scale invariant feature transform，SIFT)是最常见的局部特征描述符之一，研究者们在其基础上提出了许多改进方法[1-4]。根据采样方式的不同，基于SIFT的图像特征提取方法可分为稀疏SIFT特征和稠密SIFT特征两种类型。

稀疏SIFT特征提取方法通常先利用函数映射构建一个多尺度空间，然后通过极值检测机制在不同尺度中捕捉特异点作为图像采样点。该方法能够从较小数量的样本中总结出足够多的图像局部特征，同时由于在采样点选择阶段就相当于进行了一个关键点筛选的步骤，能够较为准确地靶定目标图像中最具代表性的特征，不容易受到背景信息干扰，无需后期加入人工筛选特征的工序，因此在图像匹配和图像检索的任务中表现出色[5,6]。然而，也正因为稀疏SIFT采样点主要集中在灰度变化敏感的图像边缘区域，许多包含在背景区域中的次要信息被丢弃，并且完全忽略了目标空间位置关系等全局信息，不能够完整地表示整幅图像的整体属性，在大数量的复杂图像分类任务中往往表现不佳。

稠密SIFT(dense scale invariant feature transform)省去了传统SIFT特征中尺度变换和采样点检测的步骤，直接在指定尺寸的采样窗口中对图像进行均匀采样。与稀疏SIFT特征相比，稠密SIFT特征提取方法不需要进行采样点筛选和特征归一化等繁琐计算，特征提取效率较高，易于实现。此外，通过均匀采样提取到的稠密特征能够更为全面地描述图像不同区域的差异信息，并且一定程度上兼顾到图像空间位置关系等全局信息，更适合图像表示和图像分类任务[7,8]。尤其是在视觉词袋模型提出后，能够完整描述图像语义信息的稠密SIFT很快成为视觉词袋模型中特征提取环节的标准配置之一[9-11]。然而，从另一个角度来看，尽管稠密SIFT特征有如上所述的许多优势，却依然无法完全替代稀疏SIFT特征。其中一个原因是图像的特征描述很大程度上依赖于图像的尺度，很多细节结构只存在于一定的尺度范围内，传统的稀疏SIFT通过高斯金字塔空间来实现图像的尺度变换，从而可以捕捉到原始图像中难以发现的深层次细节信息。相比之下，稠密SIFT缺乏多尺度结构，只能发现图像在单一尺度下表现出来的表层特征，不利于挖掘图像隐藏在深层次中的细节信息，而这部分信息的缺失势必会对于图像分类的结果造成不利的影响。

有鉴于此，本文结合稀疏SIFT和稠密SIFT各自的优势理念，提出一种基于多尺度空间变换的稠密SIFT特征提取方法。首先，利用离散二维小波对图像进行滤波，构建基于小波变换的多尺度空间，然后按照稠密网格均匀采样原则确定特征采样区域，再分别提取每个小波子频图像的稠密SIFT特征，最后将所有子频图像中提取到的稠密SIFT特征进行融合。根据上述方法得到的多尺度稠密SIFT特征既保留了图像的全局信息和空间位置信息，又能够很好地描述图像的深层次细节信息，根据3种基于视觉词袋模型及其衍生模型的图像分类算法实验结果表明，该特征提取方法可以有效提高图像分类任务的正确率。

1 基于多尺度空间的稠密SIFT特征提取

传统SIFT特征通常采用高斯差分函数构建图像的多尺度空间结构，然后在高斯差分空间中检测极值点并从中筛选出有效的特征采样点，相应计算方式非常复杂。本文提出的基于多尺度空间的稠密SIFT特征提取方法不需要额外的特征采样点检测及筛选环节，因此可以通过更为简单易用的小波变换代替高斯变换构建多尺度空间。然后利用指定尺寸、步长的滑动窗口在每一级子频图像上进行均匀采样，最后将所有的子频图像特征融合，生成具有多尺度特性的稠密SIFT特征。其过程如图1所示。

图1 多尺度空间稠密SIFT特征提取方法

图中k是小波分解层数，n=(a,b,c,d) 是同一层中不同方向上的小波子频图像。经过k次小波分解后，就可以获得包括原始图像尺度在内的k+1层多尺度空间。除原始图像外，每层包含4张子图像，在每张子图像上提取单尺度稠密SIFT特征，总共可以获得(k*4)+1组特征向量，最后通过特征融合方法生成多尺度稠密SIFT特征。

1.1 构建小波变换多尺度空间

小波变换是一种多尺度分析方法，其原理是利用特定的小波基对图像进行多次滤波操作，从而获得不同尺度下不同方向的高频系数与低频系数集合，其中高频系数是图像中像素灰度或颜色变化迅速的部分，包含了图像的边缘等细节信息，低频系数是图像中像素灰度或颜色变化平缓的部分，包含了图像的轮廓等背景信息。图像经过小波变换进行多尺度分解后能够得到不同分解层的信息增益，在不同尺度下分解的图像具有不同的特性。

小波变换的关键在于小波基的选择，本文中为简化运算，采用二维离散Haar小波对图像进行分解。在利用小波变换对图像进行滤波处理时，可以将图像视作一个二维矩阵，如图2所示，原始图像图2(a)在经过横向、纵向两次滤波后最终获得二维离散Haar小波系数图2(c)。

图2 二维离散Haar小波变换

原始图像经过小波变换后映射到不同尺度空间，每一层小波变换空间包含一个低频子图像和3个不同方向的高频子图像，其中，低频子图像反应了图像的背景信息，高频子图像反映了图像的细节信息。需要注意的是，随着图像分解层数的增加，计算的复杂度会急剧增大，实际应用中一般不会超过三层。

1.2 提取多尺度稠密SIFT特征

原始图像在经过小波变换后分解为变换层数k个尺度下的 (k*4)+1幅子频图像，为了充分挖掘图像在不同尺度、不同滤波方向上的细节信息，将对每一幅子频图像以及原始图像分别进行稠密SIFT特征提取，然后对提取出来的子频图像特征做归并处理。

稠密SIFT特征提取方法通常首先将图像划分为一定尺寸均匀分布的网格，每个网格中提取一个特征点，然后利用传统SIFT方法，通过统计特征点领域梯度直方图作为该点特征描述符。该方法一定程度上继承了传统SIFT方法的旋转不变性，同时具有更好的特征分布，但是由于每个网格之间相对孤立，网格尺寸的设定和划分很大程度上影响到提取到的特征优劣。本文在此基础上提出一种改进的滑动窗口模式提取子频图像的稠密SIFT特征，具体步骤如下：

首先，如图3所示，预设一个自定义大小的正方形窗口，然后使这个窗口按照一定步长在图像上自左向右、自上向下滑动，每次滑动截取的窗口即为采样区块。

图3 基于滑动窗口的特征采样

其次，如图4所示，将每个采样区块划分为4*4=16个较小的区块，每个小块包含若干像素点，图中每个小方格即为该采样区块中心点领域上的一个像素点，小方格中的箭头长度和方向分别代表该像素点的梯度模值和方向。

通过式(1)计算每个像素点的梯度模值m(x,y)和梯度方向θ(x,y)。其中(x,y)为该像素点所在的坐标位置，L为该像素点的灰度值

(1)

然后根据高斯环形加权进行统计，生成8个方向上的梯度直方图，取直方图的峰值作为该区块的主方向。图4中的圆形区域即为高斯加权的范围，通常来说，越靠近中心的像素点的方向对该采样区块主方向影响越大，因此每个像素点的加权随着距离增加而减小，具体表现为高斯函数递减。在获取采样区块的主方向后，将每个小块的主方向以其所在采样区块的主方向为基准进行旋转，归入统一的坐标系，这样在统计每个采样区块的梯度直方图时仅需考虑采样点和特征点的相对方向，生成的描述符具有旋转不变性。最后，如图4中右图所示，将每个采样区块中4*4=16个小块的8位梯度直方图连接起来，形成128维特征描述符。

在获得包括原始图像在内的所有多尺度空间子频图像的稠密SIFT描述符之后，可以直接对特征进行融合以获得图像的多尺度稠密SIFT特征，也可以对每个子频图像的特征单独进行训练分类，然后利用多分类器集成方法对结果进行决策融合。在此，为计算简便，本文采用特征融合方法获得多尺度稠密SIFT特征。

2 基于多种词袋模型的图像分类实验

2.1 实验方法

为验证本文提出的多尺度稠密SIFT特征的有效性，以及在不同图像分类算法中的普适性，实验分别采用3种常见的图像分类算法进行测试，分别为：视觉词袋模型(bag of visual word，BOVW)、基于直方图交叉核的视觉词袋模型(histogram intersection kernel，HIK)、以及基于空间金字塔匹配的视觉词袋模型(spatial pyramid matching，SPM)。实验步骤如下：

(1)通过本文方法提取样本图像的多尺度稠密SIFT特征；

(2)利用多尺度稠密SIFT特征构建词袋算法的特征词典，按照相应算法生成图像的视觉特征直方图；

(3)利用LibSVM提供的rbf-SVM分类器进行分类实验。

2.2 实验结果

本文实验数据选用来自加利福尼亚理工学院的Caltech 101数据集，包含101个类别8677张图像。实验采用3次交叉验证，将每组图像通过随机抽样均分为A、B、C这3个子集，每次实验选取其中一个子集作为训练集，另外两个子集作为测试集，3轮实验后取平均值。

由表1可见，在3种不同的图像分类算法中，本文提出的多尺度稠密SIFT特征分别与传统SIFT特征相比，分类正确率分别提升了9.6%、6.1%、8.7%，与稠密SIFT特征相比，分类正确率分别提升6.7%、2.6%、5.9%，实验结果表明本文提出的方法能够有效提升图像分类算法的正确率。

表1 图像分类实验结果

注：BOVW：视觉词袋模型；HIK：基于直方图交叉核的视觉词袋模型；SPM：基于空间金字塔匹配的视觉词袋模型。

3 结束语

本文提出了一种基于小波分析的多尺度稠密SIFT特征提取方法，该方法既保留了SIFT特征的多尺度结构和对图像细节的逐层分析特性，同时也具有稠密SIFT特征覆盖面广、兼具图像空间位置关系等全局信息的优点。实验结果表明，该方法提取的多尺度稠密SIFT特征可以有效提升图像分类的准确率。但是，与稠密SIFT特征一样，本文方法直接提取的特征也存在特征维数过高的问题，有必要在特征融合环节进行特征选择和特征池化来降低特征维度以提高分类算法效率；另外，对小波基的选择与小波分解层数的拟定也有待进一步的探讨。在后续的研究中，将对上述两个问题进行深入研究，进一步完善本文提出的特征提取方法。