基于SIFT算法的二进制图像检索技术研究

2015-09-11刘琛张建敏

电脑知识与技术 2015年17期

刘琛++张建敏

摘要：基于文本的图像检索技术已经不能满足人们的需求，基于内容的图像检索技术将是未来图像处理领域的研究热点。将基于局部特征提取的特征提取算法（SIFT）跟DOG算子结合，运用于MPEG-7数据库的二进制图像的检索，得到了很好的图像匹配结果。

关键词：图像检索；SIFT；二值图像

中图分类号：TP18 文献标识码：A 文章编号：1009-3044（2015）17-0155-03

SIFT-Based Image Retrieval For Binary Images

LIU Chen， ZHANG Jian-min

（College of Data and Information Engineering， Guizhou University， Guiyang 550003， China）

Abstract： Text-based image retrieval technology already cannot satisfy people's needs， Content-based image retrieval technology will be the center topic in the field of image processing. Combined the Feature extraction algorithm based on local feature extraction （SIFT） with DOG operator， Applied to binary image retrieval based on MPEG - 7 database. Obtained good image matching results.

Key words： image retrieval； SIFT； binary images

在早期，文本检索技术是图像检索主要的方式，也就是基于文本的图像检索（text-based image retrieval，简称TBIR）。该引擎使用一系列的关键字来标注网站和网页中的内容查询时，用户输入关键字后，搜索引擎会根据关键字索引到相应的网址或者网站。首先，TBIR的缺点就是速度慢，每一张图片都需要人工标注关键字，随着图像数量增大，需要进行检索的图像库规模越来越大，人工标注的难度越来越大。其次，由于人的主观因素影响，不同的人对同一幅图像的信息理解可能存在着很大的不同，使得其没有一个统一的标注标准，这样更是加大了人工关键字标注的难度[1]。

为了解决上述的TBIR方法所存在的各种问题，到了20世纪的80年代，研究者们提出来了一种新的技术——基于内容的图像检索技术（content-based image retrieval，简称 CBIR）。这种方法只需要利用图像的一些自身的特征，如颜色、纹理、布局等，然后利用图像处理技术和技术及视觉算法来提取这些图像特征，这样的方法就有着很高的处理速度和很强的客观性[2]。

一个高效的、自动化的CBIR系统是非常有必要的，它可以根据用户的需求有效检索图像以及把图像按照相似度排列起来。一般地，如果正在研究的图像类型是轮廓，则二值图像是更恰当的，本文提出了一种提取给定的二值图像特征的方法。通常情况下，二值图像是由两种颜色组成，黑和白。对于CBIR系统，使用的二进制图像相比于使用实值位运算有很多的优势，这些优势包括操作简单，储存成本低以及加工速度快等。

本文介绍一种基于SIFT算法的关键点匹配技术，且只研究对二进制图像的检索。SIFT是一种基于局部特征提取和描述的算法，全称是尺度不变性变换（scale invariant feature transform），主要思想就是将图像之间的匹配转化成特征点向量之间的相似性度量[3]。

1 尺度不变性变换（SIFT）

SIFT算法由四个主要阶段组成：（1）建立尺度空间并检测其极值点。（2）精确定位特征点。（3）制定每个特征的主方向参数。（4）生成SIFT描述符。下面将具体介绍这四个步骤。

1.1建立尺度空间并检测其极值点

首先通过尺度空间理论对图像的多尺度特征进行模拟极值点检测，在多尺度空间下进行SIFT特征提取，图像的尺度空间可以定义为：

图1 构造图像尺度空间和DOG空间

如图1所示，一般说来，高斯金字塔的图像为[O]组，每组中包含高斯平滑图像奇数张（[S]张），相同的组内相邻图像尺度因子大小的比例为[K]，相邻的高斯平滑图像进行相减就可以得到高斯差分图像。对第[N]组高斯平滑图像釆样可以得到第[N+1]组小高斯平滑图像，对相邻的图像重复的进行相减就可以得到高斯差分空间，然后得到图像若干组，图像的高斯差分金字塔就由它们组成。

在DOG空间的每一组图像中，都需要对每个像素点判定极值（第一张和最后一张除外），判定的过程为：将每个像素点与跟它上下相邻和本尺度领域内的26个点来进行对比，然后判断时不时极大值点或极小值点，如果被判定为极值点，则将其保存为候选特征点，对应的尺度就是所在图像的尺度因子[4]。

1.2精确定位特征点

因为DOG算子会有较强的边缘响应产生，所以如果想要有比较稳定的SIFT特征描述符，还必须要对检测到的极值点进行精炼处理。这主要由两个部分组成，第一是抑制低对比度点，也就是指去除其响应值小于给定阈值的点；第二是去除边缘响应点，也就是指筛选掉候选点中曲率很大的边缘点。所以，在精炼极值点之前，先得通过三维二次函数来精确定位特征点的位置，然后计算这个位置的DOG响应值以及曲率来筛选出真正的极值点。

1.3制定每个特征的主方向参数

所有的通过精确定位得到的特征点，都有旋转不变性和尺度因子[σ]，计算特征点的邻域内各个像素点的梯度大小和方向统计信息，从而得到了每个特征点的主方向。梯度大小和方向统计信息分别为：

[m=（Lx+1，y-Lx-1，y）2+（Lx，y+1-Lx，y-1）2] （4）

[θ=tan-1（（Lx，y+1-Lx，y-1）/（Lx+1，y-Lx-1，y））] （5）

如果梯度直方图中存在另一个相当于主峰值80%的峰值时，则将整个方向认为是该关键点的辅方向。一个关键点可能被指定多个方向（一个主方向，一个以上的辅方向）。此时，我们可以将同一个关键点复制，使得它们的方向各不相同。

1.4生成SIFT描述子

将图像沿着所检测到的关键特征点的主方向进行旋转，以这个特征点为中心，在这个尺度图像内选取4*4个子区域，子区域的大小也是4*4，然后计算每一个子区域的8个方向上的梯度直方图，依次将每个子区域中8个方向向量进行排序，就可以得到4*4*8=128维图像特征向量。因此，在每一个特征点都能得到128维的特征向量，这样就能确保即使只有少数的几个物体，仍然可以得到大量的SIFT特征，这就体现出SIFT特征的多量性。这样的SIFT特征去除了尺度变化和图像旋转等几何形变带来的影响，

为进一步减少灰度和光照对于SIFT特征描述的影响，还要对其进行归一化处理。图2示出一个2x2的描述符数组从一个8x8样本集的计算。

2 实验和结果

本文图像检索仿真实验采用操作系统Windows7作为仿真平台，开发工具是Matlab。计算机的硬件配置是奔腾CPU，主频2.8GHZ，2G内存。实验中使用的图像数据库是MPEG7_CE-Shape-1_Part_B。它是由运动图像专家组（MPEG）委员会，通过了ISO/ IEC的工作组创建。此图像采集包括由它们的内容分为70类1400二进制图像，每个类别??包含20个图像样本。

2.1 特征检测

SIFT局部特征是在确定DOG函数在尺度空间的极大值与极小值中被有效检测到的。特征向量是通过测量局部图像梯度在周围的每个位置的区域中形成在相对于该位置，尺度和特征的取向。

对于在本文中所进行的实验中，DOG函数所监测到的最大值和最小值均显示为关键点。图3为MPEG-7数据集的图像的示例出检测到的SIFT关键点。SIFT关键点显示为蓝色箭头线和箭头覆盖指示位置、尺度和方向的关键特性。箭头线的长度对应于构造描述符的图像区域。

在该示例中，应当注意的是更多的关键点会与图像的角进行检测。这个数据库中所有被监测到的关键点都已经保存在特征数据库中，用于检索和匹配。

2.2 特征匹配和索引

从查询图像的关键点可以通过与来自数据集的图像的所有矢量中最接近的欧几里得距离的描述符矢量匹配到来自数据集的图像。根据欧几里得距离的公式，两点之间的平面坐标（x，y）和距离（A，B）被给定为在方程（6）。

[Dist（（x，y），（a，b））=（x-a）2+（y-b）2] （6）

SIFT特征使用特征尺度和方向的关键点，形成了相似性匹配，在本实验中，SIFT关键点需要被存储，在图像查询中用于关键点的索引和相似性匹配。图4展现出一些在图像库中在图像查询（右边）和图像索引（左边）中关键点匹配的实例。黄线对应了相匹配的索引图像的SIFT特征。

在这个实验中，每个查询图像的SIFT特征匹配了相应的特征，两个输入相邻图像用线条连接匹配的位置。匹配点是被找到最近的邻居每个关键点的查询图像数据库中的图像，锤子和章鱼图像的第一行是分别与13和62的关键点。在第二行中，锤子匹配到了7个关键点，而部分被遮挡章鱼的触角被匹配到22个关键点。对于第三排章鱼形象，锤子图像匹配到了5个关键点，章鱼图像匹配到了10个关键点。在下面一行中，锤子和勺子图像之间只匹配到了一个关键点，章鱼和树的图案找到了4个匹配点。

2.3 检索结果

从检索结果，可以观察到，与其他三个图像比较，章鱼和树的检索效果最佳，大多数同类别的图像能够被检索排在前十名。相比于其他四个图像，章鱼的图像有更多的边角。对于锤，苹果和勺子查询图像来说，他们被检测到的关键点更少，因此，特征匹配率变小，从而导相同类型图像检索的准确度变低。由此可以得出结论，拥有更多边角的图像有更好的匹配效果，因此，SIFT算法是一个可靠的图像检索算法。

3 结束语

对于互联网上不断产生的海量数据，传统的信息处理方法已经无法满足我们的需求。在图像检索方面，基于文本的图像检索局限性越来越明显，基于内容的图像检索方法将是未来研究的重点。提出一种结合SIFT和DOG算子的局部特征提取算法，运用于二进制图像的检索，实验的对象是MPEG7_CE-Shape-1_Part_B图像库。在实验结果中，我们看到有更多角的图像检索正确率更高。因此，虽然SIFT算法是一种有效的图像检索方法，但是还需要进一步的改进和完善，来得到准确率更高、更可靠地图像检索方法。

参考文献：

[1] 杨丽. 网络信息检索中的图像检索技术[J]. 中国管理信息化，2013，16（3）：73-74.

[2] 张磊. 大规模互联网图像检索与模式挖掘[J]. 中国科学，2013，43：1641-1653.

[3] 冯镜蒯. 基于改进SIFT算法的图像搜索技术研究[D]. 华南理工大学，2011.

[4] 吴建波，赵建民，朱信忠，等.基于一种 SIFT 优化算法的图像检索[J].设计与研究，2011，27（5）：4-7.

电脑知识与技术

2015年17期

基于SIFT算法的二进制图像检索技术研究

杂志排行

电脑知识与技术的其它文章