基于形状特征的图像检索系统的研究
2012-07-05孙爽滋谷欣超杨勇苗静
孙爽滋,谷欣超,杨勇,苗静
(长春理工大学 计算机科学技术学院,长春 130022)
为了能够对数字资源加以有效的利用,基于内容的图像检索技术应运而生,它是综合图像识别、计算机视觉、数据库技术和人工智能等多学科融合的技术。所谓基于内容的图像检索是指对图像信息从低层到高层进行处理、分析和理解,获取其内容信息,这里所指的内容信息包括图像的颜色、形状、纹理和语义等特征,并且根据内容信息进行检索。
在各种图像特征中,形状特征是图像的重要特征之一,图像的形状信息不随图像颜色的变化而变化,是物体稳定的特征。本文研究对象主要是枪械图像库,由于枪械具有明显的外部特征,所以,本检索系统在开发过程中,以形状作为图像的主要特征进行描述与匹配。
1 图像检系统框架
借助图像内容来查询图像是一项复杂的工作过程。目前基于内容对图像进行检索主要借助图像特征来进行。CBIR系统可以看作是一个查询用户和图像数据库之间的一个界面或通道,其典型的系统由以下模块和过程构成(见图1):
图1 图像检索系统的构成Fig.1 The constitution of image retrieval system
各模块的主要功能为:
(1)查询模块:通过友好的界面对用户提供各种查询方式,以支持用户进行各种类型的查询;
(2)提取模块:将样本图像和图像数据库中的图像的图像特征提取出来,把具体的图像特征转换为抽象的特征矢量;
(3)匹配模块:将样本图像特征和图像数据库中的待检索图像特征相匹配,判断其内容的相似性和语义的一致性;
(4)利用查询用户对检索图像的判断信息,反馈给图像数据库,作为图像数据库中各图像语义关联度的记录;
(5)输出模块:提供相似图像的输出界面。
2 关键过程研究
2.1 目标提取
从图像中提取目标是基于形状的图像检索的一个重要环节。对于一幅图像,要提取出目标区域关键的是进行图像分割,从一幅图像中检测出各个物体,并将它们的图像和其余景物分离。
阈值分割法是一种传统的图像分割方法,因其实现简单、计算量小、性能较稳定而成为图像分割中最基本和应用最广泛的分割技术。其基本原理是:通过设定不同的特征阈值,把图像像素点分为若干类。这种方法应用在目标和背景占据不同灰度级范围的图片中效果更为理想,而本文枪械图库中图片的特点就是目标和背景对比明显,因此适合采用阈值分割方法来进行目标区域提取。
本文经过分析研究,以及在实验的基础上,在开发该图像检索系统时,采用了最大类间方差(OTSU)分割法。最大类间方差[32]法是1980年由日本大津展之提出,它是在最小二乘法原理基础上推导出来的,其基本思路是将直方图在某一阈值处理分割成两组,当被分成的两组的方差为最大时,决定阈值。
本文选取样例为枪械图库中的ak-47手枪,利用最大类间方差法进行分割的实验结果如图2所示。从实验可以看出该方法简单易行、计算量小、性能稳定、错误分割率最小,比较适合枪械类图像的分割。
图2 阈值分割结果Fig.2 Threshold segmentation result
2.2 特征描述
目标分割出来后,对图像进行边缘提取,以获得目标的轮廓边界,然后进行特征提取,进一步把分割开的区域的特征抽取出来。在这些特征里面,有一部分可以用数字量值来描述,但更多的特征是一些没有明显特征的几何图形。为了便于图像的匹配,需要对这些几何图形进行进一步的描述。
通常来说,区域特征的描述方法主要有区域面积、形状参数、不变矩等。其中,矩形度、圆形度、区域形状等描述符适合于简单的几何图像,并不适合于边界特征复杂的图像,因此不适合用来描述本文中的枪械图片。对于复杂的物体,可以通过矩和轮廓描述符来描述。
矩特征是建立在对一个区域内部灰度值分布的统计分析基础上的,是一种统计平均的描述,可以从全局观点描述对象的整体特征。矩是一种线性特征,矩特征对于图像的旋转、比例尺度、平移具有不变性,因此可以用来描述图像中的区域特性。
二维矩不变量理论是在 1962年由美籍华人学者Hu(胡贵明)提出的,并将矩用于形状识别。对于数字图像 f(x,y),其在点(x,y)处的(p+q)阶矩定义为:
在点(x,y)处的(p+q)阶中心矩定义为:
表1 Hu不变矩结果对比Tab.1 The result of Hu invariant moment
其中,图像的重心坐标为:xc=m1,0/m0,0,yc=m0,1/m0,0。
根据不变矩和其中心矩公式,对其规范化之后,利用二阶和三阶规范化中心矩有下面的七个不变矩组:
上式中,ηpq为(p+q)阶规范化中心矩,定义为:ηpq=μpq/,其中r的值为:r=(p+q+2)/2。
目标图像经过阈值分割,得到目标区域后,就可以针对这一区域按照公式(3)计算七个经典不变矩特征值,构成Hu不变矩形状特征向量。
本文对ak-47手枪原图片进行了平移、缩放、50%垂直旋转、旋转45°等四种处理,分别计算对应的七个Hu不变矩值,如表1所示。从实验可以看出,这些矩的幅值反映了物体的形状,并且具有平移、旋转、比例尺度变化不变性,计算过程简单,计算量相对较少,符合枪械图片库的特点。
2.3 特征匹配
对提取出的不变矩形状特征,选择一种合适的相似度衡量方法是获取满意的检索效率的重要保证。
常用的相似度方法都是向量空间模型(vector space model),即将视觉特征看作是向量空间中的点,通过计算两个点之间的接近程度来衡量图像特征间的相似度。
常用的距离度量函数有明氏距离(Minkowsky distance)、直方图相交(histogram intersection)法、二次式(quadratic form)距离、马氏距离(Mahalanobis distance)等。在这些常用的距离度量函数中,直方图相交和二次式距离法是在计算出直方图的基础上度量的,适合于基于颜色的特征匹配。而马氏距离要求计算协方差矩阵,代价较大,在这里也不考虑使用。Minkowsky距离的优点是当对坐标轴进行正交旋转时保持不变,样本集合仍然能够保持原来的相似性结构,并且实现起来简单易行,节省时间,因此本文使用Minkowsky距离。 明氏距离的通用函数如公式4所示:
上式中,当p=1时,则其转换为“街区”距离;当p=2它就转换为欧氏距离。欧氏距离没有考虑到向量各维分量之间的关系,各维分量的重要性是同等的。这并不符合图像特征向量的特点。所以在图像检索中,更常用的是加权的欧氏距离,定义如下:
利用不变矩公式(3)计算出的七个特征向量每个分量的取值范围不同,表示的物理意义也不同,并且通过数据分析发现不变矩的阶数越高它的幅值变化越剧烈,因此不能直接使用Minkowsky距离来度量相似性,需要对它们进行内部归一化。
图3 加权欧氏距离检索结果Fig.3 The retrieval result of Euclidean distance with weight
经过高斯归一化计算后,七个不变矩均落在[-1,1]之间,并且通过高斯归一化,可以减少高阶矩幅值变化大对整个归一化后的元素值分布的影响。
本文在枪械图库中选取24幅手枪图片,这24幅图片中包括4幅经过平移、旋转以及缩放变化的图片,另选取6幅与手枪形状相似的电钻以及电吹风图片。对这30幅图片分别利用街区距离、欧式距离、加权欧式距离度量相似性。实验输出检索结果中的前14幅。按照相似性大小由上至下由左至右依次排列。鉴于篇幅限制,本文给出加权欧式距离的检索结果,如图3所示,其中,左上角为待检索的原始图像。
通过图3的实验结果可以看到,加权欧氏距离可以检索出经过平移、旋转、缩放变化的图像,并且在检索结果中没有不相关的图像。
3 结语
本文以枪械图库为研究对象,在特征提取及描述中,利用最大方差法对图像进行分割,从而得到目标区域,用Hu不变矩描述目标的区域特征。在特征匹配过程中,对不变矩值利用高斯归一化方法进行内部归一化,组成其特征向量,用Minkowsky距离度量彼此间的相似性。在距离函数的选择上,通过一系列对比实验,采用加权欧氏距离。由于加权欧式距离给幅值波动较大的高阶矩赋以较小的权值,这样就减小了其对检索结果的影响。
[1]Stricker M,Orengo M.Similarity of color images.Pro.of SPIE:Storage and Retrieval for Image and Video Database,2002,2185:381-392.
[2]李迎新,张明,陆鹏.基于索引和相关反馈的图像检索研究[J].图形图像,2007:94-97.
[3]庄越挺,潘云鹤,吴飞.网上多媒体信息分析与检索[M].北京:清华大学出版社,2002.
[4]刘倩.基于内容的图像检索中的相关反馈技术[J].华东交通大学学报,2003,20(4):71-74.
[5]Meilhac C,Nastar C.Relevance feedback and category search in image databases[J].IEEE InternationalConference on Multimedia Computing and Systems,1999,1:97-105.
[6]董立岩,苑森淼,刘光远.基于贝叶斯分类器的图像分类[J].吉林大学学报:理学版,2007,45(2):249-253.
[7]章舜仲,王树梅,黄河燕.基于属性相关性分析的贝叶斯分类模型[J].情报学报,2007,26(2):271-274.
[8]M.K.Hu.visual pattern recognition by moment invariants[J].IEEE Transactionson Information Theory,1962,8(2):179-187
[9]吴一全,朱兆达.图像处理中阈值选取方法30年(1962—1992)的进展(一)[J].数据采集与处理,1993,8(9):3.