APP下载

基于内容的图像检索技术研究

2010-09-08姚弘

中国新技术新产品 2010年8期
关键词:直方图纹理形状

姚弘

(南通职业大学电子工程系,江苏 南通 226007)

1 引言

随着信息技术特别是多媒体技术和网络技术的普及与发展及应用,数字图像的数量正以惊人的速度增长。一方面,网络成了多媒体信息发布和获取的重要来源;另一方面,许多领域(数字图书馆、医疗图像等领域)每天都在不断产生和使用大量的图像和视频等多媒体资源。因此,如何将数字图像处理、计算机视觉技术与传统数据库技术相结合,建立基于对图像内容自动或半自动描述的新一代图像视频数据库就成为迫切的需求。基于内容的图像检索(CBIR)是解决这一问题的关键技术之一。

CBIR不同于传统的检索手段,它是利用图像的颜色、纹理、形状、对象的空间关系等基本特征进行检索,并把这些量化特征与图像存储在一起。其特点是:直接从媒体内容中提取信息线索;基于内容的检索是一种近似匹配;特征提取和索引建立常需要用人机交互的方法,学习人的主观相似度感受。它主要使用的是基于相似度量的示例查询方法。

2 基于内容的图像检索技术

基于内容的描述是基于内容的图像检索的前提。图像内容既包括了颜色、纹理、形状、空间结构等低层次视觉特征,又包括了导出特征或逻辑特征的检索和场景描述,包含对目标意义的复杂推理等的高层语义特征。

检索进行查询的层次基本可分为三层:

(1)基于原始数据的查询。这是最低层次的查找,每一幅图像为象素点的简单有序的集合体,查询时相似性的度量标准是点对点的比较。这个层次的比较是非常具体的,只有在使用相对精确匹配时才有用。

(2)基于特征的查询。这是较高层次的查询,在基于特征的层次上描述图像。图像特征包括原始属性:颜色、纹理、形状等,也包括脱离了原始性的抽象属性:灰度直方图,颜色直方图,空间频谱图。不同的特征可以被分成不同的特征矢量组。图像的区域划分基本上是根据特征矢量的不同特征,同一个区域内的特征矢量具有相同的属性。在n维特征空间的查询,实质上就是目标特征矢量的相似性度量。数据库内的图像文件的特征矢量集以及抽取方法,被事先抽取并保存。查询时,使用给出的模板,图像按照库内保存的方法抽取目标特征矢量。

(3)基于语义的查询。这是最高层次的查询。可以看作是基于对象的查询。查询图像中包括的具体的物体,发生的场景,图像所描述的感性色彩等都属于这个层次的查询。

目前实现图像检索的手段有很多,包括基于分数维的图像检索、基于多颜色空间的图像检索方法、基于内容的图像检索、基于区域的图像匹配算法的关键技术研究、基于颜色特征的图像检索方法等等。而且基于图像处理技术的日趋成熟,检索的效果也越来越好,但仍未上升到图像语义的图像检索阶段。

2.1 基于颜色特征

作为图像的基本特征:颜色,人们针对它已经设计了很多种算法,包括颜色直方图、加权颜色直方图、颜色聚合度、模板匹配、模糊颜色连通直方图、颜色恒常性颜色检索等等,所有这些包括其中一些非常经典的算法的都没有很好的解决图像特征提取与匹配。因为他们往往都是依靠统计学对图像处理,而统计学一般都会舍弃统计中出现较小概率的事件从而达到较高效率的匹配,因此这样做在匹配结果上无论如何都不会使人满意。而且统计学往往只统计颜色信息往往就忽略了空间分布导致了损失了大量有用的图像信息。

图像的颜色特征可以是各种颜色的比例分布以及颜色的空间分布等,目前,大部分的检索系统都采用颜色比例分布作为颜色基本特征,这方面算法的研究,也多以此为基点,这就是图像领域中的直方图法。具体做法是,在确定颜色空间的基础上,统计每种颜色分量的像素数占图像总像素数的比例,得到图像各种颜色分量的比例分布—直方图,最后把直方图作为图像的颜色特征进行图像检索。

颜色直方图包含三种具体表达方式:一般直方图、累加直方图和二维直方图。

1)一般直方图:记S(x)j为图像P中某一特征值为Xj的像素的个数为P中的总象素数。对其作归一化处理,即h(xj)=S(xj)/N=S。图像P的该S特征的直方图为H(P)=[h(x1),h(x2),…,h(xn)]。式中,n 为某一特征取值的个数。事实上,直方图就是某一特征的概率分布。

3)二维直方图:设图像X={xmn}大小为M×N,由X采用3×3或5×5点阵屏画得到的图像为,它的大小也为Y={ym}n,由x和y构成一个二元组。称二元组(x,y)={(xmn,ymn)}M×N为图像 的“广义图像”,广义图像的直方图就是二维直方图。

二维直方图中含有原图像颜色的空间分布信息,对于两幅颜色组成接近而空间分布不同的图像,它们在二维直方图空间的距离相对传统直方图空间就会被拉大,从而能够好的区别开来。

图像的匹配方法目前有很多,如何用数值来有效的表示图像在颜色上的相似度,这便是图像的相似性度量问题。在模式识别技术中,特征的相似性度量一般采用距离法,即用特征向量的空间距离来表示。在直方图检索中,通过对直方图之间的距离的设定,当它们的距离小于给定的阈值时,即认为符合检索结果。常用的距离度量有绝对距离、欧式距离、马氏距离、二次距离等。

2.2 基于形状特征

形状是刻画物体的本质特征之一,在二维图像空间中,形状通常被认为是一条封闭的轮廓曲线所包围的区域,所以对形状的描述涉及到对轮廓边界的描述以及对这个边界所包围区域的描述。目前的基于形状检索方法大多围绕着从形状的外轮廓特征和形状的区域特征建立图像索引。总的来说,形状表示法可以分为2类:基于边界的和基于区域的。前者仅使用形状外边界,而后者则用了整个形状的区域信息。

在基于形状的图像检索中有3个问题需要解决。首先,形状通常与图像中的特定目标对象有关,因此形状比颜色和纹理的语义性更强,要获得目标的形状参数,先要进行图像分割,所以形状特性会受到图像分割效果的影响。其次,描述目标的形状是一个非常复杂的问题,人对形状的感觉是视网膜感受和现实世界的知识相结合的结果。事实上,目前还没有找到与人的主观感觉相一致的形状模型。第三,从不同的视角获得的形状可能会有很大差别,为了准确进行形状匹配,需要解决平移、缩放、旋转中的不变性问题。形状的表示方法有两类:基于边界的表示和基于区域的表示。这两种表示方法的典型代表分别是傅里叶描述子和不变矩。傅里叶描述子的基本思想是用对图像进行傅里叶变换得到的边界作为形状描述。其中一个优点就是把二维问题简化为一维问题。傅里叶变换的高频分量对应细节而低频分量对应总体形状。所以可以只用一些对应低频分量的傅里叶系数来近似描述边界形状。文献[4]比较了基于区域的方法、基于边界的方法和两种方法的综合使用,实验结果表明,两种方法综合使用效果更好。

2.3 基于纹理特征

在许多类图像中,纹理是一种十分重要的特征。例如,大部分航空和卫星遥感图像、医学显微图像以及石油地球物理勘探所得到的人工地震剖面图像等,都可以看成是由不同类型纹理所组成的。因此研究对纹理的描述、纹理图像的分割、分类等,不仅是图像处理领域的重要理论研究课题,同时也有着广泛的应用前景。对纹理图像的描述常借助纹理的统计特性或结构特性进行,对基于空域的性质也常可转换到频域进行活动,所以常用的纹理描述方法是:统计法、频域法、结构法。统计法从图像有关属性的统计分析出发;结构法则力图找出纹理基元,再从结构组成上探索纹理的组成规律。一般来说,统计分析方法能够取得较好的效果,所以一直占据着主导地位。

早期的研究方法主要有马尔可夫随机场理论 GMRF(Gaussian Markov random field)和吉布斯分布(Gibbs distribution)理论。这些方法主要考虑了一定范围内图像点的关系。随着小波的出现及其在图像处理中的应用,基于多尺度多分辨率的算法逐渐成为主流。

Michael Unser采用如下算法:①对纹理图像进行小波变换;②计算各予频带内小波系数的平方和的均值作为特征向量;③通过计算Bayes距离,碍出样本与各融知纹理的相似度,从丽进行分类。

2.4 基于语义特征

与基于低层物理特征查询不同,语义特征查询是基于文字的查询,包含了自然语言处理和传统图像检索技术。这种检索方法的目标是最大限度地减小图像简单视觉特征与丰富的语义之间的语义鸿沟(semantic gap)。缩小语义鸿沟的办法有2种:由高层语义导出低层特征和由低层特征向高层语义的转换。图像语义具有模糊性、复杂性、抽象性,一般包括3个语义层次:特征语义、目标和空间关系语义、高层语义。特征语义就是图像的颜色、形状、纹理等低级视觉特征,与视觉感知直接相连;目标语义和空间关系语义需要识别和提取图像中的目标类别、目标之间的空间位置等关系,涉及到模式识别和逻辑推理的相关技术;高层语义主要涉及图像的场景语义(如海滨、街道、室内等)、行为语义(如表演、超越、进攻等)和情感语义(如平静、和谐、振奋等)。一般而言,高层的图像语义往往建立在较低层次的语义获得的基础上,并且层次越高,语义越复杂,涉及的领域知识越多。基于语义的图像检索一般指的是基于目标和高级语义的图像检索方法。

3 基于内容的图像检索的效果评价

在基于内容的检索中,由于检索算法比较多,需要对各种算法的检索结果进行评判,以比较其优劣。从研究情况来看,对于系统的响应时间和吞吐率的评价论述的较少,对检索效果评价更多地放在对检索结果的正确与否,主要使用查找率评价检索效果。

查全率和查准率越高,说明该检索算法的效果越好。查全率反映系统检索相关图像的能力,而查准率则反映系统拒绝无关图像的能力。

4 总结

综上所述,可以看出基于内容的图像检索仍然是一个开放性的研究课题,其研究将涉及认知科学、人工智能、模式识别、图像处理、信息检索等多个领域。对于基于内容的图像检索中存在的重要问题,在图像处理和模式识别方面今后较长的时间内仍需要继续完善图像特征的提取、表达、相似性度量。目前国际上MPEG标准化组织正在制定的MPEG-7标准,其目标就是实现集高层语义特征和低层视觉特征的基于内容的多特征综合检索,今后研究的热点之一将是高层的基于语义内容的图像检索。寻找快速智能的检索算法和如何设计用户的反馈方式并充分反馈信息也是今后一个重要的研究方向。

[1]刘忠伟,章毓晋.综合利用颜色和纹理特征的图像检索[J].通信学报,1999,20(5):36240.

[2]Ashish Kapoor,Rosalind W.Picard.Real-Time,Fully Automatic Upper Facial Feature Tracking[C].Proceedings from 5th International Conference on Automatic Face and Gesture Recognition,2002

[3]Merlo E.Reverse Engineering[J].IEEE,1993,41(3):171-173,176-178.

[4]Milner R.Communication and Concurrency[J].IEEE Soft2ware,1989,37(4):268-280.

[5]王琨,齐会来,杨波,张子华.基于纹理的图像检索算法.空军工程大学学报(自然科学版),2008,9(3):54-57.

[6]Manjunath B S,Ohm J R,Vasudevan V V,et a1.Color and Texture Descriptors[J].IEEE Tram on Circuits and Systems for Video Technology,2001,11(6):703-715.

[7]Barber M.MPEG 一 7 Visual Shape Descriptors[J].IEEE Tram On Circuits and Systems for Video Technology,2001,11(6):716-719.

[8]徐庆,杨维维,陈生潭.基于内容的图像检索技术.计算机技术与发展,2008,18(1):126-131.

猜你喜欢

直方图纹理形状
统计频率分布直方图的备考全攻略
挖藕 假如悲伤有形状……
符合差分隐私的流数据统计直方图发布
基于BM3D的复杂纹理区域图像去噪
用直方图控制画面影调
使用纹理叠加添加艺术画特效
你的形状
TEXTURE ON TEXTURE质地上的纹理
看到的是什么形状
消除凹凸纹理有妙招!