基于内容的图片搜索引擎研究*
2012-11-04赵壁芳
王 晟,赵壁芳
(1.富国银行,西得梅因 艾奥瓦州 50266;2.ASDI公司,纽瓦克 特拉华州 19702)
基于内容的图片搜索引擎研究*
王 晟1,赵壁芳2
(1.富国银行,西得梅因 艾奥瓦州 50266;2.ASDI公司,纽瓦克 特拉华州 19702)
基于内容的搜索引擎是目前搜索引擎技术发展的一个重要方向.首先介绍了基于内容的图片搜索引擎研究中的两大核心问题:图像特征提取和比对技术.接着介绍了常用的图片特征和它们的提取描述方法,以及一些常用的特征向量比对方式.然后对当前技术和成果进行分析.
搜索引擎;图像特征提取;信息存储
目前基于文本搜索引擎技术发展已经十分成熟,而这类搜索引擎的准确度除了依赖于搜索引擎系统的网页信息存储量和词汇切割的准确度以外,用户所搜寻的目标文件也是影响其准确度的一个重要因素[1,2].如果用户着重于搜索文本形式的文件,此类搜索引擎的准确率已经很高[3].但是,传统的基于文本搜索引擎只能分析网页中的文本内容,无法满足用户对互联网上越来越多的多媒体文件的搜索查询需求.如果用户希望搜索的是图片、音频或者视频类无法在网页中只用文本就能精确描述其内容的文件,则其准确率就会受到很大影响.因此基于内容的搜索引擎是目前搜索引擎技术发展的一个重要课题[4,5].
基于内容的搜索引擎尝试直接分析图片、视频及音频等媒体文件,将它们根据特征分类.用户可以通过提交一幅图片或者一段音频、视频资料来表达自己的搜索意图(比如用户希望能够搜索到含有类似图片的网站),搜索引擎系统通过对用户提交的多媒体文件进行分析、比对,输出检索到的信息.基于内容的搜索引擎还处在探索阶段,目前没有能得到广泛运用的通用搜索引擎[6].有一些研究机构正在尝试从事特定范围的基于内容的搜索引擎研究,如针对特定的媒体资料库建立搜索引擎,或者对特定类型的图片、视频及音频资料进行检索等[7].
1 核心问题与难点
1.1 图片特征的提取和表示
这是图片搜索引擎最核心的问题.只有正确地提取出了图片中所含内容的关键信息,才能对图片内容进行理解、分析和辨识.图片的特征也分为高级特征和低级特征.低级的特征可以由对图片的自动分析来获得,一般是可视化的视觉特征,如图片的颜色、形状和纹理等.而高级特征一般是语义相关的,通常只能半自动甚至手动提取,如图片中人物的名字、图片的主题等.对不同种类的图片和不同的应用,用户所关心的特征都有所不同[8,9].特征千变万化,如何正确的表达已经被提取的特征,也是一个重要的研究内容.
1.2 特征向量的比对技术
确立了好的特征比对方法,才能使得基于图片内容的搜索引擎达到一个可以接受的准确程度,成为实用的系统.针对所关注的特征不同,比对算法也会随之变化[10].
1.3 特征数据库的建立和操作
在提取了图片特征之后,如何用有效的数据库结构来存储大量的特征信息,以及如何在海量的特征数据中查找出与用户所需图片特征最接近的那一组特征,也是该系统必须考虑的重要问题[11].
1.4 网络海量图片的分析和信息存储
互联网中有大量的图片和相关的文本信息,如何在众多资料中快速地提取图片并进行分析,然后将特征信息储存到数据库中,是我们要面临的另一个挑战.与传统文本搜索引擎不同的是,由于基于内容的图片搜索引擎将要大量地分析图片,如何能够将系统的空间和时间代价控制在一个可以接受的范围内,也是一个重要问题.
1.5 检索方式确定
传统的基于文本的搜索引擎,应用文字描述来表达搜索意图,检索方式也是以文本作为搜索的关键字.到了基于内容的搜索引擎,用户不仅可以使用文本来表达其搜索意图,还可以应用对其搜索对象特征的描述来表示其搜索的目标.由于对特征的描述方式很多,如色彩分布、纹理、形状甚至直接用图像等都可以,基于内容的搜索引擎必须考虑如何给用户提供一种标准的表达其搜索意图的方法.
1.6 图片的归一化问题
互联网上的图片从格式、长宽比到色彩等千差万别,如何使这些图片归一化,并且不会丢失过多的内容信息,最终得到能够被统一分析和处理的图片,是图片搜索引擎研究的又一难点.
2 国内外主要的算法与技术
目前,国内外许多学者和科研机构以及商业公司都在从事图片的模式识别的研究,也有一些图片识别系统出现,被运用于计算机视觉、安全系统、文本识别系统等方面.但是基于图片内容的搜索引擎并不多见,并且都还处在试验阶段.对基于图片内容的搜索引擎的研究,在互联网飞速发展的今天,具有广泛的应用前景.在图片识别算法方面,也有很多种类,如使用不变矩、傅立叶算子和Radon变换、神经网络算法、决策树方法、利用色彩和空域概率函数等方式.但是,正如上一段所说,比较通用且有效的互联网图片识别算法还没有出现.以下介绍当前常用的几种主要算法和技术.
2.1 几种重要的图片模式识别技术
2.1.1 使用傅立叶算子辨识图片轮廓
设P为边界轮廓上的任意一点,以边界轮廓上的点A为参照点,记s为从A到P点的弧长,并设边界轮廓线的周长为S,则P点可表示成弧长的函数
图1 傅立叶算子计算示意图
若将座标原点移到质心处,并设t=2πs/S,则轮廓线可表示成
2.1.2 使用几何不变矩辨识图片轮廓
矩的定义:对于二元有界函数 f(x,y),它的(j,k) 阶矩是:
特别地,零阶矩是物体的面积:
常用的中心矩是以质心为原点计算的:
进一步,可以定义规格化中心矩为:
函数与其矩集合有一一对应的关系.为了描述形状,假设f(x,y)在物体内取值为1而在其外都取0值,这样它就与物体的轮廓建立了一个一一对应.
2.1.3 利用其他信息进行识别
除了以上图片特征外,针对不同的应用,还可以对图像提取一些特殊的特征.如针对生物特征识别,可以在有关图片中提取掌纹、指纹和人脸等相关特征;对于一些植物的识别,则注重提取植物特殊的特征.以下是一个用花瓣数、花的内径外径比来识别植物种类的特例,见图2.
图2 识别植物种类特例
图中,ri指花朵内径,ro指花朵的外径,n指花瓣数,φ指花瓣跨度的幅角.通过对这几个特征的提取和对比,来对不同物种的花朵进行识别.
图3 用其他特征识别花朵物种示意图
2.2 特征对比技术
对于基于内容的图象识别来说,除了特征的提取外,特征的对比也是核心技术之一.设有n个样本U=(X1,X2,…,Xn),其中每一个样本Xi具有m个特性指标,即Xi由向量Xi=(xi1,xi2,…,xim) 表示.则两个样本 Xi,Xj之间的相似程度μR(Xi,Xj)可以由以下方式来定义.
(1)切比雪夫距离法
其中,c为常数.
(2)相似系数法
(3)欧氏距离法
其中,c选取适当的正数,使 rij在[0,1]区间内.
3 研究成果
3.1 MPEG-7标准及其在基于内容的图像检索中的作用
MPEG-7标准[4]是活动图像专家组(Moving Picture Expert Group)为了适应对基于内容的图像检索的需要,提出的一种标准化的描述图像、视频、音频等媒体文件的方法,其目的是为了解决对图像、视频、音频等媒体文件基于内容的检索和定位问题.
MPEG-7标准是一种语言,定义了描述文件内容特征的标准的方式.但是对于特征的提取和检索,则由使用MPEG-7标准的用户来完成.MPEG-7标准规定了以下几个重要概念:
(1)数据(Data):用MPEG-7描述的视/音频信息,与其编码方式、压缩格式等无关.这个概念主要强调文件中包含的内容信息.只要是同一幅图片,不论使用JPEG,还是BMP格式进行压缩,甚至是打印在纸上的图片,只要有相同的内容,则被认为具有同样的信息,可以进行相同的MPEG-7描述.
(2)描述子(Descriptor):数据特征的表示方法,定义数据特征的语法和语义.即表示媒体的特征的方法.
(3)描述方案(Description Scheme):对描述符之间关系和结构的说明.
(4)描述(Description):描述方案和描述符的集合;
(5)描述定义语言(DDL):用于生成标准化描述的语言,MPEG-7标准采用XML语言作为DDL的基础.
文献[10]有一个MPEG-7标准描述事例,其中有一张图片SR1经分割后变成SR2-SR8等七个部分,这八个部分的关系如图4.
图4 描述方案实例示意图
对于每一个部分,分别提取其特征,如形状、颜色、纹理和文字等,形成如图的描述方案.根据上面得到的描述方案图,可以根据每个节点需要定义描述子和它们之间的关系,最后用XML语言标准化地表达出来,就形成了对图片SR1的一段MPEG-7标准内容描述.MPEG-7标准不是一种用于图像压缩或者编码的标准.它着重于将对媒体数据内容描述标准化,为其他的运用,如基于内容的检索和定位等,提供方便的索引信息和标准化的描述方式.运用MPEG-7标准,可以解决基于内容的图像检索的特征表达和索引问题.以下就介绍几种运用MPEG-7标准的图像检索产品.
3.2 一些基于MPEG-7标准的基于内容的图片检索产品
3.2.1 QBIC
QBIC(http://wwwqbic.almaden.ibm.com)是第一个商用的基于内容的图像检索系统,由IBM公司出品.它采用的主要特征有颜色统计特征和Tamura纹理描述.
3.2.2 Virage
Virage(http://www.vriage.com)是由 Virage 公司开发的一个基于内容的图像搜索引擎.它采用颜色、颜色布局、纹理和形状结构等特征作为检索的基础.Virage比QBIC高明之处在于它可以根据用户的兴趣所在,使用户调整各个特征的权值,从而检索出更符合其要求的图像.
3.2.3 VisualSEEK、WebSEEK
这两个系统都是视觉特征检索引擎.其中,WebSEEK为面向互联网的文本/图像搜索引擎,二者皆是哥伦比亚大学开发.其主要特点是图像区域的空间关系检索和从压缩域提取视觉特征.这两个系统采用的视觉特征是颜色集合基于小波变换的纹理特征.
4 结束语
在互联网技术迅速发展的今天,人们需要搜索引擎能够迅速而准确地查找到他们所需要的图像等其他媒体信息,而传统的基于文本的搜索引擎已经无法满足人们对于基于内容的互联网搜索需要,基于内容的图片搜索引擎成为了搜索引擎技术发展的新方向之一.随着研究的深入与科技的发展,在不久的将来可能会有多种成熟的新产品供大众使用。
[1]陈海英.基于内容检索与国际标准 MPEG-7[J].情报杂志,2002,(4):66 -67.
[2]侯越先,张鹏,于瑞国.基于内容相关性挖掘的反馈式搜索引擎框架[J].天津大学学报,2008,(8):941 -945.
[3]华薇娜.搜索引擎的最新进展述要[J].图书与情报,2009,(6):83-87.
[4]王宏艳.基于链接和内容的BLCT主题爬行算法研究[J].计算机应用研究,2011,(2):495 -497.
[5]韩现伟,付宜利,李刚.基于改进Hough变换和图搜索的油库目标识别[J].电子与信息学报,2011,(1):66 -72.
[6]焦隽,姜远,黎铭,等.一种在无标注图像库中进行的基于关键词的检索方法[J].模式识别与人工智能,2009,(3):422 -426.
[7]Xu L,Oja E.Randomized Hough transform(RHT):Basic mechanisms,algorithms,and computational complexities[J].CVGIP Image Understanding,1993,(2):131 -154.
[8]Zhang M,Cao H.A new method of circle’s center and radius detection in image processing[A].IEEE International Conference on Automation and Logistics[C].Qingdao:IEEE,2008.
[9]He C,Xu X,Yang J.Fast fractal image encoding using one - norm of normalised block[J].Chaos,Sofitons and Fractals,2006,(5):1178-1186.
[10]Zhang C,Zhou Y,Zhang Z.Fast fractal image encoding based on special image features[J].Tsinghua Science and Technology,2007,(1):58-62.
[11]He C,Liu W,Shen X.Fast fractal image coding based on quincunx sums of normalized blocks[J].Journal of Computer Research & Development,2007,(12):2066 -2071.
TP393
A
1008-4681(2012)02-0040-03
2011-11-09
王晟(1972-),男,河南内黄人,美国富国银行和Mastech软件公司高级软件工程师,硕士.研究方向:计算机大型数据库的研究与开发.
(责任编校:晴川)