基于视觉和语义的图像检索技术研究
2017-11-20王娜
王娜
摘要:对图像检索技术进行了研究,提出了一种基于视觉和语义的图像检索算法。首先使用稠密的尺度不变特征转换构造视觉单词的方式来描述图像的视觉内容,然后依据一种基于概率隐语义分析的自适应不对称学习方法去融合并学习视觉模态和文本模态信息得到的语义特征对查询图像进行初步检索,最后在此结果集上对选出的语义相关图像按视觉内容相似度排序输出。通过实验表明,利用视觉和语义的算法能够提高图像的检索效果,具有更好的检索性能。
关键词:文本语义;视觉内容;图像检索;数据建模与学习
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2017)25-0178-02
Abstract: The technology of image retrieval is studied, and an image retrieval algorithm Based on vision and semantics is proposed.The first use of dense scale invariant feature transform structure of visual Words to describe visual content of image, then the adaptive asymmetrical learning method Based on probabilistic analysis to integrate and learn the semantic mode and text mode information, the query image is initially retrieved, finally, the selected semantic related images are sorted out according to the similarity of the visual content in the result set.Experiments show that the algorithm can improve the retrieval effect and improve the retrieval performance.
Key words: Text semantics; Visual content; image retrieval; Data modeling and learning
随着科学技术的飞速发展,在我们生活中的各个领域都离不开计算机。当今网络技术、多媒体技术和存储技术日新月异,图像被各行各业广泛的使用,其来源和数据库的规模都在不断扩大和增长。怎样从众多的图像库中寻找图像信息?这就需要一种有效的图像检索技术能准确、快速地查找图像,并且成为近年来研究领域关注的热点。
本文提出了一种基于视觉内容和文本语义的图像检索算法,有效地提高了图像检索的性能。
1 基于视觉内容和文本语义的图像检索算法
1.1 概述
当今,常用的图像检索技术有两种:TBIR、CBIR。TBIR效果较好,主要利用图像的标注进行文本搜索进而完成图像的检索,但由于图像数据集的不断扩大,致使这种技术已经满足不了应用的需要[1]。CBIR主要應用在医学图像检索、指纹识别、等领域,是通过高维索引和特征提取完成图像的检索,但由于语义存在鸿沟,使得该技术也不能完全满足用户需求。由于TBIR和CBIR都存在缺陷,因此很多学者把这两种技术融合起来,尽可能地提高图像检索的性能。
本文提出了一种基于视觉内容和文本语义的图像检索算法,该算法为了充分发挥视觉和文本的优势,通过考虑选取特征、确定视觉和文本的权值、分层检索三个方面进而提高了检索的性能。
1.2 数据建模、学习
本文中釆用的数据建模算法为PLSA,分别对图像的视觉和文本建模后,采用自适应不对称的学习方法把它们的信息进行融合形成一个新概率模型,在此模型中把视觉和语义的特征也关联起来了[3]。对于图像而言,在建模时需使用BOW算法先描述有效的视觉词再建模,而对于文档则可以直接对文本词建模。
1.2.1 描述图像内容
通常可以通过BOW模型与向量化被提取的视觉特征相结合对训练集图像的视觉内容进行描述,本文采用DSIFT方式对视觉单词进行构造进而完成图像视觉内容的描述,步骤如下:
(1) 缩放训练集中的所有图像至统一大小,并将其分解为E×F子块,对间隔G个像素进行采样,然后得到SIFT描述子;
(2) 采用聚类生成描述子字典,获得视觉单词;
(3) 在视觉字典中找到图像中每个子块最接近的单词,并进行标记。对图像中单词出现的次数进行统计,生成直方图,得到基于BOW模型描述的图像视觉内容。
至此,训练集中的所有图像可以同时描述一个视觉词和文本词的集合,为基于PLSA算法的图像建模、学习奠定了基础。
1.2.2 自适应不对称学习
上述方法只是通过文本信息构造一个把视觉和文本相关联的语义空间。为了更好地利用图像的文本和视觉信息,这里采用一种自适应不对称学习方法,加权由学习两种信息获得的主题分布,采用自适应方式对两种信息进行不对称地融合,这样会使图像的视觉内容和语义更好地在一个共享的语义空间内关联。
经研究得出:如果在图像视觉词直方图中分布出现稀疏或高峰时,视觉信息能更好地体现出图像内容;如果在图像视觉词直方图中分布出现均匀的情况时,则文本信息能更好地体现出图像内容。为此,判断对图像内容影响大小的主要因素可以根据视觉词直方图的分布情况。在统计学中,对象的分布熵可以判定直方图分布的稀疏情况,因此,可以通过统计视觉词的分布熵对视觉信息与文本信息影响图像内容的百分比进行计算,如式(6),也就是所谓的融合权值:endprint
1.3 检索算法描述
基于提高图像检索性能的基本思想,本文提出了一种基于视觉内容与文本语义的检索算法,具体如下所述:
(1) 通过DSIFT构造视觉单词的方法描述训练集中所有图像的视觉内容,得到基于BOW模型的视觉词[v(di)],并对所有图像的文本语义进行处理,得到文本词[w(di)];
(2) 采用PLSA算法建模学习视觉词[v(di)]和文本词[w(di)],获得视觉模态和文本模态相对应的主题分布[Pv(sd)]和[Pw(td)];
(3) 對所有图像视觉词的分布摘[H(v(di))]进行计算,然后通过权值的确定对视觉主题分布[Pv(sdi)]与文本主题分布[Pw(tdi)]进行融合,进而获得混合主题分布[P(zdi)];
(4) 采用叠入算法学习混合主题分布[P(zdi)],得到视觉词与文木词的分布[P(vz)]与[P(wz)];
(5) 计算未知语义测试集图像的基于BOW模型的视觉词[v(dnew)],再次采用叠入算法对[v(dnew)]进行处理并学习[P(vz)],获得主题分布[P(zdnew)];
(6) 根据[P(wz)]、[P(zdnew)]及式(5)可获得语义信息[P(wdnew)],[dnew]的语义特征就是排序后选择的最大后验概率的若干文本词;
(7) 比较库中文本和待查询图像的语义特征,对包含该语义特征的图像进行挑选,即语义相关图像集;
(8) 对相关图像集的视觉特征和待查询图像自动获取的视觉特征的相似度进行计算,基于欧式距离由小到大排序输出图像,即最终检索的结果[4]。
2 结束语
随着图像数据库规模的急剧增长,图像检索有着广阔的应用前景[5]。有效的检索超大规模的图像数据库已成为当前多媒体领域的研究热点。经研究,基于视觉内容与文本语义的图像检索算法的检索效率高于基于视觉信息的图像检索算法,可以获得更好的检索效果。
参考文献:
[1] 史美艳.基于语义的图像检索技术研究[D].山东大学,2011.
[2] K.R. Castleman. 数字图像处理[M]. 北京:清华大学出版社, 2003.
[3] 顾昕.基于文本语义和视觉内容的图像检索技术研究[D]. 厦门:厦门大学,2014.
[4] 李平,陈向东.一种基于Zernike分布矩与Contourlet变换相融合的彩色图像检索算法[J].华中师范大学学报:自然科学版,2015,49(2):190-194.
[5] Dengsheng Zhang, Md Monirul Islam, Guojun Lu.A review on antomatic image annotation techniques[J]. Pattern Recognition,2012,45(1):436-362.endprint