APP下载

基于BOW模型的相似图像分类检索方法

2018-01-18汪弋琛

电子技术与软件工程 2017年21期
关键词:图像分类检索

汪弋琛

摘 要传统的相似图像检索大多基于颜色、纹理、场景等特征,缺少对图像的局部特征提取,忽视了局部特征对相似图像检索的影响,检索效果较差。本文采用视觉BOW(Bag of words)模型,提取图像中尺度不变的SIFT特征,形成视觉单词向量,设计了一个基于视觉单词的相似图像分类检索方法,取得了较好的分类检索效果。

【关键词】图像分类 检索 BOW模型 SIFT

1 引言

当今,在“互联网+”环境下,图像己经成为网页内容中必不或缺的一部分,在基于关键字从网页中寻找文本信息的同时,需要考虑如何能够快速帮助用户基于图像的内容找到相似的图片。基于内容的图像检索CBIR(Content Based Image Retrieval)是指根据图像本身、图像的内容语义以及上下文联系进行查找,以图像语义特征为线索从图像数据库中检出具有相似特性的其它图像。这一概念是于1992年由T.Kato提出的,被广泛应用于各种研究领域,如统计学、模式识别、信号处理和计算机视觉。

认知心理学派认为,人类大概可以分类三万个不同的类别。计算机视觉要模仿并达到人类对图像的分类处理能力,在处理新类别图像时,必须学习已有知识以加快分类过程。目前,国内外现有的基于内容的图像分类检索系统主要有四种:基于颜色信息的检索、基于图像纹理的检索、基于形状特征的检索和基于空间位置的检索。美国麻省理工学院、荷兰阿姆斯特丹大学等相继开展了图像检索系统相关应用及技术研究,典型代表是Vasconcelos提出的调整权的原则和Rui提出的贝叶斯法则。

2 视觉BOW模型

2.1 BOW模型

BOW模型最早出现在自然语言处理和文本信息检索领域,该模型忽略掉文本的语法、语序等要素,将文档看作若干词汇的集合,文档中的单词是独立出现的,使用一组无序的单词(words)表达一个文档。根据文本中单词的统计信息完成对文本的分类。

首先给出两个简单的文本文档如下:

John likes to watch movies. Mary likes too.

John also likes to watch football games.

根据文档中出现的单词,构建如下一个词典 (dictionary):

{"John": 1, "likes": 2,"to": 3, "watch": 4, "movies": 5,"also": 6, "football": 7, "games": 8,"Mary": 9, "too": 10}

上面的词典中包含10个单词, 每个单词有唯一的索引(标号), 那么每个文本可以使用一个10维的向量来表示。如下:

[1, 2, 1, 1, 1, 0, 0, 0, 1, 1]

[1, 1, 1, 1, 0, 1, 1, 1, 0, 0]

该向量的维度是单词的个数,值是每个单词在文本中出现的频率。以上向量也可以用单词的直方图表示,词表相当于直方图的基,要表述的文档向这个基上映射。

并非所有的单词都用来构建词表,相似的单词用一个单词表示。例如“walk, walking ,walks”都用 “walk”表示。单词对区分文档的重要性通过计算单词TF-IDF(term frequency–inverse document frequency,词频-逆向词频)实现。

BOW模型用于文本分类包括词表的建立、样本训练、新来样本识别三个步骤。

与文本相似,图像可以视为与位置无关的局部特征的集合,局部特征的地位就类似于文本中的单词,称作“视觉单词”,视觉单词的集合称为“视觉词典”。词袋模型可以类比地应用于图像分类中,文献[3,4,5]中,BOW模型被广泛用到了图像的目标分类。

2.2 SIFT算法

尺度不变特征转换(Scale-invariant feature transform或SIFT)是一种特征点提取算法,用来侦测与描述影像中的局部特征,它在空间尺度中寻找极值点,并提取出其位置、尺度、旋转不变量。此算法由David Lowe在1999年所发表,2004年完善总结。

SIFT算法的实质是在不同的尺度空间上查找关键点(特征点),并计算出关键点的方向。SIFT所查找到的關键点是一些十分突出,不会因光照,仿射变换和噪音等因素而变化的点,如角点、边缘点、暗区的亮点及亮区的暗点等。

2.3 视觉BOW模型分类过程

图像的BOW模型表示即图像中所有图像块的特征向量得到的直方图。具体分类过程如下:

2.3.1 提取训练样本图像块中的特征向量

SIFT算法在构建好的尺度空间的基础上搜索尺度空间中的极值点(特征点),然后确定极值点的尺度信息以及位置,再确定极值点的方向(其邻域梯度的主方向),最终可以得到具有鲁棒性的128维(4*4*8)的特征描述子。

2.3.2 利用K-Means算法构造词表

K-Means算法是一种基于样本间相似性度量的间接聚类方法,此算法以K为参数,把M个对象分为K个簇,使簇内具有较高的相似度,而簇间相似度较低。若K=n,通过K均值聚类算法后,得到n个新的聚类中心。每一个聚类中心为一个视觉单词,n个聚类中心即为构建的词典,即图像视觉单词直方图的一个基。

以SIFT 128维为例,假如现在有3张训练图片:人脸、自行车、小提琴,对每一张训练图片都提取SIFT的128维特征,那么最终可以得到 M = N1+N2+N3 个128维的特征,Ni 代表第i张图特征点的个数。

SIFT提取的视觉单词向量,根据距离的远近,可以利用K-Means算法将词义相近的词汇合并,作为词表中的基础词汇,假定我们将K设为4,那么经过聚类后,词表中单词数为4个。endprint

2.3.3 利用视觉BOW量化图像特征,利用词频直方图表示图像

统计词表中每个单词在图像中出现的次数,将图像表示为K维数值向量。上例中,可以将图像表示成为一个K=4维数值向量:

人脸:[3,30,3,20] 自行车:[20,3,3,2] 小提琴:[8,12,32,7]

每幅图的视觉单词与词频直方图如图1所示。

实际应用中,为了达到较好的效果,单词表中的词汇数量K往往非常庞大,并且目标类数目越多,对应的K值也越大,一般情况下,K的取值在几百到上千。

BOW模型建好后,对于新来的图像,同样通过下面三步判断图像类别。

(1)先提取图像的SIFT特征;

(2)用词表中的单词将图像表示成数值向量直方图;

(3)通过分类器进行分类,看它属于哪一类图片。

3 基于BOW模型的图像检索方法

基于BOW模型的图像检索分两个阶段:训练阶段和测试阶段。

在训练阶段,构建词典。将图像用很多“块”(patch)表示,以SIFT特征为例,图像中每个关键点就是一个patch,每一个patch特征向量的维数128。笔者用500幅训练图像样本,词典的大小为1000,用K-Means算法对所有的patch进行聚类,等K-Means收敛时,将得到每一个聚类最后的质心,这1000个质心(维数128)就是词典里的1000个词。

在测试阶段,按照图像的词典表示进行比较,检索图像。对每幅图像初始化一个维数1000、值全为0的直方图,计算测试图像每个patch与词典中单词的欧氏距离,距离最近的单词对应的直方图计数加1,将所有patch计算完毕后的直方图即为图像的词典表示。训练图与测试图都以1000维向量表示,对每个待检索图像,只需计算所有训练图与其欧式距离,并返回最近的若干幅即可。

4 系统的Python实现

为了验证基于BOW模型的相似图像分类检索效果,笔者开发了一个小型图片管理系统,实现了用户管理、用户登录、图片上传、图片检索等功能。并对图片库中500张图片样本建立了词库,用于进行相似图像检索。检索效果如图2所示。

图2(a)为随机排列的500幅训练样本图片,(b)为选择一幅测试样本图片检索后的搜索结果,由图可以看出,相似的4幅图片按相似度从高到低排列在第一行最左位置。

5 结语

视觉BOW模型能够有效的将文本挖掘技术用于检索相似图像,但是,视觉BOW模型本身也存在一定的局限性。进一步研究可以采用区域划分、分层词袋模型、空间金字塔匹配等方法减少特征点空间信息损失;可以利用机器学习方法,构造具有语义保护的视觉单词词典,用以减少语义信息丢失。

参考文献

[1]DN Osherson,SM Kosslyn,LR Gleitman.An Invitation to Cognitive Science.2nd edition.MIT Press.1995.Chapter 4.121-165.

[2]O.G Cula.K.J.Dana.Compact. Representation of bidirectional texture functions.IEEE Conference on Computer Vision and Pattern Recognition,2001(01).1041-1047.

[3]L.Fei Fei,R.Fergus,P.Perona.One-Shot Learning of Object Categories.IEEE Transactions on Pattem Analysis and Machine Intelligence,2006.28(04).594-611.

[4]G Csurka,C.Dance,L Fan.Visual categorization with bags of keypoints.In Workshop on Statistical Learning in Computer Vision(ECCV),2004,1.

[5]G Dorko.C.Schmid.Object class recognition using discriminative local features.IEEE Transactions on Paaem Analysis and Machine Intelligence,2004.

[6]David G.Lowe.Distinctive Image Features from Scale-Invariant Keypoints. International Journal of Computer Vision,2004,60(02):91-110.

[7]David G.Lowe.Object Recognition from Local Scale-Invariant Features.IEEE International Conference on Computer Vision,1999,2:1150.

作者單位

江苏省新海高级中学 江苏省连云港市 222003endprint

猜你喜欢

图像分类检索
2019年第4-6期便捷检索目录
基于数据挖掘的图像分类算法
基于云计算的图像分类算法
基于锚点建图的半监督分类在遥感图像中的应用
《国外医药抗生素分册》第37卷1~6期(2016年)目次检索
专利检索中“语义”的表现
国际|标准|检索
国际标准检索
国际标准检索