APP下载

关于“基于内容的图像检索”的调查报告

2015-05-30赵谦

中国新通信 2015年16期
关键词:百度检索图像

赵谦

目前,检索技术已成为应用的热点,人们对于检索的需求也不断提高。快速整合的检索能力,支持混合检索并提供友好的查询界面,向用户提供多种用途的检索服务,适应网络化、智能化和个性化的检索方式是视音频内容检索实现的目标。为适应这一要求,特就基于内容的图像检索(CBIR)有关技术应用并利用这一技术就百度和Google两大搜索引擎的功能进行调查分析。

一、基于内容的图像检索(Content-based Image Retrieval)

从20世纪70年代开始,有关图像检索的研究就已开始,当时主要是基于文本的图像检索技术(Text-based Image Retrieval,简称TBIR),利用文本描述的方式描述图像的特征,如绘画作品的作者、年代、流派、尺寸等。目前还在广泛使用,一张照片,配以文字说明照片拍摄的时间、地点、事件的主要内容等。

到90年代以后,出现了对图像的内容语义,如图像的颜色、纹理、布局等,利用这些语义内容对图像进行分析和检索的技术,即基于内容的图像检索(Content-based Image Retrieval,简称CBIR)技术。此技术属于图像分析的一个研究领域。

图像内容可以分为两类:①低层视觉,其内容主要包括颜色、形状、纹理等;②语义内容,它包含高层的概念级反应(如大漠孤烟直,长河落日圆),需要对物体进行识别和解释,往往要借助人类的知识推理。

二、CBIR的检索原理和建立索引的方式

2.1 CBIR的检索原理

CBIC的检索原理主要包括三方面:(1)对用户需求的分析和转化,形成可以检索索引数据库的提问;(2)收集和加工图像资源,提取特征,分析并进行标引,建立图像的索引数据库;(3)根据相似度算法,计算用户提问与索引数据库中记录的相似度大小,提取出满足阈值的记录作为结果,按照相似度降序的方式输出。

2.2建立索引的方式

建立索引的方式是通过提取底层特征,然后通过计算比较这些特征和查询条件之间的距离,来决定两个图片的相似程度:

1、提取特征值:利用一些数学规则(公式),把图像进行一个量化的描述,按照色彩、形状、图案、纹理等不同要求,把一张图片转化为一组数字,称其为特征值。由于是采用的同样的规则,所以每一张图片都能提取出一组特征值。

2、特征值的比对:由于采用的规则是相同的,如果两张图片是一样的,提取的特征值也会相同,这样就可以把两张图片的内容比较转化为两组特征值的数字比较,也就是用数字量的比较代替了模拟量的比较:a、如果两张图片是相似的,提取的特征值也是相近的;b、如果两张图片相差很大,其特征值也会有很大的差距。

3、结合语义分析:相同特征值的图片不一定就是相同的内容,结合图片的语义进行分析判断单纯使用图像的底层特征值,容易产生混淆,因为不同的图像也会有近似的特征组合。低层的特征并不直接代表图像的语义信息,还需要抽取图像的语义特征。采用了相关文字信息来表征图像的语义特征,比如:时间、产品特点、创作人、联系方式等。通过使用文字信息,使不同类别、不同名称之间的图像有了明显的区分,避免了混淆,提高了检索精度。

三、关于CBIR的调查

3.1基于图像内容的搜索引擎及其评价

目前国际上已经有很多顶级企业如Google、Bing、Ebay、Amazon等进军CBIR的领域。Google连续投资或收购了Plink、Pixazza、Like三家公司,累计金额超过1亿2千万美元;苹果则收购了人脸视觉搜索Polar Rose;微软也在Bing上大力推广图像相似搜索。

⑴:TinEyehttp://tineye.com/TinEye是加拿大Idée公司研发的相似图片搜索引擎,其特点是:1、发现图片的来源与相关信息;2、研究追踪图片信息在互联网的传播;3、找到高分辨率版本的图片;4、找到有你照片的网页;5、看看这张图片有哪些不同版本。

⑵:百度http://shitu.baidu.com 百度正式上线了其最新的搜索功能——“识图(shitu.baidu.com)。该功能是百度基于相似图片识别技术,让用户通过上传本地图片或者输入图片的URL地址之后,百度再根据图像特征进行分析,进而从互联网中搜索出与此相似的图片资源及信息内容。但需要注意的是,用户上传本地图片时,图片的文件要小于5M,格式可为JPG、JPEG、GIF、PNG、BMP等图片文件。

⑶:GazoPahttp://www.gazopa.com/GazoPa搜索图片时,不依据关键词进行检索,而是通过图片自身的某些特征(例如色彩,形状等信息)来进行搜索。

GazoPa搜索有两大特色:一是通过手绘图片搜索图片,这种方式其实没太大用处,但也算是一个很有独创性的搜索引擎。GazoPa目前还处在内测阶段,想要加入测试的可以在官网上留下你的邮箱地址,收到邀请后你就可以测试使用了。二是通过视频缩略图搜索视频,GazoPa仅凭一张视频缩略图就可找到相关视频。只要有截图,就可以找到截图的视频。

⑷:Googlehttp://similar-images.googlelabs.com/Google实验室的图片搜索:输入一个关键词后,例如“lake”,返回的页面里面点击某个图片的下面的Similar images,运用Google 类似图片搜索功能引擎,即刻为你把类似的图片全部搜索出来,展示给用户以便查看。其准确率、相似率相对比较高。

⑸:Picituphttp://www.picitup.com/Picitup是一个刚开始公测的专业图片搜索引擎,功能非常强大,并支持中文关键字的搜索,是国内图片爱好者的不错选择。Picitup主要支持关键字的搜索,但在它的特色搜索项目——名人匹配搜索(Celebritymatchup)中,你可以通过上传本地照片来进行搜索,不过结果一般让人失望。Picitup可以通过在搜索结果页选择过滤方式来筛选图片,比如可以按颜色、头像(人脸)、风景、产品四种类别来过滤搜索结果。

⑹:Tiltomohttp://www.tiltomo.com/Tiltomo是由 Flickr开发的一个搜索工具,主要用来维护Flickr 自己的图片数据库,其搜索算法主要是基于相似的主题风格或相似的色调和材质。

⑺:Incognahttp://www.incogna.comIncogna的搜索速度非常快,主要是基于色彩和形状上的相似性。

⑻:Terragalleriahttp://www.terragalleria.comTerragalleria主要基于视觉上的相似性,而不考虑图片的内容。

⑼:必应http://cn.bing.com/ Bing.com允许你进行一次关键字搜索后再执行相似性的搜索。你可以为Live索引中的任意一张图片寻找相似的图片,但搜索结果看起来并不是很精确。

3.2搜索引擎调查对象

这次调查从两个图像搜索功能比较强大的的搜索引擎网站百度和Google进行

四、百度识图与Google以图搜图

4.1关于调查内容

此次调查一共选用约58张图片。网上下载图片42张:人物图片共14张,其中男女性明星各7张;植物图片共6张,其中花朵3张,树木3张;风景图共22张,校园风景图6张,风景16张。数码相机拍摄照片16张:人物共10张,宠物4张,二维码2张。

4.2百度识图

下载图片:14张知名人物图片的搜索结果中,男性明星中有6张可以搜索出人物姓名并提供图中人物的详细介绍,未能搜索出人物姓名的那张图片给出的结果“背带婴儿”这幅图片是此男星斜背吉他,与“背带”也有一定的关系。其中有1张是一个国外明星的背影图片,而搜索结果中依然能够给出了人物名称。而7张女星图片的搜索结果中中都可以得出搜索姓名,其中有4名中国女星,3名外国女星。其中1幅图片是电影《成长教育》的截图,搜索结果中不仅给出了图中人物的名字,同时还提到了这部电影的名称。6张植物图片的搜索结果中都可以得出详细的植物名称。图片选用了1张铁杆海棠,2张西府海棠,1张龙爪槐,2张白杨树。其中对铁杆海棠的搜索结构中出现了“铁杆海棠”一词。西府海棠中出现“西府海棠”“樱花”两种结果,这两种花型较为相似,人肉眼也不好区分。在对龙爪槐的搜索中能准确显示“龙爪槐”,而两张白杨树均显示“山药”“甘蔗”等结果。6张大学校园图片中有4张可以显示出大学的名字,另外2张分别显示的是“大学校园”和“建筑”。图片选用了2张北京大学的图片,其中博雅塔1张,西门1张;选用了3张山东大学的图片,其中洪家楼教堂1张,软件学院大门1张,中心校区餐厅1张;选用1张南京大学图片,内容是南京大学北大楼。博雅塔图片能给出“校园”标签,但是没有显示北京大学,在类似图片中给出了多张博雅塔的图片。西校门的搜索结果中有“北京大学”的搜索结果。3张山东大学的图片中,其中软件学院图片结果中可以得出“山东大学”的介绍。洪家楼教堂的搜索结果中出现“西式教堂”的搜索结果,但没有出现“山东大学”条目。中心校区餐厅则只给出了“建筑”的结果。在南京大学的图片中只给出了“校园”的条目16张风景图片中全部都可以找到相似图片,部分搜索结果给出了风景区的名称。采用海洋2张,霞光4张,河流4张,海滩2张,山川4张。其中,2张海洋图片均为马尔代夫天堂岛的图片,在搜索结果中,其中1张可以准确显示“天堂岛”搜索结果。霞光图片3幅朝霞,1幅晚霞,晚霞图片可以准确得到的“晚霞”搜索结果,3张朝霞图片均显示“霞光”。河流图片中,1张黄河壶口瀑布图片,1张长江瞿塘峡图片,另外2张分别是长江黄河流域源头的图片。其中壶口瀑布的图片可以准确得出“壶口瀑布”的搜索结果,瞿塘峡图片也可以准确得出“瞿塘峡”的搜索结果,长江源头图片得出“长江流域”的显示结果,黄河源头的图片没有显示结果,而海滩和山川也分别显示出不同程度的结果。

自己拍摄的图片:10张人物图片有6张可以搜索出类似特征,4张无法搜索出结果。其中有6张女性图片,4张男性图片。女生图片中4张给出了“美女”“古典美女”等搜索结果,另外2张无搜索结果。4张男性图片中,2张显示搜索结果是“土豪”“墨镜男”,另外2张无显示结果。4张宠物图片可以搜索出宠物的品种。采用2张泰迪犬图片,2张猫咪的图片。2张泰迪犬的搜索结果中均给出了“贵宾”“泰迪”的搜索结果,猫咪图片的索索结果显示为“猫咪”“萌宠”“动物”等。2张二维码图片可以显示二维码的搜索结果,但无法搜索出其代表含义。2张二维码的内容分别“你好”“再见”,搜索引擎能显示“二维码”“二维码 手机”的搜索结果,但是却没有读出其中包含的信息。

3.3 Google以图搜图

下载图片:14张知名人物图片搜索结果中全部都可以可以搜索出人物姓名并给出详细介绍,和百度不同的是,Google给出的是“对图片的最佳猜测”,而百度给出的是多种标签。百度的搜索结果相对宽泛一点,而Google的搜索结果相对精准一点。那张国外明星的背影图片,Google同样也给出了搜索结果。那张在百度搜索结果显示为“背带婴儿”的照片,Google没有给出结果,但下面的搜索条目中出现了此明星的名字。对于国内某知名影星的1张赛车服照片,搜索结果甚至中给出了拍摄时间“2013年”。其中1张国内某知名青年作家的图片,给出了“中国知名人物”的搜索结果,而另一相对不太出名的作家的图片,则给出了“棕黄色”的搜索结果,此作家的头发是金黄色的。而7张女性图片搜索结果中全都给出了正确的“最佳猜测”结果。其中有5名中国女性,2名外国女性。建筑学家林徽因的图片搜索结果给出了“林徽因”,而作家张爱玲的那张图片的结果则给出了“民国女子”,与韩寒的那张“中国知名人物”相对应,可以推测,在人物查询方面,Google不仅利用了语义特征,还综合利用底层基本特征,并且其所做的贡献占了相当大的比重。6张植物图片的搜索结果中都可以得出植物名称,但不能给出详细的品种。Google只是给出了“海棠”的结果,并没有给出“西府海棠”“铁杆海棠”等精确的结果,但是并没有出现百度中“樱花”的错误。和百度识图一样,Google并没有给出2张杨树图片的搜索结果,但槐树图片给出了“龙爪槐”的搜索结果。可见Google中的查询结果但求正确率,不求精准率。而百度比较精准,但也更容易出错。6张校园图片中有6张全可以搜出大学的名字。博雅塔能给出“北京大学”的推荐,相对百度要准确一点。西校门的搜索结果中有“北京大学”的搜索结果。另外三张山东大学的图片和一张南京大学的图片,都没有最佳猜测结果。16张风景图片中全部都可以找到相似图片,但效果不太好。采用海洋2张,海滩2张,山川4张,霞光4张,河流4张。海洋和山川的图片中没有给出相关搜索结果猜测,霞光图片4张都没有搜索结果。河流中,4张图片均可以准确判断河流流域,搜索结果分别为“长江流域”“长江三峡”“黄河”“壶口瀑布”。总体来说,Google对风景图的搜索效果不太好,在海洋的图片搜索结果中给出了“background wallpaperhd(高清壁纸)”的猜测,另一个给出了“ chinese character classification(汉字分类)”的猜测。

自己拍摄的图片:10张人物图片均没有给出最佳推荐。戴墨镜图片的搜索结果则出现很多类似墨镜男的图片。在这一方面可以看出Google的严谨性性,但同时又缺少了趣味性和娱乐性。4张宠物图片不能给出宠物的品种猜测。这一张贵宾犬泰迪装,搜索结果中没有给出搜索结果。但却给出了大量的贵宾犬相似图片。2张二维码图片可以显示“qr code mcdonalds”字样,同样无法搜索出其代表含义,Google亦不能读出其中的信息

四、结论

百度识图58张图片中,有正确搜索结果的51张,错误搜索结果的3张,未给出搜索结果的4张,正确率为87.93%,失误率5.17%。通过以上调查可以知道百度识图的整体功能强大,对于知名人物和著名的建筑物有很好的识别能力,对于风景、植物和宠物的鉴别较为精确,失误率不高。

(1)在人物的搜索结果中,所得图片可以明确得到人物信息,并且识别率很高。搜索结果类似图片中的颜色、形状有很大差异,但都是关于此明星的图片。可以推测百度识图通过图像语义来实现搜索的贡献相对底层特征的贡献要大一些。

(2)在风景的搜索结果中,其所得类似图片中,绝大多数的色彩和构图与原图类似,可见在风景这一搜索范围,是采用颜色、形状和纹理等底层特征来进行鉴别。

(3)在植物和动物的搜索结果中,所得结果的颜色比较类似,在杨树的搜索结果中显示“甘蔗”,而图片中的杨树是成排的,可以推测其搜索功能应该主要是靠颜色特征和形状特征来实现的。

Google以图搜图58张图片中,有正确搜索结果的36张,错误搜索结果的1张,未给出搜索结果的21张,正确率为62.06%,失误率1.72%。通过以上调查可以知道Google识图的整体功能比较强大,同样是对于当红明星和著名的建筑有很好的识别功能,但对于风景、植物和宠物的鉴别比较差,正确率和失误率均比较低。

(1)人物的搜索结果中,特别是女性,所得结果可以明确得到人物信息,并且识别率很高。搜索结果类似图片中的颜色、形状有很大差异,但都是关于此明星的图片。可以推测Google搜图中通过图像语义来实现搜索结果的贡献相对底层特征的贡献要大一些。

(2)风景的搜索结果不尽人意,搜索结果给出的信息较少,可见在风景这一搜索领域,Google还有所欠缺。

(3)植物和动物的搜索结果中,所得结果的颜色比较类似,其搜索功能应该主要是靠颜色来实现,同样但不排除形状和纹理的贡献。

此次通过58张不同图片的比较,可以看出百度的搜索功能更为强大特别是在人物、风景、植物方面较为突出。但是搜索结果错误率相对Google搜索较高,搜索结果宽泛,不太严谨。在使用自己拍摄的图片搜索的时候,所得结果新颖有趣,相比Google更具有娱乐性和趣味性。

Google意图搜索虽然错误率低,但相对来说比较严谨,缺乏灵活性,搜索功能以知名人物为主,风景和动植物图片的搜索能力较弱。

参 考 文 献

[1]井涛.基于颜色形状纹理综合特征的CBIR.数字图像处理.2012.12

[2]袁顺波.性能评价研究:现状与建议.情报杂志2008年第5期

[3]中国教程网.十一个相似图片搜索网站.(http://www.u148.net/article/33760.html)

[4]吕琳.数字媒体资产管理.DMA-04.2015.04

猜你喜欢

百度检索图像
改进的LapSRN遥感图像超分辨重建
有趣的图像诗
Robust adaptive UKF based on SVR for inertial based integrated navigation
2019年第4-6期便捷检索目录
百度年度热搜榜
专利检索中“语义”的表现
百度医生
百度“放卫星”,有没有可能?
遥感图像几何纠正中GCP选取
趣味数独等4则