图片购物检索研究
2012-08-06王召义
王召义
(安徽商贸职业技术学院,安徽芜湖,241002)
随着电子商务和计算机视觉技术的高速发展,电子商务网站上的图片信息量已经远远超过了文本信息量。然而,这些图片是无序地分布在各个电子商务网站中的,图片中所包含的商务信息无法被有效地访问和充分地利用。对于消费者来说,在众多的电子商务图片购物网站中寻找满意的商品,无异于大海捞针,此时此刻,传统关键字搜索已经越来越不适应电子商务的发展了,特别是图片购物检索领域。对于电子商务企业来说,需要提供一种能够快速而且准确地检索图片的技术,即图片检索技术。
图片检索技术是一种根据用户的兴趣使用图片特征从数据库搜索图片的技术,图片特征是图片检索技术的核心要素之一。从广义角度来讲,图片特征主要有两种类型,即图片的外部特征和内容特征。外部特征主要包括图片的标题、作者、创建日期、尺寸、流派等,也有学者称其为图片的语义内容;内容特征主要包括图片的颜色、纹理、形状和空间布局等,也有学者称其为图片的可视化内容。其中,图片的外部特征是基于文本的关键字进行描述的;图片的内容特征是基于颜色、纹理、形状和空间关系等特征进行描述的,即基于内容进行描述的。
根据图片特征可以把图片购物检索分为两种类型:基于文本的图片购物检索和基于内容的图片购物检索。
一、基于文本的图片购物检索
基于文本的图片购物检索沿用了传统关键字检索技术,回避对图片内容特征的分析,而使用文本标注图片的外部特征,且对图片的查询是通过对图片的外部特征检索来实现的。为了实现检索,需要对图片的外部特征进行文字或数字标签的描述,这样,对图片的查询就转换成了基于文字或数字标签的查询。
基于文本的图片购物检索的基本思想是:采用文本对图片的外部特征进行描述,建立图片外部特征的索引数据库,这样图片的存储地址和文本之间就建立了联系,而图片本身还是以外部的方式存储。[1]对图片外部特征的检索一般都是通过分类目录浏览和关键字提问的方式进行,查询操作本质上是对文字内容描述的精确匹配或概率匹配,尽管有些检索模型还有数据字典支持,但我们检索的只是图片外部特征的人工描述信息,与图片的内容特征没有多大关系。在电子商务领域中,很多比较购物网站采用的图片购物搜索也是基于这种检索技术,此外使用百度和Google查询图片也是如此。
基于文本的图片购物检索对检索技术的要求不是很高,操作较方便,也便于标注人员和普通用户理解与掌握。但是,由于图片资源的增长速度非常快,所以对图片进行文本描述的方式已经满足不了电子商务的要求了。
首先,图片包含的信息内容很难用文本完全标注。尽管基于文本的描述方法利用文字来对图片特征进行描述,但由于图片特征具有丰富的内涵,并且其中有一些难以用字符和数字符号描述的特征线索,例如:图片的颜色、纹理和形状等特征。因此,当图片中包含多个物体时,就难以用简短的描述信息来全面体现它的含义,并且作为关键字的图片特征的选取具有很强的主观性,不同的标注者或同一标注者在不同环境下对同一幅商品图片可能给出不同的描述,很难表达图片的空间关系。这使得在很多情况下文本标注难以满足电子商务实际需求,例如,电子商务企业要注册新的商标时需要对已经注册商标进行检索,看是否雷同,此时仅靠对商标进行文本标注是难以解决的。
其次,人工对图片内容进行标注十分费力费时。因为对于广泛的图片自动地生成描述性的文本是不可行的,大部分基于文本的图片购物检索系统需要对图片进行人工标注。很显然,人工标注图片对于大型图片数据库来说是一项棘手和昂贵的任务,并且经常是主观的、上下文敏感的和不完整的。例如,同一款商品,有不同角度、不同款式、不同颜色的图片,仅依靠人工进行图片描述,是达不到电子商务企业要求的。
由此可见,对图片检索需要借助计算机技术从图片的语义内容到可视化内容进行处理、分析和理解以有效获取其内容特征,并根据图片内容特征实现快捷准确的检索。
二、基于内容的图片购物检索
(一)基于内容的图片购物检索概述
随着图片信息资源的普及,人们在电子商务应用中不仅要对图片进行基于关键字的检索,而且要对图片进行语义内容的分析和理解,以便达到更深的检索层次。于是,基于内容的购物搜索便应运而生。
基于内容的图片购物检索的主要思想是:首先,根据图片的索引来计算查询图片和目标图片的相似距离;然后,按照相似性匹配来进行检索。[2]如图1所示:
图1 工作原理示意图
从图1中可以看出:其工作原理主要包括图片检索与图片索引两个子系统。在图片索引子系统中,通过对图片进行自动分析,提取图片的内容特征,如颜色、纹理、形状等,以及这些特征的组合,作为特征向量存入图片特征库;在图片检索子系统中,对用户提交的每一幅检索样图进行图片分析提取特征向量,利用相似匹配算法计算查询示例图片与图片特征库中图片特征向量的相似度,根据相似度大小输出检索结果。
与基于文本的图片购物检索,它有如下特点:[3]
(1)从图片内容中提取信息线索。基于内容的图片购物检索突破了传统的基于关键字检索的局限,直接对图片进行分析,抽取特征,使得检索更接近于图片对象。
(2)提取特征的方法多种多样。可以提取形状、颜色、纹理和轮廓等多种特征。
(3)人机交互。一般来说,用户对特征比较敏感,能够迅速分辨出图片的颜色、形状等。如果图片很多,则用户很难记住这些特征,从大量数据中查找目标的效率也非常低,但计算机能够轻松做到这一点。因此,在使用基于内容的图片购物检索时,用户与计算机配合进行检索。
(4)近似匹配。在检索过程中,采用逐步求精的办法,每一层的中间结果是一个集合,不断地减小该集合的范围,直到定位到目标时为止。这一特点与数据库检索的精确匹配算法显然不一样。
(二)基于内容的图片购物检索应用实例——淘淘搜
基于内容的图片购物检索,通俗来讲就是“以图搜图”。所谓“以图搜图”,顾名思义,用户可以通过上传本地图片或输入网络图片的URL地址来搜索相同或相似的图形图像。
淘淘搜(http://www.taotaosou.com/)就是典型的“以图搜图”、“想图购物”的电子商务网站,即基于内容的图片购物检索网站。它是国内最大的图片购物搜索引擎,只需一张图片,淘淘搜就能通过强大的视觉计算技术帮你在海量的商品中快速找到心仪的宝贝,让购物变得更快捷、更轻松。淘淘搜和淘宝网合作的“图想”(http://imagine.taobao.com/)是全球第一个大规模商业化运营的图片搜索产品,面向淘宝网用户提供便捷的图片搜索服务,解决了用户不能和不愿用文字进行搜索的困难,得到了用户的高度评价。
淘淘搜的服务主要有:(1)同款比价和服务:通过上传图片或使用商品地址搜索,用户能够用最快的时间搜索到全网同款商品进行比价,用户可以在结果中轻松地比较产品质量、价格、服务和商城信息。在上千万家商店的同款商品中挑选出最满意结果,淘淘搜的服务能让用户在微笑愉快中享受购物花的每一分钱是物有所值。(2)相似搜索和服务:通过图片搜索,用户选择搜索的类目后,淘淘搜系统根据上传的图片特征值,为用户搜索出指定类目下最相关的相似商品和最相关的最热门搜索。当网络上没有同款商品时,用户能够找到最相似的商品进行选择。(3)搜索商品和服务:关键词、类目搜索功能让用户迅速找到相关的商品的价格、运费、折扣、销售信息等。点击图片即可全网同款比价,实现一站式轻松比价。
淘淘搜为客户提供了三种以图片搜商品的方法。如图2所示:
图2 淘淘搜查询接口
第一,上传本地图片。在图2上,选择“本地图片”,点击“从本地上传图片”按钮,将您电脑中的商品图片上传后,按照需要框出要搜索的商品(排除背景),选择要搜索的商品类目,然后点击“搜索相似商品”按钮就能找到与您上传图片相似的商品了。如图3所示:
图3 上传本地图片
图4 粘贴图片地址
第二,粘贴图片地址。在网络上看到了一件商品,想购买,怎么办?右键点击图片复制图片地址,然后在图2上,选择“网络图片”,在输入框粘贴图片地址就可以找到与图片相似的商品了。如图4所示。
第三,粘贴商品地址。网上购物时,相中了心仪商品,想看看这款商品相同款,怎么办?复制商品地址,在图2上,选择“商品搜索”,在输入框粘贴商品地址就可以找到心仪商品的相同了。如图5所示:
图5 粘贴商品地址
通过以上分析,我们可以发现二者的实现原理是相同的,主要体现在以下三方面:一方面对用户检索需求的分析和转化,形成可以检索索引数据库的提问;另一方面,收集和加工图片资源,提取图片特征,分析并进行标注,建立图片的索引数据库;最后是根据相似度算法,计算用户的提问与索引数据库中记录的相似度大小,提取出满足阈值的记录作为结果,按照相似度降序的方式输出。两者的区别主要体现在图片特征上,基于文本的图片购物检索是借助传统文本信息检索技术来实现图片信息检索,采用文本的形式标注图片外部特征;基于内容的图片购物检索是从图片中自动提取内容特征,如色彩、纹理、形状等,这些客观特征是前者无法精确描述的。
基于文本与内容的图片购物检索有着各自的优势和不足,在电子商务应用背景下,基于文本的图片购物搜索一定程度上回避了对复杂的可视化元素的识别难题,符合人们熟悉的检索习惯,充分利用了网页上下文和超文本结构信息,实现简单,但是因为仍旧局限在文本检索的范围下,通过受控词汇来描述图片,因此容易出现主题歧义、标注不一、无法对图片内容理解等问题。基于内容的图片购物搜索恰恰相反,主要利用对直观形象的特征元素的分析来标注图片,具有一定的客观性,但是其算法复杂,实现成本高。[4]
基于文本和基于内容是图片购物检索发展的两个分支,不过从目前图片购物检索研究的趋势而言,应结合文本和内容,进行融合性研究。发挥各自的优势促进图片的高效、简单检索方式的实现,尤其是网络环境下,结合图片所在Web文档的特征分析,推断图片的外部特征,同时结合对图片的内容特征分析,共同标注达到对图片的分析和检索。
[1]张帆.信息存储于检索[M].北京:高等教育出版社,2007.
[2]肖明.基于内容的多媒体信息索引与检索概论[M].北京:人民邮电出版社,2009.
[3]多媒体信息检索与管理[M].刘晓冬,译.北京:清华大学出版社,2009.
[4]张骞.基于文本的与基于内容的图像检索技术比较研究[J].情报探索,2012(1).