APP下载

基于深度学习的图像检索技术应用

2022-09-15

无线互联科技 2022年13期
关键词:检索系统哈希纹理

白 娟

(北京第二外国语学院,北京 100024)

0 引言

在Web2.0时代,尤其是随着微信、钉钉、抖音等手机App的运用,图像、视频、音频、文本等异构数据每天都以惊人的速度增长,各种多媒体数据以海量方式迅速增长。针对这些丰富的海量图像信息,建立快速有效的图像检索系统已经成为重要的研究方向,从而帮助用户有效查询、快速检索、高效利用图像信息。经过数十年的发展,基于内容的图像检索技术已广泛应用于数字图书馆、医学影像、卫星遥感图像、电子商务等社会生活的各个方面。

1 图像检索技术发展

图像检索系统不仅有效地实现了用户查询信息的快速要求,而且能够对图像库进行有针对性的分类管理。从图像检索技术的发展过程来看,主要包括如下3类。

1.1 基于文本的图像检索

基于文本的图像检索(Text-Based Image Retrieval,TBIR)是早期的图像检索的主要方法,其是指利用关键字或关键短语对图像中的内容进行概括及描述,以便用户在检索时可以根据关键词进行检索。具体的查询过程如下:用户根据检索需求提供查询关键字,通过系统接口交互输入后,检索系统根据用户需求进行内容匹配,最后将查询结果返回给用户[1]。

基于文本的图像检索技术需要人工提前对图像进行归纳和注释,检索结果也完全依赖于人工标注信息,现在已较少使用,该技术存在几个明显的缺陷。

(1)对目前海量的图像数据来说,完全采用人工注释的方法需要耗费大量的人力与财力,而且随时不断外来的图像增加,人工标注可能会遇到难以克服的困难;

(2)一幅图像包含的信息非常丰富,如“一图胜千言”“百闻不如一见”等表述,而人工注释的文字很难充分表达一幅图像的内涵,人工操作有时很难用简短的关键字来描述出图片所包含的真正内涵;

(3)不同国家、不同民族对图像语义理解的差异也很大,不可能形成一种统一的检索方法[2]。

1.2 基于内容的图像检索

基于内容的图像检索(Content-Based Image Retrieval,CBIR),指利用计算机对图像进行分析,自动提取每幅图像的视觉内容特征,将视觉特征作为关键字进行索引,进而比较索引特征与查询条件之间的距离,最终反馈给用户查询结果。

基于内容的图像检索方式充分发挥了计算机工作效率高、善于处理大规模数据的特点,从而较大提高了检索的效率。目前,CBIR主要具有以下几个特点。

(1)CBIR突破了传统的基于表达式检索的局限,直接对图像进行分析和抽取特征;

(2)CBIR本质上是一种近似匹配的技术,这一点与常规数据库检索的精确匹配方法有明显不同;

(3)特征提取和索引建立可由计算机来实现,避免了人工描述的主观性;

(4)针对CBIR存在的语义鸿沟问题,可采用相关反馈、机器学习等手段,提高检索结果与用户满意度的匹配程度[3-5]。

1.3 自动图像标注技术

自动图像标注(Automatic Image Annotation)技术是将基于文本的图像检索与基于内容的图像检索有效结合起来,它是根据图像低层视觉特征,计算机自动使用语义关键字或标签来表示一幅图像的语义内容,进而可以将图像检索转化为基于文本的检索。自动图像标注在特征匹配时,几乎不需要用户的参与,而主要利用图像自身的特征(如颜色、纹理、形状等)来完成,具有较强的客观性和直观性。利用这一特点,可以用来抽取各类图像库中所有图像文件的特征。

目前来看,图像检索与图像标注密切相关。一方面,图像检索的迫切需求推动自动图像标准技术的发展,另一方面,自动图像标准性能的提高也可以更好地提高检索效果,促使检索效率和检索精度不断提高[6]。

2 图像检索关键技术

图像特征的提取与表达是CBIR技术的基础,获取有效的图像特征是提取图像高层语义信息的关键环节。

2.1 颜色特征

颜色特征是图像检索中应用最为广泛的视觉特征,颜色包含着比灰度更多的信息,是彩色图像中最突出的特征。图像的颜色特征描述了图像中物体的表面性质,反映出的是图像的全局特征。人眼的色彩知觉主要包括3个要素:色调、饱和度和亮度。与其他视觉特征相比,颜色特征对图像本身的尺寸、方向、视角的依赖性较小,从而具有较强的稳定性。常用的颜色空间表示法有RGB颜色空间、HSV颜色空间、CIEL颜色空间和YCrCb颜色空间。

针对颜色特征的提取与表达,首先,需要选择合适的颜色空间来描述颜色特征;其次,采用一定的量化方法将颜色特征表达为向量的形式;最后,以一定的方式来描述颜色特征。

2.2 纹理特征

图像的纹理是基于物体表面结构和材质的重要特征,一般来说,纹理结构可通过图案的不断重复,体现图像的部分或全局特征。

典型的图像纹理特征方法如下,这几种方法特点不同,针对不同的自然纹理、人工纹理、混合纹理进行处理[7]。

(1)统计方法是灰度共生矩阵纹理特征分析方法;

(2)几何法是基于平面二维特征,提取图像的纹理元素,对图像进行分析从而得出的特征分析方法;

(3)模型法是将图像的参数进行构造,设计不同的模型,从而进行模型分析及变换处理;

(4)信号处理法以小波变换为主、进行相应的编码和解码处理操作。

2.3 形状特征

形状特征是反映出图像最直接的视觉特征之一,大部分物体可以通过分辨其形状来进行判别。常用的图像形状特征提取方法包括:基于轮廓的方法和基于区域的方法。基于形状特征的使用在现实中有这些问题:目前基于形状的检索方法还缺乏比较完善的数学模型;另外,由于受视觉主观性的影响,许多形状特征所反映的目标形状信息与人的直观感觉不完全一致;再有就是许多形状特征仅描述了目标局部的性质,缺乏对全局的描述。

2.4 空间特征提取

空间特征是指图像内的区域经过分割、其内部的对象所在的位置以及对象之间的空间关系,提取空间特征有两种方法:一种是对图像进行自动分割,根据对象或颜色区域的接近性分割后提取图像特征,再进一步建立索引;另一种是将图像均匀的划分为若干区域,对不同区域提取特征,从而建立索引。在实际应用中,需要将空间特征与其他特征相配合,来表达场景信息。

图像检索的主要处理流程如图1所示。

图1 图像检索主要流程

3 大规模图像检索系统的特点

大规模图像检索系统是近年来发展最为迅速的技术之一,国内外各种机构开展了相关研究和探索,目前已进入应用推广阶段。简而言之,大规模图像检索系统具有如下特点。

(1)图像数据量大。相比较与20世纪90年代图像检索技术发展的早期阶段,现有的图像检索系统已达到10亿级,其数量已经有了成千上万倍的增长,因而图像检索应满足大数据时代的要求,在检索效率、性能等方面大幅提升。为提高响应速度,可以使用大规模二值引擎进行查询和排序,建立实时稳定的搜索引擎是非常重要的,因为每天都有数以千万计的用户在使用视觉搜索服务。

(2)特征维度高。图像特征是直接描述图像视觉内容的基石,对图像来说,维度就是图像中特征向量的数量,3个以上的特征向量即属于高维空间,如果维度过高,则会增加机器的计算量,造成维数灾难。通过降维,即降低特征矩阵中特征的数量,可以让算法运算更快,效果更好,同时能够实现数据可视化。

(3)要求响应速度快。对于用户的查询,图像检索系统应该具备迅速响应用户查询的能力,同时由于大规模图像数据量大、特征维度高,直接采用暴力搜索的策略,难以满足系统实时性的要求,因此,大规模图像检索需要解决系统实时响应的问题。

4 基于哈希的图像检索技术框架结构

随着人工智能以及深度学习的快速发展,极大地推动了图像检索领域的技术进步。在提取特征这方面而言,深度学习及神经网络目前有着不可替代的优势。深度学习通过学习数据的内在规律,从而具备像人一样的分析能力。目前,广泛使用的有利用深度哈希算法进行图片快速检索,其原理在于针对每一张图片都生成一个特定的数字指纹,然后采取一种相似度的度量方式得出两张图片的近似程度。

在图像检索系统中,查询速度和查询准确率是一对需要权衡的指标。查询速度方面,可以使用深度哈希的方法来大幅度提升。具体查询过程如下:用户提供所需查询的图像到人机接口,进而系统用定义好的哈希函数将查询图片映射成48 bit的二进制码,将此二进制码与数据库中所有图片的二进制码比较汉明距离,按汉明距离从小到大进行排序,根据反馈可进行多次比较及排序,最终得到本次图像的检索结果。基于哈希的图像检索技术框架结构如图2所示。

图2 基于哈希的图像检索技术框架结构

深度哈希(Deep Hash)将卷积神经网络与哈希图像检索结合,同时拥有检索精度高,速度快的特点。深度哈希作为一种代表性方法,近年来受到广泛关注。通过深度哈希,可以提升大容量图片库检索精度。

5 结语

深度学习极大地推动了图像检索技术的发展,而且正在被快速应用到与图像识别相关的各个领域。深度学习的本质是通过多层非线性变换,通过多层的输入、映射、变换及输出,从大数据中自动学习特征,从而替代手工设计的特征。深度学习可以从大数据中自动学习数据特征。就图像检索而言,一幅图像中,各种复杂的因素往往以非线性的方式结合在一起,图像参数复杂交织。深度学习的关键就是通过多层非线性映射将这些因素成功的分开,使各个因素不再彼此干扰。

深度学习技术使得图像检索系统的各个模块(即神经网络的各个层)可以通过联合学习,整体优化,从而性能得到大幅提升。可以预见在未来的数年内,深度学习将会在理论、算法、和应用各方面进入高速发展的时期,从而进一步促进物体检测、图像分类、图像检索、视频分析等各个领域的更快发展。

猜你喜欢

检索系统哈希纹理
使用纹理叠加添加艺术画特效
收录《信号处理》的检索系统及数据库
收录《信号处理》的检索系统及数据库
本刊被以下检索系统及数据库收录
本刊被以下检索系统及数据库收录
TEXTURE ON TEXTURE质地上的纹理
消除凹凸纹理有妙招!
基于维度分解的哈希多维快速流分类算法
基于同态哈希函数的云数据完整性验证算法
一种基于Bigram二级哈希的中文索引结构