基于内容的图像检索技术研究综述

2023-05-11施水才

软件导刊 2023年4期

杨慧，施水才

（北京信息科技大学计算机学院，北京 100101）

0 引言

随着现代互联网技术快速发展，大量图像数据信息（图片与图片文本描述）迅速增长，可收集图像构建图像库应用于各领域。目前，图像数据信息的表现方式呈现多样化，不同形式的数据可描述同一主题图片。基于多种数据信息，研究者们在进行图像检索研究中，从何种角度选取特征表征图像的方法众多，涌现了许多新模型与算法。图像检索技术在搜索引擎、公共安全、医疗诊断、商品服饰搜索等众多领域应用广泛，包括时尚图像检索、专利产品检索、医学图像检索、淘宝物品搜索、图文检索等，并已取得了较大成绩。

本文对图像检索的经典与最新方法进行概述性总结，从全局与局部特征提取、无监督与有监督学习、深度学习等方面概括传统方法与机器学习方法在图像检索方面存在的区别。总结目前图像检索任务中面临的挑战及亟需解决的问题，并在此基础上分析该技术未来的研究方向。

1 图像检索任务与评价方法

1.1 图像检索任务

图像检索是计算机视觉领域的一个重要研究方向，目的在图像数据库中查询与输入图像相似的内容。图像检索按描述图像内容方式可分基于文本的图像检索（Text Based Image Retrieval，TBIR）与基于内容的图像检索（Content Based Image Retrieval，CBIR）。

TBIR 利用人工标注或通过图像识别技术的半自动标注方式描述图像内容，为每幅图像形成描述图像内容的关键词。在检索阶段，用户通过关键字从图像库中检索标注相关的图片。此外，该方法易于实现，由于存在人工或图像识别技术标注，算法的查准率相对较高，在面对中小规模图像搜索问题时具有较好的应用前景。

由于TBIR 技术人工标注费时费力，过程中易受到标注者知识水平、言语使用及主观判断等因素影响，发生文字描述图片差异等问题。为解决检索图像的高级语义与低级视觉特征间的“语义鸿沟”，学术界、工业界均做出了努力逐步建立CBIR 技术。随着深度学习理论不断完善，CBIR 取得了巨大进步，其图像检索一般框架如图1 所示。在大规模图像检索中，CBIR 任务是在一个大型图像集合中搜索与给定查询数据最相关的内容，主要包含特征提取和相似性度量两个阶段，借助计算机优势克服TBIR 技术存在的缺陷，提高模型检索效率，在电子商务、医疗诊断、版权保护、公共安全等领域具有广阔的应用前景。

Fig.1 General framework for content-based image retrieval图1 CBIR一般框架

现阶段，图像检索任务最需要注意的问题是“语义鸿沟”，即描述图像的低级特征与图像包含的高级感知概念间存在鸿沟，导致无法检索不相关的图像，在过去30 年一直是众多学者研究的焦点［1］。不少学者提出各种方法将图像高级概念转换为特征，根据不同特征提取方法将传统特征划分为全局、局部特征。例如颜色、纹理、形状和空间信息等全局特征展现了整副图像的表示，适用于对象分类与检测［2］。相较于全局特征，局部特征更适用应用于图像检索、匹配任务和识别［3］。基于深度学习的特征提取则主要利用卷积神经网络（Convolutional Neural Network，CNN），所提取的特征一般为图像的全局特征表示。

1.2 图像检索评价方法

在图像检索任务中选择合适的评估公式取决于所用方法、算法自身、问题领域这3 个因素。目前，CBIR 技术常用评价指标包括召回率（R）、精确率（P）、综合评价（Fscore）和均值平均精度（mAP）。

召回率（R）指检索系统正确检索图像占数据集中相关图像总数百分比［4］，计算公式如式（1）所示。

其中，T表示检索返回正确检索的样本数量，V表示数据集中未返回与检索图像相关的样本数量。

精确率（P）指检索系统正确检索图像占检索到的图像总数百分比［5］，计算公式如式（2）所示。

其中，U表示检索返回与查询样本不相关的样本数量。一般情况下，R、P相互矛盾，针对特定领域图像检索任务可根据需求对召回率和精确率进行判断。

综合评价指标（F-score）指召回率与精确率的加权调和平均值［6］，计算公式如式（3）所示。

其中，β为调整召回率与精确率权重的参数，若需要更高的精确率则减小β，若需要更高的召回率则增大β。当β=1 时，R、P同样重要，即为F1-score［7］，F1 值越高说明系统检索性能越好。

均值平均精度（mAP）是目前图像检索任务中最流行的评价指标，当给定一个查询q和top-K 检索到数据的情况下，平均精度（AP）的计算公式如式（4）所示［8］。

其中，k表示检索返回的第k个数据，P(k)表示返回前k个检索数据时的精确率，N表示数据库中当前查询图像q的相关图像数量。若第k个检索返回的数据与查询q相关，则α(k)=1，否则α(k)=0。

mAP 是所有查询数据的AP 的平均值［9］，计算如式（5）所示。

其中，Q表示查询样本总数。相较于上述各种评价指标，mAP 在衡量算法的检索能力时能反映全局性能。

2 经典数据集

在图像检索技术各项研究中，数据是重要的驱动力，表1 展示了常用图像检索任务数据集。Google Landmarks Dataset v2 数据集包含超过5×106张图像和2×105张不同的实例标签［10］，其中训练集图片4 132 914 张，索引集图片 761 757 张，测试集图片117 577 张。GLDv2 是最大的地标性数据集，包含标注的人造地标与自然地标图像。NUSWIDE 是多标签定义关于图像文本匹配的数据集，包含269 648 张图片，每张图片平均含有2～5 个标签［11］。MS COCO 数据集包含123 287 幅图像，每张图片至少含有5 个语句标注［12］。Flickr30k 包含31 783 张图片，每张图片含有5 个语句标注［13］。Oxford-5k 由11 座牛津建筑的5 062 幅图像组成，每幅图像由5 个手绘边界框表示，总计55 个查询感兴趣区域［14］。Sketchy 包含125 个不同类别的草图图像对，每个类别包含100 张图像，还收集了与12 500 张图像对相对应的手绘草图75 471张［15］。

Table 1 Common image retrieval datasets表1 常见图像检索数据集

3 传统低层特征

表示图像语义内容的特征提取与选择在CBIR 中发挥重要作用，可分为全局特征与局部特征。其中，全局特征描述整幅图像；局部特征通常将图像分割为块或通过计算某些关键点进行获取。以下将对传统图像全局、局部特征提取进行回顾与总结，阐述它们对图像检索系统性能的影响。

3.1 全局特征

传统视觉特征在发展早期主要利用颜色、纹理、形状、空间信息等全局特征，这些特征计算简单、表示直观。在图像检索任务中广泛使用的图像全局特征包括颜色、纹理、形状和空间信息特征，如图2所示。

Fig.2 Classification and extraction methods of global features图2 全局特征的分类及提取方法

3.1.1 颜色特征

人们可直观根据颜色特征区分图像，是图像检索系统中广泛应用的重要特征之一。研究者们根据颜色空间计算颜色特征，在CBIR 领域中最常用的颜色空间包括RGB、HSV、YCbCr、LAB 和YUV。这些颜色空间可使用颜色直方图（CH）、颜色集、颜色矩、颜色聚合向量、颜色相关图等描述符进行表示。并且，颜色特征不受图像旋转与平移变化的影响，归一化后对图像尺度变化具有较高的鲁棒性，结合颜色空间信息可更好地表征图像。为了得到纹理与颜色间的对应关系，Kanaparthi 等［25］采用通道间投票方法，在色调、饱和度和亮度上使用一致性，提出一种综合颜色与亮度直方图的全局相关性与局部纹理特性的图像检索方法。

3.1.2 纹理特征

纹理存在于许多真实的图像中，且被认为是计算机视觉的关键特征，因此纹理特征被广泛应用于图像检索与模式识别中。纹理是用来识别图像中感兴趣的物体或区域的重要特征之一，Haralick 等［26］描述基于灰度空间相关性的易计算纹理特征，说明其在显微照片、航空照片和卫星图像这3 种不同类型图像数据分类识别任务中的应用。实验表明，易计算的纹理特征对各图像分类应用具有普遍适用性。然而，基于纹理的图像检索的主要缺点是计算复杂度与噪声敏感性较高［9］。

Haralick 等［26］提出最著名的图像统计特征提取方法灰度共生矩阵（Gray-Level Co-Occurrence Matrix，GLCM）。对纹理进行分析的方法还包括Gabor 滤波器、Voronio 棋盘格特征法、结构法、马尔可夫随机场（Markov random field，MRF）模型法、边缘直方图描述符（EHD）、离散小波变换（DWT）等。Alaei 等［27］研究来自于统计、变换、模型和结构四大类纹理特征提取方法的26 种纹理特征提取方法。Banerjee 等［28］提出基于局部领域亮度模式（Local Neighborhood Intensity Pattern，LNIP）的纹理描述符。Yu 等［29］提出一种用于图像检索多趋势二进制码描述符（Multi-Trend Binary Code Descriptor，MTBCD）特征提取方法。Lan 等［30］提出一种利用医学图像纹理特征进行检索的简单方法。Dhingra 等［31］提出一种基于纹理的图像智能高效处理方法。Singh 等［32］提出一种新的彩色图像局部二值模式（Local Binary Pattern For Color Image，LBPC）描述符。

3.1.3 形状特征

形状是标识图像的低层特征之一，基于形状特征的检索方法可有效利用图像感兴趣的目标进行检索。一般情况下形状描述符会随图像比例与平移发生变化，因此通常与其他描述符合并使用来提高图像检索准确性。其中，典型的形状特征描述方法包括边界特征法、傅里叶形状描述符法、几何参数法和形状不变矩法等。

3.1.4 空间信息特征

以前研究提取的低层特征大多缺乏空间信息，由于空间特征主要与图像分割的多个目标间的相互空间位置相关。空间关系的使用可加强对图像内容的描述区分能力，但对图像旋转、尺度变化等较为敏感。在实际检索应用中，空间信息常与其他低层特征相配合以获得更精确的检索结果。Lazebnik 等［33］提出空间金字塔匹配（Spatial Pyramid Matching，SPM）是一种利用空间金字塔进行图像匹配、识别、分类的算法，实验证明该方法是捕捉图像空间属性的最佳方法之一。Mehmood 等［34］将局部视觉直方图表示图像中心区域的空间信息与全局视觉直方图相连接，将组成的视觉单词添入BoVW 表示的倒排索引中，该方法在Corel-A、Caltech-256 和Ground Truth 数据集上的表现均优于传统方法。表2 展示了部分基于传统全局特征的图像检索方法的效果及特点。

在早期CBIR 研究中，使用全局特征能带来良好的准确性，但该特征容易受到光照、旋转、噪声、遮挡等环境干扰，影响全局特征提取准确率，并且各特征计算量较大。

3.2 局部特征

相较于全局特征，图像局部特征在比例与旋转不变性方面更优。为了对图像特征进行更细致表示，局部特征描述逐步出现。例如，斑点检测SIFT、SURF 等算法；角点检测Harris、FAST 等算法；二进制字符串特征描述BRISK、ORB、FREAK 等算法。这类算法仅需简单计算与统计，无需大规模学习与训练。图3 展示了局部特征的分类及提取方法。

3.2.1 斑点检测

Lowe 等［48］提出尺度不变特征变换（Scale-invariant Feature Transform，SIFT）是一种可在图像中检测关键点的局部特征描述子。为了解决SIFT 算法在处理CBIR 问题时内存占用与匹配时间较大的缺点，Montazer 等［49］利用SIFT提取图像特征并对其进行K-means 聚类，在保持图像特征鉴别能力同时将SIFT 提取的特征降低了一个维度数，该降维方法使SIFT 特征更真实、有效地应用于图像检索。

虽然，通过SIFT 提取的特征具有旋转、缩放、平移、光照不变性，但高度依赖局部区域像素梯度，若区域选取不合适将导致检索结果发生错误。Bay 等［50］引入一种尺度与旋转不变性检测器和描述符——加速鲁棒特征（Speeded-Up Robust Features，SURF），克服了SIFT 的高维限制，计算、比较速度相较于SIFT 更快，并在兴趣点提取及特征向量描述方面进行了改进。

3.2.2 角点检测

Harris 等［51］首次提出一种鲁棒的角点检测器——Harris 检测器，通过分析自相关矩阵特征值定位亮度变化较大的点。Mikolajczyk 等［52］提出一种检测对尺度和仿射变换不变的兴趣点方法，使用Harris 检测器提取的兴趣点可适应仿射变换，是一种视频稳定、图像匹配、摄像机校准和定位的参考技术手段［53］。

Fig.3 Classification and extraction methods of local features图3 局部特征的分类及提取方法

Table 2 Effects and characteristics of image retrieval methods based on traditional global features（part）表2 基于传统全局特征图像检索方法的效果及特点（部分）

虽然，Harris 检测器对噪声、尺度和旋转具有较强的鲁棒性，但计算成本较高。Xu等［54］发现Harris检测器对大型图像数据集的处理效率并不理想，而FAST（Features from Accelerated Segment Test）能突破Harris 在计算成本方面的限制［55］。同时，本文研究发现FAST 具有极强重复性，能在不同变化下检测兴趣点，实验表明该方法的角点检测优于边缘检测。

3.2.3 二进制字符串特征描述子

SIFT、SURF 特征描述子会占用大量内存空间，实际上其并非所有维度均在匹配中具有实质性作用。因此，可使用PCA 等特征降维方法压缩特征描述子维度。例如，LSH算法可将SIFT 特征描述子转换为一个二值码串，使用汉明距离匹配特征点。BRIEF 提供一种计算二值串的捷径，无需计算一个类似于SIFT 的特征描述子［56］，大幅度加快了特征描述子的建立速度，便于在硬件上实施。但该方法的缺点是描述子旋转与尺度不变性较差，对噪声较为敏感。Leutenegger 等［57］提出一种关键点检测、描述和匹配方法二进制鲁棒不变可伸缩关键点（Binary Robust Invariant Scalable Keypoints，BRISK），该方法具有较好的旋转不变性、尺度不变性及鲁棒性等，在对较大模糊的图像进行匹配搜索时表现最出色。Rublee 等［58］在FAST 中添加快速、准确的方向组件，提出一种非常快速的基于面向FAST 旋转BRIEF（Oriented FAST Rotated and BRIEF，ORB）的二进制描述符ORB，实验证明ORB 相较于SIFT 快两个数量级，且ORB 具有旋转不变性和抗噪声性。为了使描述符在保持对缩放、旋转和噪声的鲁棒性情况下，计算速度更快、更紧凑，Alahi 等［59］提出快速视网膜关键点（Fast Retina Key-Point，FREAK）的关键点描述符。表3 展示了部分基于传统局部特征图像检索方法的效果及特点。

Table 3 Effects and characteristics of image retrieval methods based on traditional local features（part）表3 基于传统局部特征图像检索方法效果及其特点（部分）

由表3 可见，局部特征具有较好的稳定性，对旋转、尺度缩放、亮度变化等方面稳定性较好，不易受视角变化、仿射变换、噪声干扰［73］。综上，图像的局部特征点能反映图像的局部特殊性，适用于进行图像匹配、检索等应用。

4 机器学习

近年来CBIR 系统逐渐使用机器学习，获得能处理新输入数据并给出正确预测结果的模型，以提高图像检索效率。以下将从无监督学习与监督学习方面，对现阶段在图像检索技术中应用的算法进行阐述。

4.1 无监督学习

在CBIR 中使用最广泛的两类无监督学习算法为聚类和降维。在特征选择、提取时对图像进行降维能在保留数据结构、有用性的同时压缩数据。聚类则是将图像特征描述符按相似度聚集成不同分组。其中，K 均值聚类算法和主成分分析（Principal Component Analysis，PCA）降维算法在CBIR 系统使用广泛。

当CBIR 系统使用局部特征提取方法时，通常会进行聚类处理来确定图像所属语义组。其中，K-means 与Kmeans++方法是CBIR 系统中使用最广泛的两种聚类算法［74-75］。Yousuf 等［76］将K-means 应用于SIFT 与LIOP 视觉词汇融合后构建的视觉词上，提高检索性能。

然而，K-means 算法的局限性在于需要指定初始聚类数量，并且初始质心选择也会影响聚类算法性能。此外，K-means 无法处理离群点和噪声数据。Azarakhsh 等［77］采用自动聚类方法，利用进化与元启发式算法分类与识别各种数字图像，实验表明优化后的K-means 聚类具有更高的平均检索精度。Ghodratnama 等［78］将聚类与分类思想相结合，提出一种在多标签框架下进行图像检索的方法，有效解决了“语义鸿沟”问题。Anju 等［79］提出基于内容的安全图像检索方案，提取图像的MPEG-7 视觉描述符并将其进行聚类以便于索引，相较于最快、最先进的方案，该方案具有高度可扩展性，搜索、索引速度分别提升7 倍和23 倍，且检索精度更高。Mehmood 等［80］将K-means++应用于由HOG 与SURF 视觉词典融合而成的视觉词典，通过赋予初始质心权值克服K-means 的局限性，虽然K-means++选择初始质心的过程相较于K-means 更复杂、耗时更长，但聚类迭代次数更少，结果更精确，计算成本有所降低。

通常，图像特征提取伴随着高维特征向量表示，PCA是一种用于高维数据降维的方法，该方法能提取数据的主要特征分量。Adegbola 等［81］提出一种基于PCA 特征降维技术的CBIR 系统，以计算成本换取检索精度，实验表明在允许平均精度值减少5%的情况下可实现特征向量维数减少80%，但继续增加特征向量维数减少百分比会导致检索结果变差。Kumar 等［82］将PCA 与其他技术相结合对医学图像进行混合特征提取，在医学图像数据集中取得了较好的检索精度。

4.2 监督学习

相较于无监督学习，监督学习算法具有图像分组和标签的先验知识。监督学习就是最常见的分类问题，通过已有训练样本训练得到一个在某一评价准则下的最优模型，利用模型将所有输入映射为相应的输出，对输出进行简单判别从而实现分类。监督学习是训练神经网络与决策树的常见技术，常见的有监督学习算法包括回归分析、统计分类。其中，应用于图像检索领域最典型的算法为支持向量机（Support Vector Machine，SVM）与人工神经网络（Artificial Neural Network，ANN）。

Cortes 等［83］提出模式识别与图像分类中最常用的监督分类器——SVM。研究者们可利用SVM 为输入图片数据分配类别，解决高维问题，有效避免“维数灾难”，缺点是无法适用于超大型数据集，对缺失数据敏感。ANN 的吸引力来自于显著的信息处理特性，例如非线性、高并行性、容错性、抗噪性及学习和泛化能力［84］，可应用于计算机视觉、医学诊断、语音识别和机器翻译等特定任务。

4.3 深度学习

传统视觉特征极大程度依赖人为设计，无法准确表征图像特征进而对检索性能造成一定的影响。目前，深度学习在计算机视觉任务中取得了巨大成功。深度学习是一种实现机器学习的技术，包含监督学习与无监督学习算法，例如卷积神经网络（CNN）是监督学习方法，生成对抗网络（GAN）是无监督学习方法［85］。相较于传统机器学习方法，深度学习的性能使图像识别、计算机视觉、机器翻译、语音识别等领域的新应用成为可能。

4.3.1 深度网络架构类型

深度神经网络的层次结构与广泛的参数化使其在计算机视觉任务中取得了显著成功。目前在图像检索领域存在AlexNet［86］、VGG［87］、GoogLeNet［88］、ResNet［89］、MobileNet［90］和EfficientNet［91］共6 种网络模型作为特征提取的基础。

（1）AlexNet。该模型在2012ILSVRC 中显著提高了ImageNet 分类精度，使CNN 成为图像分类上的核心算法模型。模型结构由5 个卷积层和3 个全连接层组成，数据增强时在前两个全连接层引入Dropout 防止模型发生过拟合现象，将ReLU 代替传统sigmod 或Tanh 激活函数，采用双GPU 设计模式提升模型训练速度。同时，模型的重叠池化既减少了系统发生过拟合现象，又提高了预测精度。此外，AlexNet 借鉴侧抑制的思想提出局部响应归一化（Local Response Normalization，LRN），使响应比较大的值相对更大，以进一步提高模型泛化能力。

（2）VGG。该模型具有多层标准深度卷积神经网络（CNN）架构，其中VGG-16 与VGG-19 被广泛使用，分别由13 和16 个卷积层组成［87］。VGG 网络使用逐层训练方法，由非常小的卷积滤波器构成，实验表明不断加深网络结构能提升模型性能。

（3）GoogLeNet。该模型设计了inception 模块，可构造更稀疏的CNN 结构［88］，通过使用不同大小卷积核抓取不同大小的感受野，最后一层采用全局均值池化层替换全连接层，减少了模型参数。相较于AlxeNet、VGGNet、GoogLeNet 模型更深更宽，模型参数更少，学习效率更高。更深层次的体系结构有利于学习更高层次的抽象特征，从而减少语义差距。

（4）ResNet（Deep Residual Learning for Image Recognition）。该模型使用插入快捷连接将普通网络转换为残差网络［89］，相较于VGGNets 而言ResNets 过滤器更少。ResNet 使用跳跃连接或跳过某些层避免发生梯度消失的问题，跳跃连接充当梯度高速公路，使梯度不受干扰地流动。

（5）MobileNet。相较于AlexNet、ResNet 等神经网络结构，在某些性能、速度、设备资源受限的情况下，MobileNet轻量级网络结构的准确度尚可接受且效率较高。该模型的基本单元深度可分离卷积是一种可分解卷积操作，不仅降低了模型计算复杂度，还大幅度缩减了模型大小，为手机或嵌入式等移动端提供了便利。

（6）EfficientNet。相较于传统模型随机缩放技术，EfficientNet 使用复合系数技术，即平衡宽度、深度和图像分辨率3 个维度的比例，简单、有效的放大模型［91］。此外还开发了7 个不同维度的模型，实验表明该模型均超过了大多数卷积神经网络的精度，且效率更高。

4.3.2 深度特征提取

基于深度学习的特征提取主要是从各深度网络模型的全连接层或卷积层中进行，既可提取全连接层的全局特征，也可提取卷积层的局部特征，还可两种方式相互结合。具体的，特征的融合方式包括层级别和模型级别。

（1）深度特征选择。卷积提取的是局部特征，全连接将以前的局部特征重新通过权值矩阵组装成完整图，因此代表了图像的全局特征。将全连接层提取到的特征使用PCA 降维及标准化后，即可进行图像间的相似性度量。

然而，单独使用全连接层特征可能会限制图像检索精度。Song 等［92］指出在第一个全连接层和最后一个全连接层间建立直接连接可实现由粗到细的提升。此外，由于全连接层表示图像级特征，包含图像的不相关信息及缺乏局部几何不变性。为此，Song等［92］还在更精细的尺度上提取区域级特征，解决背景杂波问题。由于缺乏几何不变性会影响对图像变换的鲁棒性，例如图像发生裁剪、遮挡等情况。为此，研究者们提出使用中间卷积层解决该问题［93-95］。

卷积神经网络中每层卷积层均由若干卷积单元组成，靠前的卷积层提取图像角点、纹理等低级特征，靠后的卷积层提取高维度、抽象特征。对于图像检索而言，卷积神经网络的效果优于全连接神经网络。卷积层中包含更多图像的局部结构信息特征，对图像变换具有较强鲁棒性［93］。Li 等［96］使用卷积层作为特征提取器，从CNN 不同层提取多尺度区域最大激活卷积特征，在3 个基准数据集上的实验表明该算法在准确性、鲁棒性方面均优于现有算法。

在标准神经网络中通常使用池化操作聚合特征，其中和/平均池化和最大池化是两种最简单的池化方法。将卷积层提取的特征进行池化操作可有效减小参数数量，增强特征表示的鲁棒性。此外，R-MAC［97］、SPoC［93］、CroW［98］、SCDA［99］和GeM 池化［100］等特征聚合方法也能有效提升提取的图像特征检索性能。

（2）深度特征融合。特征融合是想结合不同特征长处，达到优势互补。Liu 等［101］合并来自不同全连接层的多个深度全局特征。Li 等［96］将R-MAC 编码方案应用于VGG16 的5 个卷积层，将其连接为多尺度特征向量。Wang等［102］选择VGG-16 所有卷积层提取图像特征表示实现多特征融合，该方法相较于仅使用单层特征具有更强的稳健性。

在细粒度图像检索中为重视局部特征在细微特征差异方面的决定性作用，Yu 等［103］利用不同层次CNN 特征的更多互补优势，低层特征用于细化高层特征的排序结果而非仅将多层直接连接。通过映射函数，利用低层特征度量查询与图像具有相同语义的最近邻图像间的细粒度相似性。Gong 等［104］提出一种多尺度无序池化CNN，将CNN 特征分别从不同层中进行提取与编码，然后将不同层的聚合特征相连接测量图像。Li 等［105］在多层无序池的基础上提出多层无序融合（Multi-layer Orderless Fusion，MOF）算法，在Holiday、UKBench 数据集的实验证明，融合卷积层与全连接层性能更优。Zhang 等［106］融合从同一CNN 中提取的两种特征类型生成的索引矩阵，该方法计算复杂度较低。Yang 等［107］放弃两段式的检索，提出一种深度正交局部和全局（DOLG）特征融合框架用于检索端到端图像，在重新修改的Oxford、Paris 数据集上验证了该方法的图像检索性能。

将不同模型特征进行融合需要注重模型间的互补性。Simonyan 等［87］引入ConvNet 模型内融合策略，融合VGG-16 与VGG-19 提高VGG 的特征学习能力。Yang 等［108］引入一个双流注意力CNNs 实现图像检索，该方法可像人类一样通过保留显著内容和抑制不相关区域计算图像相似性，取得了较强的图像检索性能。Zheng 等［109］认为模型间融合可弥合中级和高级特征之间的差距，结合VGG-19 与AlexNet 学习组合特征。Qzaki 等［110］将来自6 个不同模型的描述符连接。Ge等［111］提出一种多级特征融合方法改进高分辨率遥感图像检索的特征表示。Jiang 等［112］提出一种基于图像特征融合和离散余弦变换的图像检索方法，分别从基于浅层特征融合方法和基于深度特征融合方法进行比较。在Corel、Oxford 建筑数据集上的实验表明，两种方法均能提升检索系统性能。

研究者们通过融合多层提升图像检索性能，按照融合与预测先后顺序可分为早融合和晚融合。其中，早融合先融合候选特征，然后在融合后的唯一特征表示上进行图像检索［101，107-108］。晚融合则通过结合不同特征检索结果改进检索性能［105］。在CBIR 中使用深度学习算法虽能提高检索准确率，但在训练与测试阶段需要花费较长时间。

4.3.3 基于深度学习的图像检索

依据不同数据集图像的应用领域，在基于深度学习的图像检索应用中，从不同检索类型进行以下总结，具体内容如表4所示。

（1）跨模态检索。随着深度神经网络在图像检索研究领域的应用，跨模态检索受到广泛关注。图像与文本两个模态在检索领域中非常常见，当给定一个模态数据时，跨模态检索任务在另一个空间中找到与给定模态对应或最接近的若干数据。跨模态匹配可理解为判断给定的两种不同模态的数据是否相关。例如，Wei 等［135］基于CNN 视觉特征进行跨模态检索。

多模态检索方法包括深度视觉语义哈希［136］、自监督对抗性哈希［137］、深度级联跨模态排序模型［138］、深度互信息最大化算法［139］、深度联合语义跨模态哈希算法［140］。Dey 等［141］提出一种跨模态深度网络结构，允许文本、草图作为查询输入，利用注意力模型使用查询中的多个对象进行检索。Lee 等［142］研究图文匹配问题，提出堆叠交叉注意力机制，使用图像区域和句子中的单词作为上下文发现完整的潜在对齐，推断图像—文本相似性。Wang 等［143］提出由跨模态消息聚合和跨模态门控融合组成的跨模态自适应消息传递模型，自适应探索文本图像匹配中图像与语句间的交互。Chaudhuri 等［144］提出基于深度神经网络的遥感跨模态检索框架。Sumbul 等［145］提出一种新的自监督跨模态图像检索方法，该方法在无需任何注释的训练图像情况下，仍能有效保持模态内与模态间的相似性，且消除模态间差异。此外，刘颖等［146-147］也提出基于深度学习的跨模态检索的方法。

Table 4 Some methods of different retrieval types based on deep learning and their characteristics表4 基于深度学习的不同检索类型的部分方法及其特点

（2）类别级检索。类别级图像检索（Category level Image Retrieval，CIR）的主要任务是查询图像与相同类别的任意图像，例如狗、汽车［148-150］。Sharma 等［151］提出有监督判别式远距离学习方法和基于水机梯度的学习方法，在基于语义类别的图像检索任务中优于标准基线。Meng等［152］在类别级上进行特征提取和匹配，提出一种新的基于合并区域的图像检索方法。Xu 等［153］提出跨域表示学习框架，在类别级SBIR 中取得了很强的性能。

（3）实例级检索。实例级图像检索（Instance level Image Retrieval，IIR）的目标是寻到包含查询图像中特定实例的图像，这些图像可能是在不同背景条件所捕获。为了在大规模图像数据库中实现准确、高效的检索，IIR 的核心任务是获取图像紧凑且判别的特征表示。Razavian 等［95］使用基于ConvNet 表示的局部特征提取，开发基于深度CNN 的视觉实例检索基线。

图像实例检索的其他方法包括局部卷积特征包［154］、多标签图像数据的实例感知图像表示方法［155］和深度多实例排序的哈希模型［156］等。Amato 等［157］引入一种基于标量量化的深度特征表示方法，在实例级检索基准测试中证明了该方法的有效性。Bai 等［158］提出一种关注图像中实例对象的无监督框架，被称为对抗性实例级图像检索，是第一次在实例级图像检索任务的检索过程中采用对抗性训练，可显著提高检索精度且不增加时间成本。Krishna等［159］在图像检索任务中评估对比模型，发现在检索任务中使用对比方法训练的模型相较于在ImageNet 标签上训练的预训练的监督基线，实验结果相当甚至更优。基于对比学习方法，即在无监督方式下使用对比损失进行训练，能超越有监督的方式。Zhang 等［160］构建一个查询自适应相似性度量框架，由外部标记数据集训练的CNN 模型提取特征，利用深度特征表示与弱监督目标检测的数据集驱动的框架，对数据集进行目标发现实现检索，从上述3 方面利用数据集驱动方法提高实例图像检索性能。此外，Chen等［161］也提出有关基于深度学习的实例检索的方法。

（4）基于草图的图像检索。基于草图的图像检索（Sketch Based Image Retrieval，SBIR）实质上是跨模态信息检索，研究者们从深度多模态特征的生成、跨模态相关性建模、相似度函数优化3 方面建立有效的SBIR 模型。Eitz等［162］对SBIR 进行基准测试。Qi 等［163］提出基于孪生CNN体系结构的SBIR。Song 等［164］通过引入注意力模块、快捷连接融合块与高阶可学习能量函数构建一种新的细粒度SBIR（FG-SBIR）模型。Pang 等［165］首次发现并解决跨类别FG-SBIR 泛化问题，将FG-SBIR 跨类别泛化定义为一个域泛化问题，提出一种无监督学习方法建模一个通用的视觉草图特征流形，自动适应新类别。Yelamarthi 等［166］提出一个零样本SBIR（ZS-SBIR）的基准测试，用于未被训练的类进行检索。Dey 等［167］向社区贡献了一个用于大规模ZSSBIR 的数据集QuickDrawerExtended。

SBIR 的其他方法包括跨域表示学习框架［153］、基于CNN 的语义重排序系统［168］、语义对齐的成对循环一致生成网络［169］。Bhunia 等［170］为解决绘制草图耗时较长的问题，设计一个基于强化学习的跨模态检索框架FG-SBIR。Torres 等［171］利用一致的流形近似和投影（UMAP）进行降维，提出在SBIR 环境中使用紧凑的特征表示。Sain 等［172］针对不同用户在绘制草图时风格多样性问题，提出能适应绘制风格不可知的SBIR 模型。Yu 等［173］首次定义并解决使用徒手草图进行细粒度实例级图像检索问题，提供了一个大规模的细粒度草图数据库QMUL FG-SBIR 数据集。在该数据集上的大量实验表明，FG-SBIR 跨域注意力模型明显优于当前方案。此外，Li 等［174］也提出有关SBIR 的方法。

（5）细粒度图像检索。Xie 等［175］提出细粒度图像搜索概念。在深度学习技术的推动下，越来越多基于深度学习的细粒度图像检索方法被提出［176-178］。Wang 等［149］提出一种直接从图像中学习细粒度图像相似性模型的深度排序模型。Ahmad 等［179］提出一种面向对象的特征选择机制，用于预训练CNN 的深度卷积特征。该模型使用局部敏感哈希方法使其在大规模监控数据集中也能进行细粒度检索。

细粒度图像检索的其他方法包括基于卷积神经网络模型、基于分段交叉熵损失模型［180-181］。苟光磊等［182］提出一种选择性加权聚合卷积特征和K-RNN 重排的细粒度图像检索方法。针对细粒度服饰图像检索问题，周前前等［183］提出一种全局—局部特征提取模型进行民族服饰图像的细粒度检索。此外，Wei等［184］也提出基于深度学习细粒度检索的方法。

（6）语义检索。基于语义的图像检索一般指基于目标与高级语义的图像检索技术。Gordo 等［185］考虑到在复杂场景中语义图像检索任务，建立模型利用人工生成的文字注释间的相似性来学习如何在语义空间中嵌入图像，其中嵌入图像间的相似性与语义相似性相关。通过利用图像标题学习视觉与文本表示联合嵌入，允许向查询中添加文本修饰符，进一步提高检索准确性。Bouchakwa 等［186］提出基于TQSR 与MLID 两级处理的语义图像检索技术，在两个层次上进行基于语义的聚类算法，提高了检索准确度。

基于深度学习的语义信息建模工作包括无监督图像检索［187］、监督检索［188］、SBIR［164］［168］、跨模态检索［189］。基于语义的图像检索其他方法包括结合CNN 和哈希学习方法［190］、深度视觉语义量化方法［191］、结合深度神经网络分类器和图像信号小波分解方法［192］。Nhi 等［193］提出结合聚类树和邻域图的基于语义的图像检索系统。

（7）安全图像检索。在多媒体和云计算时代下，在图像数据库中如何进行安全的图像检索是一项重要问题。Qin 等［65］提出一种用于加密图像检索的新特征提取方法。首先，采用改进的Harris 算法提取图像特征，利用加速鲁棒特征算法和词袋模型生成每幅图像的特征向量。然后，应用局部敏感哈希算法构造特征向量的可搜索索引，采用混合加密方案保护图像与索引的安全性。Xu 等［54］提出一种云环境下的大规模安全图像检索方法，利用汉明嵌入算法生成图像描述符的二值特征，结合频率直方图与二值特征精确表示图像特征，提高模型检索准确性。通过随机抽样方法从直方图中选取视觉词，然后对所选视觉词的二值特征使用min-Hash 算法生成安全索引，既保证了搜索索引的安全性，又提高了图像检索效率。Wang 等［194］针对用户图像隐私保护不足的问题，提出一种具有正确检索身份的安全可搜索图像检索方案，使用椭圆曲线密码学实现实体身份识别，通过局部敏感哈希函数构建预过滤表优化检索效率。Iida 等［195］提出一种由原始图像数据集生成码本的隐私保护图像检索方案，研究了一种针对加密压缩（Encryption-then-Compression，EtC）系统提出的基于块加扰（block scrambling-based）的图像加密方法。

（8）会话式图像检索。会话式图像检索能根据交互式用户反应逐步明确用户检索意图，实现更精确的检索结果。Liao 等［196］提出一种知识感知的多模态对话模型，该模型考虑视觉内容中所包含的语义与领域知识。Guo等［197］引入一种基于深度学习的交互式图像搜索方法，使用户通过自然语言提供反馈。在此基础上，Zhang 等［198］提出一种约束增强强化学习框架有效结合用户随时间的偏好。Zhang 等［199］针对基于文本的交互式推荐，提出一种奖励约束推荐框架，以对抗性方式定义约束条件具有更好的泛化性。Yuan 等［200］提出一种可有效处理会话式时尚图像检索的多回合自然语言反馈文本框架，该框架可利用编码后的参考图像、反馈文本信息及会话历史，通过一种新的神经框架搜索候选图像。Kim 等［133］结合合成网络与校正网络，提出一种双合成网络（DCNet）的交互式图像检索方法，该方法相较于仅基于合成网络的TIRG［201］、VAL［202］方法，学习多模态表示鲁棒性更强。Kaushik 等［203］引入一个多视图会话式图像搜索系统［134］，基于初始运行状态、激励和会话开发了一个强化学习模型，通过定制的搜索算法预测在一组有限的固定响应中向用户提供哪些回复与图像。

5 结语

本文回顾了基于传统低层特征与基于机器学习的深层特征提取方法的CBIR 技术研究进展，阐述了各方法间的联系并对具有代表性的方法进行了概括总结，分析算法间的优点与不足。其中，基于深度学习的CBIR 技术现阶段已成为热点研究方向，研究者们对基于深度学习的CBIR 方法进行了大量创新性工作，在检索精度、检索效率等方面取得了巨大进步，但也随之产生了许多新问题。

首先，无论是采用传统低层特征还是深层特征进行检索，特征选择与提取是CBIR 技术的基础，如何选择适当的特征反映图像中包含的语义和视觉感知仍然尚未解决。此外，面对特征融合带来的特征向量维数增加问题，降维技术值得进一步深入研究，目前只有维度低、判别性好的特征才能保证检索性能与效率，如何使用低到中等的特征向量维数进行图像表示仍是一大难题。

其次，数据是生产力的根本，针对特定检索任务需要特定领域数据集进行训练，对于各类型数据集的引入便成为研究者们的迫切需求。现阶段CBIR 方法侧重于静态数据集，无法适用于增量场景。随着新数据增加，如何对训练好的系统进行改动以学习新数据中蕴含的知识是一个值得考虑的问题。

最后，图像检索的最终目的是以人为本，如何利用反馈技术实现最小迭代的用户满意度需仍需要深入研究。