自适应混合注意力深度跨模态哈希

2022-12-18柳兴华曹桂涛林秋斌曹文明

计算机应用 2022年12期

柳兴华，曹桂涛，林秋斌，曹文明*

（1.深圳大学电子与信息工程学院，广东深圳 518060；2.广东省多媒体信息服务工程技术研究中心（深圳大学），广东深圳 518060；3.华东师范大学软件工程学院，上海 200062）

0 引言

随着信息技术和多媒体技术的快速发展，人们在社交媒体上以不同的方式分享着自己的日常生活，导致多媒体数据（如文本、图像等）急剧增长。在如此大量的多媒体数据面前，用户迫切希望使用其中一种模态数据作为索引来检索得到其他与之相关的其他模态数据。为了实现这一需求，研究人员提出很多跨模态检索方法，利用模态间的相关性来进行建模，于是，跨模态检索问题就可以转化为数据模态间的相似性查询。由于不同模态数据间存在结构性差异导致它们存在较大的语义鸿沟，因此，跨模态检索方案的关键在于能否有效捕获模态间潜在的语义关联并尽可能缩小语义鸿沟。

早期的检索方法将所有模态数据都映射到一个子空间中，然后在其中衡量其相似度，如近似最近邻搜索（Approximate Nearest Neighbor，ANN）［1］；然而，随着数据维度和规模的飞速增长，传统跨模态方法由于高额的存储和时间消耗已经不能满足用户的需求，因此，迫切需要开发新的方法来实现快速高效的检索。跨模态哈希方法因检索速度快、存储开销低而备受关注。该方法旨在将原始数据复杂的高维特征信息转换成简单的低维二进制哈希码，从而实现数据降维、压缩存储和加速检索。哈希检索是利用哈希码的相似度来衡量原始模态的相似度，哈希码越相似对应的原始模态数据也越相似。

随着深度学习算法的不断进步，其强大的学习能力能够获得更复杂、更准确的哈希函数，因此，越来越多的研究人员将跨模态哈希方法与深度神经网络相结合来深入探索模态间潜在的语义关联信息。迄今为止，提出了很多基于深度学习的跨模态哈希方法，虽然在跨模态检索方面取得重大进展，但这些方法无法从提取的特征信息中分辨出哪些信息是重要的，哪些是不重要的；另外，还有些方法只是利用标签信息简单地将模态间的关系划分为相似和不相似，而没有充分利用标签信息深入挖掘模态间的关联信息。

为了解决上述问题，本文提出自适应混合注意力深度跨模态哈希检索（Adaptive Hybrid Attention Hashing for deep cross-modal retrieval，AHAH）模型。本文主要工作包括：

1）设计了一种新的自适应混合注意力模型，将通道注意力和空间注意力有机结合起来。首先自主学习通道和空间注意力对应的权重值，该权重会根据每次迭代进行更新；然后根据权重将它们重组，构成自适应可变权重的混合注意力模型。

2）定义了一种新的相似度计算方法来衡量模态间的相似性。传统方法认为两个模态只要有一个共享标签就判断它们相似，这样做容易造成较大的误差。本文根据两样本所含标签计算出共有标签所占的比例来细化其相似度。

3）在4个常用的数据集上进行了广泛的实验，实验结果表明本文所提方法的检索结果均高于对比的最先进的几种方法；同时，消融实验和效率分析也证明了本文方法的有效性。

1 相关工作

迄今为止，研究人员提出了很多关于跨模态检索的方法。根据在检索任务中提取特征的方法可将跨模态哈希方法分为传统方法和深度跨模态方法。

传统跨模态方法是基于手工提取的方式获取各个模态的浅层特征信息来学习哈希码。根据在检索过程中是否使用标签信息又可将其分为无监督和有监督方法。无监督哈希方法通过学习和总结数据的分布情况和空间结构来探索模态间的相似性。如模态间哈希（Inter-Media Hashing，IMH）［2］将各个模态数据映射到汉明空间中，然后使用位运算来进行快速检索；但该方法需要两两计算样本间的相似性，时间消耗较大。集体矩阵分解哈希（Collective Matrix Factorization Hashing，CMFH）［3］通过分解实例的不同的潜在因子来得到统一的哈希码。潜在语义稀疏哈希（Latent Semantic Sparse Hashing，LSSH）［4］利用稀疏编码和矩阵分解分别获得各模态的特征结构，并将其映射到同一空间中进行哈希检索。与无监督哈希方法相比，有监督哈希方法可以充分利用标签信息得到更丰富的语义关联信息，在实际的检索任务中取得更优异的成绩。典型的监督哈希方法如语义保持哈希（Semantics-Preserving Hashing，SePH）［5］将训练得到的二进制码和关联矩阵转化成对应的概率分布并使用K-L散度来提升哈希码的学习；虽然该方法在检索效果上取得了不错的提升，但其模型复杂需要消耗大量的时间和存储空间。最大语义相关性（Semantic Correlation Maximization，SCM）哈希［6］将标签信息融入到模态间的相似度计算，并通过线性变换来优化语义相似度计算；但该方法的量化损失较大，对检索准确率造成重大影响。广义语义保留哈希（Generalized Semantic Preserving Hashing，GSPH）方法［7］利用标签信息构造相似矩阵并通过将非凸问题最小化来保持相似性，然后通过核逻辑回归来指导生成对应哈希码。监督一致性特定哈希（Supervised Consistent and Specific Hashing，SCSH）［8］通过分解映射矩阵和将语义标签回归到哈希码来提高哈希码的质量和加快学习速度。上述提及的传统方法由于特征处理比较简单，无法深度挖掘模态间的相关性，而且计算繁琐导致时间消耗较大，最终导致检索效率和结果无法达到满意的结果，制约了其发展，无法满足大规模数据检索任务的要求。

近年来，由于深度学习的快速发展及其在特征提取方面的优异表现，许多基于深度学习的跨模态哈希方法被提出。与传统哈希方法相比，深度跨模态哈希方法依赖于深度神经网络进行更复杂和更准确的特征学习。如深度跨模态哈希（Deep Cross-Modal Hashing，DCMH）［9］将哈希检索构造成一个端到端的框架，为后续的研究打下了基础。成对关系深度哈希（Pairwise Relationship Deep Hashing，PRDH）［10］在深度跨模态哈希的基础上通过引入相关约束来增强哈希码的区分能力，同时考虑模态间的相似性和哈希码冗余问题；但该方法步骤较多、时间复杂度高，不适合推广。语义深度跨模态哈希（Semantic Deep Cross-modal Hashing，SDCH）［11］利用语义标签分支和哈希哈希分支来提高特征学习的质量，从而提升检索性能。语义排名结构保持（Semantic Ranking Structure Preserving，SRSP）哈希［12］通过最小化标签间的依赖关系来获取更丰富的语义信息，并约束相对排名来促进相关学习。自监督对抗哈希（Self-Supervised Adversarial Hashing，SSAH）方法［13］首次将对抗学习引入跨模态哈希检索领域中，并取得了很好的检索效果；但对抗学习对噪声敏感，导致稳定性较差。多级相关对抗哈希（Multi-Level Correlation Adversarial Hashing，MLCAH）方法［14］构造对抗性标签一致性注意机制，并将多级相关信息融和生成哈希码；虽然该方法有效提升了检索结果，但仍然无法有效克服噪声对对抗网络的影响。多标签语义保留哈希（Multi-Label Semantics Preserving Hashing，MLSPH）方法［15］利用样本多标签构造语义相似度矩阵，并通过记忆库机制来保持相似性约束。文献［16］中提出通过构建多级语义指导分类器并使之指导哈希函数的学习。文献［17］中引入知识蒸馏的思想并通过离散循环坐标下降法更新哈希码。虽然依靠深度神经网络能有效提升检索结果，但如何从提取的特征信息中分辨出重要的信息仍然是亟待解决的问题。

注意力机制是人类独有的信息处理机制。当人们在查看一张图片时，先会快速扫描图像来划分目标区域并确定主要和次要目标；然后根据相应的注意力级别来依次理解图像。受人类视觉系统的启发，研究人员提出各种类型的注意力网络，在特征信息中提取过程中快速分辨出重要信息来提高计算机视觉技术处理信息的效率和准确率。注意力机制是通过深度神经网络学习得到一组权重系数，然后利用动态加权来增强相关目标区域信息并弱化不相关区域的信息，即去伪存真。根据注意力网络关注区域不同，可将其大致分为通道注意力、空间注意力和自注意力。通道注意力是通过探索特征图通道之间的相关性来进行学习，得到各个通道的相对重要程度并生成对应的权重系数，典型的代表有：SENet（Squeezeand-Excitation Network）［18］、SKNet（Selective Kernel Network）［19］。空间注意力的目的在于提高关键目标区域的特征表示，通过生成每个位置的权重来实现强化感兴趣的目标区域和弱化不感兴趣的区域，典型的代表如CBAM（Convolutional Block Attention Module）［20］。自注意力是通过使用内部特征信息进行学习，减少对外部信息的依赖，典型代表如CCNet（Criss-Cross Network）［21］、DANet（Dual Attention Network）［22］。

本文受注意力机制的启发，结合通道注意力和空间注意力各自的优点将它们结合起来取长补短实现一个自适应权重的混合注意力模型，以此来提升获取特征信息的质量进而提升检索的准确率。

2 自适应混合注意力深度跨模态哈希

2.1 符号与问题定义

本文中，矩阵范数和符号函数分别由‖X‖F和sign(·)表示，sign(·)的定义如下所示：

2.2 本文模型结构

本文提出的自适应混合注意力深度哈希检索模型的结构包含特征处理和哈希学习两部分，如图1 所示。为了能够从提取的特征信息中分辨出重要的有关信息和不相关的信息来达到数据增强的效果，首先通过自主学习通道和空间注意力分支对应的权重值（该权重会根据每次迭代进行更新）；然后根据权重将它们重组，构成自适应可变权重的混合注意力模型；其次，通过统计分析的方式充分利用标签信息来更精确地表示样本间的相似度，减少不必要的误差。通过混合注意力模块处理后能有效提升所获特征信息的质量，进而能生成更好的哈希码；同时利用标签信息更精确的表示相似度来减少误差。两者共同作用有效提升了检索结果。

图1 自适应混合注意力深度哈希检索模型的结构Fig.1 Structure of adaptive hybrid attention hashing for deep cross-modal retrieval model

2.2.1 特征处理部分

所提模型的特征提取网络分为图像和文本两部分。本文使用VGG-19（Visual Geometry Group，VGG）网络作为图像特征提取网络的基础模型，通过对其进行修改来实现特征提取和哈希学习。考虑到深度神经网络在训练过程中会产生大量冗余信息和消耗大量训练时间，本文模型中使用其预训练网络来替代。首先，删除VGG-19 网络的最后一层并冻结前16 层的训练权重；其次，在第16 和17 层之间添加混合注意力网络来捕捉重要特征信息；最后，使用VGG-19 网络的两个预训练的全连接层作为哈希码的学习网络和利用一个全连接层生成指定长度的哈希码。

对于文本特征提取部分，本文模型采用特定的全连接网络构成：前两层分别设置2 048 和4 096 个节点，激活函数使用ReLU（Rectified Linear Unit）函数；最后一层设置l个节点，使用tanh 函数作为其激活函数并生成设定长度的哈希码。

通道注意力通过探索特征图中不同通道之间的相关性来获取每个通道的相对重要性；空间注意力旨在探索不同区域的相对重要性。为了同时获得通道注意力和空间注意力的优势，本文提出了自适应混合注意力模型，网络结构如图2 所示。对于给定的输入特征Fmap∈RC*H*W，在通道注意力分支，首先对输入特征进行全局平均池化，然后连接两个全连层处理，最后通过批量归一化（Batch Normalization，BN）层得到通道注意力掩码Mc=BN(W1(W0*AvgPool(Fmap) +b0) +b1) ∈RC*H*W；对于空间注意力分支，通过4 层卷积进行处理后经批量归一化输出得到空间注意力掩码：

图2 混合注意力模型的网络结构Fig.2 Network structure of hybrid attention model

其中Conv1×1表示1 × 1 卷积。最后，通过学习的权重将二者有机结合得到混合注意力模型的掩码，公式如下所示：

其中：σ(·)表示可变的阈值；α、β表示学习得到的可变权重，每次迭代均进行更新直到找到最优值。于是可以得到经混合注意力模型处理后的特征图，如式（6）所示：

2.2.2 哈希学习部分

为了精确探索模态间的相关性，必须最小化模态间语义相似项之间的距离和最大化不相似项之间的距离；因此，本文实验中使用了余弦三元组损失函数。对于图像检索文本，首先，构造三元组，其中表示图像样本，表示与图像相关的正样本，表示与图像相关的负样本。于是可以得出图像检索文本的三元组损失函数为：

其中：α为边界参数。

类似地，可以得到文本检索图像的三元组损失函数，如下所示：

因此，可以得到图像检索文本模态的目标函数，定义如下：

结合以上两个网络分支的目标函数可得总目标函数为：

2.2.3 迭代过程

在本文实验中采用的是交替迭代的策略来优化目标函数。每次迭代时，只优化其中一个网络，固定另一网络保持不变。算法1 总结了本文方法的迭代过程。

算法1 自适应混合注意力深度哈希检索算法。

3 实验与结果分析

3.1 数据集

1）MIRFLICKR-25K。该数据集包含25 000 对图像文本对，每个实例由24 类语义标签中的一个或多个进行标注。文本由1 386 维词袋向量表示。

2）NUS-WIDE。该数据集包含269 468 对图像文本对，每个实例由81 类语义标签进行标注。文本模态由1 000 维词袋向量表示。

3）MSCOCO。该数据集包含120 000 对图像文本对，每个实例由81 类标签中的一个或几个进行标注。文本模态由2 000 维词袋向量表示。

4）IAPR TC-12。该数据集包含20 000 对图像文本对，每个实例有225 类标签中的一个或多个进行标注。文本模态经处理后由2 912 维的词袋向量表示。

为了对比的公平性，本文根据MLCAH 和MLSPH 的实验配置来确定训练集、检索集和索引集。实验配置见表1。

表1 实验数据集详细配置Tab.1 Detailed configuration of experimental datasets

3.2 实验环境与参数

本文实验在一台配备有8 个GPU 的NVIDIA GTX 2080 Ti GPU 的服务器上完成。在实验中，设置迭代次数为50，训练批次大小为64，并将初始的学习率设定为10×10-5，在达到设定的迭代次数后学习率开始按算法递减。混合注意力模型的权重α、β均初始化为1，后续根据每次训练情况进行自主迭代更新，直到找到最佳权重。为了排除偶然性，最终的实验结果取5 次实验结果的平均值。

3.3 评价标准

汉明排序和哈希查找是广泛使用的哈希检索评价标准。本文采用汉明排序协议来评估所提方法，并使用平均精确度均值（mean Average Precision，mAP）来评价汉明排序；此外，本文还使用了准确率-召回率（Precision-Recall，PR）曲线来进一步衡量所提方法的性能，PR 曲线与两个坐标轴共同围成的面积越大，则表示对应方法的性能越好。

3.4 实验结果与分析

表2 给出了在4 个公共数据集（MIRFLICKR-25K、NUSWIDE、MSCOCO 和IAPR TC-12）上哈希码长度为16 bit、32 bit 和64 bit 时与其他跨模态检索算法的mAP 对比结果。其中包括SePH［5］、SCM［6］、GSPH［7］、DCMH［9］、SSAH［13］、MLCAH［14］、MLSPH［15］。本文中的实验数据除MLSPH 方法外均从原文中引用。由于MLSPH 方法公开代码不全且数据处理方式不同，因此在MSCOCO 和IAPR TC-12 数据集上按照本文的配置对其进行复现。从实验结果可以看出，本文所提方法的实验结果均好于其他对比的方法，即可证明本文所提方法的有效性。另外，基于深度学习的方法的检索结果明显好于基于浅层网络的方法，表明深度神经网络的优越性。

表2 在4个公共数据集上各方法的mAP对比Tab.2 mAP comparison of each algorithm on four public datasets

在MIRFLICKR-25K、NUS-WIDE、MSCOCO和IAPR TC-12数据集上，本文所提方法与除本文方法外排名最好的方法相比，在图像检索文本任务中，哈希码长度为16 bit、32 bit、64 bit时分别提升了（1.6%、0.98%、0.23%）、（2.6%、3.3%、2.8）、（5.3%、9.7%、12.3%）和（1.2%、3.9%、6.9%）；在文本检索图像的任务中分别平均提升了（2.9%、1.7%、1.9%）、（0.88%、1.1%、1.3%）、（8.4%、11.1%、9.6%）和（3.1%、7.1%、9.5%）。实验结果表明本文所提自适应混合注意力模型和相似度测量方法的有效性。通过自适应混合注意力模型能有效分辨出重要的特征信息来提升获取特征的质量，进而生成更具辨别性的哈希码，从而实现检索性能的提升。此外通过对标签信息的探索，更精确地表示样本间的相似性，减小了不必要的误差，对提升检索性能有着重要的贡献。通过上述步骤，可以充分挖掘模态间的相关性，有效弥合模态间的语义差距，进而提高了检索的准确率。

图3 中给出了所提方法在3 个数据集上的PR 曲线。以哈希码长度为16 bit 为例，PR 曲线与两坐标轴所围面积越大表明其性能越好。由图3 可以得出以下结论：

图3 3个公共数据集上哈希码长度为16 bit时的PR曲线Fig.3 PR curves with hash code length of 16 bit on three public datasets

1）本文方法在数据集NUS-WIDE（NUS）和MSCOCO（COCO）上的表现要比数据集MIRFLICKR-25K（MIR）上好，表明本文方法更适用于大规模的数据集。

2）从PR 曲线图上来看，本文方法对应的曲线高于其他对比方法，表明本文方法的总体性能要优于其他对比方法，这得益于本文方法能有效提高所获特征的质量和利用标签信息构建更准确的相似矩阵来减小不必要的误差，从而提升检索性能。

为了进一步确认本文方法的有效性，设计了训练效率分析实验。探索了本文方法和MLSPH 在MIIRFLICKR-25K 数据集上、哈希码长度为16 bit 时的平均准确率均值（mAP）和训练损失与迭代次数的变化。如图4 和图5 所示。

图4 mAP和训练次数的关系Fig.4 Relationship between mAP and the number of training

图5 训练损失与训练次数的关系Fig.5 Relationship between training loss and the number of training

相较于MLSPH，本文方法（AHAH）的mAP 能在较少的训练次数上升到最高水平并保持稳定；此外，从损失变化曲线图上可以看出本文方法的损失能很快下降收敛并保持在稳定值附近，振幅稳定。综上可证明本文方法的训练效率优于其他对比方法。

3.5 消融实验

3.5.1 混合注意力模型消融实验

为了证明所提自适应混合注意力模型的有效性，本文基于MIRFLICKR-25K 数据集设计了对比实验，实验中分别为只使用通道注意力、只使用空间注意力和使用混合注意力模型。实验结果如表3 所示。

表3 注意力网络mAP实验结果对比Tab.3 Comparison of mAP experimental results of attention networks

由以上对比实验可以看出使用应混合注意力方法的实验结果明显好于单独使用的情况，表明使用混合注意力网络能有效提升检索结果。

3.5.2 AHAH方法消融实验

为了验证所提方法的有效性，本文还设计了两组消融实验进行检验。消融实验包括：1）AHAH-1，在原有实验基础上移除混合注意力网络，其他配置保持不变进行实验；2）AHAH-2，在原有实验基础上移除本文所提相似度度量方法使用普通的进行替代。消融实验结果如表4 所示，可以看出本文所提的自适应混合注意力模型和相似度度量方法可以很好地提升检索精度。

表4 AHAH消融实验mAP结果Tab.4 mAP results of ablation experiments of AHAH

4 结语

针对现有哈希方法在特征学习过程中无法区分各区域特征信息的重要程度和不能充分利用标签信息来深度挖掘模态间相关性的问题，本文提出了自适应混合注意力深度哈希检索模型。具体地，首先，本文提出自适应混合注意力网络来增强特征图中相关目标区域并弱化不相关区域的信息，提升了获取特征信息的质量进而提升检索精度。其次，本文通过利用标签信息探索模态间的相关性来进一步提升检索性能。在4 个常用数据集上进行了对比实验和消融实验，与几种先进的跨模态检索算法相比，实验结果表明了本文方法的有效性。目前的工作只是基于图像和文本模态之间的检索，在接下来的研究中将探索视频-文本、图像-视频等多种模态之间的相互检索。