基于多模态融合的视觉问答传输注意网络

2022-12-21彭亚雄陆安江

电子科技 2022年12期

王茂，彭亚雄，陆安江

(贵州大学大数据与信息工程学院，贵州贵阳 550025)

视觉问答(Visual Question Answering，VQA)旨在将计算机视觉和自然语言处理结合起来，研究并拓展这两个领域，使得机器能够理解人类语言。VQA技术目前被广泛应用于字幕回答、盲人视觉辅助和视听感知对话等场景。VQA需要同时理解图像和文本信息，提取和编码必要的常识及语义知识，通过推理获得最终的答案。与自然语言处理相比，VQA更为复杂，常涉及到图像中所缺失的信息，包括特定元素知识以及常识信息，因此对VQA进行研究可进一步推动人工智能的发展，改善人机交互，对盲人、儿童和医疗等领域的发展具有重要意义。

VQA可回答关于图像的自然语言问题，并以自然语言的方式生成答案。文献[1]利用注意力方案来突出问题中的重要单词及与问题相关的图像区域。文献[2]提出了一种深度级联的多模态编码器-解码器注意网络，通过将关键词与图像中重要的目标区域相关联，可以捕获更加丰富的问题特征和图像特征。文献[3]利用不同的多模态双线性池汇集方法，将来自空间网格的图像特征与来自问题的文本特征相结合来预测注意力。文献[4]提出了一种多级注意模型，即对图像本身进行自下而上的注意和剩余的自我注意，并采用问题引导的自上而下的注意方法提取图像特征。文献[5]通过迭代，关注答案相关的关键词来回答问题，而不考虑图像区域。文献[6]建立了共同注意，用于图像上的视觉注意和问题上的问题注意，但是单步注意网络不具备推理能力。文献[7]将改进后的注意力机制与神经网络架构相结合，提升了注意力编解码能力。文献[8]利用Attention-CTC架构实现了对文本序列的解码，能更加有效地识别文本信息。文献[9]提出的多通道共注意力网络融合了全局到局部的多模态特征，并且设计了不同的多通道注意机制，在不同的集成层次上设计了文本特征。文献[10]提出了协同注意方法，将句子引导词注意和问题引导图像注意结合在统一的框架中。文本注意则依赖于整个问句的语义来计算不同问句对文本表示的贡献。文献[11]提出了一个深度模块化共同注意网络，由深度级联的模块化共同注意层组成，使用两个基本注意力单元的模块化组合对问题和图像的自注意力以及图像的问题引导注意力进行建模。文献[12]提出了一种将多模态特征与模态内和模态间信息流动态融合的新方法，该方法可在视觉和语言模态之间交替传递动态信息。

图1 VQA 模型框架

上述VQA算法利用图像特征引导问题注意，并利用问题特征引导视觉注意，从而形成共同注意。然而，共同注意存在弊端：如果目标答案与图像中的一系列细粒度区域相关，则当前的共同注意较难得到精确的答案。因此本文提出了基于多模态融合的视觉问答传输注意网络，进一步提升了视觉问答任务的性能。首先利用GloVe词嵌入[13]和长短期记忆网络(Long Short-Term Memory，LSTM)[14]提取问题特征，并利用预训练好的ResNet-152模型[15]提取图像特征；然后，将两个特征传入传输网络，通过多模态融合对输入特征进行重新校准，输出与回答高度相关的图像特征和问题特征；随后，对传输网络进行重叠计算，将图像从粗粒度部分聚焦到细粒度部分；最后，根据得到的联合表示来预测答案。

1 基于多模态融合的传输网络注意层

本文模型框架如图2所示，模型由以下4个部分组成：问题特征提取、图像特征提取、视觉问答传输模块和重叠计算传输网络。

图2 本文模型框架

1.1 问题特征提取

fQ(q)=LSTM(GloVe(q))

(1)

1.2 图像特征提取

图像特征提取通过特征向量的方式来表示图像信息。ResNet-152网络将输入信息直接传到输出，简化了网络的学习目标和难度，保护了信息的完整性。因此本文使用预先训练的ResNet-152网络对图像进行特征提取，得到图像嵌入fV(v)，如式(2)所示。

fV(v)=ResNet-152(v)

(2)

由于图像的尺寸大小不一样，因此需将图像统一压缩到448×448像素，并将每个图像分成196个局部区域。为了避免丢失图像的空间信息，最后一个池化层Res5c的输出为目标输出。最大池化层表示为512×14×14维，其中14×14表示将图像分割成196个局部区域，512对应于每个区域的向量维度。

1.3 视觉问答的多模态传输模块

传输模块将问题和图像特征在中间层进行融合，充分提取不同特征的信息。多模态传输模块结构如图3所示。将图像特征fV(v)和问题特征fQ(q)作为输入，通过Squeeze操作将问题和图像特征进行融合，压缩空间信息得到图像与问题的联合表示，然后通过Excitation操作进一步选择出重要的图像与问题特征，即为校准后的特征。

图3 多模态传输网络图

1.3.1 Squeeze

接收图像和问题的特征生成一个全局表征，通过Squeeze单元，使得融合操作允许图像特征和问题特征有不同的空间维度(经过全局平均值池化，都变成1×1)，从而可以在不同的特征层次进行融合，即全局平均值池化操作，计算式如下。

(3)

(4)

为了重新校准输入的图像和问题特征，不同模态将使用不同的校准权重。从Squeeze信号中预测出一个联合表示，本文利用MFB操作对两个不同模态进行融合，得到融合特征Z。MFB可以将来自两个不同模态的特征扩展到高维空间，然后进行元素积，进入池化层和归一层，将高维特征挤压成紧凑输出特征。

(5)

式中，函数SumPooling(x，k) 表示使用大小为k的一维非重叠窗口对x执行SumPooling。

1.3.2 Excitation

通过两个独立的全连接层得到每个模态的激励信号，表达式为

Ev=WVZ1+bV，EQ=WQZ1+bQ

(6)

式中，W∈RCZ×(C+C′)，WV∈RCZ1×C，WQ∈RCZ1×C′表示权重；b∈RCZ1，bQ∈RC，bV∈RC′是全连接层的偏置项。本文使用CZ1=(C+C′ )/4限制模型容量，增加其泛化能力。得到激励信号后，通过选通机制重新校准输入的图像和问题特征

(7)

(8)

式中，σ是Sigmoid函数；⊙表示点乘操作，对每个通道进行抑制或激活。Excitation操作对问题图像两个模态自适应地强调重要的特征，抑制不重要的特征。

通过上述操作可以得到重新校准后的图像特征和问题特征。将校准后的图像特征和问题特征进行融合操作，即

(9)

其中，Wiq为权重系数；biq为偏置项。

1.4 重叠计算模块

通过多模态传输模块可以得到重新校准后的图像和问题特征。对两个特征重新校准后可得到1个关注特征。设计1个多模态传输注意学习架构，通过对传输网络的重叠计算可得到1个更完备的组合特征。由于单模态注意不具备推理能力，对传输网络进行重叠计算，建立共同注意，用于引导视觉注意和问题注意。传输模块的输出特征计算方法如式(10)所示。

(10)

本文使用Softmax归一化层预测每个输入特征的注意权重。为了进一步提高注意力特征的表示能力，本文生成了多个注意力图来增强学习的注意力。对视觉问答传输模块的重叠计算可以更有效地表征图像和问题特征之间的细粒度相关性，进一步提升模型的表达能力。

2 实验验证

2.1 数据集

本文使用VQA v1.0数据集来评估模型性能，该数据集包含240 000个训练问题、120 000个验证问题和240 000个测试问题，每张图片有3个标记的问题，每个问题对应10个标记的答案，有是/否、数字和其它3种类型问题。本文使用文献[16]提供的VQA工具来进行评估。

2.2 实验步骤

在实验中，提取问题特征网络利用了3个卷积核大小分别为256、512和512的卷积滤波器，问题特征是1 024维。由于图像大小不一致，因此需先将图像压缩到448×448像素，并将每个图像分成196个局部区域。采用本文模型进行实验时，将学习率设置为0.000 1，每40 000词迭代衰减一次，并且使用正则化技术，使用β1=0.9，β2=0.99的Adam计算器，在训练集上进行训练，在val集上进行验证。

2.3 实验结果对比

为了评价本文模型的性能，将本文模型与已有的SAN、DMN+、QRU、HieCoAtt和MLAN进行比较。从表1可以得出，本文提出的模型优于其它模型。采用本文模型获得的是/否问题的准确率为87.04%，计数问题的准确率为42.47%，其它类型问题的准确率为59.77%。与SAN模型相比，本文模型的准确率提高了11.02%，这是由于SAN模型只使用了图像注意，忽略了问题注意，说明本文提出模型优于SAN模型上的视觉注意。与QRU模型相比，本文模型的准确率提高了9.12%，主要原因是QRU将注意力集中在与回答相关问题的部分，忽略了图像注意。MLAN模型将注意力聚焦在图像区域相关的地方来回答问题，忽略了对不同特征之间的深入研究，而本文模型注重于图像特征和问题特征的研究，得到了高度相关的多模态特征，因此相较于MLAN模型，本文模型的准确率提升了5.29%。

表1 在VQA v1.0数据集上的模型比较

2.4 消融研究

在VQA v1.0上对本文提出的模型进行消融研究，以验证本文模型的有效性。此外，通过KLD损失函数来预测答案的性能。模型在训练集上进行训练，并在验证集上进行评估。

为了衡量各种设计选择对结果的影响，本文设计了以下4种变体模型来同本文所提出的模型进行比较分析：

(1)在模型1中，不利用GloVe函数优化单词嵌入；

(2)在模型2中，对校准后的问题和图像特征直接进行融合，不引入传输模块；

(3)在模型3中，问题特征部分不加入自注意，比较问题词注意对结果的影响；

(4)在模型4中，在注意模块中设置p值的数量，对p=1，2，3，4进行实验。

表2为不同模型的消融实验结果。模型1表明没有利用GloVe函数对单词进行优化嵌入会降低模型性能，导致准确率下降0.08%。模型2表明传输模块可以提高VQA的准确率，其中传输网络进行重叠计算可以充分提取不同特征的信息，提高VQA的准确率，并且对传输网络进行重叠计算可进一步提升对图像和问题的注意，达到增强注意力的效果。模型3表明对问题进行词注意进一步提升了VQA的性能，词注意有选择地关注疑问词特征，并且在与图像进行融合时，可以得到相关性更强的联合特征。模型3表明当p=3时，模型性能最佳，随着p的增加，模型的大小和输出特征的维数逐渐增长，因此本文实验使用p=3进行模型的构造和训练。

表2 不同变体模型比较

使用不同数量的传输层获得的结果如表3所示。为了保持特征的空间维度一致，将传输层的所有完全连接层更改为内核大小为1的卷积层，以确保参数的数量保持一致。实验结果表明，当使用3个传输层模块时，预测的准确率最高，比使用其它数量的传输层的准确率平均提升了0.05%。

表3 不同数量的传输层比较

2.5 可视化分析

本文VQA任务的可视化结果如图4所示。图4中，从左到右展示了5个可视化示例，每列表示1组可视化结果，第1行为原图，第2行和第3行黑色方框分别表示图像的粗粒度聚焦部分和细粒度聚焦部分，聚焦外的阴影表示实验时忽略的图像部分。在每个例子中，有问题、正确答案和预测答案。从可视化结果中可以发现，本文提出的模型能够将图像从粗粒度区域聚焦到细粒度区域，进一步说明了对预测答案而言，问题注意和图像注意具有同等的重要性。本文模型将图像特征传到传输模块进行信息交互时，可以选择出对应的图像特征，并且结合重叠计算，将图像聚焦到细粒度区域，使图像和文本建立更高效的关系，从而取得更好的效果。

图4 可视化结果

3 结束语

本文针对VQA任务提出基于多模态融合的视觉问答注意网络。首先，提出一种传输网络，将问题特征和图像特征作为中间层进行融合，分别得到两个互补的相关信息，有效减少了不相关的特征的影响，为图像和问题的表示获得了更多不同的特征；其次，本文模型对传输网络进行重叠计算，逐渐关注细粒度图像区域，捕捉多模态特征中更复杂的相关性，从而实现了更具区分性的图像-问题表征，进一步提高了VQA性能。在今后的工作中，计划尝试将本文提出的多模态传输注意网络应用在其它视觉问答任务上，从而探索出更好的注意力方法。