基于关系感知双重注意力融合的视觉问答技术
2021-10-30张伟
张 伟
(常州开放大学理工学院, 江苏 常州 213001)
深度学习在图像和文本研究中已取得突破性进展,对图像完成识别、分割、检测等任务,对文本中完成情感分类、多轮会话、摘要提取等任务.但在生活场景中无法仅由单独领域模型完成视频生成对应字幕、视觉和问题研究、零样本分类等任务.如今,图像和文本跨模态的研究受到越来越多的关注.视觉问答技术(visual question answering,VQA)可对输入图像和自然语言形式问题进行理解,回答对应的问题.例如,输入香蕉图像和香蕉颜色、形状等自然语言表达形式的问题,模型将输出与图像和问题相对应的答案[1].
现在大部分VQA将图像和文本形式问题联合并以矩阵形式表达,进行融合[2-3].在模型中以目标检测算法(YOLO)为基础框架识别图像中的相关目标;用循环神经网络对文本形式问题进行矩阵化;将得到的不同模态结果进行一致性融合,使目标区域和文本形式问题一致;将两种模态融合的结果输入到模型中预测对应答案[4].
采用传统方法完成VQA的任务效果不错,但是无法解决图像和文本相同语义之间的距离问题.例如,传统YOLO网络识别图像中黑色和白色像素,但是很难识别出物体之间关系;熊猫和竹子之间吃的动作在现有网络中无法辨识[5].
传统VQA框架、传统目标检测框架已经无法满足从图像全面信息中获得不同对象之间相关关系的需求.需要获取的关系包括从空间角度中获取不同对象之间依赖关系和从语义角度中获取不同对象的补充关系.
本文提出一种关系感知双重注意力机制(relationship aware dual attention mechanism,RADA)来解决VQA问题,该框架中用位置注意力来得到不同对象的显式关系;另一组注意力专注于语义注意力,获取不同对象的隐式关系,这种关系不能实现对图像内容解释,但有助于对文本内容的处理.
1 视觉问答技术
视觉问答技术框架通常包含图像表征、文本向量化、不同模态之间融合、答案预测四个部分[6].注意力作为解决此类问题重要方式已经成为主流工具之一.文献[7]以注意力对图像进行多次注意获取,将多次获取的结果形成并集,再以注意力的结果推断出问题的答案;文献[8]借助残差网络形式实现注意力跳跃、不同图像区域记忆、捕获图像细粒度区域,再结合问题预测图像;文献[9]将注意力和图神经网络相结合,形成不同层次注意力,将空间注意力和物体注意力相结合,建立图神经网络结构,以此图模型来预测问题对应的答案;文献[10]在预训练模型中对显著特征区域以注意力自底向上的方式来学习有用信息,注意力多次学习后再结合循环神经网络进行融合;文献[11]将注意力以MASK形式表现出来,以先验方式和原来的模型相结合,根据问题推测出答案.
视觉问答问题除了借助图像和文本问题外,还可以借助外在辅助信息.图像是感知形式出现,缺乏对应文本形式的认识和理解,对图像中辅助内容的描述有助于解决现有的问题.文献[12]认为对图像的理解缺乏相应的文本形式内容,将其相关的对象和关系与知识库的形式关联,可以拓宽问题的泛化性,同时保持原有问题回答准确性;文献[13]利用目标检测方法处理图像中的对象,标注相关对象的关系,引入到第三方知识库,增强对图像和问题的理解,但模型训练时间过长,对复杂问题的推理准确性不高.
上述文献的注意力只是以位置方式显式地表现出来,在实际应用过程中VQA的隐式更为重要.如何从注意力学习到语义成为重要的研究方向,可以解决传统VQA框架中的不足.
2 关系感知双重注意力模型
本文提出一种关系感知双重注意力模型来解决传统VQA中存在的语义问题.利用注意力机制提取图像候选区域对象得到位置信息,根据图像描述得到对应语义注意力,再经过外积方式进行融合;对文本和图像中注意力进行融合,推理出答案.
2.1 图像关系感知双重注意力
视觉问答中注意力主要集中在位置空间.在图1中通过YOLO网络检测到人、马、草地等目标,目标检测以多头注意力形式进行表现.多头注意力是注意力的一种扩展,本文将多种注意力以拼接形式连接起来,计算公式为:
创业工作坊模式的前提是成立创业团队,然后以工作坊的形式完成课内课外的学习。在每个项目的教学中,教师会根据工作过程、岗位技能需求,将理论与实践技能融合到每一个任务中。下面以“市场调研”模块为例,表述完整项目教学流程。
图1 图像感知双重注意力机制实现过程模型
MultiHead(Q,K,V)=Concat(head1,…,headn)
(1)
式(1)将YOLO得到的前景和背景拼接起来,得到矩阵C.注意力实现公式为:
(2)
图1中模型除取得多头注意力实体对象外,还将该图像对象的文本描述用BERT向量化,将向量化值代入式(1)和式(2),获得对应的注意力矩阵C′.将矩阵C、C′以外积形式进行融合,得到双重注意力语义,函数公式为:
Fuse(C,C′)=C⊗C′
(3)
以外积形式将图1中包含的注意力赋予到图像中,得到所需注意力的值.从模型中可见,第一层图像网络多头注意力获取的是显式的位置关系,第二层文本网络多头注意力获取的是隐式关系.
2.2 文本关系感知双重注意力
VQA中问题以自然语言形成呈现.文本中将问题进行Embedding后,再用LSTM进行上下文的融合,在融合基础上以多头注意力去获取不同词的权重信息.文本感知双重注意力结构如图2所示.
图2 文本感知双重注意力机制实现过程模型
Out=LSTM(w1,…,wn)
(4)
将式(4)中输出的序列引入词注意力计算式.将文本处理注意力划分为实体性质注意力和关系型注意力,这两种注意力的融合方式与图像的类似.
2.3 注意力融合
图像注意力融合后的结果为A, 文本注意力融合后的结果为A′.为了文本和图像维度的一致性,将图像输入到全连接层F,文本输入到全连接层F′.两者之间以串联方式来连接,计算公式为:
U=L(A;A′)
(5)
式(5)中L函数将经过全连接方式映射,得到的结果以串行方式连接起来.该操作的目标是将结果送入到分类器中,以便实现最后的答案预测.
2.4 多标签分类器
传统VQA分类器只是以是和否两种二分类的形式来实现.本文使用多标签分类器作为最终分类器,与二分类相比,多标签分类器答案更丰富.多标签分类器最终输出是多个概率值,表示形式为:
Y=σ(Wf0(U))
(6)
式中:Y为输出的标签对应值;f0为对图像和文本联合输入数值进行非线性处理函数;W为激活矩阵;σ为对得到的数值进行非线性激活函数,以Sigmoid方式来实现.
3 模型试验
3.1 数据集信息
本文选择三种公开数据集VQA 2.0、VQ-CP V2和Visual Genome验证VQA模型的准确程度.
VQA 2.0公开数据集中除了日常现实环境真实图像外,还包含卡通图像.该数据集中真实图像的来源是COCO数据集.从COCO数据中选择12万多张作为训练集,其余的8万多张作为测试集.在该数据集的基础上以自然语言形式加入61个问题,并且给予对应的多个答案.VQA 2.0的答案包含传统二分类答案和多分类答案.
VQ-CP V2数据集从内容来看是VQA 2.0派生版本,改进了VQA 2.0中存在的答案引导和偏见问题.该数据集改变了数据分布,使模型测试更加公平.
Visual Genome数据集包含10万多张图像,针对数据集设置了170万个相关的问题.该数据集标注了多个实体标签以及对象之间的关系.以数据集中1万张图像用于测试,其余9万多张图像用于训练.
3.2 试验相关设置
设置相关参数,包含GTX2080Ti、运行框架tensorflow等,设置YOLO中候选区域为12,优化算法为ADAM,其中学习率alpha为0.006,beta为0.07,epsilon为10-8,batch_size为64,在LOSS中引入dropout和正则化,样本训练过程中需要对训练样本进行随机打乱.
3.2 试验结果
VQA模型在VQA 2.0、VQ-CP V2和Visual Genome三种公开数据上进行二分类(是/否)、目标对象计算、多分类,结果如图3和表1所示.由图3可见,训练集在epoch达到60时准确率稳定;测试集在epoch达到75时准确率稳定.
图3 训练集和测试集准确率变化曲线
表1 VQA模型在不同数据集测试准确率比较 %
将本文的模型在VQ-CP V2上同BUTD、MFH、BAN、Counter进行对比,结果如表2所示.在二分类中本文模型比最好的BAN算法高2.2%,在目标计算中本文模型比MFH算法提高了2.1%,在多分类中本文模型比BAN算法提高了的3.0%.本文模型达到最佳水平.
表2 在VQ-CP V2数据集上各算法准确率比较 %
将本文模型在Visual Genome上同BUTD、MFH、BAN、Counter进行对比,结果如表3所示.在二分类中本文模型比最好的BUTD算法高3.4%,在目标计算中本文模型比BAN算法提高了1.9%,在多分类中本文模型比BUTD算法提高了1.2%.本文模型达到最佳水平.
表3 在Visual Genome数据集上各算法准确率比较 %
4 结语
本文提出一种关系感知双重注意力模型.模型对图像以显式注意力机制获取图像中包含的位置信息,再根据图像对应文本描述获取其对应隐式注意力信息;将两者信息以外积形式进行融合;对自然语言描述文本进行Embedding后以LSTM进行融合,通过不同注意力分别获取实体和关系,同样以外积形式进行融合;以串联方式实现对答案的推理.将文本算法在公开数据集VQA 2.0、VQ-CP V2和Visual Genome上与现有方法进行比较,本文模型准确率达到最优.