APP下载

嵌入共识知识的因果图文检索方法

2024-01-09梁彦鹏刘雪儿马忠贵

工程科学学报 2024年2期
关键词:图文特征提取共识

梁彦鹏,刘雪儿,马忠贵,李 卓

北京科技大学计算机与通信工程学院,北京 100083

在最近几年,深度学习在计算机视觉[1]和自然语言处理[2−3]领域均取得了巨大的成功.对视觉和语言的理解是人类感知现实世界的基础,人类可以很容易地描述给定图像中的内容或者根据一段描述选择对应的图像.为了使机器能更全面地理解视觉和语言模态,将视觉特征与文本特征进行匹配以实现跨模态的图文检索[4]引起了学术界和工业界的广泛关注.

跨模态图文检索在电子商务产品搜索[5]、医学图像检索[6]等领域有着广泛的应用.现有的大部分研究都集中在利用深度学习方法进行图文检索,通过其强大的特征提取能力学习不同模态数据的特征表示,然后映射到一个公共表示空间中进行匹配.然而,这种基于深度学习的图文检索方法更多地依赖数据表面的相关关系,而无法挖掘数据背后真实的因果关系[7];同时由于深度学习的“黑盒特性”,模型最终的预测结果对人类来说往往不具备可解释性[8−9],并且过度依赖训练过程中的数据分布也导致模型的泛化性能较差.

虽然利用相关关系建模的深度学习取得了一系列的成就,但是相关并非因果,真正的知识是根据因果关系得到的知识[10].因果推断可以通过前后门调整、反事实等操作去除混杂因素的影响[11],进一步学习隐藏在相关关系背后的因果关系,从而给出更具可靠性和可解释性的结果.为此,本文在深度学习的基础上引入因果推断和共识知识,构建嵌入共识知识的因果图文检索方法.具体而言,在视觉特征提取部分利用因果干预提取常识因果视觉特征,并与原始的使用BUTD(Bottom-up and top-down attention)[12]提取的特征连接.为了在文本检索图像任务上提升召回率和平均召回率,我们在引入因果推断的基础上,针对文本特征的提取做出改进,引入更强大的文本特征提取模型BERT(Bidirectional encoder representations from transformers)[13]学习文本特征表示,并在模型外部嵌入共识知识,通过学习图像和文本之间的共识减少图文特征间的语义差异,从而提高双向图文检索的性能.

本文的主要贡献如下:(1)首次尝试将因果推断中的干预机制引入视觉特征提取模块进行跨模态图文检索.与现有的基于深度学习的方法不同,本文提出的模型利用因果干预去除混杂因素以得到常识因果视觉特征.学习隐藏在相关关系背后的因果关系,以进一步增强模型的鲁棒性和可解释性.(2)引入外部共识知识,通过图卷积神经网络学习语料库中的共识表示并进一步生成共识级图文特征表示,使用注意力机制进行共识级特征与原始实例级特征的融合,进一步增强模型的检索与泛化性能.(3)在MS-COCO 数据集上的实验结果证明了本文所提出的嵌入共识知识的因果图文检索方法相比于基准方法可以在双向图文检索任务上实现召回率(R@k)和平均召回率(mR)的一致性改进.在MS-COCO[14]到Flickr30k[15]数据集上的跨域实验证明了本文方法的泛化性能.

1 相关工作

1.1 跨模态图文检索

基于深度学习的图文检索方法利用深度学习分别提取图文模态数据特征的有效表示,通过计算其相似性进行匹配.根据图文特征提取方式和匹配方式的不同可以将现有的图文检索方法分为3 种:(1)基于全局特征匹配的方法[16]:从整张图像和文本语句中提取整体的语义信息,然后将图文特征映射到公共表示空间中,利用损失函数进行优化使图文模态进行语义对齐和匹配.(2)基于局部特征匹配的方法[17−19]:此类方法更关注细粒度的图像区域和文本单词的对齐,通过局部对齐最终整合得到整体的图文相似性.(3)基于外部知识的方法[20−22]:方法(1)和(2)都是依赖实例级图像文本对进行特征表示学习,而没有考虑任何外部知识,导致模型在推理图文数据间的高级语义关系时存在一定的欠缺,此类方法通过引入场景图或模态间共享的共识知识等外部先验信息来增强语义表示.例如,文献[21]通过构建多模态知识图和多模态图卷积网络,利用两个模态实体之间的隐含语义关系来增强图像和文本的嵌入.Wang 等[22]提出了共识感知视觉语义嵌入(Consensus-aware visual-semantic embedding,CVSE),将图文两种模态数据之间共享的共识知识整合到图文匹配中,提高了模型的检索精度和泛化能力.但由于外部知识与图文匹配任务数据集之间的域差异,可能会对匹配结果产生影响.总而言之,基于深度学习的跨模态图文检索方法得到了广泛地应用,但是这些方法仅仅是建模数据间虚假的相关关系而无法推断出具有说服力的因果关系,而且模型在可解释性和泛化能力方面的问题并没有得到有效地解决.

1.2 因果推断在视觉和语言任务中的应用

因果推断[10]旨在通过干预措施去除混杂因素来追求特定现象的因果效应,成为提高深度学习模型泛化能力和可解释性的新方法.其已经成功地应用于心理学、经济学[23]和流行病学[24],Angrist和Imbens 也因“对因果关系分析的方法学贡献”而获得2021 年的诺贝尔经济学奖.近年来,研究者们尝试将因果推断引入视觉和语言任务中,包括目标检测[25]、视觉问答[26]和图像字幕[27]等.具体来说,文献[28]从因果关系的角度制定了OOD(Outof-distribution)推荐问题,用户特征转移被表示为干预,OOD 推荐旨在估计干预后的交互概率,并利用反事实推理来减轻过时交互的影响.文献[29]通过因果干预代替常规似然以无监督的方式学习视觉常识特征.文献[30]引入了一种新的域自适应模型来探索特定目标在不同天气条件下的不变特征,用以在多种不利的天气条件下进行自动驾驶场景下[31]的目标检测.文献[32]提出通过反事实推理和因果干预,减轻多标签分类任务中的上下文偏见.文献[33]提出了因果注意模块(Causal attention module,CaaM),该模块以无监督的方式自我注释混杂因素,并且多个CaaM 模块可以堆叠并集成在常规CNN(Convolutional neural network,卷积神经网络)和Transformer[34]模型中以学习更鲁棒的视觉因果特征.文献[35]提出一种新的因果干预训练方法,通过去除“坏”的上下文信息而保留“好”的以训练更好的图像分类器.文献[36]针对后门准则需要明确识别混杂因素的缺点,提出了无混杂识别的因果视觉特征学习CICF(Confounder identification-free causal visual feature learning,CICF),基于前门准则对不同样本之间的干预进行建模,然后从优化的角度基于实例级别的干预来近似全局范围的干预效果.文献[37]提出了一种利用图像−文本匹配偏差进行多模态假新闻检测的因果推理框架,可以应用于任何以视觉和文本特征作为输入的假新闻检测模型.与这些工作类似,本文将因果推断中的干预机制引入图文检索中,充分利用图像区域的上下文信息提取常识因果视觉特征,并与原始特征连接,将图像局部信息与全局信息结合,提高检索结果的准确度.

2 嵌入共识知识的因果图文检索方法

嵌入共识知识的因果图文检索方法由实例级图文特征提取模块、嵌入共识知识模块、共识级图文特征表示与融合模块、图文特征匹配和损失计算四大模块构成,整体框架如图1 所示.在实例级图文特征提取模块中,图像特征提取部分采用通过因果干预提取的常识因果特征与BUTD 模型提取的原始图像特征连接的方法,文本特征提取模块使用BERT 模型;在嵌入共识知识模块,从图文检索数据集的注释文本中获取语料库,在语料库中筛选得到共识词后,通过图卷积网络学习共识词之间的语义关联,生成共识知识概念表示;在共识级图文特征表示与融合模块,共识级图文特征表示由共识知识概念表示和实例级图文特征表示通过Transformer 机制生成,然后将实例级图文特征表示与共识级图文特征表示进行融合得到融合图文特征表示;在图文特征匹配和损失计算模块,图文匹配值利用余弦函数对图文特征间的相似性进行计算,并采用引进难负样本的三元组损失函数对模型进行优化.

图1 嵌入共识知识的因果图文检索整体框架Fig.1 Framework of causal image-text retrieval embedded with consensus knowledge

2.1 引入因果推断的图像特征提取

为了避免由于观察偏差导致模型基于一些共现信息做预测,而忽略了常识性的因果关系,本文通过因果干预提取蕴含常识的因果视觉特征,并与原始图像特征进行融合.基于共现信息学习到的原始相关性特征可以告诉我们“是什么”、“在哪里”,而常识因果特征则可以告诉我们“为什么”,能够更好地利用图像中的上下文信息对图像特征进行表示学习.

常识因果视觉特征利用引入因果干预的Faster R-CNN[38]学习,通过使用因果干预P(Y|do(X))替代传统的P(Y|X)预测RoI(Region of interest)区域的上下文对象作为代理任务,使常识因果视觉特征提取模块能够学习到“椅子可以被坐”这样的常识性知识而不是仅仅学习到传统的物体共现现象“椅子与桌子一同出现”,常识因果视觉特征提取模块如图2 所示.

图2 利用因果干预提取常识因果视觉特征Fig.2 Using causal intervention to extract causal visual features with common sense

具体来说,给定一张图像V,常识因果视觉特征提取模块是以给定RoIX的类别xc去预测RoIYi的类别为代理任务进行训练.首先图像被送入到以ResNet-101[39]为骨干的Faster R-CNN 生成特征图.与Faster R-CNN 不同,去掉了区域提案网络,直接利用ground-truth 边界框通过RoI Align[40]层提取目标级表示.然后每两个RoI 特征X和Yi被送入到两个平行的子分支:自预测器和上下文预测器.假设X作为主要关注的目标,Y={Y1,Y2,···,Yi,···,YK}为K个上下文目标,自预测器后接一个全连接层预测X的类标签xc,上下文预测器使用do 运算预测每个上下文目标的类标签.模型最终的训练损失分为自预测器的损失和上下文预测器的损失,自预测器的损失定义为:

其中,xc是RoIX的ground-truth 类标签,p=(p[1],p[2],···,p[N])为X在N个类别上的离散概率分布.上下文预测的损失定义为:

其中pi=P(Yi|do(X)),为第i个上下文目标的groundtruth 类标签.

因此RoIX的总的多任务损失为:

在利用do 运算计算pi时,由于难以对现实世界的混杂因素进行收集统计,因此在实际中将其近似为一个固定的混杂因素字典U=[u1,u2,···,uN]∈ℝN×d,其中N是数据集中的图像类别数,d是RoI 区域的特征维度,uj是数据集中第j个类别样本的平均RoI 特征.给定RoIX的特征x和其上下文RoIYi的类标签,因果干预公式可以表示为:

由于标签预测网络的最后一层是SoftMax 层,所以:

其中fy(·)为分类器,计算N个类别的logits.因此最终的干预公式可以表示为:

由于Eu需要昂贵的抽样,因此应用NWGM[41]近似上述期望:

对Yi的影响同时来自于x和混杂因素U,最后的全连接层在使用线性模型时fy(x,u)=W1x+W2·gy(u),其中W1和W2代表全连接层权重矩阵,W1,W2∈ℝN×d,Eu[fy(x,u)]可以表示为:

Eu[gy(u)]计算如下:

其中,q=W3yi,K=W4UT,P(uj)是先验概率,通常假设P(uj)=1/N,yi是RoIYi的特征,并且 ⊙是元素级乘,σ 是W3,W4的第一个维度作为一个比例因子.

2.2 共识知识嵌入

为解决外部知识与图文检索任务数据集之间的域差异,嵌入共识知识的语料库来自图文检索数据集的文本描述,通常一张图像对应着5 句文本描述,这是非常庞大的语料库,因此本文选择了在语料库中出现频率为Top-q的单词作为共识词,并将其分为实体、属性、动作三类,按照名词归类为实体、形容词归类为属性、动词归类为动作的原则进行划分,之后采用Glove 模型[42]进行共识词嵌入并将其表示为Z.

由于共识词间的关系可以通过它们的共现频率来衡量,例如电脑和鼠标经常一起出现,这就可以看作是一种简单的共识.即如果共识词zi和zj同时出现则将他们视作一个共现对.根据共现频率构建出共识词之间的共现矩阵R,其中Rij表示zi和zj的共现次数.为了更好的地利用共识知识,可以根据共现矩阵R构建共识词之间的相关矩阵E,用来捕获各共识词之间的内在相关性(不仅仅是共现关系):

其中,Ni是zi在语料库中的出现次数.由于该方法是通过统计图文检索数据集中共识词的共现关系得到,可能会偏离真实场景的数据分布,产生数据偏差而影响之后的泛化能力;而且,由于共识词间共现频率产生的统计模式很容易受到长尾分布的影响.也就是说,仅仅偶尔出现的共现现象不足以作为共识使用,只有出现次数较多,具有一定普遍性的共现关系才能作为共识,因此设计一个尺度函数用来调整相关矩阵E:

其中,s和a是两个超参数,参数s可以放大或缩小E中的值,有助于调整E更好地匹配实际数据分布,增强其泛化能力;参数a可以有助于抵消长尾分布带来的潜在偏差,进而构建一个更平衡和无偏的E.而且,为防止相关矩阵E过度拟合训练数据影响其泛化能力,应用二进制操作调整矩阵P:

其中,O是二值化的P矩阵,可以看作共识词之间的邻接矩阵,0 代表无边,表示共识词之间不存在关系,1 代表有边,表示共识词之间存在关系.η表示一个阈值参数,可以过滤一些较少出现的共现关系.

最后,在共识词的特征表示方面,由于图卷积网络(Graph convolutional networks,GCN)[43]可以从图结构的数据上学习映射函数,通过基于节点的邻域传播信息来更新节点的嵌入表示.因此使用多个堆叠的GCN 层来学习共识词的表示,它在共识词之间引入更高阶的邻域信息来对共识词之间的相关关系进行建模.具体来说,给定实例化的共识词表示Z以及O,第l层的嵌入特征计算为:

其中,T0表示图卷积网络第0 层的输入,即T0=Z;是归一化的对称矩阵,即;Wl是训练过程中需要学习的权重矩阵;ReLU为非线性激活函数.取图卷积网络最后一层的输出,得到最终的共识知识概念表示G={g1,g2,···,gi,···,gq}∈ℝq×d,其中d表示联合嵌入空间的维度,gi表示共识词zi的嵌入表示.

2.3 图文特征提取与融合

首先提取实例级图文特征表示,再根据实例级图文特征表示与共识知识概念G通过Transformer机制得到共识级图文特征表示,最后将两者融合得到最终的融合图文特征表示.

(1)实例级图文特征表示.

通过BUTD[12]模型提取原始图像特征,引入因果干预的图像特征提取模块提取图像常识因果特征,之后再将两种特征连接,可得到实例级的局部图像特征表示,为获取到更具有鲁棒性的全局特征,本文采用多头注意力机制[32],将所提取的局部图像特征作为注意力机制的Key 和Value 项,计算局部图像特征的平均值作为注意力机制的Query 项,最终计算得到实例级全局图像特征Vg={v1,v2,···,vi}.

实例级文本特征的提取利用预训练的BERT[13]模型,类似地,将所提取的局部文本特征作为注意力机制的Key 和Value,并且计算局部文本特征的平均值作为注意力机制的Query 项,最终计算得到实例级全局文本特征Tg={t1,t2,···,tj}.

(2)共识级图文特征表示.

使用一个Transformer 单元对实例级全局图像特征Vg和实例级全局文本特征Tg使用共识知识概念表示G进行增强,得到最终的共识级图文特征表示:

其中,FFN(·)表示由两层感知器实现的前馈网络.且

其中,X=Vg或者X=Tg,Y=G,Concat(·)表示特征维度的连接操作,H表示注意力机制头部的数量,hi使用点积注意力来计算:

其中,Q、K和V分别表示注意力机制中的Query、Key和Value,dj是Q和K的通道数;均为需要学习的权重矩阵.

(3)图文特征融合模块.

根据实例级图文特征表示与共识级图文特征表示,最终融合后的图文特征可表示为:

其中,λ是实例级图文特征表示与共识级图文特征表示的融合超参数.

2.4 图文特征匹配与损失计算

得到融合后的图文特征表示后,采用余弦函数进行匹配值的计算,表达式如下:

采用引入难负样本的三元组损失函数:

其中,β表示正样本对与负样本对需要保持的最小间隔;V和T分别表示匹配正确的图文对;=argmaxt≠TS(V,t)表示在批数据样本中与图像V匹配分值最高且并不匹配的文本;=argmaxv≠VS(T,v)则表示在批数据样本中与文本T匹配分值最高且并不匹配的图像;[x]+=max(x,0).

3 实验结果分析

3.1 数据集与评价指标

数据集采用MS-COCO[14],MS-COCO 是一个常用于图文检索的公开数据集,它包含123287 幅图像,每张图像对应5 句不同的描述文本.为保证实验的公平性与可比较性,对数据集的划分与其他图文检索算法一致,即113287 张训练图像,5000张验证图像及5000 张测试图像.同时,对于5000 张测试图像,考虑两种评估机制:MS-COCO 1K,在5 个1000 张测试图像上计算检索结果并平均.MSCOCO 5K,在完整的5000 张测试图像上计算最终检索结果;

评价指标使用标准的R@k(k=1,5,10)在测试集上计算检索得分,为提供更全面的评估,我们还使用了Rsum和mR.

3.2 实验环境和参数设置

所有的实验都是在一台搭载RTX 3090 GPU的计算机上使用PyTorch 实现.使用在ImageNet上预训练的ResNet101 作为Faster R-CNN 的骨干网络提取常识因果视觉特征,维度为1024 维.BUTD提取的原始图像特征维度为2048 维,将两种图像特征连接得到3072 维的全局图像特征表示,然后经过一个全连接层最终得到1024 维的图像特征表示.

文本特征提取使用拥有12 层,12 个头和768 个隐藏单元的预训练BETR 基础版本,最终得到768维的词嵌入向量.图文特征公共表示空间维度为1024.在计算图文全局特征时采用的多头注意力机制的头数为8.在嵌入共识模块,采用在维基百科数据集训练的300 维的Glove 来表示初始语义概念,选取的共识词大小为300.图卷积网络使用了两个图卷积层,嵌入维度分别设为512 和1024,在公式(11)和(12)中,s=5,a=0.02,η=0.3,共识级图文特征表示模块中注意力头数H设为1,λ为0.05.

在模型训练时,使用Adam 优化器,在MS-COCO数据集进行训练时,batch size 为64,训练epoch 为30,学习率为0.0005,每经过15 个epoch 学习率衰减为原来的10%,三元组损失函数中的 β为0.2,并且为了避免出现过拟合现象,全连接层都以0.1 的概率随机丢弃一些特征.

3.3 主要实验结果

我们在MS-COCO 数据集上进行了实验并与CVSE[22]、SCO[44]、PVSE[45]、SGM[46]、VSE++[47]、SCAN[48]、RAAN[49]、SHAN[50]、DREN[51]、ALGRL[52]、NCR[53]、VSRN++[54]、ReSG[55]、SAGRL[56]、GLFN[57]、VSE∞[58]、DRCE[59]和CMRN[60]在MS-COCO 1K 和5K 测 试集上进行比较,结果如表1 和表2 所示.

表1 MS-COCO 1K 测试集评估结果Table 1 Evaluation results on the test set MS-COCO 1K

表2 MS-COCO 5K 测试集评估结果Table 2 Evaluation results on the test set MS-COCO 5K

我们的方法同对比的图文检索方法相比取得了不错的结果,比如在1K 测试集上的Rsum为523.4%,相比于CVSE 提升了9.8%,与最近的方法RANN和GLFN 相比分别提升了4.8%和2.9%.在5K 测试集上,所提出的方法同样在评价指标上得到了提升,与最近的方法ALGRL 和VSRN++相比,Rsum分别提升了1.1%和1.4%,充分体现了本文所提方法的有效性.

3.4 消融研究

全局特征提取方式: 为获得更鲁棒的全局特征,针对图像和文本全局特征的提取方式,使用平均池化和注意力机制两种方式进行消融研究,并使用mR 作为评价指标,结果如图3(a)所示.其中A 代表平均池化方式,S 代表注意力机制,A+S 即表示图像全局特征提取采用平均池化而文本全局特征提取采用注意力机制.在嵌入外部共识的前提下,图像和文本同时使用注意力机制提取全局特征能够得到最好的结果,相比于同时使用平均池化来说,mR 指标能够提升0.8%.

图3 消融实验.(a) mR 受全局特征提取方式的影响; (b) mR 受共识词数量q 的影响; (c) mR 受融合参数λ 的影响Fig.3 Ablation experiments: (a) mR is affected by the manner of global feature extraction; (b) mR is affected by the number of consensus words q;(c) mR is affected by the fusion parameter λ

共识词数量q:我们对从语料库中选定的共识词数量q进行了消融实验,分别选其为0、100、200、300 和400,结果如图3(b)所示.可见并不是一味地增加共识词数量就能够提高模型性能,当q选定为300 时mR 指标达到了最大,增加到400 时反而会导致性能的下降,这可能是由于q为300 时已经覆盖了语料库中的大部分词汇,当选定为400 时反而会引入不必要且没有意义的词汇.

融合参数 λ:本次消融实验中分别选取0、0.0025、0.05、0.075 和0.1 进行对比分析,mR 指标随 λ的变化结果趋势如图3(c)所示.可以明显看到λ的选取会极大影响模型的性能,当 λ选取为0.1时,mR 指标会急剧下降,这可能是由于共识级图文表示占比多了反而忽略检索目标本身的信息导致无法得到正确的检索结果.

3.5 泛化性分析

MS-COCO[[14]和Flickr30k[15]]都是相对大规模的图文数据集,在图像内容分布、文本语言风格和标注质量等方面存在一定的差异,跨数据集的泛化问题需要考虑如何处理这些差异,模型需要学会泛化到新数据集的能力并且不会产生灾难性遗忘,以确保模型在不同的数据集上都能够有效工作.因此跨数据集泛化问题在图文检索任务中非常具有挑战性,需要更多的创新方法和技术来解决这些问题,比如需要更强大的特征提取和表示学习方法.跨数据集泛化问题本身就是一个具有挑战性的问题,仅有较少的工作研究了图文检索任务的跨数据集泛化.最近的一些工作将因果推断方法引入领域自适应和分布外泛化[28],通过因果干预学习目标在不同上下文的不变特征,这与本文所采用的方法类似,本文为了进一步验证引入因果干预与嵌入共识模块是否能够有效推理图文模态数据间的语义关联,设计了跨数据集实验来测试本文方法的泛化能力.具体来说,通过将在MS-COCO 数据集训练好的模型直接迁移到Flickr30k 数据集进行实验得到其评价指标,最终实验结果如表3 所示.

表3 MS-COCO 与Flickr30k 跨数据集泛化评估结果Table 3 Evaluation results on crossdataset generalization from MS-COCO to Flickr30k

由表3 可以看出,在跨数据集实验中,本文方法的性能超过了对比的方法,在双向检索任务中均获得了突出的表现,图像检索文本任务的R@1达到了62.3%,文本检索图像任务的R@1 达到了42.2%,并且总体指标Rsum相比于SCAN 和CVSE分别提升了40.7%和18%.这些结果充分表明了结合因果推断与外部共识后能够显著提高模型的学习能力,并且学习到的知识可以在跨域异构数据之间共享,从而显著提高模型的泛化能力.

3.6 信息可视化

图4 展示了图像检索文本的部分结果示例,“*”表示仅使用因果干预,红色文本代表错误的召回文本.可见在嵌入共识后,相比于仅使用因果推断的方法来说,引入外部共识知识后召回率得到了一定提升,并且检索得分最高的文本能够更全面地描述图像信息,获得更准确的检索结果.

图4 图像检索文本可视化Fig.4 Visualization of I2T retrieval

图5 展示了部分文本检索图像的结果示例,检索结果中红色框和绿色框分别标记错误和正确的召回对象,第一行代表仅使用因果推断.对于检索文本“A group of people on skis stand in a line.”,嵌入共识知识后的方法不仅能够检索到正确图像,并且该图像位于检索得到图像中的首位,说明引入图像和文本的共识能更好地推理图文模态数据间的语义关联,从检索得到的图像内容也可以看出,嵌入共识后的模型更容易理解“group”这个词汇,而仅使用因果推断的方法得到的结果关注重点可能更多的在于“people”和“skis”,无法理解“group”,这进一步证实了本文方法的有效性.

图5 文本检索图像可视化Fig.5 Visualization of T2I retrieval

4 结论与展望

相关并非因果,针对目前传统的基于深度学习的跨模态图文检索方法无法建模数据背后的因果关系的问题,本文将因果干预引入传统的图文检索方法,通过学习图像背后的因果关系加强图文数据间的逻辑关联.同时嵌入外部共识知识以加强图像和文本间的共识,同时考虑模态内关联和模态间关联,最终提升模型的鲁棒性与泛化性.在MS-COCO 数据集以及Flickr30k 数据集上的跨域进行实验,证明了本文方法在双向图文检索方面的有效性.本文仅在视觉特征提取模块引入了因果干预,而没有考虑文本单词之间的因果关系,因此在未来的工作中将会同时考虑两种模态背后的因果关系,并考虑如何更加精确地描述混杂因素.此外还可以在模型轻量化和融合知识图谱等方向进行探索.

猜你喜欢

图文特征提取共识
画与理
共识 共进 共情 共学:让“沟通之花”绽放
论思想共识凝聚的文化向度
商量出共识
基于Daubechies(dbN)的飞行器音频特征提取
Bagging RCSP脑电特征提取算法
别让“PX共识”在爆炸中瓦解
基于MED和循环域解调的多故障特征提取
图文配
图文配