APP下载

图像情景文本融合的多模态模型性能策略研究

2023-06-21张知奇袁鑫攀曾志高

现代信息科技 2023年9期
关键词:迁移学习多模态

张知奇 袁鑫攀 曾志高

摘  要:针对多模态模型中基于视觉区域特征提取方法表征能力有限的问题,文章提出了一种基于图像情景文本融合的多模态特征提取方法,并构建了图像情景文本融合的视觉语言多模态网络模型,简称OCR-ViLT,通过引入预训练加微调的迁移学习方案,降低模型训练成本。并经过大量实验探究模型的输入策略,文章建议,在跨模态检索任务中,采取图文比例2:3能够获得最优的召回率。

关键词:多模态;跨模态检索;迁移学习;OCR

中图分类号:TP391.4  文献标识码:A  文章编号:2096-4706(2023)09-0166-04

Abstract: Aiming at the problem of limited representation ability of feature extraction method based on visual region in multi-modal model, this paper proposes a multi-modal feature extraction method based on OCR image scene text fusion, and constructs a visual language multi-modal network model for image scene text fusion, which is called OCR-ViLT for short. By introducing a pre-training and fine-tuning transfer learning scheme, the model training cost is reduced. After a large number of experiments to explore the input strategy of the model, this paper suggests that taking the image and text ratio of 2:3 could obtain the best recall rate in the multi-modal retrieval task.

Keywords: multi-modal; cross-modal retrieval; transfer learning; OCR

0  引  言

模态是事情经历和发生的方式。我们生活在一个由多种模态信息构成的世界,包括视觉信息、听觉信息、文本信息、嗅觉信息等,当研究的问题或者数据集包含多种这样的模态信息时,我们称其为多模态问题。研究多模态问题,是推动人工智能更好地了解和认知我们周围世界的关键。对于多模态问题,我们需要充分利用多种模态间的互补性和冗余性,充分挖掘模态之间的信息,从而消除数据的异构问题带来的挑战。现如今比较常见的应用包括媒体描述、事件识别、多媒体检索、视觉推理、视觉问答,等等。

如今多模态中视觉和语言的联合领域,出现了视觉和语言预训练模型(Vision-and-Language Pre-traing model)。这些模型通过图文匹配和语言掩码预测对图像及其图像的描述进行预训练,并在多模态下游任务和多模态的输入层进行微调。要输入VLP模型,图像-文本对需要以流的形式映射到相同的特征空间。自Krizhevsky等人[1]的研究以来,深度卷积神经网络一直被认为是视觉模态特征提取的关键。Pixel-BERT[2]则不那么认为,他使用了CNN抽取图像的特征,然后输入到一个特征映射模块中。该模块的特色是,随机的从中扣取本地区域特征,以防止过拟合。然后语言特征和视觉特征组合在一起,输入到transformer模型中。到目前为止,大多数VLP的研究都集中在通过提高视觉特征提取的能力来提高模型性能。在实验中,由于通常在训练时提前缓存视觉区域特征来减轻特征提取层的负担,所以往往會忽略大型图像特征提取网络的缺点。这种缺点在实际应用中很明显。因此,现今的注意力转移到轻量级快速视觉输入上。最近的研究表明[3],在将图像输入Transformer之前,使用简单的线性投影可以有效的提取图像特征。虽然这是文本的主流方法[4],但Transformer[5]也是最近才用于图像。Kim等人在2021年提出了Vision-and-Language Transformer(ViLT)[6],它与以前的VLP模型的主要创新在于其轻量化的无卷积图像输入层。显著减小了模型尺寸和运行耗时,同时在视觉和语言的多模态下游任务上表现出良好的性能。

当前基于深度学习的多模态算法往往只关注模态信息本身,而没有进一步挖掘利用与图像或者文本相关的其他信息。然而,除了图像以及相应的图像文字描述外,在实际生活中,图像内容经常含有一定的文字信息和这些文字的布局信息,如果能够高效利用图像内出现的文本信息和布局信息,模型效果必定会更好。因此深度挖掘场景文本及布局信息使得多模态融合的特征信息更加具体,从而强化多模态间的融合,成为一个关键问题。

针对如何利用图像模态的场景文本和布局信息提升模型精度的问题,我们提出了基于OCR的图像情景文本融合的多模态特征提取方法,通过引入图像情景文本和布局信息突出情景文本特征和强化图像空间信息,综合分析,预构建了基于ViLT的图像情景文本融合的多模态网络模型,简称OCR-ViLT。面对多模态模型训练困难和训练资源不足的情况,我们通过引入预训练加微调的迁移学习方案,有效降低模型训练成本。并经过大量实验探究模型的输入策略,使得模型在某种复杂场景下的下游任务中具有更好的优势。综上,我们的贡献如下:

1)针对图像场景文本特征提取问题,提出了一种基于图像情景文本融合的多模态特征提取方法,利用光学扫描结合布局位置标注,提取图像的情景文本特征。

2)提出了一种基于图像情景文本融合的多模态网络模型,将图像中的情景文本融入图像-文本联合特征中,实验证明图像情景文本能够有效提升模型的布局感知力。

3)经过大量实验,探讨OCR-ViLT分别在不同的下游任务中的输入策略,并给出相应的建议。

1  OCR-ViLT

OCR-ViLT(VisionbyOptical Character Recognition and Language Transformer)是一种具有简洁的体系结构的VLP模型,具有最轻量化的视觉区域嵌入方法。我们使用经过预训练的ViT模型的Transformer权重来初始化ViLT。这种初始化方式可以利用交互层的处理视觉特征的能力,从而避免复杂的视觉嵌入,模型结构总览如图1所示。

根据Wonjae Kim于2020年提出的ViLT模型,如果基于Transformer的网络模型没有超大量的数据做预训练,其性能甚至不如近几年主流的基于CNN的残差神经网络(ResNet,何凯明),因此,在预训练的时候可以借助富有布局信息的文本文档等数据联合做预训练。接着使用MSCOCO数据集进行微调,使网络模型与下游任务更加契合,如图2所示。

1.1  预训练方法

OCR-ViLT选取经过OCR扫描的word文档进行预训练,它们含有足够的富文本信息,受到Colin Raffel等人的启发,本文采用Layout降噪任务作为预训练任务,并将word文件进行分片处理。这样就能在预训练中使用没有进行人工标注的数据。并且和常规的降噪任务不同的是,本文为模型提供了分片的位置信息,这将使模型在完成预训练的过程中学习到布局的位置信息。实验结果表明使用扫描后的word文档比使用自然图像效果更好,因为扫描后的word文档文本密集、布局多样,有助于模型学习各种空间线索和布局信息。

2  实验结果与分析

2.1  数据集和评估方法

本文在MSCOCO和Flickr30K这两个公共的图像-文本多模态数据集上对OCR-ViLT进行验证实验。MSCOCO含有123 287个图像、616 435个自然语言描述,Flickr30K总共包含31 000张图像和158 915个自然语言描述。

对于性能指标。本文采用在跨模态检索中广泛使用的查询问题评价指标R@K(K=1,5,10)用于性能评估,表示前k个检索结果中相关结果数与所有相关结果数的比率。

2.2  模型对比实验

本文分别选取以下3种模型与OCR-ViLT进行实验比较,它们分别是MMCA、SGRAF、COTS。其中COTS是现在的跨模态领域中的SOTA方法,并且与最新的单流模型相比,模型性能相当,但是推理速度快10 800倍。

我们在两个广泛使用的图像文本数据集Flickr30K和MSCOCO上比较了我们的OCR-ViLT和最先进的方法,结果如表1所示(表中I2TRetrieval为图像检索文本;T2IRetrieval为文本检索图像)。

表1是各类算法在Flickr30K和MSCOCO数据集下的R@K指标的实验结果,分别对给定文本的情况下检索与文本内容匹配的图像,和给定图像的情况下查找与图像内容匹配的相关文本。整体来说,本文所提的OCR-ViLT算法相较于其他对比方法无论是R@1、R@5还是R@10的检索召回率都有一定程度的提高。

OCR-ViLT在R@1、R@5和R@10的检索召回率指标上大大优于MMCA、SGRAF这两种单流模型。具体而言,与最新的单流模型SGRAF相比,OCR-ViLT均取得了R@K指标的领先。

OCR-ViLT与双流模型的对比同样也是可圈可点。在于最近的SOTA模型COTS的对比中,可以看到在T2I Retrieval任务下,两者的R@K性能表现不相上下,Flickr30K数据集中的R@5和MSCOCO数据集中的R@1和R@10对比COTS均有小幅度的优势。但是在I2TRetrieval任务下,我们的OCR-ViLT-OP明顯优于COTS,MSCOCO数据集中的R@10指标领先了2.73%(96.73% VS 94.0%)。在实验环境相同的情况下,考虑到双流模型比单流模型的参数量要多得多,OCR-ViLT模型大小更轻量,数据利用率更高。另外,因为COTS模型在模态交互之前便提取了模态特征,说明针对视觉模态,我们所提的OCR-ViLT模型对比如今主流的基于区域的视觉特征提取方法能够提取并学习图像的场景文本和布局信息,突出图像布局特征和空间特征的表达能力,强化模型的图像感知力。

2.3  输入策略对比实验

我们在MSCOCO数据集上根据不同的输入策略对OCR-ViLT重新进行微调。我们测量了不同场景中的图像到文本和文本到图像检索。我们尝试了9种不同的图像和文本比例场景,图像和文本的数量分别从一逐步增加到三。结果如图3所示。在检索任务中,召回率率先缓慢上升,直到图像与文本的比例为3(图像): 1(文本),然后开始显著下降,然后缓慢上升。在MSCOCO数据集中的检索任务中,采取3(图像): 3(文本)的输入策略能达到最佳召回率。因此,我们认为,在多模态检索任务中,建议使用3:3的输入策略,可以获得比较好的效果。

3  结  论

在本文中,我们研究了如何提高多模态模型视觉嵌入模块的性能。具体而言,我们充分利用在图像中的场景文本和布局信息,提出了一种新的融合场景文本的视觉语言预训练模型,称为OCR-ViLT。也就是说,我们通过百度光学扫描API分析图像中蕴藏的场景文本,通过场景文本突出图像布局特征和空间特征的表达能力,增强模型的视觉图像布局感知力。

实验表明我们的OCR-ViLT在图像文本检索中具有一定的有效性和高效性。实验证明了场景文本对区域视觉的表征提取有强化作用。同时大量性能探究实验证明图像和文本的不同比例对OCR-ViLT的检索性能有显著影响。总体而言,图像和文本的增加可以增强检索性能。随着比例的逐渐增加,当图像和文本的比例达到2(图像): 3(文本)时,检索性能开始显著下降;在图像数量相同的情况下,仅添加文本对OCR-ViLT的检索性能的改善最为明显;保持文本比例不变,只增加图像,模型检索时间成倍增加,并且检索召回率有所降低。因此我们建议如果在训练样本不足或者训练资源比较少的情况下,使用OCR-ViLT采取1:1的输入策略可以得到很好的效果;如果训练样本比较充足并起训练资源丰富的情况下,采取2:3的输入策略可以将模型性能发挥到极致。

参考文献:

[1] KRIZHEVSKY A,SUTSKEVER I,HINTON G E. ImageNet classification with deep convolutional neural networks [J].Communications of the ACM,2017,60(6):84-90.

[2] HUANG Z,ZENG Z,LIU B,et al. Pixel-BERT:Aligning Image Pixels with Text by Deep Multi-Modal Transformers [J/OL].arXiv:2004.00849[cs.CV].(2020-06-22).https://arxiv.org/abs/2004.00849.

[3] DOSOVITSKIY A,BEYER L,KOLESNIKOV A,et al. An Image is Worth 16x16 Words:Transformers for Image Recognition at Scale [J/OL].arXiv:2010.11929 [cs.CV].(2020-10-22).https://arxiv.org/abs/2010.11929.

[4] DEVLIN J,CHANG M,LEE K,et al. BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding [C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,Volume 1(Long and Short Papers).Minneapolis:Association for Computational Linguistics,2019:4171-4186.

[5] VASWANI A,SHAZEER N,PARMAR N,et al. Attention is all you need [C]//NIPS'17:Proceedings of the 31st International Conference on Neural Information Processing Systems.Red Hook:Curran Associates Inc.,2017:5998-6008.

[6] KIM W,SON B,KIM I. ViLT:Vision-and-Language Transformer Without Convolution or Region Supervision [J/OL].arXiv:2102.03334 [stat.ML].(2021-06-10).https://arxiv.org/abs/2102.03334v1.

作者簡介:张知奇(1996—),男,土家族,湖南常德人,硕士研究生在读,研究方向:深度学习下的图文相似性独立和跨模态检索;通讯作者:袁鑫攀(1982—),男,汉族,湖南株洲人,副教授,博士,研究方向:信息检索、自然语言处理、局部敏感哈希;曾志高(1973—),男,汉族,湖南株洲人,教授,博士,研究方向:机器学习,智能信息处理。

猜你喜欢

迁移学习多模态
迁移学习研究综述
从认知角度探讨大学英语网络教学模式
奇异值分解与移移学习在电机故障诊断中的应用
多模态话语中的詹姆斯·卡梅隆电影
网络环境下大学英语多模态交互式阅读教学模式研究
多模态理论视角下大学英语课堂的构建
一种基于迁移极速学习机的人体行为识别模型
大数据环境下基于迁移学习的人体检测性能提升方法