APP下载

基于深度学习的结构化图像标注研究

2019-01-08姚义王诗珂陈希豪林宇翩

电脑知识与技术 2019年33期
关键词:注意力机制

姚义 王诗珂 陈希豪 林宇翩

摘要:图像标注任务是人工智能领域中将机器视觉(ComputerVision)与自然语言处理(NaturalLanguageProcessing)两大方向相结合的任务,受到学界极大的关注。本文针对目前主流的图像描述算法进行综合的研究,基于目前图像标注任务中取得优秀效果的CNN-LSTM描述生成算法,引入目前机器视觉方向上取得长足发展的目标检测框架Faster R.CNN作编码器替换CNN,使用图像区域特征输入解码器;在解码器部分的循环神经网络中使用注意力机制,进一步强化区域图像特征对解码器生成自然语言描述的贡献,从而构成从区域特征到全局描述的结构化图像标注框架。这一图像标注算法在MSCO-CO数据集上进行训练与测试(分别在训练集与测试集上进行),我们提出的模型获得了超过了基线模型的效果。

关键词:Encoder-Decoder;FasterR-CNN;注意力机制

中图分类号:TP311 文献标识码:A

文章编号:1009-3044(2019)33-0187-03

1引入

图像标注任务是机器视觉与自然语言处理两大人工智能方向的集成。图像标注任务需要从图像中提取视觉信息,并将其转化为自然语言输出。图像标注算法在深度学习日趋成熟的今天已基本完成了从传统算法到基于深度网络的算法的转变。标注模型主要由两部分网络拼接构成,称为编码器一解码器结构(Encoder-Decoder)。编码器通常为卷积神经网络,用于从图像中提取语义信息,解码器则一般为循环神经网络,用于对自然语言进行建模,并使用编码器提取的高层语义信息进行自然语言标注的生成。

尽管在采用编码器一解码器的结构后,图像标注任务的精度相比传统方法有了很大的提升,我们认为在编码器的部分依旧有较大的改进空间。编码器部分使用原始的卷积网络仅能对图像的全局进行特征提取,并得到全局图像特征图(GlobalFeature Map),而图像中有大量背景像素或非关键像素信息对图像标注的生成没有帮助,而卷积网络并不能将这些非关键信息筛去。因此我们采用了目前在目标检测领域取得优秀效果的区域方法来替换原始的卷积神经网络。在编码器部分采用区域方法能够让编码器提取到图像中的显著区域(Region of In-terest,RoI)信息,而忽略非显著区域的视觉信息。同时,在解码器部分,我们采用了注意力(Attention)机制。注意力机制能够在生成每一个标注词时,都能够参照对应的视觉信息,由此可提高标注词的精度。我们使用了长短期记忆网络(Long-ShortTerm Memory,LSTM)作为解码器,LSTM相比原始的循环神经网络能够有效避免梯度爆炸与梯度消失的问题,因此已经被广泛用于替代原始的循环网络。

我们使用了MSCOCO数据集中的训练集对所提出的网络进行了训练,并在测试集上测试了网络的效果,得到了超过基线模型的结果。

2方法

对于输入的图片,我们的模型在编码器部分会使用后端的卷积网络(具体来说使用的是特征金字塔网络(PeaturePyramid Network,FPN))将图像轉化为特征图,随后使用特征提议网络(Region Proposal Net-work,RPN)在特征图中提取指定数量的显著区域特征图(向量)。这些特征图(向量)堆叠为一个稠密向量后输入到带有注意力模块的长短期记忆网络(解码器)中,逐词生成对图片的标注。模型整体结构如图1所示。在2.1与2.2部分将详细介绍编码器与解码器的结构。

2.1基于区域特征的编码器——Faster R-CNN

本模型采用的编码器为Faster R-CNN,该框架包含两个部分,首先是用于将图像转化为特征图的后端特征提取器,在本模型中选择的是特征金字塔网络FPN,结构如图2所示。FPN的结构脱胎于深度残差网络ResNet,在残差网络的基础上引入了金字塔式的结构.这一结构设计保证了图像在不同分辨率下的特征提取能够全部得到覆盖,因此图像中不同大小的显著区域不会如在没有使用这一金字塔结构的网络中一样被忽略。我们将网络头部的预测部分去除,将网络与区域提议网络RPN相连接。

FPN输出层输出一组区域特征向量,输入到区域提议网络RPN中。区域提议网络从输入的图片中提取出一组矩形的建议对象,以及对应的对象分数。在实际应用时,将图像替换为由后端特征提取器获得的特征图以此在后端网络与RPN共享特征以此提升模型运行速度。在区域提议网络中使用一个小型网络在特征图上滑动,每一滑动窗口会被映射到低层特征,随后被输入到边界框回归网络(box-regression subnet)与边框分类网络(box-classifieation subnet)中,用于生成最终的提议区域以及对应区域的分数。RPN在特征图上滑动时,会根据特征图大小设定锚定点(anchor),对于每一锚定点,生成三个宽高比与大小不同的矩形边界框,这些矩形边界框将作为原始的提议区域输入到分类与回归网络中做进一步筛选。这一方法的一大优点是这些锚定点不随图像变化而改变,具有不变的特性。特征图与锚定点及锚定框如图3所示。对于给定锚定框中心点(Xa,ya),RPN计算后得到的框宽、框高及中心点的偏移量如下式:

在该步骤中将得到k个建议区域,为简化解码器对区域信息的使用以及去除重叠部分较高的区域,我们使用非极大值抑止NMS根据置信度的大小筛选出最终的提议区域。将RPN与后端FPN相连接即得到网络的编码器部分,整体结构如图4所示。

2.2基于注意力机制的LSTM解码器

本模型使用了带有注意力模块的长短期记忆网络作为模型的解码器部分。我们将解码器分为LSTM与注意力模块两部分在2.2.1与2.2.2中进行详细介绍。

2.2.1长短期记忆网络

长短期记忆网络与传统的循环神经网络(Recurrent NeuralNetwork,RNN)有相似的循环结构。在每一时序,网络在其核中维护一个隐藏状态(hidden state,ht),该状态在每一时序接收外界对网络输入的信息以及上一时序传递的信息,从而使网络具有了一定程度上的“记忆”功能,这一特性使循环网络能够较好地处理需要记忆之前信息的序列任务。但原始循环神经网络的结构上有一定缺陷,在梯度信息从最后一时序回传至前时序时梯度信息会互相相乘,导致梯度信息过大,也即梯度爆炸,或梯度信息过小,也即梯度消失。为解决这一问题,长短期记忆被提出。其在网络核心层中引入了门限变量,使梯度信息间的传递由乘积变为加和,有效减轻了梯度信息的损失,其迭代公式如下:

门限变量分别有输入门限i,遗忘门限f,输出门限o(如上式)。由门限变量与输入、前一时序的状态相结合,可得到当前的隐藏状态,将隐藏状态经由输出门限控制后经过全连接层输出当前时序的预测(词)。

2.2.2注意力机制

注意力机制主要在图像标注任务的模型解码器部分使用,这一模块对从编码器处传递到解码器的视觉信息进行加权处理,做到参考图像指定位置的视觉信息来生成对应标注词的效果。具体来说在每一时刻t,在上一时刻LSTM和所维护的入ht-1与图像特征图输入注意力模块,由注意力模块计算得到一向量zt。随后语境向量将与t时刻LSTM核的输入xt一起输入到LSTM核中参与计算。注意力机制可分为软性注意力机制与硬性注意力机制,其中硬注意力机制(Hard Attention)将需要被关注的图像区域视作中间隐变量,而向量zt则成为随机变量,将对z.的计算过程建模为多元伯努利分布的采样过程;而我们使用了软注意力机制(Son Attention),然注意力机制直接计算z,的期望,由一个小型的分类器(全连接网络)组成,如下式:注意力模块的结构如图5所示。

3实验与结果评估

3.1数据集

本模型的训练在MSCOCO数据集上进行。MSCOCO是一个综合性的机器视觉任务数据集。

Microsoft COCO数据集(MSCOCO)于2014年建立,MSCOCO数据集针对场景理解的三个子任务:对象检测、图像(语义)分割以及图像标注任务设计了数据集。数据集本身包含超过330,000张图片,图像数据涵盖了91中对象类别,共包含超过250万的标签实例。同时针对图像的描述户际注任务,MSCOCO标注数据集每一张图片对应五句不同的描述语句。

3.2性能评估

本模型的训练使用了Adam优化器,超参数设置为:卢,:0.9,β2=0.999,lr=5*10-4。模型采用了迁移学习的策略码,因此模型编码器的特征金字塔网络不参与训练,其参数为预训练参数,被固定直接使用。

我们采用了CNN-LSTM圖像标注框架作为我们提出模型的对照模型(baseline),与我们所提出的模型进行对比。采用的评估标准为BLEU-4标准。

BLEU标准是一种评价自然语言相似度的标准。其引入n-gram的概念,n-gram是指将语句转化为长度为n的短语的集合。BLEU标准通过将语句转化为n-gram形式再对两者进行相似性上的评估,能够将词语、词组与短语等较单词更长的语义模块纳入了考量的范围内以此增加相似度计算的可靠程度。

在转化完成后,对相似性的评估即等价为候选句中的n-gram在参考句中出现的频率,频率越高,则在该gram粒度下两者相似度越高,如下式:

如表1所示,我们的模型在BLEU-4分数上超过了CNN-LSTM图像标注模型的分数,证明了区域特征的引入能够改进图像标注模型的性能。

为规避模型间由于训练设定不同而造成的模型性能差异,在实验中,我们对模型间的相同层均使用了一致的初始化方式,同时训练中使用了相同的优化器,尽可能地规避模型间由于训练导致的效果差异。

尽管我们所提出的模型性能已超过了文中基线模型,但对比当前模型在性能上仍有不小的差距。除模型结构上的不同,性能上的差距主要还可能是由于模型训练上的不足,在后续工作中可进一步对模型进行训练以提升其性能。

4总结展望

在本文中我们提出了一种基于深度网络的图像标注算法。在这一算法的设计中,我们主要将目前最新的基于区域的方法应用到了我们模型的编码器部分。使其相较传统的卷积神经网络仅能针对图像的全局进行特征提取做到能够对图像的显著区域进行更为有效的特征提取,并且这些区域信息能够在模型的解码器部分与注意力机制很好地结合起来,充分发挥注意力机制对视觉信息的选择作用,进一步提升标注模型的性能。我们的模型在BLEU-4标准下超过了我们选择的基线模型CNN-RNN框架取得的分数。

我们认为区域方法能够较好地提取图像中的关键信息,这一方法能够被广泛地应用于机器视觉方向下的子任务,包括图像标注任务。这一特点能够激发后续在这一方法的基础上更多的研究。同时我们在解码器中没有使用更为复杂的结构如双向长短期记忆网络等结构,我们认为若进一步使用更为先进的解码器结构,模型的效果可能能够得到进一步的提升。

猜你喜欢

注意力机制
基于LSTM?Attention神经网络的文本特征提取方法
InsunKBQA:一个基于知识库的问答系统