APP下载

基于神经网络方法的图像描述研究综述

2020-04-22刘浩

现代计算机 2020年8期
关键词:语句神经网络机制

刘浩

(四川大学计算机学院,成都610065)

0 引言

视觉理解一直是计算机视觉领域的基础任务,这有助于计算机更好地理解这个多维世界,为将来人工智能全方位服务人类提供可能。其中Image Caption(图像描述)是一个融合计算机视觉和自然语言处理的综合问题,该任务对于人类来说非常容易,但是受限于不同领域的结合,要求机器去理解图片的内容并且还要用自然语言去表达它们之间的关系却非常具有挑战性。这不仅要求机器生成准确的、通顺的人类可读的句子,而且还要求句子的内容能充分表现图像的内容。受益于神经网络技术的发展和大数据的兴起,近些年不断有关于Image Caption 任务的创新方法被提出,其中不乏一些具有开创性意义的方法,为Image Caption 任务的研究与发展做出了巨大的贡献。

1 相关工作

早期关于Image Caption 任务的做法例如由Kulkarni 等人[1]和Farhadi 等人[2]提出的方法都是利用图像处理的一些算子提取出图像的特征,经过SVM(支持向量机)分类等方法得到图像中可能存在的目标。然后根据提取出的目标以及他们的属性利用CRF(条件随机场)或者是一些预先制定的规则来恢复成对图像的描述。这种做法非常依赖于图像特征的提取和生成句子时所需要的规则。自然而然这种效果并不理想。

在Vinyals 等人[3]提出的方法出现之前,利用RNN(循环神经网络)做机器翻译实际上已经取得了非常不错的成果。常用的做法是利用Encoder RNN(编码器RNN)读入源语言文字生成中间隐层变量,然后利用Decoder RNN(解码器RNN)读入中间隐层变量,逐步生成目标语言文字。受到这种启发,以Vinyals 为代表的谷歌团队将机器翻译中编码源文字的RNN 替换成CNN(卷积神经网络)来编码图像,希望通过这种方式来获得图像的描述。而且由于普通RNN 存在梯度下降的问题,RNN 只能记忆之前有限的时间单元内容,所以谷歌团队在Decoder 阶段使用了特殊的RNN 架构——LSTM(长短期记忆),其具有长期记忆,解决了梯度消失的问题。这种Encoder-Decoder 框架取得了不错的效果,为后人做Image Caption 任务提供了一条鲜明的道路。

2015 年微软举办了一届Image Caption 比赛,最终的结果是由两篇论文并列第一,其中一篇就是上文提到的谷歌团队的论文,另一篇为微软自家的作品,Fang等人[4]先通过目标检测和物体识别的方法把图像中的实体词都识别出来,然后再对语言进行建模,进行造句。实体词相关之间的连接词是构造完整句子的核心,所以Fang 等人使用了弱监督方法进行造句。

受attention(注意力)机制在机器翻译中发展的启发,Xu 等人[5]在传统的Encoder-Decoder 框架引入了attention 机制,显著的提高了Image Caption 任务的性能。具体做法为在图像的卷积特征中结合空间attention 机制,将图像上下文向量输入到Encoder-Decoder框架中,该向量是当前时刻图像的显著区域的特征表达。这样就有了包含位置信息的特征,Decoder 在解码时期就拥有了在位置特征中选择的能力。

在Image Caption 任务的一般结果中,有些描述性词汇可能并不直接和图像相关,而是可以从当前已经生成的描述语句中推测出来,换而言之,某些描述语句的关键部分的生成可能依赖于图像特征,也可能依赖于语言模型,所以Lu 等人[6]提出了一种自适应性的attention 机制,使得模型可以自己决定在生成单词的时候是根据先验知识还是根据图像中的模板。

Wu 等人[7]在2016 年提出了新的Image Caption 方法,他们摒弃了以前使用全局图像信息作为图像特征的方法,继而使用图像多标签分类的方法来提取图像中可能存在的属性。该方法相当于保留了图像的高层语义信息,不仅在Image Caption 上取得了不错的结果,在VQA(视觉图像的自然语言回答)问题上,也取得很好的成绩。

2017 年Chen 等人[8]从CNN 入手对模型进行改进。Chen 等人分析了CNN 的特性,包括其空间性、多通道和多层级,最终提出在网络的multi-layer 上用通道attention 和空间attention 结合的方式来做Image Caption。通道attention 机制的本质是训练一个权重,然后这个权重可以用来对通道做选择或者叠加在feature map(特征地图)的每个像素点上,使得每次网络的关注点可能只是图像中的一个小部分,这也符合人类视觉系统的动态特征提取机制。这种方法使得Encoder-Decoder 模型的性能进一步得到了提高。

2018 年attention 机制在Image Caption 的应用继续得到了扩展,Anderson 等人[9]提出了一个新的LSTM组合模型,包括了Attention LSTM 和语言LSTM 两个组件。其中Attention LSTM 机制是top-down(自上而下)和bottom-up(自下而上)组合起来得到的联合attention机制,bottom-up 机制基于Faster R-CNN(一种被广泛应用于目标检测的技术)来提取图像区域,确定每个区域的特征向量。而top-down 机制确定特征权重。此方法没有提及在目前研究中最为广泛使用的Encoder-Decoder 框架,而是使用了自己创新的attention 模型,bottom-up 模型的任务是获取图像兴趣区域和提取图像特征,类似于对图像进行特征编码,而top-down 模型用于学习调整特征权重,实现了图像内容的“时刻关注”,逐词生成描述,相当于解码阶段。从实验结果看,Anderson 等人所提的方法的确获得良好结果。

在Image Caption 任务中,常规的Encoder-Decoder框架都是利用检测网络,如CNN 提取特征,然后送到Decoder 端进行解码生成句子。Yang 等人[10]在2019 年的文章中引入了场景图模型。利用GCN(图卷积网络)将图中检测得到的目标和其自身的属性,以及其他目标之间的关系融合在一起作为网络的输入。另外,Yang 受到利用working memory(工作记忆)能够保存动态知识库的启发,提出了一个共享字典的结构,先在文本语料库上进行预训练,最后为图像生成描述时,利用在语料库中学到的先验知识使生成的语句信息更加丰富。

2 数据集

到目前为止,神经网络依旧是一种需要大量数据来进行驱动的方法,小样本学习尚未有突破性的进展,所以数据对于基于神经网络的算法依旧非常重要。在Image Caption 问题研究的过程中,研究者们对于数据集的选择偏好也在发生变化,一些数据集运用的越来越广泛,而一些数据集则越来越少地被使用。目前Image Caption 任务应用比较广泛的数据集主要是Flickr8K、Flickr30K 和Microsoft COCO,它们的数据量的大概分布见表1。

表1 Image Caption 常用数据集数据量分布

Flickr8K 和Flickr30K 数据集来自于雅虎的相册网站Flickr,数据集中的数量分别是8000 张和30000张(准确地说是31783 张)。这两个数据集中的图像大多展示的是人类在参与到某项活动中的情景。每张图像对应人工标注的五句话。

Microsoft COCO 数据集[11]是微软团队推出的一个可以用来做图像识别、分割和描述的数据集。这个数据集以场景理解为目标,主要从复杂的日常场景中截取,图像中的目标通过精确的分割进行位置的标定,并且使用亚马逊公司的Mechanical Turk(土耳其机器人)服务人工地为每张图像都生成了最少5 句标注,标注语句总共超过了150 万句。实际上COCO Caption 数据集包含了两个数据集,第一个数据集是MS COCO c5。它包含的训练集、验证集合测试集图像和原始的MS COCO 数据库是一致的,只不过每个图像都带有5个人工生成的标注语句。第二个数据集是MS COCO c40。它只包含5000 张图片,而且这些图像是从MS COCO 数据集的测试集中随机选出的。和c5 不同的是,它的每张图像都有用40 个人工生成的标注语句。

Microsoft COCO 数据集还有一个巨大的贡献就是搭建了一个评价服务器,实现了当前最流行的评价标准(BLEU、METEOR、ROUGE 和CIDEr)。就目前发表的高水平论文来看,MS COCO Caption 数据集已经越来越成为研究者的首选。

3 结语

总的来说,近些年的Image Caption 主要研究分为以下几个方向:

(1)用单独的CNN 来获取图像的特征,然后利用这些特征来生成句子;

(2)将CNN 获取的特征和描述特征联合嵌入到一个空间内,然后从中选择最优进行描述;

(3)将CNN 和RNN 进行结合,目的在于利用CNN的全局特征或者局部特征来指导描述的生成;

(4)利用一些全新的进制对经典模型进行改进,比如加入注意力机制、加入视觉哨兵机制、利用强化学习来训练模型以及利用目标检测技术来改进模型等。

研究Image Caption 的价值是显而易见的,可以应用到图像检索、儿童教育和视力受损人士的生活辅助等方面。相信随着更多丰富数据集的出现和越来越高效的学术方法被提出,由机器进行的Image Caption 任务也会越来越高效,越来越接近人类所能做到的水准,为人工智能全方位服务人类提供可能。

本文认为,Image Caption 未来的研究方向要在关于图像的内容的描述语句满足必要的准确性和流畅性的基础上,更追求图像中细节元素的表现,使Image Caption 任务的结果是更加丰富更加详细的图像内容信息的表现。

猜你喜欢

语句神经网络机制
重点:语句衔接
神经网络抑制无线通信干扰探究
自制力是一种很好的筛选机制
精彩语句
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用
破除旧机制要分步推进
基于支持向量机回归和RBF神经网络的PID整定
注重机制的相互配合
打基础 抓机制 显成效