深度学习图像字幕生成技术文献特征研究
2023-11-03袁启旺芦健秋户传真涂小雅周志文
袁启旺 芦健秋 户传真 涂小雅 周志文
淮阴工学院管理工程学院 江苏淮安 223003
图像字幕生成是继图像识别、目标定位、图像分割后又一新型计算机视觉任务。在计算机视觉发展的初期,研究者们尝试利用计算机程序来模拟人类视觉系统,并让其告诉我们它看到了什么,这也就是最基本的图像识别。图像字幕生成是按顺序执行以下关键任务。首先对图像中不同物体的特征进行适当提取后提取特征,然后识别物体之间的关系(即如果物体是施工机械和土,则识别施工机械是否在土上)。一旦检测到对象并识别出关系,现在就需要生成文本描述,即根据图像对象之间的关系将单词有序地排列成一个语句。图像字幕是自动生成类似于人类图像描述的过程,在应用计算机视觉的众多领域应用广泛。图像字幕不仅识别物体,更要识别物体之间的交互活动及其场景,并据此生成图像的语句描述。机器在图像字幕生成中获得与人类相当的结果和精度,一直是非常具有挑战性的任务。深度学习起源较早,是机器学习(Machine Learning,ML)领域中重要的研究方向,来源于人工神经网络(Artificial Neural Network,ANN)研究,其实质是通过构建机器学习模型和利用海量训练数据,逐层调整特征参数,以提升分类或者预测精度。近年来,高性能显卡以及集群服务的发展,推动了深度学习方法在各研究领域中的深度应用,基于深度学习的图像字幕技术也随之获得了跨越式的发展。基于深度学习方法的关注重点则放在了语言模型的应用与改进中。
图像字幕生成过首先对语言进行建模。与图像特征提取类似,语言建模是计算机视觉应用研究的一项基础性工作,广泛应用于各种自然语言处理问题,如语音识别、机器翻译、词性标注等。一般而言,语言建模就对图像进行特征提取后得到的信息用来进行确定某项信息与某一语句语义符合概率的模型。通过语言建模,可以确定可能性更大的词汇序列,或在给定若干词汇的条件下,预测下一个最可能出现的词语。图像字幕生成建模首先需要对图像进行特征提取、对象检测、场景及其他属性提取,然后利用统计模型将这些属性与自然语言联系起来。目前这一过程通过深度学习网络实现,如为获得图像不同区域的视觉特征和对象CNN,可以使用RCNN、Faster-RCNN,按顺序生成文本描述可以使用RNN或LSTM。不同领域多是基于利用这些常用神经网络方法及其组合开发出适用于不同行业、执行不同领域特定任务的图像字幕生成方法。
目前,在不同领域基于不同任务采用图像字幕生成方法差异较大,其运算效率和字幕描述效果也有显著差异。为此,本文检索国内外知名数据库从2019年至2022年所有相关研究文献,对比、分析不同研究领域所采用的图像字幕生成的方法及数据集类型,并提炼各方法和评估矩阵等技术细节。
1 数据提取与汇总
本文首先对文献进行系统分类,在设计检索策略及设计质量评估标准的基础上,确定数据提取策略。
1.1 文献检索结果
首先,本文提出两组搜索关键词,第一组为图像字幕生成,第二组为深度学习、神经网络、卷积神经网络、循环神经网络及长短期记忆理论。其次,运用科学的方法从不同的学术数据库中检索结果。根据关键字组成在IEEE Xplore、Web of Sciences、Scopus及知网等著名学术数据库上应用了被引用的搜索查询字符串来搜索文章。我们采用了2019—2022年期刊中最新发表文献,经去除重复文献,并剔除了音频字幕或视频字幕等与本研究主题无关的文献后,得到467篇文献。
1.2 质量评估准则
在对较为模糊、抽象筛选不充分的文献进行全文筛选之后,本研究提出质量评价标准,具体为文献必须在期刊上发表;文献提出了一个合适的方法来实现使用深度学习的图像字幕生成;文献必须有清晰和明确的结果;文献必须讨论图像字幕生成技术的应用与不足;必须讨论模型的评价策略。然后根据上述质量评估标准问题评估了467篇文献,并通过全文筛选,我们从所有数据库中找到了86篇文献。
1.3 数据提取与汇总
本研究基于研究问题定义了数据提取策略,并据此进一步对筛选后的86篇文献提取数据并进行最终汇总。为用于进一步汇总,确定提取的主要参数为:发表年份、标题、用于语言生成和对象检测的模型、用于实现模型的方法、使用的数据集、用于评估目的的评估矩阵以及最终提出的模型的精度。进而总结出从数据提取中得到的事实,并为后续研究提供指导与参考。
2 数据提取及综合结果
2.1 数据集
以往研究表明,有许多数据集可用于执行图像字幕生成。文献中最常用的数据集是MS COCO和Flicker 8k和30k,对于专业性很强的图像字幕应用领域的文本描述,如医疗或交通领域,一般会有自己创建的专用数据集。
2.1.1 MSCOCO
MSCOCO代表场景中的共同对象,因包含非标志性图像,非常适合用于图像字幕。数据集的“Karathy”数据分割方式被广泛采用,该分割包含113287个训练图像,5000张验证图像,以及5000张测试图像,每个样本图像有5个长度不定的真实字幕文本。当前,绝大多数的图像字幕生成方法的研究在各自的实验中均使用该数据集。
2.1.2 深度学习网络
用于图像的深度学习网络一般为卷积神经网络(CNN)。目前,CNN被认为是将图像数据映射为输出变量的最佳方法。有各种各样的预构建模型利用CNN的这一特性,如常用于图像中物体检测和定位的循环神经网络(RCNN)、快速循环神经网络(RCNN)等。这些模型不仅用来分类任务,而且被用于理解图像内容,理解图像数据之后,就需要预测单个词汇的顺序来生成特定图像的语言文本。在词汇序列预测方面,RNN和长短期记忆(LSTM)最为被经常采用。对于图像字幕生成建模,CNN与RNN或LSTM一起使用,其中CNN多用于理解图像内容,RNN或LSTM多用于文本描述生成。在文本预测网络的BLEU-1性能方面,LSTM方法的准确性明显优于RNN。
2.1.3 卷积神经网络(CNN)
卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)。卷积神经网络具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类。作为深度学习的一种数据提取与转换算法,CNN的两个主要功能是卷积和池化。CNN中的卷积用于检测图像的边缘,池化则用于减小图像的大小。通过基于滤过值将图像方法,将一种称为核矩阵或滤波器的一个小数量矩阵与图片实现转换与滤过。CNN通常用于处理图像且处理效果优于人工神经网络(ANN)。
2.1.4 循环神经网络(RNN)
由于CNN在前一个输入和下一个数据之间没有任何形式的联系,当输入数据相互关联时,CNN执行效率较低。RNN对具有序列特性的数据非常有效,它能挖掘数据中的时序信息以及语义信息。从网络结构上,循环神经网络会记忆之前的信息,并利用之前的信息影响后面结点的输出。RNN的记忆特性能够提醒数据中先前发生的事情,这也就意味着建模时需要更为前置的输入,进而要求RNN在文本上是相互关联的顺序数据,最终表现为RNN运算效果最优。
2.1.5 长短期记忆网络(LSTM)
LSTM是RNN的一种变体,区别在于它在算法中加入了一个判断信息有用与否的“处理器”。爆炸梯度、消失梯度和长期依赖是简单RNN的两个明显不足。LSTM使用“门”这一核心概念来记忆过去的事件或活动。在LSTM中“门的”种类一般有输入门、遗忘门和输出门等三类,均是S型激活函数,一个信息进入LSTM的网络当中,可以根据规则来判断是否有用。只有符合算法认证的信息才会留下,不符的信息则通过遗忘门被遗忘。
2.2 评价机制
文献对比发现,最常见的评价机制是BLEU、ROUGE-L、CIDEr、METEOR和SPICE,且BLEU评分方法是几乎所有研究中最常用的评价方法。
2.2.1 BELU
BLEU是一个用来衡量机器文本生成质量的指标,是文本生成中广泛使用的一种评价机制。BLEU将机器生成的文本与一个或多个手动编写的文本进行比较,其值表征了生成的文本与预期文本的接近程度。BLEU评分主要用于自动机器翻译、图像字幕、文本摘要、语音识别等。在图像字幕生成中,BLEU评分表示生成标题与人工特定图像标题的接近程度。文献研究表明,几乎所有的研究都使用BLEU作为评估矩阵。
2.2.2 METEOR
METEOR主要基于生成单词的精度与召回率,使用单元词组精确度、单元词组召回率、碎片惩罚三部分的组合来计算分数,是用于评估机器翻译语言的另一种评估方法。METEOR引入了较为灵活的对齐机制,基于单元词组(unigram)匹配,基于准确率precision和召回率recall的调和均值计算(召回率的权重大于准确率)。该指标用WordNet等知识源扩充同义词集,同时考虑单词的词形,METEOR可以在句子或段落层次上计算相关性,在长文本的评价上具有较好性能。
2.2.3 ROUGE-l
ROUGE-1是一种基于召回率的评估方法,具有明确排序的评估和转换评价。ROUGE通过将模型生成的摘要或者回答与参考答案(一般是人工生成的)进行比较计算,得到对应的得分。相比BLEU指标,它将单词序列、单词对、N-gram与一组参考文本进行比较。ROUGE实质是回忆导向的替补,用于道具评价。
3 结论
本文详细分析了用于图像字幕生成的不同深度学习模型。基于文献分析,利用数据提取机制对数据进行了提取和深入分析,得到了用于图像字幕生成的各种不同模型和技术。主要结论如下:
(1)对于图像内容提取,CNN是最适合的模型,对于语言生成,两个常用的模型是RNN和LSTM。LSTM算法的性能优于RNN算法。深度学习图像字幕技术最有效方法是编码—解码器、注意机制及其组合方法,可有效提升运算效率与解释精准度。
(2)最适合用于图像字幕的数据集是MSCOCO,主要原因在于其包含非标志性图像。
(3)图像字幕生成技术应用日益广泛。如施工现场图像的智慧工地管理、基于医学超声或MRI图像或血管造影视频的自动报告文本、基于公司产品制造环境图像的环境或产品异常警报、基于农作物图像的作物报告生成,以及基于闭路电视摄像图像的交通分析报告等。