APP下载

融合图像与声音信息的视频标注

2020-12-28袁华张逸帆陈安皓

电脑知识与技术 2020年33期
关键词:准确率神经网络特征

袁华 张逸帆 陈安皓

摘要:随着互联网的兴盛和信息技术的飞速发展,大众媒体开始从以文字和图像为主的形式逐渐向以视频为主的形态演变,大量视频数据不断涌出。因此,能够高效、及时地进行视频分类和管理的视频标注成为时下一大热门。视频标注本质是序列到序列的转换[1],特点在于视频的内容信息并不能用割裂的一帧帧的图像数据来表征,而需要强调视频前后的连续性和关联性。此外,对于普通观众而言,视频中附加的声音信息同样是接收和理解视频内容的关键要素。然而,现有的用于视频标注的神经网络大多没有利用声音信息来进行标注输出。对此,该文提出一种基于S2VT模型的、融合声音和图像信息的神经网络,运用循环神经网络算法以及编码解码结构,对输入的视频进行时序性学习,并最终输出一段有意义、便于理解的文字。在数据预处理方面,该文选择从图像信息中提取3D特征[2],使用业内流行的MFCC算法将输入的声音部分转化为声音特征,最后将保存这两个特征的矩阵有序拼接输入神经网络中。该文针对最终模型输出效果进行了对比实验,发现在训练条件一致的情况下,添加了声音特征的模型在处理含有声音信息的视频时,能够取得比不添加声音特征时更好、更自然的语句输出。

关键词:视频标注;MFCC算法;声音特征;3D特征

中图分类号:TP37 文献标识码:A

文章编号:1009-3044(2020)33-0195-03

开放科学(资源服务)标识码(OSID):

1 引言

视频标注是指机器自动地用自然语言概括视频内容,是信息检索和模式识别的热点问题。在信息化的今天,人手工识别大批量视频的效率非常低下,视频标注提供了一条有效的途径,可以帮助人们快速了解视频的内容,也可以用于视频分类,用途十分广泛。

由于深度学习很早就涉足机器翻译,而机器翻译原理上与视频标注有共通之处,因此研究人员一开始就基于机器翻译领域已经成熟的编码器一解码器方案进行设计。其中,编码器一般使用卷积神经网络,而解码器则选用循环神经网络,整个模型从输入的图像特征进行学习,以输出视频描述。

Venugopalan S在2015年提出了S2VT(Sequence to se-quence-Video to text)的序列到序列视频标注模型[3],并获得了视频标注的第一名,在2015年到2019年的視频标注比赛中前三名基本是采用了该模型的变种。该模型就采用了目前最为主流的编码一解码框架,用CNN和LSTM组成编码器,采用LSTM作为解码器,可以用来处理变长的输入输出。在此基础上加入了注意力机制[4],在第一层的LSTM中加入了权重可以提升关键信息的注意力,在基于3D CNN-LSTM结构的视频标注模型中[5],使用3D CNN网络学习视频的时序特征。

本文在融合图像的基础上,加入了视频的声音特征,旨在进一步提高标注的准确率。其中声音特征采用的是主流的MFCC方法提取,作为输入的一部分。另一方面,我们研究了不同特征的两种结合方式对结果的影响。

2 加入声音特征的原因

声音是视频的一部分。图像信息并不能完全等同于整个视频的信息,而加入声音特征可以更加完整地保存视频的信息,这也与人们收看视频时一般也会收听其声音的方式一致。一方面,有些视频只看图像无法确定视频的具体主题,更多的内容由声音提供。另一方面,当图像所提供的信息无法覆盖细节时,声音可以提供视频的细节信息,能让神经网络学习到更多视频的特征。综上,加入声音特征可以提高视频标注的准确率、可以更好地理解视频的内容。

当然,有些视频的声音与图像关联性较弱,要确定一个折中的文字描述比较困难。如果模型学习的视频中大部分都是这样的声音与图像弱相关的视频的话,会使得预测的效果不够理想。这是选择数据集时需要注意的地方。

3 MFCC方法[6]

为了实现对视频中声音信息的利用,我们需要将模拟信号形式的声音信息转化为能够被神经网络读取的矩阵。这其中涉及多个环节,包括模数转换、预加重和提取MFCC向量等。

模数转换操作是后续对声音信息进行进一步处理的基础和前提,包括采样和量化两部分。采样时按照一定的采样频率读取声音信息,以记录采样点幅值。量化时则将上述各采样点的幅值化归为特定幅值,以便于以数字形式存储信号。

获取了数字形式的声音信息后,就可以对其进行特征提取操作。但是由于低频部分的能量往往高于高频部分,而两者包含的信息量却并非如此,甚至对于视频中的声音信息来说,高频部分往往还包含更多有效信息,诸如语音、音乐等。因此在将声音转为向量前需要加强高频信息能量,以提高信息学习效率。同时,由于频率信息是主要关注对象,故我们选用离傅立叶变换来获取频谱。

特征提取方面,我们选用了当前的主流方法:MFCC (MelFrequency Cepstral Coefficients,梅尔频率倒谱系数)。该方法主要参考了人耳对不同频率的敏感度不同的特点,在低频部分mel系数与频率呈线性关系,在高频时则呈对数关系。通过这一步转换,就能够将DFT得到的频谱转换为mel频谱,取对数后作逆变换即可得到MFCC系数。不过,在获取到MFCC系数后,我们还需对其进行差分操作,以使得最终输出的向量能够反映时域连续性。

相对于其他常见的声音特征提取方法,MFCC由于拥有对不同频率的裁剪,可以获得更好的性能和更精简的数据量。同时,参考了人耳频率响应的MFCC也能够帮助数据更好地反映实际包含的信息。

4 特征结合

在提取了视频的2D特征、3D特征和声音特征后,要将3个特征结合在一起作为网络模型的输入[7],但结合方式并不唯一。实践中我们尝试了将特征横向拼接和纵向拼接两种结合方式(见图1),发现拼接方式对视频标注的准确率有显著的影响。

5 S2VT模型

S2VT模型是由两个LSTM网络叠加而成,其过程见图2。

第一个LSTM将通过卷积神经网络提取到的帧特征向量作为输入进行逐个编码。一旦读取完所有的帧,第二个LSTM会逐个单词地生成一个句子。帧和单词表示的编码和解码工作将由其他网络预处理完成。

其中代表了由编码部分生成的中间语义向量,同时我们加入了Attention机制,即让神经网络更加专注于某些特征。也就是说,编码向量是经过加权得到的,这样也就能够突出重点表达的内容。另一方面解码部分把作为输入,最后得到最后的语义向量,再通过词典得到最终的完整的句子即可。

6 实验研究

6.1 实验方案

本实验希望对以下两个方面进行探寻:

(1)如何拼接除图像信息之外的其他信息,可以使得视频标注的准确率最高;

(2)将有声音的视频中包含的声音信息加入模型进行训练后,视频标注的准确率是否能够提高。

以下是我们设计的三次实验,以及据此做出的两组对比:

实验方案1:

使用图像信息、加入注意力机制、加入视频的3D特征,除图像信息之外的其他因素的特征与图像信息横向结合。

实验方案2:

使用图像信息、加入注意力机制、加入视频的3D特征,除图像信息之外的其他因素的特征与图像信息竖向结合。

实验方案3:

既使用图像信息也使用声音信息、加入注意力机制、加入视频的3D特征,除图像信息之外的其他因素的特征与图像信息横向结合。此外,如果一个视频的声音很小甚至没有声音,此视频的声音信息不加入模型训练。

6.2 实验数据记录

我们用不同的评测方法(BLEU、METEOR> ROUGE_L、CI-DEr)去评价不同的实验方案[8],得到准确率见表1~表3。

6.3实验数据处理

根据表1~表3中的数据,做出图像,见图3和图4。

6.3.1对比:横向拼接与竖向拼接

6.3.2对比:不加入声音和加入声音

6.4 实验结论

根据对比1,我们可以得知,横向拼接相较于竖向拼接可以获得更好的输出效果和准确率。这与我们根据数据结构模型分析所得出的推论相符;

根据对比2,我们注意到尽管加入声音后的整体数据大体与加入前持平,但是对于输出语句流畅性和连贯性要求较高的BLEU-4的准确率却得到了提升,这表明加入声音训练的尝试初有成效。此外,在对单一视频进行测试时,我们发现加入声音所得的模型对于有声音的视频的输出有了大幅的改善。

7 总结

本文中提出了一种融合视频图像和声音信息的标注方法,采用了S2VTAtt模型,最大的创新在于加入了声音特征以及考虑了不同特征拼接方式带来的影响。其中,加入声音特征并没有大幅度提高标识的准确度:在1-gram匹配规则下准确率有所下降,在4-gram匹配规则准确率有所上升。一方面这是由于声音特征相对于图像特征非常小;另一方面声音只是背景音乐,很多场景中只能体现一定的氛围,无法凸显出部分细节的信息。

实验反映了声音特征的特点:一方面S2VTAtt模型无法从整体上理解芦音的内容,将重心放在了无关的细节上,所以生成句子含有不相关的词汇导致1-gram匹配准确率下降,另一方面当模型抓住了声音所反映的细节信息可以提高整个句子的理解,所以4-gram匹配准确率反而会上升。

文中采用MFCC方法提取音频特征,体现了声音的频率和能量在时间轴上的分布,由于MSR-VTT数据集的种类太多,所以很难有效地抓住局部的主要细节,导致混入了很多不相关的成分。

参考文献:

[1] Venugopalan S,Rohrbach M,Don-ahue J,et al.Sequenceto Sequence -Video to Text[J].2015.

[2] Hara K,Kataoka H,Satoh Y.Learn-ing Spatio-TemporalFeatures with 3DResidual Net works for Action Recogni-tion[J].2017.

[3] Venugopalan S, Rohrbach M,Donahue J, et aI.Sequence to se-quence - video to text[C]//2015 lEEE Intemational Confer-ence on Computer Vision (ICCV).December 7-13,2015,Santia-go,Chile.lEEE,2015:45 34-4542.

[4] Laokulrat N,Plian S,Nishida N,etal. Generating video de-scription using sequence-to-sequence model withtemporal at-tention[C]//Proceedings ofCOLING 2016, the 26th Internation-al Con- ference on Computational Lin-guistics: Technical Pa-pers。2016: 44-52.

[5] Yao Li, Toi'abi A,Cho K,et al.De-scribing videos by exploit-ing tempo-ral structure[C]//Pro-ceedings of thelEEE interna-tional conference on com-puter vision, 2015: 4507-4515.

[6] Gupta, Shikha and .Jaafar, Jafreeza-1 and F at imah, et c.FE ATU RE EX-TRACTlON USING MFCC[Jl.Signal& ImageProcessing: An InternationaIJournal,2013,4(4): 101-108.

[7]張晓宇,张云华.基于融合特征的视频关键帧提取方法[J].计算机系统应用,2019,28(11):176-181.

[8]宗成庆.统计自然语言处理[M].2版.北京:清华大学出版社,2013.

【通联编辑:代影】

作者简介:袁华(1999-),男,江苏昆山人,东南大学吴健雄学院计算机科学与技术专业,本科生;张逸帆(1999-),男,江苏昆山人,东南大学信息科学与工程学院信息工程专业,本科生;陈安皓(1998-),男,江苏盐城人,东南大学吴健雄学院计算机科学与技术专业,本科生。

猜你喜欢

准确率神经网络特征
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
如何表达“特征”
神经网络抑制无线通信干扰探究
不忠诚的四个特征
高速公路车牌识别标识站准确率验证法
抓住特征巧观察
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用
基于支持向量机回归和RBF神经网络的PID整定
线性代数的应用特征