基于深度神经网络和自注意力的视频事件描述

2020-12-28孙红莲李永刚季兴隆王霈烨吴小旭

电脑知识与技术 2020年33期

孙红莲李永刚季兴隆王霈烨吴小旭

摘要：如今，视频事件检测正在越来越广泛地被应用于智能视频监控领域，其中采用的最广泛的检测方法是事件描述。自注意力机制可以实现自动关注到图像的核心区域，并利用编码和解码方法转化为图像描述。本文提出了一种深度学习和自注意力机制的视频事件描述方法，该方法首先提取视频中有代表性的关键帧，然后基于深度学习模型和注意力机制生成每个关键帧的图像描述，最后生成视频的事件描述。实验结果表明，本文方法能够很好地关注到事件发生区域，并生成高质量的视频事件描述。

关键词：注意力机制;视频事件描述;深度学习

中图分类号：TP75文献标识码：A

文章编号：1009-3044（2020）33-0187-03

开放科学（资源服务）标识码（OSID）：

1 概述

在這个经济迅速发展、科技不断发达、人民生活水平日益提高的时代大背景下，人们迫切地希望实现一种更高质量的生活方式。为了满足人们对于美好生活的需求，我国的餐饮行业、娱乐行业等呈现出一派欣欣向荣的景象，但是与此同时，难免会造成某些公共场所出现人群拥挤的现象，因而存在各种安全隐患，对我国的公共管理带来了极大地挑战。

为了消除安全隐患，我国相关部门在各地安装了种种监控设备。但是传统的监控设备只能记录现实生活发生的事件，无法判断是否有异常事件发生，需要依靠大量人力持续地查看监控，难免容易出现漏检、误检等一系列失误。为了尽可能地降低出现类似失误的可能性，本文提出了一种图像事件描述系统，用于描述监控视频的事件。

图像事件描述系统本质上就是利用计算机，实现根据图像的内容输出描述其画面的语句，它通过在传统的视频监控系统中融人深度学习技术实现，经常被用于视频异常事件检测。在过去，关于图像描述的很多方法曾经被发现，如基于检索、模板或注意力机制[1]等技术实现的图像描述方法。本文采用了深度学习和注意力机制技术首先实现了对图像的描述，进而实现对视频事件的描述。

在监控视频中，存在着大量的数据，信息十分丰富，在结构说明中，可分为故事单元、场景、镜头和帧这四个层次，其中，帧是静态图像，处理视频信息是长视频从中缩短到包含信息的短片，然后在包含信息的短片中，过滤出关键帧。图像事件描述的关键在于有效关键帧的提取，实现这个技术就可以明显降低视频段间的关系复杂度。由于图像事件描述涉及图像处理、模式识别[2]、机器学习等众多学科领域，过去的方法无法满足现在的异常事件描述的需要。鉴于此，本文提出了一种结合深度学习和注意力机制的视频事件描述方法，能够很好地关注到事件发生区域，并生成高质量的视频事件描述。

2 系统架构与设计

图像事件描述系统遵循简单、开发速度快、可扩展性强、易操作、反应快的原则。图像文本描述模型包括图像特征提取和描述的创建，其结构较复杂，参数较多，操作等待时间较长，约4秒生成，其功能框架图如图1所示。

本系统采用了一种深度神经网络模型（如图2所示），该模型是由编码器和解码器组成的，其中在编码器端采用了CNN网络Inception-v4和Inception-ResNet-v2c3]来提取图像的视觉特征，解码器端采用了循环神经网络RNN中的LSTM和GRU负责句子的生成，它们融合了注意力机制来降低卷积过程的损失，有利于提取更好的图像视觉特征。

3 系统功能实现

3.1 帧间差分计算

帧差分法通过差分两个连续帧来获得运动目标轮廓[4]，如果发现图像序列中有异常对象发生移动，就说明前后两帧之间存在大量的差异，于是将两帧相减，并将图像的相应像素对应得到的差的绝对值与某一阈值比较，从而分析视频或图像序列中对象的运动特性。

3.2 关键帧提取

关键帧的提取采取基于帧间差分的提取方式，差分相邻两帧的图像，获得的图像平均像素强度用于判断两帧图像的变化程度。由此可知，关键帧是指视频中的某一帧与前一帧的图像内容发生了较大变化，需要将其提取出来，即依次计算相邻两帧之间的帧间差分，获得图像平均像素强度，最后选择强度最大值的帧作为关键帧提取出来。

3.3 自适应注意力机制

注意力指人类在外界环境中做出反应的一种特有机制。人类的注意力信号大致可以划分为两种：一种是自底向上的注意力，这种信号一般是因为人受外界刺激，从而被动地接收;另一种是自顶向下的注意力，这种信号一般是人受当前任务的驱动，是由人的主动意识控制的。

特征图的每一通道都是由一组卷积核对上一层的特征块进行卷积后得到的，可将其对应为自底向上的局部空间特征提取器，因此特征块的通道可以认为是图像的不同语义部分。通过使用卷积核，可以得到输入图像的特征编码，而通过注意力机制进行编码，则可以实现对不同位置、不同通道的特征进行解耦。由此可见，添加注意力机制后得到的特征图，类似于对空间、通道信息的重新校准，有助于简化解码过程。

由于注意力机制可以明显提升序列数据的学习效果[5]，本文在解码阶段采用自注意力机制，在Attention层中对目标数据进行相似性的衡量操作和加权转换，优化生成的序列数据[5]的质量。

3.3.1 基于注意力机制的图片描述生成算法

3.3.2 优化的自注意力机制

注意力机制在生成一个单词时，只关注图像的部分区域，并不关注之前已经生成的单词，无法预测后面可能出现的单词，因而效率较低。为了解决这个问题，本文对传统的注意力机制进行了优化，以提高效率。

优化后的自注意力机制模型可以实现：决定系统在某一时刻是依靠图像信息进行描述，还是依靠文本信息进行描述，如果决定依靠图像信息，模型就会进一步自动决定关注图像的哪部分区域。通过在LSTM中引入一个向量，从而实现控制存储注意力机制关注的文本信息：

4 实验结果分析

4.1 实验环境设置

本实验基于PyTorch环境[6]开发，终端基于Python语言[7]开发。数据集采用了CCV数据集[8]，以及在互联网上进行一系列查找之后，得到的视频。

4.2 实验结果与分析

测试视频，第一步需要利用本文所提出的关键帧提取算法，提取出测试视频中所包含的关键帧，如图4所示。可以看到，抽取的关键帧较好地代表了视频的关键信息，对后期进行视频描述工作起到了很大的辅助作用。

对于测试视频中提取的每个关键帧，本文均采取了自注意力机制进行图像描述，具体实现如图5所示。其中，图5（a）是根据图4（a）关键帧生成的注意力图以及图像描述，从图5（a）中可以看出，在该图像中，注意力可以自动关注图像的不同区域，从而生成不同的单词，进而组成句子。图5（a）的第三张图的注意力区域几乎完美覆盖了路上的汽车，也就生成了单词“car”，图5（a）的第四张图的注意力区域则覆盖了汽车、路面和路况，生成单词“driving”则就更加合理。同样，图5（a）的其他注意力图也较好地解码为合理的单词。由图4（a）生成的图像描述语句“Acar driving down a highway next to a bridge”很好地描绘了图像中发生的事件，即：一辆汽车沿着公路驶过一座桥。

图5（b）是按照图4（b）关键帧生成的注意力图以及图像描述，从图4（b）中可以发现，图像的注意力主要集中在近景及路面上，因此，图中的事件集中在“Driving down the road”.从逻辑上看也比较合理。图4（c）是由图4（c）生成的注意力图和图像描述，该图很好地关注到了远方的多个车辆，与图5（a）、5（b）中生成“car”的注意力图只有一个亮区域相比，图5（c）中的“traffic”注意力图有两个亮区域，该图描述为“Filled with lots of traffic”就显得非常合理。图4（d）是从车内视角拍摄的愿景图，因此图5（d）的注意力也主要集中在远景区域，“skyline”一词很好地描述了图像的中心内容。

基于图5中各个视频的关键帧生成的图像描述，就能够获得一个比较完整的视频事件描述，如图6所示。从该视频描述可以看出，本文方法生成的视频事件描述较为合理和完备地描述了视频发生的整个事件，与单一图像描述相比，具有明显的优势。

5 结束语

考虑到传统的视频事件描述方法存在的不足之处，本文对此进行了优化，提出了一种基于注意力机制的视频事件描述系统。相比于传统的视频事件描述方法，本文在解码阶段采用自注意力机制进行优化，从而提高了生成句子的内容丰富性。

参考文献：

[1] Xu K，Ba J L，Kiros R，et aI.Show，attend and tell：neural imagecaption generation with visual attention[C]//ICML， 15： Proceed-ings of the 32nd International Conference on InternationalConference on Machine Learning - Volume 37.2015： 2048-2057.

[2]胡学龙，数字图像处理[M].2版.北京：电子工业出版社，2011.

[3] Szegedy C，loffe S，Vanhoucke V，et al.lnception-v4，inception-ResNet and the impact of residual connections on learning[EB/OL]. 2016： arXiv： 1602.0726l[cs. CVl. https：//arxiv. org/abs/1602.07261

[4]薛麗霞，罗艳丽，王佐成.基于帧间差分的自适应运动目标检测方法[J].计算机应用研究，2011，28（4）：1551-1552。1559.

【通联编辑：闻翔军】

作者简介：孙红莲（1999-），女，浙江湖州人，本科在读，主要研究领域为视频图像处理;李永刚（1979-），男，河南确山人，博士，副教授，研究方向为智能信息处理、图像视频处理。

猜你喜欢

注意力机制深度学习

基于LSTM?Attention神经网络的文本特征提取方法

InsunKBQA：一个基于知识库的问答系统

基于深度神经网络和自注意力的视频事件描述

猜你喜欢

杂志排行

电脑知识与技术的其它文章