APP下载

面向复杂环境的视频识别方法研究

2023-09-11张竣淞

华北科技学院学报 2023年4期
关键词:卷积模态特征

张竣淞,汪 洋

(1.中国传媒大学,北京 朝阳 100024;2.华北科技学院,北京 东燕郊 065201)

0 引言

如今数字时代生成了海量视频,在特定任务中需要对这些视频中目标元素或语义内容进行识别,如果仅靠人工进行辨别与标注将消耗大量人力,基于智能模型的视频识别技术孕育而生。本文针对人体动作或行为识别、场景识别以及情感识别三个经典视频识别任务,总结了面向复杂环境的视频识别方法。本文将这些方法分为两个主题——引入多源信息的方法、基于视频单源信息的方法。

面向复杂环境的视频识别任务主要挑战可以总结为三个方面,如下:

挑战一,如何滤除复杂环境的干扰信息?复杂环境下视频图像内容包含许多与目标任务无关的干扰信息,例如与目标形态相近的无关物体、复杂的景别环境、明暗交错的光环境等,智能模型需充分学习训练集数据,将与目标任务相关的信息抽象化、高维化和特征化,需保证特征的提取以及模型的解析是特定于任务的。

挑战二,如何进一步将识别目标进行凸显?复杂环境下识别目标往往存在部分遮挡或烟雾遮蔽等问题,给识别任务带来更大难度。模型需综合多方面的信息,将识别目标进行还原与凸显。多方面信息可以是来自同一环境下同一时间获取的识别目标的多模态信息,其对视频信息可进行补充,即多源信息;也可以是视频自身的时间或空间互补信息、语义综合,即视频自身的单源信息。

挑战三,如何针对视频内容高维语义进行概括?视频内容以RGB图像序列进行呈现。无论是分类还是拟合问题,视频识别都是与视频图像源域存在异构特性的高维语义提取任务,高维语义的智能归纳与总结存在一定困难。近年来,Transformer、YOLO、ResNet等大型深度学习模型框架面世,在超大海量数据的驱动下这些模型能较准确完成视频高维语义的重构,较好完成特定识别任务。但不得不承认,这些深度学习模型仅仅使用海量数据完成概率模型的参数训练,完成对客观事物的内容甄别或行为模拟,但模型缺乏概念的抽象概括与深入理解。

1 引入多源信息的视频识别方法

本文探讨面向复杂环境的视频识别任务,由于视频中的目标对象存在清晰度低、物体遮挡、场景复杂以及烟雾遮蔽等问题,研究者往往借助同一环境下同一时间获取的识别目标的其他模态信息,实现数据补充,发挥模态间的互补特性。

1.1 人体动作或行为识别

在进行人体动作或行为识别时,往往借助骨骼关节特征完成对深度序列的特征综合,克服视角变化或遮挡等带来的困难。

Jalal等[1]利用人体时空运动信息分割人体深度轮廓,并获取人体骨骼关节点;利用4个骨骼关节特征和1个体型特征串联而成时空多融合特征,其中骨骼关节特征包括基于躯干的距离特征、基于关键关节的距离特征、时空大小特征和时空方向角特征;采用矢量量化方法在码本中生成一个编码向量,对所提出的时空多融合特征进行降维;之后利用上述多融合特征的编码向量训练隐马尔可夫模型(Hidden Markov Model,HMM),实现了对人体动作的分类。Wang等[2]将三维骨架序列中携带的时空信息编码为多个二维图像,将它们称为联合轨迹图(Joint Trajectory Maps, JTM),并利用卷积神经网络判别特征进行实时人体动作识别,如图1所示。Ye等[3]提出了一种基于人体骨骼Hu不变矩结合人体几何特征的人体动作识别方法;首先,通过帧间差和背景相减提取前景;其次,对人体骨架进行Hu不变矩、最小边界矩形宽高比、矩形度和圆度的计算;最后,人类的行为被k近邻模型识别。

图1 基于联合轨迹图的卷积神经网络动作识别框架[3]

除了骨骼关节特征之外,研究者还会加入场景信息,提高人体动作或行为识别的精度。Xu等[4]认为人体骨骼具有很强的表达人类行为和动作的能力,然而场景信息常被忽略,由此提出了一种基于人体骨架和场景图像的人体动作识别双流模型;具体来说,利用人体骨骼的时空图卷积提取运动特征,利用一种基于视频稀疏帧采样和视频级共识策略的场景识别模型采集视觉场景信息;该模型充分利用了骨架信息在运动表达方面的优势和图像在场景表现方面的优势,将场景信息与基于时空图卷积的人体骨骼信息互补融合,实现人体动作识别。

1.2 场景识别

在面向复杂环境的视频场景、场地识别任务中,往往引入文本或声音等数据用以提高识别精度。

郭杰[5]在研究微视频场景识别时发现,微视频具有社交属性,通常含有大量评论,相关评论文本为视频场景识别提供了更多信息;针对微视频场景的不同模态之间关联性较弱的问题,郭杰提出了基于多模态互补的微视频场景检索方法;该方法充分利用多个模态的语义互补性,将多个模态融合成一个特征表示,进而通过多层感知机将该融合特征进行非线性变换,来自动学习每一维特征与场景语义的相关性;最后通过监督的哈希学习方法,学习既保持了类内相似性又具有判别性的哈希码表示,提高了场景检索效率和精度。

Kyperountas等[6]使用了视频和音频模态数据来进行场景变化的检测;具体来说,将音频帧投射到一个特征空间,用以发现因背景音频变化引起的音轨变化,并分析解释了所选择的音频子空间适合于检测场景变化;通过考虑一定的时序限制,将音频场景变化指示与视觉数据中的相邻镜头变化进行对齐,并将视频淡出效果进行识别和独立使用,用以跟踪场景的变化。实验结果表明,上述处理音视频信息的方法在处理场景变化检测问题时具有很好的互补性。

1.3 情感识别

视频、音频、文本等都蕴藏了丰富的情感信息,类似于人脑能自动关联多种感官数据进行判别,通常构建智能模型将多模态数据进行融合并对情感进行识别。模态融合方式主要分为特征级融合、决策层融合。

特征级融合又称之为前融合,它是在情感识别模型前端,将多模态特征进行加权串联在一起,然后再送入识别模型进行识别的过程,如图2所示。Wang等[7]介绍了一种新的核交叉模态因子分析方法,通过在变换域内最小化弗洛贝尼乌斯范数来确定能够表示两个不同特征子集之间耦合模式的最优变换。其利用核技巧对两个多维变量之间的非线性关系进行建模,比较核典型相关分析,找出投影方向,使用最大化相关性之间两种方式的核矩阵来进行融合,整合不同模态信息的核矩阵进行代数运算。Liu等[8]利用深度信念网络(Deep Belief Network,DBN)融合面部图像模态和语音声学模态的特征,再利用LIBSVM工具对素材进行情绪判断。

图2 特征级融合系统框图

决策层融合又称之为后融合,它先使用不同的识别模型对不同模态特征进行识别,再在各识别模型后端使用一个决策融合模型对多决策结果进行综合评判,如图3所示。Miao等[9]提出了一种基于分解双线性池(Factorized Bilinear Pooling, FBP)和对抗学习的多模态情绪识别模型;在该模型中,提出了一种多模态特征融合网络,在FBP的引导下对多模态特征进行编码,使视觉特征表示和文本特征表示相互学习;此外,还提出了一个对抗网络,通过引入两个判别分类任务,完成情感识别和多模态融合预测。Wei等[10]利用三维卷积神经网络深度学习架构提取人脸表情视频数据和心电图数据的时空特征,并进行情绪分类;之后分别在特征级层和决策层融合两种模式,给出情感识别结果;通过对比分析两种融合方法下单模态和多模态的实验结果,得出多模态情感识别的准确率比单模态情感识别的准确率大大提高,决策级融合比特征级融合更容易操作、更有效。Choe等[11]利用连续的情感空间来描述情感的产生和调节,并建立了一个包含视频、语音、文本等多个识别通道的融合模型;讨论了情绪表达的个人差异和识别通道可靠性影响条件;研究表明在线性变换假设下,情感空间的维度并不重要。

图3 决策层融合系统框图

2 基于视频单源信息的视频识别方法

在许多应用场景中,由于现场环境、部署成本等条件限制,仅能获取视频信息,需要使用更加高效算法完成仅基于视频自身的单源信息的视频识别任务。

2.1 人体动作或行为识别

常用的基于视频自身单源信息的人体动作或行为识别的模型架构有双流网络、3D卷积网络。

如图4所示,双流网络结构的主干是两个卷积网络(Convolutional Neural Networks,CNN)支路,两支路末端的输出使用一个分类的分融合单元进行最终的决策。上述两个CNN支路一个用于处理视频的RGB图像信息,另一个用于处理光流信息。为了更好的利用时间和空间信息,Feichtenhofer等[12]在双流网络中使用3D卷积融合与3D池化融合的方法,在时空邻域上进行抽象,节省了网络大量参数,并提高了模型性能。Dai等[13]对传统的双流网络进行了改造,双支路都使用了引入注意力机制的长短期记忆网络(Long Short-Term Memory,LSTM);考虑到两个深度特征流之间的相关性,还提出了一个深度特征关联层,在相关性判断的基础上调整深度学习网络参数。

图4 双路网络结构框架

如图5所示,3D卷积网络是在传统的2D空间卷积模型中加入时域卷积算法所得到的框架模型。Dibai等[14]基于可变的时间卷积核深度进行建模来完成动作识别任务,提出一种新的时间层结构,将其嵌入3D卷积网络中,将得到的网络结构命名为时域3D卷积网络。Wu等[15]提出一种新的姿态引导的膨胀3D卷积网络框架进行人体动作分类;首先,设计了一个时空姿态模块,为膨胀3D卷积网络提供了基本线索,模块由姿态估计和基于姿态的动作识别单元组成;其次,对于多人估计任务,引入的姿态估计网络可以确定与动作类别最相关的动作;再次,提出一种基于姿态的分层网络来学习人体姿态的时空特征,在不损失性能的前提下,将基于位姿的网络与I3D网络在最后的卷积层进行融合。

图5 3D卷积网络与3D卷积网络的对比

2.2 场景识别

为实现基于视频自身单源信息的场景识别任务,研究者往往深度挖掘视频在时域上的帧间关系、在空间上的目标物体位置关系以及视频语义信息。

Peng等[16]提出一种基于轨迹的动态场景识别方法;轨迹是由在视频段的连续帧之间移动的像素形成的,轨迹周围的局部区域提供了部分视频片段的目标外观和运动信息;首先,从视频片段中提取密集且均匀分布的轨迹;之后,使用预训练的CNN模型从每条轨迹中提取全连接层特征,形成特征序列;然后,将这些特征序列输入LSTM网络以学习它们的时间行为;最后,通过聚合轨迹信息,可以获得视频片段的全局表示,用以分类;LSTM使用合成轨迹特征序列代替真实轨迹特征序列进行训练。使用一系列生成对抗网络(Generative Adversarial Network, GANs)生成合成特征序列;除了分类之外,位于视频段中的特定类别的判别轨迹,有助于标记视频段的重要部分。

Adnan等[17]提出了一种基于CNN的图像多目标分割与场景识别方法;首先,采集图像并进行预处理后,利用CNN进行图像分割;之后,对这些分割后的目标提取CNN特征,并计算离散余弦变换和离散小波变换特征,在提取CNN特征和经典机器学习特征后,进行特征融合,并基于遗传算法(Genetic Algorithm,GA)选择最小特征集;然后,为了识别和理解场景中的多个目标,采用了一种神经模糊方法,提取物体对象之间的关系;最后,使用决策树,根据图像中已识别目标为场景分配相关标签。

Liu等[18]以配送中心叉车AGV设备为研究对象,探索基于深度CNN的叉车AGV设备场景识别与路径规划问题;根据仓储环境的特点,建立了应用于仓储环境场景识别的语义分割网络,提出了一种适用于仓储环境的场景识别方法,使设备可以使用深度学习方法学习环境特征,实现在大规模环境下的准确识别,而无需添加环境地标;为叉车AGV设备在仓库环境下的场景识别提供了一种有效的卷积神经网络模型。

2.3 情感识别

为实现基于视频自身单源信息的情感识别任务,研究者往往构建视频的高维情感表示空间,提取多帧视频图像的浅层与深层特征,并通过算法模型将浅层、深层特征映射到情感空间中,识别情感分类与甄别。

Kang等[20]提出了一种基于HMM的情感事件检测方法;为了将视频数据的低层特征映射到高层情感事件,对情感事件与低层特征之间的关系进行了研究;之后,计算情感特征的简单低级表示,并通过结合低级特征构建观察向量;将观察向量序列通过HMM进行情感事件检测。

Liu等[21]提出了一种利用两种新定义的几何特征——路标曲率和矢量路标进行人脸表情识别的方法;这些特征是从肌肉运动相关的面部各组成部分的特征点中提取的;该方法将基于支持向量机(Support Vector Machine,SVM)的分类方法与GA相结合,用于解决特征和参数选择的多属性优化问题;与基于CNN的方法相比,该方法采用了更简单的模型,在自动化系统中具备实时机器视觉应用的潜力。

如图6所示,Li等[22]为了估计视频中每一帧的情感水平,提出了一个用于估计面部情感水平的残差网络;使用多个记忆网络对帧之间的时序关系进行建模;最后,使用集成模型将多个记忆网络的预测结果进行组合。所提出的解决方案在均方误差(Mean Square Error,MSE)方面比基准模型提高了10.62%。

图6 带有情感水平注释的人脸示例[22]

3 结论

(1) 面向复杂环境的人体动作或行为、场景、情感等视频识别任务,主要有两种处理思想。一个是增加其他模态的多源信息,挖掘视频模态与其他模态的互补特性;另一个是在其他模态缺失的情况下,仅依靠视频自身单源信息,充分利用视频的时空信息以及语义综合,建立特征域与目标域的合理映射。

(2) 本文基于以上思路,分别就引入多源信息的方法以及基于视频单源信息的方法两个主题对面向复杂环境的视频识别任务做了总结。多源信息方法主要涉及多模态融合方案,通常决策层融合优于特征级融合方案。单源信息方法主要利用时域上的帧间关系,空间域上的目标物体位置关系,以及语义综合来完善模型。

(3) 面向复杂环境的视频识别任务在各行业领域都有广泛应用,随着应用深入对模型精度和处理速度提出了新的要求,未来视频识别智能模型的发展趋势是结合行业应用背景,引入先验知识简化参数,提高精度和处理速度。

猜你喜欢

卷积模态特征
基于3D-Winograd的快速卷积算法设计及FPGA实现
如何表达“特征”
从滤波器理解卷积
不忠诚的四个特征
基于傅里叶域卷积表示的目标跟踪算法
抓住特征巧观察
国内多模态教学研究回顾与展望
基于HHT和Prony算法的电力系统低频振荡模态识别
由单个模态构造对称简支梁的抗弯刚度
一种基于卷积神经网络的性别识别方法