视频场景中的暴力行为识别上的关键技术研究
2021-11-07范玉红魏向鑫
范玉红 魏向鑫
摘要:对于视频场景中的一些异常行为(暴力行为)识别技术,本文重点研究深度学习邻接层间的度量机制和跨层学习方法,建立深度暴力特征网络框架,以及研究基于改进的稀疏表达分类的检测框架,实现进一步提升识别能力并达到实际监控应用。
关键词:视频场景;暴力行为;识别技术
中图分类号:G642 文献标识码:A
文章编号:1009-3044(2021)25-0116-02
社会焦点问题之一就是如何保障公共安全问题。如今摄像头广泛地应用于银行、车站、办公楼、小区等各种公共场所。因此,研究能够自动检测异常事件(如暴力事件)的智能视频监控系统是非常重要的。如果能解决这一问题,无疑将为社会保障增加更多筹码,它也将对促进人工智能技术的发展起到巨大的作用。
本文重点研究深度学习邻接层间的度量机制和跨层学习方法,建立深度暴力特征网络框架,以及研究基于改进的稀疏表达分类的检测框架,实现进一步提升识别能力并达到实际监控应用。
1 异常识别
异常行为的解释基于不同的应用场景。异常行为识别的研究分为两个步骤:1)对视频序列进行处理,包括前景背景分离和特征提取;2)目标行为模式识别与分类。目前,常用的前景和背景分离方法包括高斯混合模式[7],相邻帧差分法[8],等等这些方法可以实现良好的检测效果与小灯对比变化在静态场景中,但是他们会被各种干扰因素在动态场景。它对光的变化、叶片的扰动、阳光下性状的反射和水面的波动非常敏感。在人体轮廓图像序列特征提取这一方面,大多数研究者使用全局表示法,其中Bobick等[7]通过构造运动能量图和改进的运动历史图来描述运动变化。Souvenir 等人[10]通过将一系列人体剪影图像构建成三维时空体块来描述运动。Gorelick等[11]根据动作行为发生的时间序列和顺序,将人体剪影图像序列进行排列,构建人体的时空形态,以表征行为。上面的方法添加高纬度数据信息,如时间序列或时空二维的基础上深度信息来描述时空运动更准确,但有许多后续处理,如提取目标运动的地区利益和优化降维的高维运动数据。
2 本文方法
2.1 建立基于深度学习的暴力特征网络模型和其优化方案
“高层特征提取”问题是个难点。我们尝试研究分析人眼视觉在此问题上的一些机理。如数个人在一起打架,人眼能够认识到这些是一体的行为,属于同一个整体。一般打架行为都会存在多个个体之间的交互行为;从语义上可推理识别出来的,训练库中也包含这类的样本。因而需要研究模拟相关视觉机理的模型或算法,并研究充分利用上下文和肢体的各种 语义条件,及研究分析训练库中已知打架行为特征模式图。具体地,对每个肢体子集建立可见肢体配对的图模型,融入视觉机理的模型和语义信息,然后研究进行匹配识别的理论模型,提出相应的特征提取算法。并且考虑到视频数据量大,不宜设计层数多的网络模型。
我们拟提出以下深度模型框架:
如图1所示,考虑到视频数据的高维特征,我们拟设计一个三层的网络结构来刻画暴力的深度特征。[W1,W2,W3,W4]分别代表层与层之间的加权值,[R2]分别描述输入层与输出层之间的误差,[R1]描述初级层与高级层之间的误差。通过设计这样一个带有图结构网络模型,我们希望可以降低网络层的重构误差,让高级层学习得到的特征更加具有代表性,为了帮助学习,在每一层之间我们设置了加权值进行归一化处理。
此外,为了更好地挖掘暴力行为的序列帧特征,我们拟设计如图2 所示的结果,它可以看作是一个高斯的马尔科夫结构状态过程,该模型具有更好的可伸缩性,与以往的序列特征模型算法相比,它可以很容易地从更长的时间序列中学习到判别性的特征。因此,在本项目的研究中,如何对上述结构更好地模拟建模是需要着重研究的内容。
2.2 联合优化准则或算法
在此框架下,为了有效地发挥深度学习的特性来提升特征的区分能力,我们重点研究深度学习邻接层间的度量机制和跨层学习方法,及深入思考基于深度学习对暴力行为特征提取的理论模型和框架,提出相应的优化准则和算法。
1)研究基于稀疏表示的分类算法
由于暴力行为具备特有的特征,本课题研究基于特定类的稀疏分类的方法。考虑加入使得不同类的字典相互独立的条件,研究在原模型中加入约束项来增强学习的能力,及整个字典学习和优化方法。
2) 设计稀疏分类模型
3) 设计优化策略
我们可以证明式(5)是非凸的,這是一个看似不可解的问题。但当其他变量固定时,求解变量D、W或Z是凸的,本文将求解问题分解为三个子问题,即交替求解Z、D或W:变化Z(固定D和W),变化D(固定W和Z),变化W(固定D和Z)。在未来的理论研究中,还需要研究基于稀疏分类的优化算法,为上述模型优化问题的子问题寻找最合理的解决方案。
2.3结果验证
基于深度学习的特征提取和基于稀疏表示的分类思路符合识别的内在本质,能有效感知及描述异常行为的特征。本文提出更灵活的深度模型及其优化算法、稀疏降维模型及其优化算法和稀疏分类模型及其优化算法,经实验验证,是可行的。
参考文献:
[1] Christine T. Clarin, M. Dionisio, Michael T. Echavez. DOVE: Detection of Movie Violence using Motion Intensity Analysis on Skin and Blood[J]. Pcsc, 2005.
[2] Fillipe D. M. de Souza, Guillermo C. Chavez, Eduardo A. do Valle Jr., Arnaldo de A. Araujo. Violence Detection in Video Using Spatio-Temporal Features.[C]. 2012 25th SIBGRAPI Conference on Graphics, Patterns and Images. IEEE, 2010:224-230.
[3] Hassner T,Itcher Y,Kliper-Gross O.Violent flows:Real-time detection of violent crowd behavior[C]//2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops.June 16-21,2012,Providence,RI,USA.IEEE,2012:1-6.
[4] 舒毅,邢玉娟.基于i-向量和PCA字典学习稀疏表示的说话人确认[J].计算机工程与应用,2016,52(18):144-147,166.
【通联编辑:王力】