基于卷积神经网络的视频人体行为识别方法
2020-04-26荆于勤
荆于勤
摘 要
视频的人体行为识别是计算机视觉领域的研究热点,本文从时间流和空间流出发,设计卷积模型对视频数据进行处理,最后通过融合的结果进行行为识别分类,达到了较好的效果。
关键词
卷积网络;时间流;空间流
中图分类号: G633.6 文献标识码: A
DOI:10.19694/j.cnki.issn2095-2457.2020.04.82
0 前言
随着技术的发展,各种具有拍摄功能的智能设备越来越平价的应用在生活中,例如智能手机、视频监控等,随着智慧城市的建设,视频监控已经部署在了生活的各个公共区域,例如街道、店面、车站等,在医院、学校、景区等公共场所,也被监控探头覆盖,视频监控对公共安全起到了重要的作用。监控设备每天都有大量新的数据资源产生。海量的视频数据为信息挖掘提供了基础,但是也提出了更大的挑战,如果以人工的方式对海量视频进行分析和标注,工作量巨大,不仅会消耗大量的精力和财力,而且必定会有延迟,不能保证及时性和效率,不能实现24小时的实时监控。视频行为识别是计算机视觉的一个重要研究领域,是指从视频中自动识别出动作和行为,有着非常广泛的应用价值,例如应用在智能家居、智能医疗方面可以自动识别出人的摔倒等危险行为,及时发出警报保障人身安全。例如在安防监控等方面,识别出斗殴等危害大众安全的行为,及时避免大的安全事件的发生,因此,基于视频的人体行为识别的研究,具有重要的意义[1]。
行为识别的传统方式是图像特征由人工设计的,例如视频特征匹配法,将视频帧的底层特征提取出来与特征模板进行比较,时间顺序模型分析法如隐马尔可夫模型,把动作分解成相应的时间序列模型[2-3]。传统的方式特征提取泛化性不佳,实现起来复杂。近年来,深度学习在计算机视觉领域取得了丰硕的研究成果,采用深度学习处理图像和视频数据是研究的热点。例如卷积神经网络(Convolutional Neural Network,CNN)不需要手动进行特征提取,可以从训练样本中获取到底层特征信息,再通过多层卷积获取高层特征信息,应用到对图像、视频等数据的处理中,该方式属于无监督学习[4-5]。
1 卷积神经网络
1980年,Rumelhart、Williams、Hinton、LeCun 提出多层感知机网络模型,也就是神经网络,在1998年,LeCun提出了LeNet5也就是卷积神经网络模型,卷积神经网络已经有了“深度”,包含输入、卷积、池化、全连接、输出五个部分,每一层有着不同功能。图1是一种作用于图像分类中的卷积神经网络模型。
以图像或视频单帧作为输入,通过多层的卷积和池化操作,最后到达全连接层,从底层特征提取出高层特征。
每个卷积层通过卷积核对图像像素矩阵进行滑动扫描,整个过程的实质是一个矩阵的计算,针对不同的特征提取,选择不同的卷积核,通过卷积降低了网络模型的复杂度。
池化也称pooling,一般有两种池化方法,即均值和最大值。通过这一步骤,一方面特征图减小了,减少了参数的数量,计算复杂度减低,另一方面可以提取出主要特征,弱化不相干的特征。
在卷积的操作过程中,激活函数和损失函数对模型的训练和效果有很大的影响。激活函数将卷积的输出调整到一定的范围中,而损失函数用于衡量预测结果的优劣,对调整模型意义重大。
2 行为识别模型设计
视频数据由帧组成,并且包含时序信息,所以视频人体行为识别和图像的识别是有区别的,因此行为识别需要提取出时间信息和空间信息。视频人体行为识别模型结构如图2所示。
时间流卷积的输入为视频的连续多个帧,得到光流信息,从而表示了人的行為运动特征,空间流卷积的输入为视频的单帧,从中提取出场景等特征,在进行一系列卷积池化后,各自通过分类函数得到一个结果,最后将两个结果进行融合,得到最终的行为识别结果。
3 实验结果及分析
3.1 实验数据集
将融合的时间流和空间流模型进行视频人体行为识别,在HMDB51数据集上进行实验,HMDB51数据集拥有六千多视频资源,行为类别共计51个,每类视频分为训练数据和测试数据,训练数据用于前期对模型的训练,测试数据用于测试模型。
3.2 实验结果
实验在linux系统中完成,实验中对数据进行了数据增强等预处理,从每个训练视频中取出片段,进行稀释采样。模型经过多次训练以及调整优化,在实验中得到了79%的准确率。实验发现,视频集中的某些行为容易混淆,后续将在其他数据集中进行实验。
4 结束语
本文采用基于时间流和空间流的卷积方式对视频进行处理,识别人体行为,得到了较好的效果,不足之处在于前期训练时间较长,模型的识别准确率还可以进一步提高。
参考文献
[1]邵延华.基于计算机视觉的人体行为识别研究[D].重庆:重庆大学.2015.
[2]宋立飞.多尺度输入3D卷积融合双流模型的行为识别方法[J].计算机辅助设计与图形学学报,2018.11:2074-2083.
[3] 丰艳.基于时空注意力深度网络的视角无关性骨架行为识别[J].计算机辅助设计与图形学学报2018.12:2271-2277.
[4] 朱红蕾,朱昶胜,徐志刚.人体行为识别数据集研究进展[J].自动化学报.2018.44(06):20-46.
[5]单言虎.张彰,黄凯奇.人的视觉行为识别研究回顾、现状及展望[J]. 计算机研究与发展,2016,53(1):93-112.