深度学习在视频监控人群计数的研究
2020-07-04王勇谢旭轩王瑛
王勇 谢旭轩 王瑛
摘要:人群计数在智能视频监控领域是一个研究的热点。传统的人群统计技术,在低密度人群场景中有很好的效果,但是在高密度场景中表现欠佳。随着卷积神经网络在图像处理的技术突破,其具有对非线性映射的强大的学习能力,也适用于人群计数模型从图像到人群数量非线性的关系。文中叙述了传统的人群计数方法,介绍了基于卷积神经网络的经典模型,最后介绍了密度图的生成原理。
关键词:人群计数;视频监控;卷积神经网络
中图分类号:TP18 文献标识码:A
文章编号:1009-3044(2020)15-0237-02
1引言
随着我国科技技术突破,推动视频监控设备迅速普及建设。传统的视频监依赖工作人员对数据进行存储、回放、捕抓。这种人工处理方式是非常耗时,处理的信息滞后,无法对一些紧急安全状况作出预警和报警。随着计算机视觉的发展,智能视频监控应运而生,智能视频监控够对动态视频图像进行检测和识别,进而对目标进行分析和理解,在公共安全、交通状态等监控有广泛的应用。它抛弃了低效率人工处理方式,实现高效处理视频数据,让视频监控设备更智能化,促进了智慧城市的建设。而人群计数是智能视频监控领域的一个重要研究热点。
人群计数在智能视频监控领域应用主要是在车站、广场等易发生突发事件区域。2015上海外滩广场踩踏事件,主要原因人群过度拥挤导致人员摔倒发生叠压,致使踩踏事件酿成。这直接导致的原因就是对高密度人群流量实时信息掌控能力不足,如果能通过智能视频监控对现场密集人群进行智能分析及时预警,便能避免类似突发事件的发生。早期研究人员基于检测、回归、密度估计等方法实现了人群计数,但这些模型大多都要经过对图像进行前景分割处理,而前景分割是一件很复杂的事情,及其影响性能,而基于深度学习实现了端到端的模型训练,具有很好的模型泛化、特征表达能力,使得在人群计数有广泛的应用,相比传统的方法在性能、准确度上有显著提高。
2研究现状
2.1传统方法
传统的人群计数主要分为直接和间接模型,直接模型包括基于检测器方法;间接模型主要是基于回归方法和基于密度估计。早期研究人员主要是通过滑动窗口检测器提取图像中整体特征来检测行人达到定量目的。整体的特征包括:Hoar小波、Edgelet特征等,然后通过分类器boost、随机森林、支持向量机来学习以上特征;但是基于整体特征的模型适合低密度数据集,而对于高密度数据集效果很差。针对高密度集遮挡的场景,通过局部检测的方法,利用人体某些特定部位,如人头和肩膀表示人群特征。在遮挡的情况下局部特征相对于整体特征是比较容易提取的,使其结果更加准确。基于回归的方法,针对的是具有复杂的前景图像,通过回归模型建立人群特征和人群数量的映射函数,常用的回归模型特征有边缘、像素等,然后通过回归模型SVM、线性回归等来拟合人群特征和人群数量的函数关系。密度估计是基于回归方法等改进,该类模型建立的是人群特征和人群数量的非线性关系,在高密度场景特征提取融合了空间信息,Zou Y通过学习子空间中局部图像特征和局部密度图之间的线性关系,通过子空间的线性关系来代替整体空间的非线性关系来降低模型计算复杂度。
2.2基于深度学习模型
近年来随着GPU的技术的突破,深度学习在图像处理有很大的改进,特别是基于CNN模型的应用迅速普及,CNN具有很强的非线性学习能力,这点在人群计数中有很大的优势。基于深度学习算法的人群计数实现了视频数据端到端的训练,抛弃了传统的回归算法需要进行前景分割。通过多层卷积提取的高层语义特征使得算法性能更加高效。
Y.Zhang等提出的MCNN模型,主要由不同大小的卷积核组成的三列卷积网络,通过三列卷积网络分别提取不同尺度人群图像特征,然后将不同尺度特征经过1x1卷积核融合,达到增强模型稳定性目的。该模型从任意视角和不同密度估计人群数量,它的每列能够自适应不同尺度特征变化,对不同场景用不同核大小卷积运算提取不同尺度特征。
D.B.Samm等提出的SWITCHCNN,该模型在MCNN回归网络模型上增加了一个选择分類器网络。它首先对输入的视频帧数据进行局部采样,将图像分为不同的局部,作为分类器网络的输入。然后通过switch开关选择最佳的回归网络,最终得出每个局部相应的密度图。模型优点就是利用了视频图像不同帧之间人群密度变化来提高预测人群估计的准确性。它的回归网络具有不同的感受域,针对各自适应特定的规模输入,使得该模型在大规模和透视变化中具有鲁棒性。
Y.Li,x.Zhang等设计的CSRNET模型,该网络主要包含前后两个部分,前部分是一个卷积网络用来提取2D特征,后部分是一个空洞卷积网络使用扩张卷积内核来提取高密度集场景中多尺度上下文信息代替来池化操作。采用了端到端的训练方法。该模型摒弃了多列网络膨胀的网络结构,这种网络设计参数较多,计算复杂,性能低。而且后端空洞卷积网络能够更容易提取人头的边缘信息,从而得到更高的精度,在高密度集场景中具有很好的性能。
3基于密度图生成原理
基于深度学习的人群计数,它的输入是一张完整图片,通过端到端的训练输出是密度图,然后对密度图回归积分(对像素点累加)就是最终要得图片的相应数量。在模型网络训练之前先对图片中人头位置(xi)进行标注,记为δ(x-xi),那么这张图片可以通过如下公式(1)数量化
4总结
基于深度学习的人群计数在近几年受到了研究人员的广泛关注,相比传统的人群计数,卷积神经网络强大的特征提取能力,在人群计数非线性关系中效果很好,对人群特征表征能力强,对人群计数存在的遮挡、光照、图像透视畸形问题,提供了很好的解决方案。