基于相似性度量的人群计数方法
2021-03-22朱宇斌
朱宇斌
摘要:人群计数问题是计算机视觉领域的一个经典问题,旨在通过计算机的相关方法计算视频或图片场景中的人数,对控制关键场所人数、指挥公共交通、控制疫情蔓延、保障社会稳定具有重要积极意义。针对现有人群计数面临的背景干扰与目标遮挡问题,本文提出了基于相似性度量的人群计数方法。
关键词:人群计数;相似性度量;卷积神经网络
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2021)06-0179-02
1概述
整体来看,人群计数领域的方法主要有三大类[1] :基于检测的方法、基于回归的方法和基于 CNN 的方法。在人群计数发展初期,人们想到如果能够使用 模型准确地检测出视频或图片中的每个目标,那么可以很好地计算总数。故而文献[2]提出了基于检测的方法。由于其准确性和模型性能受到图像分辨率低、目标大小不一、目标重叠模糊等因素的限制,文献[3]提出基于回归的模型进一步提 升了效果。但回归模型的相关方法仍然忽视了空间尺度的相关信息,仅仅得到一 个计数结果而不能学习到目标的分布,其结果缺乏可信度和可解释性。近年来, 基于 CNN 的方法模型能够提取出有效的空间尺度、纹理特征等深层信息,在复杂监控环境下的图片和视频数据上表现优异,成为该领域的一大研究热点。 图1表示人群计数领域的里程碑,标注了人群计数网络的简要发展过程。近几年大趋势是使用基于多列和单列的网络结构,结合目标定 位和目标追踪等额外技术来设计人群计数网络,这也是未来的发展方向。
2基于相似性度量的人群计数方法
2.1 基于推土机距离的损失项
在统计学中,推土机距离(Earth mover's distance,又叫Wasserstein distance或Kantorovich-Rubinsterin metric)是用来衡量两个概率分布相似性的一种方法。顾名思义,假设在空间[D]上有两堆形状不同的土堆,则将把一堆土变形为另一堆土所需要花费的最小代价定义为推土机距离。严格来说,当两个概率分布具有相同的积分总和(即两堆土的总量是相等的),推土机距离的定义才有效,且等于一阶Wasserstein距离。
为了解决背景干扰问题,本节引入推土机距离来度量真实密度图和预测密度图之间的相似性:
其中[μ]、[v]分别代表原始密度图和预测密度图上的概率分布,[M,d]为对应图像的度量空间。
基于推土机距离的损失项优势在于可以直接度量预测密度图与真实密度图之间的相似性,来替代通过高斯模糊预处理数据来度量预测密度图与模糊后的真实密度图的相似性。也就是说,使用高斯模糊来预处理数据会使目标与背景融为一体、难以分辨,即使训练得到的模型损失很低,该模型学习到的仍然是模糊的真实密度图。本节提出的基于推土机距离的损失项正是避开了这个问题来直接度量。从理论上说,使用该损失项训练得到的模型预期效果应当优于使用模糊的真实密度图训练的模型。
2.2 基于全变差距离的损失项
全变差(Total Variation)在数学中原本定义为曲线的一维弧长。对样本空间[Ω]上的两个概率分布[P]、[Q],其全变差为:
基于全变差距离的损失项优势在于可以通过度量概率分布的总变化来计算预测密度图与真实密度图之间的差异大小,从而削弱由目标遮挡带来的计数影响。换句话说,当图片中的目标被物体遮挡变得难以辨别时,全变差距离能够敏感地发现模型因该目标造成的计数误差,并直观地通过损失项的值来反映误差的大小。因此本节提出的基于全变差距离的损失项能够从一定程度上缓解目标遮挡问题,使用该损失项训练得到的模型预期效果应当优于未解决目标遮挡问题的模型。
2.3基于相似性度量的人群计数网络
近年来,人群计数算法常基于迁移学习,将预训练好的卷积神经网络作为主干,添加额外的网络模块来进行训练。迁移学习是一种机器学习方法,是将已有问题的解决模型利用在其他相关问题上,例如用来辨别车辆的模型也可以被用来辨别船只。
为了验证本文提出的基于相似性度量的损失函数在人群计数问题上的效果,实验将基于迁移学习,直接使用该损失函数来训练VGG16网络,网络模型的结构如图2所示。
本文实验直接使用VGG16网络的优势在于:
1)可以直接使用预训练好的权重来微调网络,进行迁移学习,大大节省资源开销,提升训练速度;
2)在人群计数问题中,相比于其他经典卷积神经网络,VGG16更多地被作为主干网络来设计模型,这使得本文实验具有参考价值;
3)VGG16是一个简洁高效的卷积神经网络,可以更纯粹地评估本文提出的损失函数的效果。
3 实验结果与分析
3.1 实验数据集与评价指标
为了验证提出方法的效果,本文将使用目前公开的Shanghai Tech数据集进行实验。在人群计數问题中存在多种模型评价指标,最常用的评价指标为平均绝对误差(MAE)和均方根误差(RMSE)。
3.2实验结果与分析
表1展示了基于相似性度量的人群计数方法与经典人群计数方法在Shanghai Tech数据集上的实验结果和对比。图3 为对应的预测效果。
通过定性分析各数据集上的实验效果可以发现,本文设计的基于相似性度量的人群计数方法能够很好地缓解人群计数问题中背景干扰和目标遮挡问题。
4总结
为了缓解人群计数问题中背景干扰和目标遮挡两大问题,本文从理论出发,引入了推土机距离和全变差距离来度量预测密度图和真实密度图之间的相似性,进一步提出了基于相似性度量的损失函数。基于推土机距离的损失项优势在于可以避免使用高斯模糊处理造成目标与背景融为一体的情况直接度量预测密度图与真实密度图的差异。基于全变差距离的损失项优势在于可以度量概率分布的总变化来削弱由目标遮挡带来的计数影响。通过实验最终证明了该方法的有效性,能够在一定程度上缓解背景干扰和目标遮挡两大问题。
参考文献:
[1] Sindagi V A,Patel V M.A survey of recent advances in CNN-based single image crowd counting and density estimation[J].Pattern Recognition Letters,2018,107:3-16.
[2] Wu B,Nevatia R.Detection of multiple,partially occluded humans in a single image by Bayesian combination of edgelet part detectors[C]//Tenth IEEE International Conference on Computer Vision (ICCV'05) Volume 1.October 17-21,2005,Beijing,China.IEEE,2005:90-97.
[3] Chan A B,Liang Z S John,Vasconcelos N.Privacy preserving crowd monitoring:Counting people without people models or tracking[C]//2008 IEEE Conference on Computer Vision and Pattern Recognition.June 23-28,2008,Anchorage,AK,USA.IEEE,2008:1-7.
[4] Zhang Y Y,Zhou D S,Chen S Q,et al.Single-image crowd counting via multi-column convolutional neural network[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).June 27-30,2016,Las Vegas,NV,USA.IEEE,2016:589-597.
[5] Sam D B,Surya S,Babu R V.Switching convolutional neural network for crowd counting[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).July 21-26,2017,Honolulu,HI,USA.IEEE,2017:4031-4039.
[6] Li Y H,Zhang X F,Chen D M.CSRNet:dilated convolutional neural networks for understanding the highly congested scenes[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:1091-1100.
【通聯编辑:光文玲】