APP下载

人群密度估计现状与发展趋势探讨

2021-06-28钮嘉铭

科学与信息化 2021年17期
关键词:尺度卷积像素

钮嘉铭

武警工程大学信息工程学院 陕西 西安 710086

1 传统方法

1.1 基于检测的方法

在早期的研究中,人们主要采用基于检测的方法。根据采用的检测器的不同,可以将其分为整体检测法与部件检测法两种方法。Li等人[1]考虑到头部形状的变化对任务的不利影响,采用结合了头部与肩部的检测器来从分割出来的前景中检测人体并进行计数。Zhao等人[2]进一步使用3D模型对人体进行建模,并在此基础上得到人群计数结果。

1.2 基于回归的方法

基于回归的方法在进行训练时跳过检测直接学习从图像到人群计数的映射。其通常分特征提取与回归建模两步来进行。Davies等人经分析得出人群密集程度与图像前景及边缘像素的个数成正比,并进一步设计了基于像素的回归方法来估计密度。Marana等人认为人群密度与图像纹理特征也存在一定关系,并引入了灰度共生矩阵来对图像的纹理特征进行描述。

1.3 基于密度估计的方法

基于密度估计的方法不仅可以一定程度上消除遮挡与背景杂波的影响,而且也能解决回归模型无法得到人群空间信息的问题。Lemptisky等人[3]通过学习局部特征与密度图之间的线性映射将空间信息引入到密度估计模型中。Pham等人利用随机森林建立了图像与密度图之间的非线性映射,取得了不错的结果。

2 基于CNN的方法

传统方法特别是基于密度估计的方法使人群密度估计任务的效果得到了提升,但是其使用的特征往往受制于人工提取烦琐复杂的缺点,无法适应尺度变化、光照变化及透视失真等干扰的影响。自在目标分类上取得巨大的成功后,卷积神经网络不断地被人们应用到其他领域中。Fu等人将CNN引入密度估计模型中。其后,Wang等人于2015年10月设计了一个端到端的网络,并利用网络建立了图像与人群密度间的映射。

2.1 多列网络

由透视失真及拍摄角度等造成的尺度变化是限制密度估计模型性能的主要因素,为此,人们引入了多列网络模型,通常不同的列对应不同的尺度。Zhang等人设计的MCNN由三列具有不同感受野的CNN组成,较好地解决了尺度变化问题。Onoro等人使用了一种金字塔结构来感知尺度变化,构建了Hydra-CNN模型。Boominathan等人则建立了一种包含深层和浅层两列网络的模型CrowdNet来解决由拍摄视角等的不同带来的尺度变化问题。

2.2 单列网络

考虑到多列结构存在训练过拟合、参数量大、计算复杂及尺度适应性弱等缺点,人们提出了单列网络模型。Li等人在提出的模型CSRNet中引入了空洞卷积。他们利用空洞卷积可获取更多特征细节的特点很好地提升了网络提取多尺度特征的能力,使模型得到了很好的估计结果。Chen等人使用尺度金字塔模块SPM来提取多尺度特征,取得了良好的效果。同样地,Dai等人也利用扩张卷积块构建了一个单列模型DSNet。Cao等人基于编解码器模型提出了一种尺度聚集网络SANet。它包括编码器和解码器两部分。更进一步,Jiang等人使用多尺度编码器和多路径解码器构建了TEDNet,为解决尺度变化问题提供了新思路。

3 Ground Truth的生成

为了完成训练,我们不仅需要输入原始的人群图片,也需要将对应的Ground Truth作为标签输入模型。高质量标签对模型性能的提升具有重要意义。研究人员通常使用高斯自适应核函数将人头坐标数据转化为Ground Truth图。该过程的定义如下:

其中,F(x)表示 Ground Truth图,N表示图片中的像素数量,Gσ(x)表示高斯核,xi表示图片中的像素。

4 总结

4.1 存在的问题

近些年来,随着CNN的快速发展及广泛应用,人群密度估计模型的性能得到了逐步提升,但仍有一些问题没有得到很好的解决。现有模型在遮挡严重的高密度场景中的效果还需加强。照明、天气条件对估计效果的影响还未得到很好的改善。现有的高质量数据集的数据量及多样性等略有不足。

4.2 展望

4.2.1 目前的密度估计模型大都是针对单个图片而设计的,在处理视频方面可能仍有欠缺。相对于单个图像,对视频的人群密度进行估计可能更具有现实意义当然也更复杂,因此,未来会有更多的人往这方面发力。

4.2.2 损失函数对模型的性能有着重要影响。与以前的方法不同,研究者往往会经典的欧式损失的基础上引入结构相似性损失、对抗性损失等损失函数,这在之后的研究中也是需考虑的因素。

猜你喜欢

尺度卷积像素
像素前线之“幻影”2000
基于3D-Winograd的快速卷积算法设计及FPGA实现
财产的五大尺度和五重应对
卷积神经网络的分析与设计
“像素”仙人掌
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
宇宙的尺度
高像素不是全部
9