APP下载

基于独立区域3D注意力机制的人群位置计数方法

2022-05-19张天飞龙海燕周荣强

平顶山学院学报 2022年2期
关键词:计数密度损失

张天飞,龙海燕,丁 娇,周荣强

(1.安徽信息工程学院 电气与电子工程学院,安徽 芜湖 241000;2. 杭州智棱科技有限公司,浙江 杭州 310000)

0 引言

随着我国经济社会的快速发展,城市化建设步伐快速推进,城市人口急剧增长,商场、飞机场、火车站及医院的门诊大厅等公共场所时常出现人群高度聚集的现象,当有突发状况发生时,容易因为拥挤导致踩踏事故发生,存在着巨大的安全隐患.因此,准确预测场景中的人数可以有效地进行人流管控和安防部署,对于社会公共安全具有重要的意义.此外,人群计数结果还可应用于楼宇能源管理等领域,积极响应国家节能减排号召,具有广泛的应用价值.

目前,人群计数方法大致分为传统方法和深度学习方法.传统方法主要有基于检测的方法和基于回归的方法,基于深度学习的方法主要有基于密度图的方法和基于位置的方法[1].基于密度图的方法,是通过深度网络模型进行训练生成一个人群密度图,然后根据此密度图估算人群数量.Li等[2]提出了使用膨胀卷积代替卷积+池化+反卷积方案(CSRNet),在不改变分辨率的情况下扩大感受野以提取更深的特征.Ma等[3]提出使用概率密度期望值与标注点设计成贝叶斯损失,进行回归估计,提高了计数的准确性,但是该损失需要选择一个合适的高斯核为每个人构建似然函数,这个高斯核尺寸的选择可能影响结果,并且构建的这个损失可能存在类似一个欠定方程组的无穷多解.Wang等[4]使用最优传输(OT)来测量归一化的预测密度图和归一化的地面真实密度图之间的相似度.Lin等[5]使用多尺度自监督方法和Sinkhorn散度的一致性损失来抵制尺度变化带来的影响,并将生成的密度图直接与标注点进行回归训练.基于位置的方法,是通过预测每个人的位置来评估人群计数情况.Hu等[6]提出的检测器将尺度、分辨率及上下文等信息结合用于检测小目标,提高了小目标的检测效果,但是此方法主要用于对人的脸部进行检测,对人群进行计数还存在较大误差.Lian等[7]根据图像中人远大近小的原则,将深度信息作为辅助信息.Sam等[8]将多尺度特征图输入到多个Multi-scale Feedback Reasoning(MFR)单元中预测目标框,然后结合Non-Maximum Suppression(NMS)从多尺度特征上得到预测结果.Abousamra等[9]使用拓扑约束来解决人群定位中造成的拓扑误差.Gao等[10]通过使用矩形框作为人头标注框,并将特征传入二值化单元,以此获取人群计数及位置.

综上,利用深度神经网络学习到的特征进行人群计数,虽然目前有许多对各种网络结构的改进以及损失函数的优化等使其效果取得了比较快速的提高,但主要集中在如何提高感受野、利用多尺度特征提高检测效果及改善损失函数等方面,却忽略了各自通道特征之间的关系或者各自空间之间的关系.笔者在High-Resolution Net(HRNet)[11]结构中引入Simple Attention 3D注意力机制[12],既能关注通道之间的关系,也可兼顾空间位置特征之间的关系.另外,损失函数方面将不同的特征图使用均方误差损失(MSE loss)、L1损失和交叉熵损失(Cross Entropy loss)有效结合来提升分类的准确性.

1 人群位置计数方法

1.1 真值图生成

在训练中需要使用人头位置标注信息.目前使用的标注信息有以下几种:1)使用标注点坐标;2)使用高斯函数生成密度图;3)使用矩形框作为真值图.由于将每个人看作一个独立个体,所以这里将真值图生成为互相不重叠的独立区域.

1.2 主干网络选择及优化

将IIM模型结构作为基准网络,在此基础上进行改进.由于人群计数场景中人的比例大小变化较大,所以需要网络具有良好的多尺度检测能力.此外,由于人群计数检测时,图像中人的占比往往较小,所以需要网络在输出时分辨率不能缩放太多,否则可能会造成人数统计减少.综上所述,选择HRNet模型作为主干网络,其在语义分割、关键点检测等任务中表现优异,可以实现输出与输入具有相同的分辨率,并且包含多尺度特征的融合.如图1所示,网络先分为四个分支,然后在最后一层再合并为一层进行融合.

图1 HRNet网络结构

日常生活中,人们很容易从复杂物体中比较准确地找到需要的目标物体,这主要归于人类将注意力集中于要寻找的特定物体的特征,而上述HRNet网络并没有考虑此类注意力机制.目前已有许多关于注意力方法的文献,如[12-14]等.Simple Attention为特征图增加一种3D注意力权值,与现有的通道、空域注意力模块有所不同,通过对式(1)进行最优化能量函数计算推导出一种快速解析解.

(1)

图2 3D注意力模块

将图1中的S1、S2、S3、S4模块替换为图2所示的3D注意力模块,使网络不仅有多尺度特征的融合,还有根据目标分布分配不同权重的注意力机制.

1.3 损失函数

笔者使用3种损失函数融合的方式优化网络模型参数,分别为均方误差损失(MSE loss)、L1损失和交叉熵损失(Cross Entropy loss).其中,均方误差损失是预测值与目标值之间差值的平方和,可以标识预测图与真值图之间像素级别的误差,式(2)中,p(x)为特征图预测值,g(x)为标注真值,M=H×W为图像宽高的乘积.

(2)

均方误差损失容易受异常值影响.为了缓解这个影响,引入L1损失,见公式(3),其能处理异常值.鲁棒性比均方误差损失方法的更好,但是在稳定性方面均方误差损失优于L1损失,所以将两者结合在一起.

(3)

交叉熵损失见公式(4),其主要用于分类任务,利用缩小真值图与预测图分布之间的差异,实现预测概率分布拟合真值概率分布的目的.

(4)

所以,最终损失见公式(5),其中,α、β、γ分别为L1损失、均方误差损失、交叉熵损失的权重,取值均为1.

L=αL1+βL2+γLCE.

(5)

2 实验与分析

2.1 评判准则

2.2 数据集

笔者对NWPU-Crowd[15]、Shanghai Tech[16]、UCF-QNRF[17]3个公开数据集进行实验,并与已有的部分方法(具体见表1)进行比较.

表1 NWPU-Crowd数据集定位对比结果

1)NWPU-Crowd数据集是一个大规模、人群密度大的公开人群密度数据集.它包含从互联网获取的5 109个图像,精心标注了人头矩形框、人头中心位置等2 133 238个实例.其中又被分为训练集3 109张、验证集500张、测试集1 500张.

2)Shanghai Tech数据集共有1 198幅不同场景的图像,共标注了330 165个实例.该数据集被划分为两部分,分别为Part A和Part B.Part A主要是来自互联网的图片,共包含较密集场景482张,其中又被分为训练集300张、测试集182张;Part B主要取自上海街头,共包含较稀疏场景716张,其中又被分为训练集400张、测试集316张.Part A中人群密度从33到3 139变化较大,Part B人群密度在12到578之间变化.

3)UCF-QNRF数据集,共有1 535幅不同场景、不同光线的图片,共标注了1 251 642个实例,其中又被分为训练集1 201张、测试集334张.

2.3 实验结果及分析

在NWPU-Crowd数据集中,用本文方法与最近人群密度计数定位效果比较理想的几种模型进行对比,具体实验结果如表1所示.F1-m性能方面与TinyFaces、VGG+GPR、RAZ Loc、TopoCount、GeneralizedLoss、Crowd-SDNet、IIM(HRNet)相比分别提高了20.4%、24.6%、17.3%、7.9%、11.1%、13.4%、0.9%;精确率(Pre.)方面与TinyFaces、VGG+GPR、RAZ Loc、TopoCount、GeneralizedLoss、Crowd-SDNet、IIM(HRNet)相比提高了28.9%、26%、15.2%、13.5%、1.8%、16.7%、0.5%;召回率(Rec.)方面与TinyFaces、VGG+GPR、RAZ Loc、TopoCount、GeneralizedLoss、Crowd-SDNet、IIM(HRNet)相比提高了11.7%、23.2%、18.5%、2.7%、16.6%、10.4%、1.1%;平均绝对误差(MAE)、均方差(MSE)方面相比TinyFaces、RAZ Loc、TopoCount、IIM(HRNet)等也有不同程度的降低.

图3显示了NWPU数据集中某一样本图的原图、真值图、预测密度图和预测二值图,此图像计数精确率为92.8%,召回率为87.2%.图4为NWPU数据集中部分图片的结果图,显示了正样本与预测样本信息.

图3 NWPU数据集中某样本图处理结果

图4 NWPU数据集中预测结果与标注结果对比

Shanghai Tech数据集实验结果如表2所示.Shanghai Tech Part A 数据集中F1-m性能方面与TinyFaces、RAZ Loc、LSC-CNN、IIM(HRNet)相比分别提高了18.4%、6.5%、7.7%、1.8%;在精确率(Pre.)方面IIM(HRNet)比本文高2%;召回率(Rec.)方面TinyFaces取得了较好的效果.Shanghai Tech Part B 数据集中F1-m、精确率(Pre.)方面最高的是IIM(HRNet)方法,比本文高1.6%,召回率方面本文方法最高,比IIM(HRNet)方法高0.3%.

表2 Shanghai Tech数据集实验结果

图5、图6分别是Shanghai Tech Part A、Shanghai Tech Part B数据集中预测结果与标注结果对比图.其中:Shanghai Tech Part A数据集中样本图的计数精确率为91.2%,召回率为93.5%;Shanghai Tech Part B数据集中样本图的计数精确率为93.5%,召回率为95.1%.

图5 Shanghai Tech Part A数据集中预测结果与标注结果对比

图6 Shanghai Tech Part B数据集中预测结果与标注结果对比

UCF-QNRF数据集实验结果如表3所示.UCF-QNRF数据集中F1-m性能方面与TinyFaces、RAZ Loc、LSC-CNN、IIM(HRNet)相比分别提高了22.9%、19%、14.1%、0.3%,精确率(Pre.)方面IIM(HRNet)比本文高3.4%,召回率(Rec.)方面TinyFaces取得了较好的效果.

表3 UCF-QNRF数据集实验结果

图7是UCF-QNRF数据集中预测结果与标注结果对比图.其中,样本图的计数精确率为96.2%,召回率为96.8%.

图7 UCF-QNRF数据集中预测结果与标注结果对比

在Shanghai Tech Part A数据集上的消融实验结果如表4所示.IIM(HRNet)方法F1-m为73.9%,仅添加3D注意力模块时,F1-m提高了0.2%,仅添加loss融合模块时,F1-m提高了0.7%,既添加3D注意力模块又添加loss融合模块时,F1-m提高了1.8%.实验结果表明了本文方法的有效性.

表4 Shanghai Tech Part A数据集的消融实验结果

3 结论

在IIM模型结构[9]的基础上,提出了将HRNet与3D注意力机制相融合的结构,使得该网络不仅包含多尺度特征,同时还具有一定的注意力机制,提高了保留特征细节信息的能力.使用均方误差损失、L1损失和交叉熵损失3种损失相结合的方法作为模型损失函数,提高了模型性能.公开数据集的实验结果表明,本文方法提高了模型的人群位置信息准确性及计数准确性,证明了笔者所提方法的有效性.

猜你喜欢

计数密度损失
洪涝造成孟加拉损失25.4万吨大米
两个基本计数原理A卷
两败俱伤
古代的人们是如何计数的?
“密度”练习
密度的应用趣谈
密度的不变性与可变性
损失
那些损失上百万的演员