基于YOLOv4-tiny及DEEPSORT的人流量检测及反馈应用

2021-01-14胡培培李丹

现代信息科技 2021年14期

胡培培李丹

摘要：一场突如其来的新冠疫情，对我国公共卫生制度体系及社会经济发展都造成了重大影响。由于新型冠状病毒很容易在人群之间传播，进而导致聚集性感染。针对此问题，提出了一种基于YOLOv4-tiny以及DEEPSORT算法的人流量检测及反馈应用。在训练模型时使用vocc2012数据集中含有人类的图像作为训练集，使得模型只对人类进行检测。

关键词：YOLOv4-tiny;目标檢测;疫情;人群;DEEPSORT

中图分类号：TP391.4 文献标识码：A文章编号：2096-4706（2021）14-0071-04

Abstract： The sudden arrival of COVID-19 epidemic has had a major impact on China’s public health system and socio-economic development. Because the Corona virus spreads easily among crowd， so it easily leads to clustering infection. To solve this problem， a people traffic detection and feedback application based on YOLOv4-tiny and DEEPSORT algorithm is proposed. When training the model， the image containing human in the vocc2012 data set is used as the training set， so that the model can only detect human.

Keywords： YOLOv4-tiny; target detection; epidemic situation; crowd; DEEPSORT

0 引言

由于全球还没有对新型冠状病毒疫苗接种的普及，特别是对最近传染力，危害性更强的“德尔塔”等变异的新冠病毒没有一种有效的疫苗进行保护。所以在未来比较长的一段时间内，我们仍然会采取戴口罩，保持社交距离，勤洗手等预防措施来保护自己。针对上述问题，急需一种可以部署到任何地方的轻量化，计算力要求大的安全监控系统在一些人流量密度较大的区域进行监控，如果人流量超出某一规定的范围能及时反馈给行政管理人员，确保能进行发现和规避风险。

卷积式的神经网络在这些年里有着飞速的进步，其在对目标的检测及信息识别等技术方面都有着很高的水平和地位，根据该算法的工作流程可将对目标进行检测的算法大致分为两个类型，一种是以faster r-CNN 2为主要代表的Two-stage神经网络算法，它所要检测的目标主要可以分为两个部分：（1）通过专门模块去生成候选框，寻找前景;（2）调整边界框。另一种计算方法也就是以ssd3、yolo1作为主要函数代表One-stage函数算法，它是直接基于anchor直接进行分类以及调整边界框。Two-Stage很明显检测的精度要高一点，但是检测速度慢;One-Stage放弃了高精度，但是换来了速度，速度比Two-Stage算法快很多。在这个应用中选择的是YOLOv4算法，简要概括原因就是速度差不多的精度碾压;精度差不多的速度碾压。在统计人流量上面选择目前比较主流的DEEPSORT算法，所以YOLOv4及DEEPSORT算法因其高效性和对资源较低的需求成为部署在这类设备上面的最佳选择。

1 YOLO系列简介

YOLO（you only look once）指只需要浏览一次就可以识别出图中的物体的类别和位置。一个典型的Region-base方法的流程是这样的：先通过计算机图形学的方法，对图片进行分析，找出若干个可能存在物体的区域，将这些区域裁剪下来，放入一个图片分类器中，由分类器分类。

因为YOLO这样的Region-free方法只需要一次扫描，也被称为单阶段（1-stage）模型。在YOLOv1算法中的工作者将一个新的图片目标划分分割成7×7个小小的格子，每个小格子分别可以用来预测两个目标boundingbox，如果某一个新的图像已经在图片目标图的中心位置掉入一个新的网格预测单元中，则作者认为这就是这个图像目标属于一个网格预测单元而它负责进行监督或者检测这个图像目标。对每个被节点切割的最小节点单元格可以进行空间预测（包括置信度、边界和图框上的节点位置），每个节点boundingbox都可能需要4个相同的空间数值，该符号可用来准确地分别表示它们的空间位置，（center_x，center_y，width，height），YOLOv4-tiny的一项贡献就是把检测到的问题直接变成了回归的问题。YOLOv4在与efficientdet性能相同的条件下，推理的速度比其快了两倍。与YOLOv3相比ap与fps分别增加了10%与12%。YOLOv4-tiny提出了一种实时、精度较高的目标检查模型。

1.1 主干网络

CspNet（cross stage paritial network）主要目的是从数据网络推理架构设计的一个视角出发来研究解决数据推理中关于数据分析计算需求量多的复杂问题。CspNet的一些研究工作人员一致认为存在推理网络计算机中误差太大的一个问题其实应该认为是由于推理网络中的优化推理过程使其中的一个梯度推理信息不被重复使用造成。因此我们可以采用公式cross-stage-partial-connections先将一个基础层的每个特征层和映射分别划分并作为两个组成部分，然后再考虑利用其横跨两个阶段的层次结构将它们分别进行层次合并，在大大减少我们计算单个数据量的难度同时，也就是可以有效地充分保证其进行计算的数据准确率。

1.2 SPP4模块

在YOLOv4中，对SPP进行了修改以保证输出为空间维度。最大池化的核大小为k={1×1、5×5、9×9、13×13}。将来自不同核大小池化后的特征图串联在一起作为输出。

1.3 PAN4模块

PAN模块在YOLOv4中通过先自顶向下的方式进行上采样，使得特征图维度变为原来的2倍，再自底向上完成下采样，使得维度变为原来的一半，通过这一模块完成图像的特征融合，最后输出三个head完成预测。

1.4 YOLOv4-tiny4

YOLOv4-tiny（网络结构图1）的网络结构只有38层，训练参数只有5 918 006个，属于轻量化模型，而YOLOv4的网络结构共有168层，训练参数有64 363 101个，YOLOv4-tiny的训练参数比YOLOv4少了近十倍左右，所以大大精简了网络结构，这使得YOLOv4-tiny在进行图像检测时具有比YOLOv4较大的速度优势。在进行特征提取，YOLOv4-tiny并没有与YOLOv4一样采用Mish激活函数，并且在特征加强层只采用了一个特征金字塔（即FPN网络），也没有像YOLOv44一样采用向下取样的方式。YOLOv4-tiny使用leakyReLU作为激活函数，但它仍然和YOLOv4一样采用的是CSPnet网络结构，并且对特征提取网络进行通道分割，将经过卷积后输出的特征层通道切割为两部分，并且只取第二部分。YOLOv4-tiny具有能够同时实现目标的分类与回归，也能够实现参数共享，以及防止出现过拟合等特点。

2 DEEPSORT算法简介

DEEPSORTg这是多媒体目标计算跟踪（multi-object tracking）中比较常见的用到的一种跟踪算法，是一种detection based tracking的目标计算跟踪方法。这个算法的一个核心确实也就是我们在实际的应用中得到的一个可以使用较为广泛的算法，其中最重要的就是两种算法：卡尔曼滤波算法和匈牙利算法。卡尔曼滤波器的算法流程可以从详细分为如下两个步骤，预测与数据更新。此种定义的算法将运动目标位于一个运动空间的一个状态时间边界函数定义为一个作为8个正态时间分布的运动向量。预测：确定当前在上一帧的移动目标已经成功经过了一次移动，通过预测计算上一帧的移动目标框和移动速度等各种移动参数，预测可以得出当前帧的移动目标框和速度位置及其移动速度等各种预测参数。更新：对正常预测值和两个观察点的分布预测值，两个正常状态点之间的分布预测状态之间的差值进行了一次線性化加权，得到目前预测系统所需要进行预测的分布状态。匈牙利分配算法：它所说的一个需要有效帮助我们解决的一个问题其实就是一个相似度上的分配矩阵问题，在mot10主要的步骤中它本身就是一个用于分配和计算相似度的，得到前后两帧相似度分配的矩阵。匈牙利矩阵算法目标是一种指通过快速求解该相似度上的矩阵，从而精确来源地实现前后两帧真实度相匹配的计算目标。

3 实验及结果

3.1 数据集

本文主要采用的是一个原始数据集，它采用了voc2012数据集，提取得出其中共计12 000张有人类生活中出现的图片进行了训练，选取其中300张数据集作为测试集，选取其中余下的5 000张图片进行作为训练集。

3.2 实验对比

在进行训练之前进行了对是否采取YOLOv4-tiny模型训练的效果进行对比结果如图2所示。从图中我们能清楚直观地感受到基于YOLOv4-tiny模型进行检测的好处，拥有丰富检测目标的背景，可以获得实时的，高精度的检测结果，能够完全满足我们对此的要求。

3.3 模型训练

在colab平台上对YOLOv4-tiny模型进行训练和测试，YOLOv4-tiny的迭代次数为4 800，GPU为TeslaT4。从训练过程图得知YOLOv4-tiny在训练迭代到1 800轮之后损失值处于收敛状态。图像如图3所示。

以map作为模型评价指标，最终训练结果得到YOLOv4-tiny的map为79%。79%的map在大多数应用场景下能够轻松胜任。把训练好的模型拿到1660Ti的机器上测试发现YOLOv4-tiny能够达到35帧左右的检测速度，画面流畅。再通过DEEPSORT算法进行人流量检测。结果如图4所示。

通过在一些人流量密集区域的监控设备上部署一个检测反馈系统，整个系统由3个子系统构成。监控系统负责图像的输入，将图像提取到检测系统中，检测系统根据YOLOv4-tiny以及DEEPSORT算法实现人类识别以及人流量检测，检测系统通过网络接口与示警系统相连接，当检测系统监测出人流量超过某一特定的值时，通过网络接口反馈给示警系统，示警系统通过声音、图片、视频等形式可以向行政管理人员反馈该区域的人流量密集程度。

4 结论

本文所实现的是人流量密集区域部署监控设备，当人流量超过规定值是进行一个反馈，从而帮助管理人员及时发现和规避风险。YOLOv4-tiny的map能达到79%，完全能部署到大部分监控系统并能完成实时监测任务。

参考文献：

[1] LIU W，ANGUELOV D，ERHAN D，et al. SSD：single shot MultiBox detector [C]//Computer Vision – ECCV 2016.[S.L.]：Springer，Cham，2016：21-37.

[2] HE K，GKIOXARI G，DOLLAR P，et al. Mask R-CNN [C]//2017 IEEE International Conference on Computer Vision （ICCV）.Venice：IEEE，2017（2）：2980–2988.

[3] GIRSHICK R. Fast R-CNN [C]//2015 IEEE International Conference on Computer Vision （ICCV）.Santiago：IEEE，2015（1）：1440-1448.

[4] REN S Q，HE K M，GIRSHICK R，et al. Faster R-CNN：Towards Real-Time Object Detection with Region Proposal Networks [J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2017，39（6）：1137-1149.

[5] REDMON J，DIVVALA S，GIRSHICK R，et al. You Only Look Once：Unified， Real-Time Object Detection [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition（CVPR）.Las Vegas：IEEE，2016：779-788.

[6] REDMON J，FARHADI A. YOLO9000：Better，Faster，Stronger [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition（CVPR）.Honolulu：IEEE，2017：6517-6525.

[7] ZHANG L，LI Y，NEVATIA R. Global data association for multi-object tracking using network flows [C]//2008 IEEE Conference on Computer Vision and Pattern Recognition.Anchorage：IEEE，2008：1–8.

[8] PIRSIAVASH H，RAMANAN D，FOWLKES C C. Globally-optimal greedy algorithms for tracking a variable number of objects [C]//CVPR 2011.Colorado Springs：IEEE，2011：1201–1208.

[9] BERCLAZ J，FLEURET F，TURETKEN E，ET AL. Multiple Object Tracking Using K-Shortest Paths Optimization [J].//IEEE Transactions on Pattern Analysis and Machine Intelligence，2011，33（9）：1806–1819.

[10] YANG B，NEVATIA R. An online learned CRF model for multi-target tracking [C]//2012 IEEE Conference on Computer Vision and Pattern Recognition.2012：2034–2041.

作者簡介：胡培培（1999.06—），男，汉族，四川德阳人，本科在读，研究方向：高级算法。