基于YOLOv5+DeepSORT的实验室监控视频人流量检测及预警研究

2023-12-02王梦梅

电脑知识与技术 2023年29期

王梦梅

（江苏师范大学科文学院，江苏徐州 221116)

0 引言

随着摄像设备广泛应用于视频监控领域，目标追踪技术应用需求不断增大。目标追踪的主要目的是通过图像序列寻找到标记目标，目标追踪通过摄像设备获取数字图像信息，利用算法建立相对应的模型，代替人脑，人眼解析处理追踪目标的数码信息[1]。目前人图像识别发展的技术能够与数字监控系统进行融合，在高校实验室日常的业务处理之中，对于人流量信息，部署在视频服务之中的算法能够快速进行比对分析，将人流量处理分析结果反馈到前端，从而提升整个高校实验室的处理效率。

对目标跟踪算法进行分类后能够发现，其主要分为两类，第一类是生成模型方法，第二类是判别模型方法。这两类算法的共同点都在于能够对目标对象模型进行匹配与检索操作；主要区别在于后者判别式跟踪算法首先需要对目标提取关键特征，后续对此目标匹配的位置进行搜索操作，而生成式跟踪算法会针对新图像帧进行检索，以此确定最匹配的位置[2]。

1 相关理论

1.1 YOLOv5算法

YOLOv5 是一种单阶段目标检测算法，该算法在YOLOv4 的基础上添加了一些新的改进思路，使其速度与精度都得到了极大的性能提升。YOLOv5目标检测算法作为单阶段目标检测算法，与同时期的其他算法相比，准确率以及检测速度都有一定优势，在特殊情况下整个处理量级相比YOLOv4 而言能够小近九成，在模型的快速部署上具有极强优势[3]。所以本文选择基于PyTorch 的YOLOv5 算法完成目标检测工作。YOLOv5 在结构上接近上一代YOLOv4。在官方给出的代码中，目标检测网络的版本数量有四种，对应网络结构也分为四个部分，依次包括头部输出端、骨干段、输入端与颈部端。

之前的版本YOLOv3和YOLOv4是在独立的程序中通过聚类算法计算锚点框大小。YOLOv5的创新在于输入端中加入了自适应锚框计算。YOLOv5是将锚框的计算嵌入到训练中，不再通过独立程序计算锚点框，整个预测框的输出经过设定好的锚框，通过Loss函数完成与真值之间的对比计算，后续需要进行更新操作，从而不断更新锚点框大小。通过这种方法，YOLOv5 能够进行自适应的计算操作，此操作主要在不同训练集上进行，以此获取最佳的锚框值，通过算法中的自适应处理使得图片缩放后要填充的黑边，避免了信息冗余，计算量大大减少，提升了推理速度，即目标检测速度更快[4]。

1.2 DeepSORT算法

对于视频图像数据而言，采用卡尔曼滤波进行分析与处理之后，能够得到运动目标的预测轨迹边界框[6]。之后结合目标检测器的分析，能够将预测的边界框与检测进行数据信息的关联处理，若检测数据与预测的边界框保持一致，此时需要将更新预测结果，之后需要对下一视频帧进行跟踪处理，以此反复操作完成整个边界框的预测与更新操作。

2 基于YOLOv5的目标检测算法

2.1 图片预处理

图像处理是目标检测的基础与关键，由于计算机无法通过人类的视角观察和处理事物的图像，所以需要将图片进行一定加工处理从而使计算机更好地理解，后续对图像进行灰度化、缩放、归一化等处理，处理之后使得图片改善图像的视觉效果，转换为更适合于人或机器分析处理的形式；突出对人或机器分析有意义的信息并抑制无用信息，提高图像的使用价值。

对高校实验室监控视频的图像进行处理之后，需要综合考虑清晰度与平滑度，以此完成图像大小的调整。对图像进行缩小操作的时候，此时图像的清晰度与平滑度会得到增强，反之图像大小增加之后，对应可见度虽然会增高，但是其清晰度与平滑度会降低。

对图像缩放与灰度化操作之后，后续需要进行归一化处理。整个处理过程需要遵循一系列的标准，从而完成图像的转化处理，最后获取归一化的图像。在归一化处理中，需要将原始图像进行多层次处理，每一次处理获取相应副本的图像。在这一系列变换之中，采用图像的不变矩来对参数进行处理，以此消除其他变换函数的影响，从而完成原始图像的处理，获取归一化的图像。归一化图像是对应唯一标准形式的图像，再进行缩放、平移与旋转等操作，此时整个图像都具备不变的特性。在整个归一化处理过程之中，需要将旋转、缩放、坐标与x-shearing四个方面进行归一化操作。通过图像归一化的处理，能够确定图像之中的不变量，使得图像能够抵御几何变换的处理。

2.2 YOLOv5目标检测流程

由于图像的预处理工作已经完成得到了统一的输入图像，在输入端的主要工作是将处理好的图像进行训练，以此丰富数据集，提高效率。随后通过自适应锚框计算，在进行交叉比较计算时候，需要将真实框与预测框进行对比分析，以此完成偏移量的计算，最后通过反向迭代计算之后，获取最匹配数据集的锚框。

在骨干端中主干网络由Focus结构和CSP结构组成。Focus结构负责在图像进入主干网络之前对图像进行切片，之后将数据信息进行切分处理，获取的数量是4份，采样的数据相当于这份数据信息的二分之一，然后纵向通道完成拼接并进行卷积运算。对于YOLOv5s算法来说，原始数据录入的尺寸为640×640×3，之后需要进行到Focus 结构进行相应的处理，处理结果获取相应的特征图，特征图尺寸为320×320×12，接着需要进行卷积运算，最终获取到对应卷积核的特征图，对应尺寸为320×320×32。在特征生成部分，则沿用YOLOv3的SPP网络来完成。整个算法的具体处理过程如图1所示。

图1 YOLOv5目标检测算法流程图

如图1 所示，在整个目标检测算法处理中，整个SPP 处理结构中采用的运算方式为最大值池化运算，通过此计算的目标是完成信息的提取操作，同时将区域内部的信息进行压缩，最重要的是通过池化运算确定整个尺度的不变性，因此在对池化运算过程进行处理的时候，需要减少丢失特征图中的映射信息，简化运算过程。

许多国际争端的产生都是起源于不同类型法律的交叉。在现有国际投资法和文化遗产法理论基础上，笔者认为，需要回溯考察国家对于全球化市场的贸易规制层次，并通过引入全球多边贸易体制的规制模式，以此为理论依据构建国际投资争端中文化遗产保护的规制模式，为在国际投资纠纷中更为有效地保护文化遗产提供制度选择。

3 基于DeepSORT的多目标跟踪算法

对于Deep Sort 算法的前身而言，主要应用的是Sort算法，此算法采用匈牙利算法与卡尔曼滤波算法，以此提升多目标跟踪的处理效率，此方法基于Faster R-CNN 方法进行目标追踪处理。因此对于Deep-SORT 算法，整个处理的核心同Sort 算法一样是匈牙利算法、卡尔曼滤波。

3.1 卡尔曼滤波算法

在对多目标进行跟踪处理常用的算法为卡尔曼滤波算法，此算法具备较好的容错能力，能够对不准确的观测值及含有噪声的数据参数进行预测，从而完成状态的最优估计业务的处理。其次是由于卡尔曼滤波算法的预测步骤较为全面，能够满足对动态目标系统状态值的最优估计。卡尔曼滤波算法在通过目标当前的运动轨迹可以在目标跟踪中预测其未来状态，所以在DeepSORT算法中，卡尔曼滤波是其不可或缺的重要部分。

在整个卡尔曼滤波算法的处理之中，核心工作分为两个方面：第一个是预测，第二个是更新。针对目标物体的运动状态而言，算法初步将其分为多个正态分布的向量，总体数量为8个。结合上一帧视频之中的速度、目标框这些参数信息，能够对移动目标进行预测，确定当前帧的速度与目标框位置；对上述参数进行更新，之后对观测值、预测值进行线性加权处理，以此确定系统预测的状态。

3.2 评价指标

在整个算法的处理之中，评价指标主要是用于评估跟踪器在不同参数上的性能的框架，包括评估对象检测、定位和跟踪的性能。目前常用的指标类型包括多目标跟踪精度(MOTP)与多目标跟踪精度(MOTA)，这些指标有助于评估跟踪器的整体优势并判断其总体性能。

在整个高校人流量检测与预警之中，主要基于MOTA 评估算法性能，以此确定跟踪器的准确度，MOTA（多目标跟踪准确度）计算公式为：

其中，FN是误报的数量，FP是误报的数量，IDS是时间t的身份转换数量，GT是基本事实。

3.3 算法处理

在基于YOLOv5+DeepSORT的实验室监控视频人流量检测及预警研究之中，主要的算法处理步骤包括：

1)检测

这是跟踪模块的第一步，在此步骤中，对象检测器检测帧中要跟踪的对象。然后将这些检测传递到下一步，主要采用YOLO 算法的检测器。

2)估计

在这一步中，将检测从当前帧传播到下一帧，使用恒速模型估计下一帧中目标的位置。当检测与目标相关联时，检测到的边界框用于更新目标状态，其中速度分量通过卡尔曼滤波器框架得到最优解。

3)数据关联

现在有了目标边界框和检测到的边界框。因此，成本矩阵被计算为每个检测与来自现有目标的所有预测边界框之间的交并比(IOU)距离。分配是使用匈牙利算法优化解决的。如果检测和目标的IOU 小于称为IOUmin 的某个阈值，则该分配被拒绝。该技术解决了遮挡问题并有助于维护ID。

4)跟踪目标ID的创建与删除

该模块负责ID的创建和删除，根据IOUmin 创建和销毁唯一身份。如果检测和目标的重叠小于IOUmin，则表示未跟踪目标。如果没有为TLost 帧检测到轨道，则会终止轨道，然后可以指定TLost 的帧数。如果一个对象重新出现，跟踪将隐含地在一个新的身份下恢复。

5)YOLOv5算法实现

通过YOLOv5算法存储库完成访问功能和预训练的权重的计算。

3.4 结果分析

在具体高校实验室视频数据信息的分析之中，对视频分辨率设置为1920×1080。同时完成处理脚本参数的设置，包括：

--seqmap:指定要进行评估的视频文件名。

--track：指定跟踪结果文件夹的路径。

--gt：指定ground truth文件路径。

对7 天的高校实验室人员流量进行实际分析，对比结果如表1所示。

表1 实验室人流量结果分析表

从表1 能够看出，整个计算准确率在98%以上，符合业务处理的需要。

4 结论

对于实验室监控视频人流量检测及预警研究而言，本文主要采用YOLOv5+DeepSORT 的算法共同进行处理，确定算法的主要工作场景与工作业务，围绕需求分析的内容，第一步需要进行技术选型工作，目前经过技术分析采用深度学习框架进行，主要原因在于此技术具备良好的安全性与开源性特点，后续根据系统处理需要进行整个系统的可维护性方面的升级与优化工作。

在整个业务分析的基础上，对YOLOv5+deepsort的算法处理过程进行阐述，按照标准化的设计方式对算法进行实现，之后需要测试编码实现的功能。整个算法的实现过程满足了高校实验室的处理需要，后面主要的工作就是对系统的处理性能、安全性等进行性能判断与分析。