基于目标跟踪的行为识别方法研究
——以安全帽佩戴识别检测为例
2023-06-04黄晓明
陈 光,乔 梁,黄晓明,熊 芹
(1.国能九江发电有限公司,江西 九江 332000; 2.国能丰城发电有限公司,江西 丰城 330011)
施工人员佩戴安全帽能有效降低事故的发生率,特别是工业制造、发电等行业需进行安全帽监测。但目前的监测方法大多采用人工巡逻监控或查看监控视频,存在人力资源消耗大、管理成本高、效率低下、漏检和误检概率较高等问题,故搭建基于目标识别算法的无人监管检测系统来实时监测现场施工人员是否佩戴安全帽具有工程价值与实际意义。
1 安全帽佩戴识别检测系统的设计
1.1 目标检测系统架构
目标检测系统基于人工智能、边缘计算、大数据分析、图像识别等技术,可实现高效管理、可视化呈现、智能化识别。安全帽佩戴识别检测系统在技术架构上具备以下功能:①图像采集功能。利用多类别、多角度视频和图像采集设备,进行数据采集。②应用功能。进行安全帽佩戴识别,集成显示多角度图像、视频数据,基于现场物联网设备,实现自动告警等功能。③数据应用。提供API接口,使第三方平台能够访问系统和平台数据,实现功能拓展。
目标检测系统总体设计架构如图1所示。
图1 目标检测系统总体设计架构Fig.1 Overall design architecture of target detection system
系统总体架构分为四层。第一层是目标采集层。根据实地作业状况,采用多样化集群监控摄像头进行图像信息采集,再根据摄像头的有线或无线传输方式及协议将图像传输至目标检测设备。第二层是目标检测层。目标检测设备为边缘智能设备,是目标检测系统的核心之一。该设备搭载EdgeAI引擎,可实现作业监控,相较于一般设备增强了安全监督的权威性和可追溯性,同时支持音视频和IOT数据接入,可满足移动作业现场对高时效性AI的识别和低延迟需求。在通信上支持有线通信协议(光纤、以太网等)及无线通信协议(5G、4G、wifi等),能够实现现场移动作业监控装置的接入、数据格式转换,统一上传至数据分析中心,且支持多路视频信号接入的实时识别分析。第三层是数据存储和处理层。该层相关设备为系统服务器和图像服务器构成的本地服务器,各项服务在设计上采用功能性模块化设计,具有较好的灵活性,可提供标准的接口封装服务,使数据库系统和前端数据采集及第三方系统之间能够以服务方式安全可靠地进行数据交换与获取。第四层是数据应用层。包括数据可视化、视频实况监控、结合物联网设备进行自动告警等,还可采用B/S架构,实现管理人员和系统间有效的人机交互。
目标检测系统在整体上采用“云-边”架构,将大量工业视频数据和边缘智能设备采集的数据传输至该系统,构建识别模型库,围绕识别对象进行智能识别和数据应用,同时借助边缘智能设备支持音视频和IOT数据接入,实现对施工现场的高时效、低延时智能识别,达到外委作业安全监管的开箱即用效果。
1.2 YOLOv 5网络模型结构
目标检测算法主要分为一阶段目标检测和二阶段目标检测两种。一阶段目标检测是将图像网格化,从而直接在图像中进行目标检测、定位和分类;二阶段目标检测是先进行候选框选取,再进行分类[1]。通常一阶段目标检测器检测速度快,二阶段目标检测器检测精度高。综合来看,二阶段目标检测算法主要用于小物体或人体姿态识别,而本系统设计的安全帽佩戴识别检测相较于识别精度,对识别速度的要求更高[2],故而目标检测算法使用YOLOv 5目标检测网络。
YOLOv 5网络模型的主要结构分为4部分,即输入端(Input)、骨干网络(Bacbone)、Neck层、输出层(Prediction)。在Input端,模型利用随机缩放、裁剪和排布方式进行拼接,提高对小目标的检测效果。网络训练过程中,YOLOv 5在初始锚框上输出预测框并与真实框进行比较,再反向更新迭代网络参数[3]。Bacbone由Focus、CSP结构组成,Focus结构的作用是进行切片和卷积[4],将原始图像输入至Focus结构,经过切片运算和卷积运算得到特征图。CSP结构的作用是进行特征图特征提取,从图像中获取丰富信息,与其他大型卷积神经网络相比,能够有效降低梯度信息重复程度[5]。Neck层采用PAN+FPN结构,PANET基于Mask R-CNN和FPN框架,具有保留空间信息的能力,可对像素形成适当定位[6]。Prediction层主要包括损失函数和非极大值抑制,在边界框损失函数上采用GIoU_Loss损失值计算,其全称为通用交并比,GIoU损失函数计算方法如式(1)所示。
(1)
2 目标检测模型训练与仿真测试
2.1 模型训练平台及训练集
模型训练使用的平台配置GPU为NVIDIA GeForce RTX 3070,8G显存,CPU为AMD Ryzen 5 5600X,平台内存16G,GPU加速库CUDA11.4和CUDNN 8.04。
本次模型训练使用的数据集共有图片8 469张,按照8∶2的比例划分为训练集和验证集,图片尺寸缩放为640×640,训练轮次为200轮。数据集图片主要分为佩戴安全帽(“hat”)、未佩戴安全帽(“person”)两类。数据集尽量选用实地施工图片,力求训练模型更适用于实际施工场景。
2.2 目标检测模型评价指标分析
目标检测模型评价指标中有4个基础数值:正样本被预测为正样本的数量(True Positive,TP)、正样本被预测为负样本的数量(False Negative,FN)、负样本被预测为正样本的数量(False Positive,FP)、负样本被预测为负样本的数量(True Negative,TN)。目标检测模型基于4个基础数值有两项关键指标,即查准率(Precision)和召回率(Recall),Precision是指所有预测为正样本的结果中预测正确的比例,而Recall是指所有正样本中被正确预测的比例。查准率和召回率是一对此消彼长的量,它们的提高能有效提升模型实际应用性,因此常用平均精度(Average Precision, AP)来描述模型性能,大小为P-R曲线与坐标轴围成的面积。本研究目标检测模型的P-R曲线图和模型性能变化曲线图如图2、图3所示。
图2 目标检测模型的P-R曲线图Fig.2 P-R curve of the target detection model
图3 模型性能变化曲线Fig.3 Curve of model performance change
均值平均精度(mAP)可用来评估训练模型的性能与可靠性。模型训练过程中产生的最佳模型性能指标中,hat类别和person类别的mAP值分别为91.9%、93.7%,全类别mAP@0.5的值为92.8%,可满足实际需要。
2.3 目标检测模型测试
将best.pt作为权重文件进行多个图片及视频测试。图片测试中,该模型具有良好的识别性能;视频测试中,模型实时检测速率达到35.7 frame/s,满足实际应用要求。测试结果如图4所示。
http://suo.nz/2M6i3r图4 模型检测是否佩戴安全帽测试图Fig.4 Test chart of model test on whether wearing helmet or not
3 结论
为满足施工场地安全帽佩戴监测的需求,设计了一种安全帽佩戴识别检测系统。在目标检测方面,基于YOLOv5网络模型进行了不同型号模型的对比分析,结合开源数据集进行了模型训练、性能分析和测试,模型mAP@0.5的值为92.8%,系统整体视频检测速率达到35.7 frame/s,综合来看,本设计能够有效满足实际应用的需求。