APP下载

基于改进YOLOv5s 的矿工排队检测方法

2023-12-06郝明月闵冰冰张新建赵作鹏吴晨王欣

工矿自动化 2023年11期
关键词:矿工排队人脸

郝明月,闵冰冰,张新建,赵作鹏,吴晨,王欣

(1.河南龙宇能源股份有限公司 陈四楼煤矿,河南 永城 476600;2.中国矿业大学 计算机科学与技术学院,江苏 徐州 221116)

0 引言

规范的生产秩序是煤矿安全生产的必然要求。“三班倒”的群体矿工在候罐、候车和等候矿山架空乘人索道时需要排队,若出现秩序混乱的情况,将影响工作效率、破坏生产秩序,进而产生安全问题[1-2]。

人工监管矿工排队行为,难以做到对多时段、多场所排队行为的全覆盖管理。随着人工智能技术的不断发展,深度学习在实时监测矿工排队秩序方面日益重要[3]。目前,常用的煤矿井下目标检测算法有传统的目标检测算法和基于卷积神经网络(Convolutional Neural Networks,CNN)的目标检测算法[4]。传统的目标检测算法识别排队异常行为时需人工提取特征,工作量大,易对插队等异常情况产生误检。如张海彬等[5]提出了一种基于背景差分法的室内排队检测方法,在室内背景变化不大的场所采用固定的摄像头,对室内场景进行背景建模,应用背景差分法处理当前捕捉到的彩色图像与彩色背景模型,根据处理后图像中队伍所占画面的比例计算出当前排队人数。该方法虽然能够准确识别室内排队行为,但准确度会受图像质量的影响,无法适用于井下光照不均、昏暗的场景。基于CNN 的目标检测算法可提取层与层之间的连接和空间信息,且可表示图像内的相关特征[6-7],从而有效进行排队检测。如陈国栋等[8]采用OpenPose 提取人体骨架序列,采用OpenCV 测量人体骨架关键点距离,能够在光线良好的环境中检测异常排队行为。但该方法对于视频质量要求较高,需要精准地测量出前后2 个人的眼部距离和手部距离,不能满足煤矿井下光线受限的环境检测需求。

YOLOv5s 作为CNN 在目标检测领域的代表性模型,能够在简单场景检测中实现较高的准确率,具有较高的稳定性和可泛化能力,且计算量小,确保在资源受限的环境中也能进行有效部署[9-10]。但对于井下高粉尘、低光照等复杂环境导致的图像质量较差时,YOLOv5s 模型检测效果难以保证。因此,本文在YOLOv5s 模型基础上进行改进,融合双向交叉特征金字塔网络(Bidirectional Cross Feature Pyramid Network,BCrFPN)和自适应训练样本选择(Adaptive Training Sample Selection,ATSS)动态标签分配策略(ATSS_PLUS),构建了一种更高性能的YOLOv5s(Higher Performance Improvement-YOLOv5s,HPIYOLOv5s)模型用于矿工排队检测,针对遮挡、昏暗、光照不均等煤矿井下环境具有较高的检测精度和速度。

1 方法原理

HPI-YOLOv5s 结构如图1 所示。使用ImageNet对骨干网络进行预训练,并将BCrFPN 作为特征网络,从骨干网络中获取每层特征,反复进行自上而下和自下而上的双向交叉特征融合。这些融合的特征被输入到分类预测网络和回归预测网络,进行类别预测和边界框参数回归。分类预测网络和回归预测网络的权重在每一层网络中共享[11]。

图1 HPI-YOLO5s 结构Fig.1 Higher performance improvement-YOLO5s structure

1.1 BCrFPN

YOLOV5s 使用路径聚合网络(Path Aggregation Network,PANet)[12]代替特征金字塔网络(Feature Pyramid Network,FPN)[13],改善了传统FPN 单向信息流限制的问题,具有更好的精度,但需要更多的参数和计算成本。为解决该问题,提出了一种结构简单、高效的BCrFPN。如果1 个节点只有1 条输入边,不利于进行多尺度特征融合,因此删除该节点;如果输入到输出节点处于同一级别,则添加1 条额外的边,使其在不增加太多成本的情况下融合更多特征;与PANet 只有1 个自上而下和1 个自下而上的路径不同,BCrFPN 将每个双向(自上而下和自下而上)路径作为1 个特征网络层,并多次重复同一层,以实现更高级的特征融合。

BCrFPN 在重复应用自上向下和自下向上的多尺度特征融合时,由于不同的输入特征具有不同的分辨率,引入可学习权重来学习每个输入特征的重要性。本文采用快速归一化融合方法:

式中:O为输出特征;wi,wj为第i,j个特征的可学习权重,i,j∈[1,n],n为权重个数,i≠j;ε为极小值,以避免数值不稳定,本文取0.000 1;Ii为输入特征。

通过在每个wi之后应用ReLU 来保证wi≥0。类似地,每个标准化权重范围为0~1,由于没有Softmax 操作,计算速度更快。

1.2 ATSS_PLUS

YOLOv5s 的标签分配策略与之前YOLO 系列[14-15]的标签分配策略不同,不再使用预定义的锚框和真实框的交并比(Intersection of Union,IoU)作为判断标准,而是使用锚框和真实框的宽高比例来判断锚框是否适合作为正样本,当宽高比小于手动设置的阈值时,则判定该锚框为正样本。但这种标签分配策略存在一定的局限:①忽略了网络的预测结果,不能很好地评估样本的质量。② 为每个真实目标增加正样本数量的方式过于简单,仅在匹配网格的临近网格进行选择。③手动设置阈值的方式鲁棒性不高,需根据数据集精细调整阈值。

因此,本文引进ATSS 标签分配策略[16],并为了更好地选取高质量的正样本,对ATSS 标签分配策略进行优化,将其命名为ATSS_PLUS。具体来说:对于候选区域,本文将样本候选区域设置为真实目标的中心部分;对于正样本的判定标准,结合网络预测的分类结果和定位结果来评估候选样本的质量;对于阈值设置,使用ATSS 中动态指定阈值的方式。

式中:t为正样本的质量得分;s为网络预测的候选样本与真实目标对应的类别得分;λ为平衡因子;G为网络预测的回归框与真实框的IoU;T为正样本选取的阈值;tmean,tstd分别为t的平均值和方差。

在所有候选样本中选取t大于T的样本为正样本。由于这种标签分配方式对预定义的锚框数量不敏感,所以对于每个网格,本文只设置1 个预定义锚框。这种基于ATSS 改进的标签分配策略相比于YOLOv5s 的标签分配策略,使用了网络的预测结果,更合理地评估了每个候选样本的质量,且阈值是针对每个真实目标动态设定的,因此具有更高的检测精度和鲁棒性。

1.3 排队区域提取及检测

通过人脸识别准确捕捉到人脸后,计算人脸框与所划定排队区域的相交面积,并将相交面积与人脸框面积之比与设置的阈值进行比较,以判断矿工是否有序地站在队列中[17]。

矿工排队时通常分散且难以形成规整的队列。若采用规则的矩形(图2(a)中绿色框)作为排队区域,其尺寸难以与矿工实际排队的形态相匹配,因此选择多边形作为排队区域(图2(b)中绿色框)。

图2 排队区域Fig.2 Queue area

当排队区域为凸多边形时,使用半平面交法计算人脸框与排队区域的相交面积;当排队区域为凹多边形时,先将凹多边形分解为多个凸多边形,再计算人脸框与排队区域的相交面积。

半平面交法先把每个凸多边形的点按照逆时针排序,再将每个凸多边形的边放入边集L。求半平面交的面积,需先求边集L的半平面交,过程如图3 所示。首先选取一个正方向(一般为逆时针),以保证核在有向线段的左边;然后将有向线段通过极角排序,排序之后的线段是有序的,可以在双端队列里进行操作;最后按顺序遍历每条线段,取左边区域,删右边区域,剩下的蓝色部分就是多边形的和,即所有直线的半平面交。在此过程中,需使用叉积求出两平面的交点,从而判断直线X是否处于直线Y的逆时针方向。

图3 求解半平面交过程Fig.3 Process of solving the half-plane intersection

式中:×为叉积操作;θ为直线X和Y之间的夹角。

在计算人脸框与排队区域的相交面积后,根据相交面积来判断队列的有序性。若相交面积与人脸框面积之比小于阈值,则认为异常排队,否则认为正常排队。

式中:M=0 代表异常排队,M=1 代表正常排队;f为人脸框与排队区域的相交面积;q为人脸框面积;Q为阈值。

2 实验与分析

2.1 实验平台

实验环境为Ubuntu 18.04 操作系统,配置Intel(R)Core(TM)i5-7400 CPU @ 3.00 GHz 的CPU处理器,24 GiB 的运行内存,GeForce RTX 3090 的GPU。实验使用PyTorch 框架对井下矿工排队行为进行检测。

2.2 数据集及预处理

实验使用Wider Face 数据集、MAFA 数据集和自建井下矿工人脸检测数据集对模型进行训练。

由于井下矿工排队需要对矿工人脸进行检测,所以选择Wider Face 数据集进行训练。Wider Face数据集标注了393 703 张人脸数据。对于每张人脸都附带更加详细的信息,包括模糊程度、表情、光照、遮挡、姿态。在数据集中,根据事件场景的类型分为61 个类,每个类别按照70%,10%,20%的比例划分到训练集、验证集及测试集中。

MAFA 数据集共有30 811 张图像,该数据集标注出了有遮挡的人脸面部,但没有遮挡的面部没有标出,因此在实验前用LabelImg 重新对MAFA 数据集进行标注,并选取70%作为训练集,10%作为验证集,20%作为测试集。

自建井下矿工人脸检测数据集中所有图像均由河南龙宇能源股份有限公司陈四楼煤矿视频监控系统提供。系统提供矿工排队视频300 段,每段视频中都包含正确排队和插队的情况。在这些视频中提取10 000 张图像,并使用LabelImg 进行人工标注。本实验选取8 000 张图像作为训练集,2 000 张图像作为测试集。其中正常排队7 563 张图像,异常排队2 437 张图像。为了优化排队检测性能,除了使用常用的数据增强手段(如图像平移、缩放、剪切、翻转)外,本文还使用了数据增强方法Mosaic[18]。随机将4 张训练图像按一定比例拼接成一幅新的图像,能够丰富训练集,避免过拟合。由于井下环境昏暗,不利于模型训练,所以利用 Python 脚本实现暗光增强技术[19],对自建井下矿工人脸检测数据集中图像的暗光区域进行亮度增强。

2.3 模型性能评估

采用不同的目标检测模型SSD、YOLOv3、YOLOv4、YOLOv5s、Deit 及本文提出的HPIYOLOv5s 模型进行对比实验。为保证公平性,采用最高权重分别在MAFA、Wider Face 和自建井下矿工人脸检测数据集上进行实验。

选取准确率A、召回率R、精确率P、特异性S来评估模型在数据集上表现的优劣[20-21]。

式中:NTP为分类器识别正确,分类器认为该样本是正样本;NTN为分类器识别正确,分类器认为该样本是负样本;NFN为分类器识别结果错误,分类器认为该样本是负样本,实际上该样本是正样本;NFP为分类器识别结果错误,分类器认为该样本是正样本,实际上该样本是负样本。

不同模型在MAFA 数据集、Wider Face 数据集和自建井下矿工人脸检测数据集上的性能见表1-表3。可看出HPI-YOLOv5s 模型在3 个数据集上的准确率、精确率、特异性均最优,仅在MAFA 数据集和自建井下矿工人脸检测数据集上,HPI-YOLOv5s模型的召回率分别比YOLOv5s 模型、Deit 模型略低。

表1 不同模型在MAFA 数据集上的性能Table 1 Performance of different models on MAFA dataset%

表2 不同模型在Wider Face 数据集上的性能Table 2 Performance of different models on Wider Face dataset%

表3 不同模型在自建井下矿工人脸检测数据集上的性能Table 3 Performance of different models on self-built miner face detection dataset%

2.4 消融实验

为验证BCrFPN 和ATSS_PLUS 的有效性,在自建井下矿工人脸检测数据集上进行消融实验,结果见表4。可看出在YOLOv5s 模型中添加BCrFPN后,显著减少了网络冗余,降低了计算复杂度,但准确率降低了0.1%;在YOLOv5s 模型中添加ATSS后,相比原始YOLOv5s 模型准确率提高了0.4%;对ATSS 进行优化后,在YOLOv5s 模型中添加ATSS_PLUS 比ATSS 的准确率提高了1.6%,比YOLOv5s模型的准确率提高了2%,弥补了引入BCrFPN 造成的精度损失;将BCrFPN 和ATSS_PLUS 合并到YOLOv5s 模型中,比YOLOv5s 模型的准确率提高了1.9%,权重大小减少了32%,参数量减少了6.9%,检测速度提高了7.8%。

表4 消融实验结果Table 4 Ablation experiment results

2.5 阈值选择

为了选择合适的阈值,实验选择正常排队图像682 张,异常排队图像318 张,对不同阈值下的检测效果进行比较。当阈值分别为0.4,0.5,0.6 时,检测准确率分别为82.1%,85.4%,83.8%,因此设置阈值为0.5。

在自建井下矿工人脸检测数据集上的矿工排队检测结果如图4 所示。在所选区域内,绿色框表示正常排队,蓝色框表示异常排队。从图4(a)可看出,矿工均在正常排队;从图4(b)可看出,异常排队人员被检测出来,并用蓝色框标注。

图4 矿工排队检测结果Fig.4 Miner queue detection results

2.6 对比实验

为直观验证HPI-YOLOv5s 模型的有效性,选择YOLOv3,YOLOv4,YOLOv5s 3 种主流模型在自建井下矿工人脸检测数据集(选择遮挡、光照不均、昏暗3 种场景)上进行矿工排队检测对比实验,结果如图5所示。

图5 煤矿不同场景下不同模型排队检测效果对比Fig.5 Comparison of queue detection effect of different models in different scenarios of coal mines

从图5 可看出,在出现矿工遮挡的情况时,YOLOv3,YOLOv4,YOLOv5s 模型识别矿工时置信度偏低,但HPI-YOLOv5s 模型由于引入了ATSS_PLUS,更好地选取高质量的正样本,因此能更精确地检测矿工人脸,置信度较高。在光照严重不均的情况下,YOLOv3 和YOLOv4 模型均出现误检和检测不全的情况,虽然YOLOv5s 模型未出现这种情况,但检测结果的置信度极低,而HPI-YOLOv5s 模型通过BCrFPN 可高效进行多尺度特征融合,比其他模型具有更高的检测精度。在昏暗环境下,虽没有出现误检和漏检的情况,但由于光照不足,导致图像质量下降,影响YOLOv3 和YOLOv4 模型的检测精度,而HPI-YOLOv5s 模型能更好地适应昏暗环境,具有较高的检测精度。

3 结论

1)针对井下矿工不按规定排队的现象,提出了一种HPI-YOLOv5s 模型用于矿工排队检测。该模型在YOLOv5s 模型基础上,构建了一种高效的BCrFPN 作为特征网络,能够进行多尺度特征融合,提高检测效率;对ATSS 标签分配策略进行改进,可更好地选取高质量的正样本,有效提高检测精度;通过计算人脸框与所划定排队区域的相交面积,并将相交面积与人脸框面积之比与阈值进行比较来判断队列的有序性。

2)与YOLOv5s 模型相比,HPI-YOLOv5s 模型的准确率提高了1.9%,权重大小减少了32%,参数量减少了6.9%,检测速度提高了7.8%,且针对遮挡、昏暗、光照不均的矿井图像,能够更准确地识别矿工排队情况。

猜你喜欢

矿工排队人脸
有特点的人脸
金牌挖矿工
怎样排队
老矿工的家国情怀
三国漫——人脸解锁
巧排队列
三角龙排队
矿工老李
马面部与人脸相似度惊人
长得象人脸的十种动物