基于FocalLoss的煤矿井下人员安全视觉监测方法
2023-09-14陈立烨党浚哲崔子航陈思妍段琦锋
陈立烨 党浚哲 崔子航 陈思妍 段琦锋
摘 要:监测矿井工作人员违规进入或误入煤矿井下危险区域是煤矿安全管理的重要内容,对工作人员违规进入或是误入危险区域的行为及时监测和报警是减少事故的重要手段。针对煤矿井下危险区域的监测,提出一種基于Focal Loss的人工智能方法,实现对进入危险区域的人员及时报警。经过实验测试与分析,这种方法对人员检测的平均精度达到95.6%,检测速度达到9.9 f/s,优于对比算法,具有较高的准确性和实时性。
关键词:深度学习;人员检测;矿井安全;实时监测
中图分类号:TP391.4;TD76 文献标识码:A 文章编号:2096-4706(2023)13-0096-05
A Visual Monitoring Method of Personal Safety under the Coal Mine Based on FocalLoss
CHEN Liye, DANG Junzhe, CUI Zihang, CHEN Siyan, DUAN Qifeng
(School of Mechanical Electronic and Information Engineering, China University of Mining and Technology-Beijing, Beijing 100083, China)
Abstract: The illegal or accidental trespass by miners into dangerous areas of coal mines is an important content of coalmine safety management, it is an important means to reduce accidents by monitoring and alarming the behavior of miners who enter illegally or stray into dangerous areas. And thus, the monitoring of dangerous areas in coal mines is of critical important. An artificial intelligence method based on Focal Loss is proposed to realize timely alarm for people entering the dangerous area. After experimental testing and analysis, this method achieved an average accuracy of 95.6% for personnel detection, with a detection speed of 9.9 f/s, which is superior to the comparison algorithm and has high accuracy and real-time performance.
Keywords: deep learning; person detection; coal mine safety; real-time monitoring
0 引 言
我国的煤炭资源十分丰富。根据中国煤炭工业协会的统计数据,2021年我国生产原煤41.3亿吨,创历史新高[1],“以人为本、生命至上”是我国煤炭工业发展的基本理念,工作人员误入或是违规进入危险区域容易发生危险事故,因此,对煤矿井下危险区域进行人员检测是保证人员安全的一项必要措施。
目前,视频监控系统在煤矿生产管理中得到了广泛的应用。早期的煤矿井下视频监控系统主要是将井下的视频图像传输到地面控制室,由人工进行监控,这不仅增加监控人员的工作负担,同时,系统依赖于人的责任心和精神状态。因此,实现煤矿井下视觉监控的智能化对于提高安全管理工作的技术水平和效率都有着重要的意义。
另一方面,目前煤矿人员定位与监测方法以无线通信技术为主,具体的包括RFID[2]、UWB[3]、Wi-Fi[4]和ZigBee[5]等,这些方式虽然可以对井下人员进行监测,但都存在一定的局限性。首先,由于电磁波传播的特性,在煤矿井下多尘多雾的电磁干扰环境中准确性和可靠性较差;并且,以无线通信为主的定位方式需要人员佩戴标签,如果标签损坏则使这种监测方式失效。
为了弥补以无线通信技术为代表的定位方式的缺陷,逐渐开始采用视频实时监控的方式进行监测,这种方法通过将视频监控安装在危险区域来实现。近年来,随着深度学习技术[6-9]的迅速发展,目标检测技术取得了巨大的进步,煤矿井下智能视频监控系统作为“智慧煤矿”的重要部分开始迅速发展。常用的煤矿井下智能视频监控系统对监控目标的自动监测方法主要有运动目标监测方法、基于目标建模的图像统计特征方法、基于深度学习的目标检测方法。
关于基于深度学习的煤矿井下智能视频监控研究,文献[6]提出了一种基于Faster R-CNN的煤矿井下人员头部检测算法,以检测人员头部来代替对人员的检测,达到了87.6%的准确率;文献[7]提出了一种改进的Faster R-CNN煤矿井下行人检测算法,通过设计的金字塔RPN结构来解决煤矿井下行人检测中的多尺度问题,获得了90%的准确率;文献[8]提出了一种结合Dense Net和YOLO的行人检测算法,在准确率达到了91%的同时实现了25 fps的检测速度;文献[9]提出了一种结合轻量级网络Mobile Net和SSD的煤矿副井人员检测算法,实现了87%的准确率和26 fps的检测速度。
本文将基于深度神经网络研究煤矿井下危险区域的监测方法。
1 煤矿井下危险区域与视觉监测
1.1 煤矿井下的危险区域
煤矿井下存在着各种危险区域,本文將可能对人造成伤害的空间范围作为危险区域,如采空区,很容易发生垮落、有害气体超标区,人员有中毒的危险、变电所,存在高压电等。这类危险区域的特点是其本身是静态的,场景的位置和内容基本不变化。另外,大型煤机设备如截煤机、掘进机、刮板输送机等煤机设备,其周围一定的范围内存在伤人的风险,如果工作人员未遵守安全操作规章制度,很有可能会发生设备伤人事故。这类危险的特点是危险范围不一定是静态的。本文研究煤矿井下静态危险区域的监测,建立视觉监控时一是划定危险范围,二是监测出现在这些危险区域的人员,以避免事故的发生。本文基于深度学习方法和计算机视觉技术建立煤矿井下人员检测模型,当有人进入危险范围时,自动识别并上传信息至监控中心。
1.2 煤矿井下人员视觉安全监测问题
煤矿井下视觉监控有其特殊的问题需要解决。在开采过程中,会产生大量的粉尘,这些粉尘很容易散落在工作人员身上,而煤矿井下的巷道中主要是煤,这就使得人与环境背景难以区分。另外,煤矿井下存在光照不足和光照不均的问题,进一步增加了区分难度,表现在监控图像上就是人员目标和环境背景的灰度值高度近似。因此,煤矿井下的人员检测需要解决以下的问题:
1)检测算法需要具备很强的特征提取能力,使其能从煤矿井下的环境背景中准确检测出人员目标。
2)当监测的危险区域较大时,人员可能出现在该区域的任何地方,在监控视频中的成像尺度变化较大,必须考虑多尺度目标的检测。
3)检测算法需要实现检测精度和检测速度两方面的平衡,一方面需要检测精度高以满足安全工作的要求,另一方面为满足监测的实时性要求,需要有一定的检测速度。精度和速度存在矛盾,需要根据煤矿井下安全工作的实际需求做一个平衡。
2 深度神经网络安全监测模型的建立
本节将提出一种基于Focal Loss的煤矿井下人员检测算法,该算法采用ResNeXt网络进行图像的深度特征提取,使用NAS-FPN寻找FPN结构的最佳跨层连接方式,为一阶段的目标检测网络结构,这样,可以在硬件性能较低的情况下实现对目标快速[10]、较高准确率的监测,并及时做出反馈,适用于煤矿井下的工作环境和需求。
煤矿井下环境恶劣,图像通常存在着光照度低、光照不均和尘雾遮挡等问题,对于基于深度学习的目标检测方法而言,图像质量低会增加模型的拟合负担,使其难以学习到图像的典型特征,还会影响到系统识别的准确度。因此,在进行目标检测时,先要进行图像预处理,对摄像头采集的图像进行去雾除尘和低照度增强。
2.1 图像预处理
针对存在尘雾遮挡和光照问题,在对煤矿井下视频监控图像进行目标检测之前,对其进行清晰化处理十分必要。预处理的方法主要有图像复原和图像增强两类,在处理图像中的尘雾遮挡问题上,以暗通道先验(dark channel prior)[11]为代表的图像复原方法所取得的效果要普遍好于图像增强方法。本文主要研究使用暗通道先验原理对图像进行去雾处理的图像复原方法。
暗通道先验是HE[11]通过研究大量无雾图像得出的一个统计规律,即在大多数无雾图像的非天空局部区域中,至少有一个颜色通道有一些像素值非常低(接近于0)的点。对于一幅给定的图像J,其暗通道J dark定义为:
这里,I为原始有雾图像,J为未被衰减的原始光辐射,t (x)为介质透射率,A为全局大气光辐射。
由式(1)和式(3)可以看到,在按式(1)获得对应的暗通道图后,只要得到式(3)中的A和t (x),就可以推算成去雾图像J。
A的估计是先从暗通道图中选出具有亮度最高的0.1%的点,并找到这些点在原始有雾图像中的位置,再从原图的这些位置中选出亮度最高的值作为全局大气光辐射A的估计值。Ac( c ∈ {r,g,b})。
本文在暗通道先验方法的基础上采用导向滤波对估算介质透射率进行细化的方法来进行图像去雾。导向滤波是一种边缘保持滤波器,能够有效地保留图像的边缘信息,设输入图像为I,导向图像为G,输出图像为O,则以像素c为中心的一个窗口wc上,导向图像G与输出图像O的关系如式(6)所示;由于同一像素会属于多个窗口,本文取所有结果的平均值作为最终的输出值,可得到导向图像G与输出图像O的关系如式(7)所示:
预处理后的煤矿井下图像如图1所示。
2.2 损失函数
本文提出的基于Focal Loss的煤矿井下危险区域的人员检测模型属于一阶段目标检测算法。LIN等人认为,一阶段目标检测算法的检测精度不如二阶段目标检测算法的原因是一阶段目标检测算法中存在正负样本和难易样本极度不平衡的现象。因此,在模型训练阶段,负样本和易样本对模型的影响要远远大于正样本和难样本对模型的影响,而对精度影响较大的则是正样本和难样本。为了解决正负样本和难易样本不平衡的问题,LIN等人提出了Focal Loss损失函数。
Focal Loss损失函数通过对二分类交叉熵损失函数进行加权,根据一定的比例对正负、难易样本添加不同的权重,通过调节损失函数中γ的值来调节聚焦参数,从而缓解难易样本不平衡的问题。Focal Loss损失函数如式(8)所示。为了进一步解决正负样本不平衡的问题,得到同时对正负样本和难易样本不平衡问题都有效的α平衡Focal Loss损失函数,如式(9)所示。另外,本文采用平滑L1损失函数作为边框回归损失函数。
2.3 特征提取网络的整体结构
特征提取网络是深度学习目标检测算法中负责提取图像高维特征的网络结构。在本文的人员检测算法的应用场景中,煤矿井下人员目标与环境背景的灰度值高度接近,为了兼顾检测精度和检测速度,本文采用特征拟合能力强、模型复杂度低的ResNeXt作为人员检测算法的特征提取网络。为了解决目标检测中的多尺度问题,本文在人员检测算法中引入NAS-FPN结构,通过使用神经网络架构搜索技术对FPN结构进行自动寻优。
ResNeXt[12]是ResNet[13]网络结合Inception的增强版,不同于Inception v4,ResNeXt不需要人工设计复杂的Inception结构细节,而是每一个分支都采用相同的拓扑结构,同时继承了ResNet的残差学习思想。由于分组卷积思想的引入,ResNeXt比ResNet有着更高的分类准确率,同时,由于平行堆叠的结构设计,使ResNeXt在没有增加模型参数量的前提下还减少了模型的超参数,降低了模型的复杂度。
本文要实现对井下视频监控区域中任何地方出现的目标进行检测,因此需要考虑多尺度目标检测的问题。可在模型中使用多尺度结构,提高对多尺度特征的检测能力。目前,最常用的多尺度结构是特征金字塔网络结构(Feature Pyramid Network, FPN),FPN通过对深层特征图进行上采样来实现对小目标的检测,但文献[14]表明这样又会使模型过多关注浅层特征从而使得对大目标的检测效果变差。对此,文献[15]发现不同层之间的连接方式对网络的性能有着很大的影响,通过在FPN中引入合适的跨层连接方式来发挥FPN的作用。但FPN的跨层连接方式是一个排列组合问题,寻优比较困难,文献[16]中引入了NAS-FPN结构,使用神经网络架构搜索(Neural Architecture Search, NAS)技术实现对FPN结构的自动寻优。
根据以上的分析讨论,本文提出的煤矿井下人员检测模型如图2所示,其中NAS-FPN只出现在训练阶段。在训练时,经图像预处理后的图像送入ResNeXt进行卷积计算,随后经过连续下采样后送入NAS-FPN进行FPN结构寻优,最终对输出的多尺度的特征图密集采样生成锚框,最后送入分类网络和边框回归网络进行学习。
3 数据集与模型实验
3.1 数据集建立
为训练模型和对比实验,本文自建了数据集,数据来自河南某煤矿井下工作场景,为黑白录像,视频时长约3 h,分辨率为1 920×1 080。该视频的图像存在光照不足及尘雾遮挡的问题。因为视频是连续拍摄的,很多视频帧的内容是相同的,背景不变,只是人像的大小因为人的走动在变化,人的正常步速一般为1.5 m/s,煤矿井下视觉监测范围至少有3~5 m的范围,对视频文件以1 Hz的频率进行帧采样,一般不会丢失有用的帧图像。这样,共得到约1.2万张图片,去除不包含人的和高度相似的冗余图像,共获得1 500张井下人员图像,再对视频帧进行图像增强,然后将有人的图像制作成检测数据集。建立了煤矿井下人员数据集。
3.2 模型训练与实验
因为自建数据集数据量小,为弥补数据集数据量不足,在训练模型时采用了在线Mosaic数据增强、多尺度训练和迁移学习等方法。
Mosaic数据增强从数据集中随机选择四张照片,通过随机缩放、随机裁切、随机分布的方式进行拼接,通过这种方式大大丰富了数据集,增加了模型的鲁棒性,有利于训练过程的收敛。多尺度训练。在训练过程中,对原始图像按照原始宽高比设置多个训练尺寸,训练时每一次迭代都随机选择一种尺寸训练。
本文的模型迁移学习按以下方法进行。首先采用了PASCAL VOC2007、PASCAL VOC2012和Microsoft COCO中的人物图片,约抽取了三个数据集的8万张照片制作成预训练数据集。在模型训练时,先将在ImageNet数据集上预训练过的ResNeXt网络嵌入本文的检测模型作为特征提取网络,然后对整个检测模型在制作好的预训练数据集上进行预训练,最后在煤矿井下人员检测数据集上进行微调。
本文使用的训练平台的配置:
硬件配置:CPU为Intel Corei7-9900KF,内存为32 GB,GPU为两块GeForceRTX 2080Ti。
软件及版本:操作系统Ubuntu 20.04 LTS, Conda 5.3.1,PyTorch 1.10.2,Python 3.8。
使用訓练好的模型进行测试的结果样例如图3所示。
模型的评价本文从检测速度和检测精度两个方面进行。检测速度一般用帧每秒(FPS)来进行衡量,检测精度的衡量指标有查准率和查全率,除此之外,还有查准率-查全率(PR)曲线、平衡点(BEP)和平均精度(AP)。
实验结果如表1所示,AP@0.5和AP@0.75代表模型的IoU阈值为0.5和0.75时的AP值,AP为IoU在[0.5,0.95]上每隔0.05所取AP值的平均值。
本文采用的特征提取网络ResNeXt和多尺度结构NAS-FPN能大幅度提高模型的检测性能。根据表1可知,本文提出的人员检测算法与SSD相比,在牺牲部分检测速度(2.8 FPS)的前提下,在各项精度指标(AP、AP@0.5、AP@0.75、AR)上均有较大的提高;与Cascade R-CNN相比,在检测精度上有所不及,但检测速度提高明显(2.2 FPS)。
4 结 论
人员安全是煤矿安全生产的重要组成部分。本文提出了一种基于Focal Loss的煤矿井下人员检测算法对进入危险区域的人员及时发出预警。该方法先将摄像头输入的图像进行图像预处理,随后送入人员检测算法中进行监测,发现有人进入时及时作出相应。该算法在对计算机性能要求不高的前提下保证了较快的响应速度,同时具有较高的准确性,符合煤矿井下的实际情况。经过实验验证,本文的煤矿井下人员安全视觉监测算法具有可行性和实用价值。
参考文献:
[1] 中国煤炭工业协会.2021年煤炭行业发展年度报告 [R].2022.
[2] 张新.基于LoRa和RFID技术的矿井人员定位系统设计 [J].化工矿物与加工,2020,49(4):34-38.
[3] 刘世森.基于UWB的矿井人员精准定位技术 [J].煤矿安全,2019,50(6):118-120.
[4] 罗宇锋,杨益龙.基于WI-FI技术的矿井人员定位算法研究 [J].计算机仿真,2015,32(11):270-273+419.
[5] 王仁杰.基于ZigBee的井下人员定位系统研究 [D].焦作:河南理工大学,2018.
[6] 唐士宇,朱艾春,张赛,等.基于深度卷积神经网络的井下人员目标检测 [J].工矿自动化,2018,44(11):32-36.
[7] 李伟山,卫晨,王琳.改进的Faster RCNN煤矿井下行人检测算法 [J].计算机工程与应用,2019,55(4):200-207.
[8] 袁稼轩.基于深度学习的井下巷道行人检测与距离估计 [D].合肥:合肥工业大学,2019.
[9] 周晨晖.基于深度学习的煤矿复杂场景人员检测与统计分析方法研究 [D].徐州:中国矿业大学,2018.
[10] JIAO L C,ZHANG F,LIU F,et al. A survey of deep learning-based object detection [J].IEEE Access,2019,7:128837-128868.
[11] HE K M,SUN J,TANG X O. Single Image Haze Removal Using Dark Channel Prior [J].IEEE transactions on pattern analysis and machine intelligence,2011,33(12):2341-2353.
[12] XIE S N,GIRSHICK R,DOLLAR P,et al. Aggregated Residual Transformations for Deep Neural Networks [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu:IEEE,2017:5987-5995.
[13] HE K M,ZHANG X Y,REN S Q,et al. Deep Residual Learning for Image Recognition [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas:IEEE,2016:770-778.
[14] LIN T Y,DOLL?R P,GIRSHICK R,et al. Feature Pyramid Networks for Object Detection [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition.Honolulu:IEEE,2017:936-944.
[15] LIU S,QI L,QIN H F,et al. Path aggregation network for instance segmentation [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:8759-8768.
[16] GHIASI G,LIN T Y,LE Q V. Nas-fpn: Learning Scalable Feature Pyramid Architecture for Object Detection [J] CoRR,2019:7029-7038.
作者簡介:陈立烨(2003—),男,汉族,山东临沂人,本科在读,研究方向:深度学习、信息处理;党浚哲(2002—),男,汉族,辽宁营口人,本科在读,研究方向:计算机视觉、机器学习;崔子航(2002—),男,汉族,河南驻马店人,本科在读,研究方向:计算机科学、大数据;陈思妍(2003—),女,汉族,湖南株洲人,本科在读,研究方向:信息处理、图像识别;段琦锋(2001—),男,汉族,山西太原人,本科在读,研究方向:信息传输、无线通信。
收稿日期:2023-02-16