APP下载

基于梯度流特征融合的泵站安全风险检测

2024-01-26侯欣伟李一帆白岩冰刘鹏宇

水利规划与设计 2024年1期
关键词:池化特征提取泵站

梁 磊,侯欣伟,李一帆,白岩冰,刘鹏宇

(1.北京市南水北调团城湖管理处,北京 100195;2.北京工业大学信息学部,北京 100124;3.先进信息网络北京实验室,北京 100124;4.北京工业大学计算智能与智能系统北京市重点实验室,北京 100124)

通过信息化、数字化和智能化手段提升泵站安全风险的感知和检测水平是泵站安全监管发展的趋势。[1]泵站作为水利工程的重要枢纽,其日常运行中涉及的大型电机、变压器等大型设备也给作业人员带来一定的安全风险,因此需要对泵站重点区域进行安全帽佩戴检测、人员入侵检测和烟火检测以避免安全事故的发生。由于人工巡检存在监管不及时、效率低下等多种弊端,因此迫切需要适合泵站场景下的安全风险检测技术,保障泵站内部的平稳运行。

目前对于安全风险检测任务的研究主要分为传统方法和基于深度学习的方法。传统方法主要通过边缘检测、特征联合和支持向量机等方法对目标区域进行检测。Rubaiya和Silva等人将梯度直方图算法与图像频域信息相结合先确定人体区域位置,最后使用圆形霍夫变换来检测人员是否佩戴安全帽。Guan等人提出了一种由颜色注意模块(MCM)的重复块组成的颜色注意神经网络,通过每个MCM模块提取该区域的颜色特征信息,从而实现对烟火的检测。[2]吴春香等人通过边缘检测算子和腐蚀膨胀等操作进行检测,再通过联合特征学习实现人员入侵检测。由于传统方法比较依赖特征提取和特征匹配的结果,在复杂场景下的检测精度不佳,难以适用于泵站复杂场景下的安全风险检测任务。随着深度学习技术的发展,越来越多的学者尝试将深度学习技术应用于安全风险检测任务。Long等人将一阶段目标检测模型SSD算法应用于安全帽检测任务中,通过神经网络实现特征的提取,但是无法适应人员密集场景下的安全帽检测任务。[3]Huang等人对Yolov3进行改进,通过对预测帽框进行像素统计并结合对应的权重得到最终预测的输出结果,但是对于遮挡现象多的场景的检测效果显得不尽人意。Mukhriddin Mukhiddinov等人通过带有卷积注意力模块和h-swish激活函数对YOLOv4进行改进,提高了烟火检测任务的检测速度,但对烟雾的检测精度有待提高[4]。

为了应对泵站场景下的安全风险检测任务中存在的特征提取能力不足和环境因素干扰等问题,本文以YOLOX目标检测模型为基础,提出一种泵站场景下的安全风险检测算法,在特征提取网络中引入梯度流特征提取模块和坐标注意力机制,同时在特征融合网络中引入BiFPN结构提升不同尺寸目标特征的融合效果。通过对比实验可知,本文所提算法在泵站场景下的检测效果要优于常见目标检测算法,能够有效应对泵站场景下的安全风险检测任务。

1 面向泵站场景的安全风险检测方法

1.1 改进型安全风险检测网络

本文所提的目标检测网络主要包含输入端、主干网络、特征融合网络和预测网络4个部分,分别负责输入图像的预处理、特征提取、特征融合和目标位置、类别的预测工作。特征提取网络中引入梯度流特征提取模块和坐标注意力机制,在特征融合网络中采用BiFPN结构提高不同尺寸目标特征的融合效果,具体的网络结构如图1所示。

图1 改进型安全风险检测网络结构图

1.1.1改进的主干网络

主干网络在目标检测模型中负责输入图像的特征提取工作,安全风险检测任务中经常出现的误检、漏检等现象均与特征提取网络的特征提取能力有直接联系。[5]改进后的模型将原始的YOLOX模型中的Res特征提取模块替换成了特征提取能力更强的C2F_CA模块,结构如图2所示。

图2 特征提取模块结构对比图

原始的Res模块借鉴了CSPNet提取分流的思想,同时结合残差结构理念提出的。Res模块主要包含了两个分支,主分支梯度流模块是由输入特征图X经过CBS操作后,采用多个Bottleneck堆叠而成,其作用是对特征图进行降维以减少参数的计算量,另一个分支则经过一个CBS操作后与主分支通过concat操作拼接在一起得到最终输出特征。[6]Res模块的主分支只是通过Bottleneck的堆叠操作获得了最后一层梯度Bottleneck的输出结果,忽视了Bottleneck降维过程中其他梯度层的特征信息。本文在借鉴了ELAN思想的基础上设计了如图2(b)所示的C2F_CA模块,C2F_CA模块删除了原本的次分支结构以减少模块的计算量,输入特征在经过CBS操作和Split操作后采用并行的方式对Bottleneck进行堆叠,将每一层Bottleneck的输出进行保留,最终通过concat操作进行特征信息的拼接。相较于原本的Res模块,C2F_CA模块采用并行结构在不增加庞杂计算量的同时获得了更加丰富的梯度流信息,提高了网络的特征提取能力。

利用深层网络提取的特征图,不同的通道包含着不同的特征信息,学习不同通道间的特征信息对提高检测的准确度具有重要意义[7],因此本文采用了结合通道信息和特征空间位置信息的轻量型注意力机制Coordinate Attention。其具体的结构如图3所示:

图3 坐标注意力机制结构图结构示意图

为提高泵站安全风险检测算法的检测速度,本文选择采用计算速度更快的SimSPPF模块替换原始YOLOX-s中的SPP模块[10],两种模块的具体结构如图4所示。

图4 SPP模块和SimSPPF模块结构对比图

SPP模块中采用并行池化的方式将输入分为4个分支,[10]其中3个分支分别采用池化核为5、9、13的最大池化操作,另一个分支不进行任何操作,最后将4个分支的结果拼接整合,帮助模型在提高特征融合效果的同时降低计算量。池化操作的计算量与池化核的大小有关,一般池化核越大,计算量就越大。相较于SPP模块在并行池化时采用了池化核为5、9、13的最大池化,SimSPPF模块选择采用3个池化核为5的最大池化通过串行加并行的方式进行改进。SimSPPF模块将原本SPP模块中池化核为9的最大池化操作分解为两次池化核为5的最大池化操作的叠加,因此可以充分利用第1次池化核为5的最大池化计算结果,在第1个池化核为5的最大池化后串联1个池化核为5的最大池化,得到与池化核为9的最大池化相同的结果的同时通过降低池化核大小减少了模块的计算量。同理,池化核为13的最大池化也是由3个池化核为5的最大池化串联而成。SimSPPF模块将SPP模块中采用的SiLu激活函数替换成了速度更快的ReLu激活函数,[11]通过上述操作,SimSPPF在几乎不改变结果的同时大大降低了模块的计算量,进一步降低了移动端部署的算力压力。

1.1.2改进型的Neck网络

原始的YOLOX-s算法的特征融合网络采用FPN和PANet相结合的方式构建特征金字塔结构,具体结构如图5(a)所示。FPN将深层具有的强语义信息传递到浅层特征中,[12]而PANet将浅层特征具有的强位置信息传递到深层特征中,通过FPN和PANet的结合实现不同尺寸大小检测层的参数聚合,最终实现不同层级之间的特征融合。其中PANet的输入均为FPN处理过的特征信息而缺少主干网络提取的原始特征信息,这可能会导致学习偏差,在特征融合时会存在特征信息丢失的问题。因此本文所提G-YOLOX算法采用BiFPN结构[13]对特征金字塔进行改进,具体结构如图5(b)所示。

图5 特征金字塔结构对比图

1.2 预测网络优化

H-YOLOX的预测头依旧沿用了YOLOX-s的解耦头结构,损失函数主要分为分类损失和回归损失两部分,分类损失采用的是BCELoss,回归损失则是由CIOU_Loss组成,最终的损失由上述损失经过加权计算获得。其中BCELoss的计算方法如下公式所示。

(1)

式中,P′—对应预测的值;y—判断是否是真实类别的标签,y=1时表示模型预测的目标为对应真实类别目标,y=0时表示模型预测的目标不是对应的真实目标。CIOU_Loss的计算方法如下所示:

(2)

式中,ρ—欧式距离;b、bgt—预测框、真实框的中心点;c—预测框和真实框的对角线距离;α—权重系数;v—测量的长宽比。

(3)

式中,A—真实框;B—预测框;IOU—判断真实框和预测框的重合程度标准。

2 泵站场景安全风险检测数据集

本文使用的数据集为在泵站监控下实地拍摄的图片,共3500张,包含佩戴安全帽和未佩戴安全帽、有烟火和无烟火及有人员闯入违禁区域和无人员闯入违禁区域6类目标。为防止网络训练时出现过拟合的情况,通过左右翻转、平移、拉伸、旋转和裁剪等方式对数据样本进行扩充,最终将数据集扩充到10123张。通过图像标注软件LabelImg进行图像标注,并按照8∶1∶1的比例划分训练集、验证集和测试集,输入的图像尺寸大小统一为640×640。

3 实验结果与分析

本文实验的操作系统为Ubuntu18.02,CPU为intel-i7-10875,GPU为NVIDIA GeForce RTX 3080,并基于迁移学习的策略使用预训练权重进行训练,加速模型的收敛。训练的学习率为0.0005,Batchsize为32,epoch为100,并使用adam作为优化器。

3.1 评价指标

本文采用目标检测任务常用的精确率(Precision)、召回率(Recall)均值平均精度(mAP)作为评价指标,其中Precision表示模型预测为正样本且真实标注为正样本占模型预测为正样本的整体比例,Recall表示模型预测为正样本且真实标注为正样本占全部正样本的比例,[14]具体的计算方法如式(4)—(5)所示:

(4)

(5)

式中,TP—模型预测为正例且真实标注为正例;FP—模型预测为正例而真实标注为负例;FN—模型预测为负例而真实标注为正例。AP值用来评估某一类目标的预测效果,[15]一般是Precision的值在(0,1)区间内对Recall进行积分获得的值,mAP为多类目标的AP均值,具体计算方法如式(6)—(7)所示。

(6)

(7)

式中,n—目标类别数;i—当前类别的序号。

3.2 消融实验

为证明本文所提方法的有效性,选取原始的YOLOX作为基准,并在此基础上添加本文所提不同模块进行验证,具体结果见表1。根据结果可以发现原始的YOLOX在本数据集上的精确率和召回率分别达到了89.21%和84.17%,均值平均精度达到了86.91%。在添加了本文提出的mAP模块后均有所提升,所提最终算法mAP达到了93.5%,证明本文所提方法在泵站场景下安全风险检测任务的可行性。

表1 安全风险检测算法消融实验性能评估表

3.3 对比实验

3.3.1定性分析

为验证本文所提算法H-YOLOX算法的性能,本文选择与目前常见效果较好的YOLOv5、YOLOX和YOLOv7三种常见的目标检测算法在相同的实验环境和超参数设置中进行对比实验。实验采用的数据集为本文所建数据集,训练的epoch均为100,具体效果如图6所示。由图中可以看出,在安全帽检测、人员入侵检测和烟火检测中,其他的算法均有漏检目标的情况出现,因此足以证明本文所提的方法在复杂的泵站场景下安全风险检测效果要优于其他常见的目标检测算法。

图6 不同算法效果对比图

3.3.2定量分析

为更好的分析本文方法与常见的目标检测算法的性能对比,我们选用mAP作为评价指标来衡量安全风险检测的准确率,最终本文所提方法mAP达到了93.5%,损失Loss随epoch变化如图7所示。

图7 训练损失折线图

同时,与常见的目标检测算法YOLOv5、YOLOX和YOLOv7等算法相比,mAP均有不同程度的提高,性能对比结果见表2,足以证明本文所提方法的优越性,能够适用于泵站复杂场景下的安全风险检测问题。

表2 本文模型与主流目标检测模型性能对比表

4 结论

为解决泵站场景下远距离小尺寸目标和特征遮挡给安全风险检测技术带来的检测精度不佳,本文以YOLOX目标检测模型为基础,提出一种泵站场景下的安全风险检测算法,在特征提取网络中引入梯度流特征提取模块和坐标注意力机制,同时在特征融合网络中引入BiFPN结构提升不同尺寸目标特征的融合效果。通过对比实验可知,本文所提算法能够有效解决泵站场景下的安全风险检测问题,最终mAP达到了94.78%,后续将考虑设计更加轻量化的模型来提升安全风险检测的速度。

猜你喜欢

池化特征提取泵站
面向神经网络池化层的灵活高效硬件设计
基于Sobel算子的池化算法设计
卷积神经网络中的自适应加权池化
张家边涌泵站建设难点及技术创新实践
基于卷积神经网络和池化算法的表情识别研究
基于Daubechies(dbN)的飞行器音频特征提取
2016年河南省己建成泵站数量
Bagging RCSP脑电特征提取算法
全省已建成泵站数量
河南省2014年已建成泵站数量