APP下载

煤矿井下行人检测算法

2020-02-05杨清翔吕晨冯晨晨王振宇

工矿自动化 2020年1期
关键词:池化行人像素

杨清翔,吕晨,冯晨晨,王振宇

(1.山西中煤华晋能源有限责任公司 王家岭煤矿, 山西 河津 043300;2.中国矿业大学 信息与控制工程学院, 江苏 徐州 221116)

0 引言

基于计算机视觉的行人检测方法采用摄像装置获取视频图像,通过图像处理算法对目标信息进行检测和分析,并用于后续跟踪任务[1],在智能视频监控[2]、无人汽车驾驶[3]、智能机器人[4]等领域发挥了重要作用。在智能化矿井建设中[5],采用计算机视觉技术对长距离胶带沿线、封闭巷道入口、斜巷等危险区域进行行人检测,对于提高煤矿安全生产管理水平、防范人身伤亡事故具有重要的意义。但井下光照不均匀、行人特征与背景的相似度高[6]等问题导致基于计算机视觉的行人检测技术在井下应用面临很大挑战。

鉴于基于深度学习的行人检测方法在复杂环境下的应用优势[7],本文采用Faster RCNN(Region Convolutional Neural Networks,区域卷积神经网络)[8]进行煤矿井下行人检测(Faster RCNN行人检测),并通过池化因子设计了一种动态自适应池化方法,实现了针对不同池化域的自适应池化操作,从而提高了检测准确性。实验结果验证了Faster RCNN行人检测算法针对不同环境下图像中的行人均具有较好的检测效果。

1 Faster RCNN行人检测算法

基于深度学习的行人检测算法主要思想是利用卷积和池化等操作对行人图像进行处理,获取卷积特征,采用全连接层作为分类器完成分类检测。Faster RCNN行人检测算法引入RPN(Region Proposal Network,区域建议网络)生成候选区域,采用Fast RCNN[9]检测目标,如图1所示。采用卷积层提取图像特征,在特征提取过程中进行动态自适应池化操作。RPN通过柔性最大值传输函数softmax判断锚点属于前景还是背景,再利用边框回归修正锚点,以获取精确的候选区域。感兴趣区域池化层根据输入的特征图和候选区域,采用动态自适应池化方法提取候选特征图并将其送入分类器(全连接层)。分类器计算候选区域类别,再次使用边框回归获得检测框作为检测结果。

图1 Faster RCNN行人检测算法

Faster RCNN行人检测算法中RPN和Fast RCNN可共享卷积层,大幅提高了网络训练和检测速度,同时采用动态自适应池化方法,提高了行人检测准确性。

2 RPN与Fast RCNN共享卷积层

Faster RCNN行人检测算法中RPN目标是实现与Fast RCNN共享卷积层,主要思想为将输入图像转换为矩形目标建议框集合,并计算各框得分,该过程建模通过全卷积网络完成。

RPN只含有卷积层,最后一层输出的卷积特征为图像特征图。对其进行窗口滑动,在每个位置滑动时利用锚点机制按照3种尺寸和3种比例要求生成9种不同的锚点,并根据边框回归机制对位置进行修正。针对每个候选区域,RPN为其设置置信度,表明其可检测到行人目标的概率,并根据置信度选择合理的候选区域输入分类器进行分类检测。

RPN与Fast RCNN是独立训练的,卷积层修改方法不同。本文提出学习RPN和Fast RCNN的共享卷积层,而不是分别学习网络。在学习共享卷积层时采用交替训练算法,步骤如下。

(1) 对RPN进行训练。采用ImageNet预训练模型初始化RPN。RPN训练中采用端到端的微调。

(2) 利用RPN生成的矩形目标建议框,通过Fast RCNN训练得到检测网络。该网络采用步骤(1)中方法生成,但独立于RPN。此时RPN和检测网络未建立共享卷积层。

(3) 使用检测网络初始化RPN训练。此时不修改共享卷积层,只对RPN中独有的层进行微调。之后便可实现RPN和Fast RCNN共享卷积层。

(4) 在不改动RPN和Fast RCNN共享卷积层前提下,对Fast RCNN独有的层进行微调。之后RPN和Fast RCNN构成一个统一网络。

3 动态自适应池化

对于一幅行人图像,对可能包含行人的区域提取特征时,通常会对所获取的特征进行分析统计,以获取区域总体特征。图像中这个特定区域叫做池化域,对其进行的操作为池化。池化后得到的特征图维度与分辨率都有所下降,可有效避免过拟合现象发生。常用的池化方法有平均池化和最大池化。平均池化即计算池化域的像素平均值,并把该值作为子采样样本的特征值;最大池化即选取池化域中像素最大值作为特征值。

设F为输入图像特征图中大小为c×c的子采样池化域,其偏移量为b。在池化操作过程中核的每一次移动步长为c,则采用平均池化和最大池化得到的子采样特征图分别如式(1)、式(2)所示。

(1)

Sm=maxfij+b

(2)

式中fij为F中(i,j)处像素。

常用的平均池化和最大池化操作对所有的池化域采用相同池化方式,缺乏灵活性。本文提出一种动态自适应池化方法,根据特定区域的特征图动态自适应调整池化操作过程,同时根据每个池化域内容,对相应的池化权值进行自适应调整。如果池化域中只有1个值或所有值相同,则将该值作为该池化域的特征表示。设池化因子为μ,则采用动态自适应池化方法得到的子采样特征图为

Sd=μmaxfij+b

(3)

可见动态自适应池化方法是在最大池化基础上,通过池化因子μ对提取的子采样特征图进行优化,从而更加精确地表达图像的高层次抽象特征。

(4)

式中:ρ为特征系数;α为池化域中去除最大值后,其他像素的平均值;fmax为池化域中像素最大值,fmax=maxfij;θ为误差矫正项。

(5)

式中ne为训练过程中迭代次数。

根据式(3)—式(5)可知,如果确定了池化域大小,并保持迭代次数不变,就可根据池化域的不同特点,自适应选取当前池化域的池化因子,从而获得最佳检测性能。如果存在池化域相同的情况,可通过调节迭代次数动态调节池化因子,最大程度上达到检测性能最优。池化因子取值范围为(0,1),这样可包含平均池化和最大池化,保证池化域含有较明显的像素最大值时输出准确结果,且在对其他池化域进行池化操作时提高最大池化提取特征信息时的准确度。

4 实验与结果分析

采用Caltech数据集,将本文算法与ACF[10],DeepCascade[11],SCF+AlexNet[12],Katamari[13],SpatialPooling+[14],TA-CNN[15],ACF++[16],LDCF[17],MS-CNN[18]算法的检测性能进行比较。

设置标准环境下图像中行人高度均超过50像素,没有或有少部分遮挡,采用不同算法时实验结果如图2所示。根据行人检测评价原则,将误检率为0.1时对应的漏检率和平衡点作为评价标准。图2各算法中的数值为其漏检率或平衡点。

(a) 漏检率-误检率曲线

(b) 精确度-查全率曲线

从图2可看出,本文算法漏检率最低,仅为9%,较基于卷积神经网络的TA-CNN和MS-CNN算法分别降低了12%和1%;平衡点最大,为87%,说明本文算法的查全率和精确度均优于其他算法。另外,本文算法的精确度-查全率曲线向右上角凸起的程度较其他算法大,说明本文算法的检测效果最优。

为验证本文算法针对不同背景的检测效果,选取6种参数环境进行实验,分别为部分遮挡(遮挡范围为1%~35%)、严重遮挡(遮挡范围为35%~80%)、大尺寸(行人高度大于80像素)、中小尺寸(行人高度为30~80像素)、标准宽高比和非标准宽高比,实验结果如图3所示。

从图3可看出,对于遮挡范围较小、尺寸较大的图像,各算法的检测效果较好,而对于遮挡严重、尺寸较小的图像,各算法的检测效果急剧下降,这与实际情况一致;在6种参数环境下,本文算法的漏检率均最低,证明本文算法对于不同遮挡范围、尺寸、宽高比情况的图像均能有效检测出行人。

5 结语

煤矿井下行人检测算法即Faster RCNN行人检测算法采用RPN生成候选区域,并与Fast RCNN共享卷积层,提高了网络训练和检测速度;采用动态自适应池化方法对不同特点的池化域进行自适应池化操作,提高了检测准确性。通过Caltech数据集验证了该算法对于不同环境下图像中行人均具有较好的检测效果。

(a) 部分遮挡

(b) 严重遮挡

(c) 大尺度

(d) 中小尺度

(e) 标准宽高比

(f) 非标准宽高比

猜你喜欢

池化行人像素
基于高斯函数的池化算法
像素前线之“幻影”2000
卷积神经网络中的自适应加权池化
毒舌出没,行人避让
“像素”仙人掌
路不为寻找者而设
基于卷积神经网络和池化算法的表情识别研究
用于手写汉字识别的文本分割方法
ÉVOLUTIONDIGAE Style de vie tactile
我是行人