APP下载

基于R-FCN的教室内人物识别

2021-10-25刘寅

科学技术创新 2021年30期
关键词:置信度架构样本

刘寅

(广西电力职业技术学院,广西 南宁 530007)

1 概述

近年来,摄像头应用的场景越来越多,基于深度学习技术,通过识别图像中的目标以实现特定功能应用的场景已不少见[1]。而基于学校教室内监控视频图像,运用深度学习技术对人物目标识别的应用场景尚不普遍。通过教室内图像的人物识别,进一步结合数据统计得到教室内人数,可为教育管理和资源调配提供数据参考。目前,基于深度学习技术进行目标检测的方法主要有基于直接回归的One-stage 和基于候选框和分类的Two-stage 两类[2]。One-stage 即直接回归的方法,不使用RPN 网络,被识别目标的类别和坐标通过主网络直接给出。SSD、FSSD架构[3]和常用的YOLO 系列网络[4]都属One-stage。而Two-stage方法是先算出目标的候选框,再用卷积神经网络确定样本的类别。Two-stage的训练过程也分成两步,首先训练RPN 网络[5],再训练目标检测网络。Fast R-CNN、Faster R-CNN、R-FCN 架构[6]都属于Two-stage 方法。基于直接回归的识别方法识别速度快,精度略低,而基于候选框和分类的方法识别精度高,识别速度相对较慢。在上述两类目标检测方法中,R-FCN 架构能够在具备较高检测准确度的情况下,同时具备较快的检测速度[7]。因此,本文基于R-FCN 目标识别架构,结合教室内人物目标场景的特点,实现教室内的人物识别。

2 R-FCN 目标检测架构

R-FCN 目标检测架构是代季峰在2016 年对Faster R-CNN架构进行改进而提出的[8]。R-FCN 目标检测网络架构如图1 所示。从图1 可以看出,R-FCN 网络架构主要可以分为4 个子网络,即卷积神经网络ResNet、区域候选网络RPN、分类网络和回归网络。被识别的图像首先输入ResNet-101 残差网络进行特征提取,这个ResNet 包括了conv1-conv5 五个卷积网络。网络conv4的特征输出给到RPN 网络,通过RPN 网络提出候选RoIs。网络conv5的特征输出经过卷积降维再输入分类网络和回归网络。分类和回归网络分别生成多维位置敏感得分映射,再结合RPN 网络的候选RoIs 进行池化以确定目标的类别和位置。目标识别的效果常用目标预测区域与真实目标区域的误差来判定。代价函数与目标识别误差直接相关,通过随机梯度下降等方法优化神经网络参数可以达到最小化代价函数的目的。R-FCN 目标检测架构的代价函数由分类误差和回归误差组成[9],公式如下:

图1 R-FCN 网络架构

式(1)中,Lcls是分类误差,Lreg是回归误差,λ 是平衡系数,t是预测的目标位置,t*是实际目标的位置。分类误差Lcls采用交叉熵误差来计算,即:

而回归误差Lreg采用L1平滑函数计算,即:

3 算法优化

因教室内的监控摄像头通常安装在教室前后的高处,摄像头距离教室内座位相对较远,其取得的图像中人物与其他场景人物识别相比更容易出现小目标和目标部分重叠的情况。直接应用R-FCN 架构进行人物识别,其对小目标人物和部分重叠人物的检测效果并不理想,因此,本文针对教室内人物识别场景对R-FCN 架构进行优化。

3.1 自适应非极大值抑制

R-FCN 网络得到的对同一个人物目标的预测框集合中包含大量的目标预测框,需要在这些目标预测框中挑选出最优目标预测框。R-FCN 网络预测框最优化选用的是非极大值抑制算法[10],其步骤为:

3.1.1 R-FCN 网络计算出N 个目标预测框。

3.1.2 建立预测数据集合H,将计算得到的N 个目标预测框(h1~hN)初始化入集合H。

3.1.3 建立最优数据集合M并初始化为空,用于存储最优目标预测框。

3.1.4 计算集合H 中的所有目标预测框的分类置信度si,挑选出分类置信度数值最高的目标预测框mi并将其剪切到集合M。

3.1.5 对集合H 中的所有目标预测框(hi)计算与mi的交并比(IoU),若IoU 数值大于等于阀值T,则将此目标预测框的置信度数值置零。

3.1.6 重复步骤3.1.4 和3.1.5,直到集合H 中的目标预测框置信度全部置零,此时集合M中的数据即为最优预测框。

非极大值抑制算法IoU的计算如下:

非极大值抑制的置信度修正函数为:

本文目标人物识别场景为教室内,由于座位之间的距离比较近,相邻的前后几个座位容易出现目标人物的部分重叠。对于这种情况,R-FCN 网络预测框也容易出现部分重叠现象,使用非极大值抑制算法容易将部分重叠的目标预测框置信度置零,从而导致真实存在的人物目标被漏检。

针对教室内部分重叠人物目标识别时因非极大值抑制算法导致的预测框置信度修正过度问题,本文采用基于目标预测框与最优预测框IoU的自适应非极大值抑制算法,其置信度修正函数为:

式(7)中,IoU 为预测框交并比,hi为集合H 中的第i 个目标预测框,mi为第i 个最优预测框,T 为修正阀值,si为第i 个预测框的置信度。从式(7)中可以看出,自适应非极大值抑制算法与非自适应算法的主要区别是,对于IoU 数值大于等于阀值T的预测框,不直接进行置零修正,而是采用基于该预测框与最优框IoU 数值的自适应修正。修正后的预测框置信度数值减小但不为零,使得该预测框避免被剔除。自适应非极大值抑制算法在微软COCO 公开数据集上的测试效果理想,而且自适应算法没有增加新参数。

3.2 在线难例学习与参数设置

在R-FCN 网络中,预测的候选框与真实框的IoU 超过所设置的阀值,则认定该候选框为正样本。若IoU 低于预设的阀值,则该候选框为负样本[11]。这些正负样本都作为系统训练的候选数据,而在检测中往往负样本的数量要比正样本多很多。因此,经过训练的网络容易产生针对负样本的错误判断,即将负样本错误的归类为正。例如,RoI 中没有目标人物,即全是背景,此时网络很容易认定为背景;而当RoI 中有三分之一个目标人物时,标签应该是负样本,但网络会容易将其认定为正样本。这种具备较高loss 值的负样本就是hard example(难例)[12],为了使得网络分类更准确,通过针对这些难例进行网络训练可以增强网络识别能力。本文采用在线难例学习来训练网络以减少高值样本误判。在线难例学习网络结构如图2 所示。

图2 在线难例学习网络结构

从图2 可以看出,在线难例学习在原有RoI 网络(a)的基础上,增加RoI(b)网络。RoI(a)网络只负责计算损失并计算出loss值比较高的RoI 从而得到难例,传播方向为前向传播。因为这些难例对分类和回归的识别结果影响较大,需要用随机梯度下降方法对其进行训练,以增强R-FCN 网络对此类难例的计算能力。RoI(b)网络具备前向和后向传播,网络(a)产生的难例做为网络(b)的输入,网络(b)负责计算损失并传递梯度。

在线难例学习算法对大量高loos 值负样本与正样本不平衡问题的处理效果明显,因为通过在线学习从而实现有针对性的样本选择,能找到对网络影响较大的负样本,特别是数据集数量比较大时,难例学习效果更加明显。通过增加针对性在线学习训练,有效提高了分类准确度。

R-FCN 网络候选框生成时,其模式默认参数为base_size=16,scales=(8,16,32),ratio=(0.5,1,2),其基本尺寸为128,256,512,共计生成9 个anchor box。教室内的目标人物通常占图像比例较小,默认anchor box的数值相对较大,预设anchor与被识人物的线性回归不理想,网络检测效果较差。本文重新设定base_size=8,scales=(3,6,12),ratio=(0.5,0.7,1,1.5,2),使得候选框基本尺寸下降为24,48,96,同时增加ratio 维度,有效提高了教室内小目标人物的识别效果。

4 实验及结果

本次实验采用Ubuntu 操作系统,基于Caffe 深度学习平台搭建检测网络。基于学校教室内视频监控图像,建立实验训练数据集DL2021x和实验测试数据集DL2021c。经过对R-FCN检测网络的训练和测试,得到样本的检测效果如图3 所示。

图3 R-FCN 网络检测效果

为了衡量R-FCN 网络的检测效果,引入每秒浮点计算量Bflops 来反应整个网络的运行速度,识别准确率AP 来反应识别效果。基于R-FCN 架构的网络对教室内人物目标识别的结果见表1。

表1 R-FCN 网络教室内人物识别结果

从表1 可以看出,针对教室内人物目标识别的特殊场景,在Bflops 小于80的情况下,经优化后的R-FCN 网络在测试数据集DL2021c 下的单类别检测准确率达到89.52%。

结束语

为了通过学校教室内的监控摄像来检测教室内的人物目标,本文基于当前主流目标检测架构R-FCN,采用自适应非极大值抑制算法提高网络对部分重叠人物的检出,通过在线难例学习对网络进行训练并优化anchor 参数以提高小目标人物的识别效果。在自制数据集下训练和测试,优化后的R-FCN 网络对教室内的人物目标识别准确率为89.52%。下一步将对教室内重叠特别严重的人物识别方法进行研究。

猜你喜欢

置信度架构样本
基于数据置信度衰减的多传感器区间估计融合方法
一种基于定位置信度预测的二阶段目标检测方法
功能架构在电子电气架构开发中的应用和实践
基于B/S架构的图书管理系统探究
构建富有活力和效率的社会治理架构
规划·样本
人大专题询问之“方城样本”
随机微分方程的样本Lyapunov二次型估计
校核、验证与确认在红外辐射特性测量中的应用
VoLTE时代智能网架构演进研究