APP下载

基于FAST R-CNN行人检测识别的研究与改进

2019-07-10卢俊俏颜思璇

网络安全技术与应用 2019年7期
关键词:关节点分类器行人

◆卢俊俏 颜思璇



基于FAST R-CNN行人检测识别的研究与改进

◆卢俊俏 颜思璇

(浙江师范大学数学与计算机科学学院 浙江 321300)

本文的目的是进行视频中的人行识别,将视频逐帧提取,采用Fast R-cnn,它不仅实现了识别图片中单个行人的骨架,还能通过分类判断图片有多少个需要识别的行人,并将各个关节点与每一个行人所相对应,与此同时,它也能将各个关节点与行人身上的各个身体部位相对应,从而实现了识别图片中多个行人骨架的目的。

人体骨架模型;Fast R-CNN;行人识别

0 引言

人工智能最基础的数据来自对音频和视觉的感知,如何收集处理所接受到视觉信息,是目前人工智能中重要的一项技术。其中,基于视觉的行人识别技术已经成了研究热点,具有广阔的应用前景。行人检测是一种在给定的图像和视频中判断行人存在的技术,可以应用于监控查询拜访,车辆辨认,路况识别,盲人导航等,为这些领域提供了便利。比如先进辅助驾驶系统(ADAS)中通过单目摄像头判断路况,通过对前方汽车、行人、障碍物等的识别,给予司机主动提醒。

在2005年Dalal发表了基于HOG特征的行人检测模型论文。HOG 特性也广泛应用于目标检测和识别、图像检索和跟踪等领域。通过HOG梯度直方图算法以及SVM算法识别出每张图片中的行人,但这种模型速度运行慢,且由于背景中存在着各种各样的干扰项,背景中的某些部分与人体相似,导致最终识别出来的结果存在一些错误。2006年,Hinton 等人提出了一种基于深度学习的算法,并利用深度卷积神经网络从大量数据中学习高级特征。深卷积神经网络将特征提取、特征选择和特征分类融合到同一模型中,通过端到端训练优化整体功能,进一步加强特征分类。

以增强行人识别的准确率和效率为目标,本文借鉴RBG等人在目标检测领域中的FAST-RCNN模型,通过HOG梯度直方图算法以及SVM算法对视频中行人的大致位置进行识别,再用Fast R-CNN对图片中行人的关节点进行识别,将各个关节点相连,识别出视频中人体骨架的图片。将此模型与基于HOG特征的行人检测方法进行效果对比,目标检测领域中的FAST-RCNN模型检测正确率更好,并且效率更高。

1 基于FAST-RCNN的行人检测方法

FAST-RCNN依据RCNN为基础,选择性搜索(ss)获得图像中约2k候选框。利用卷积收集提取图片特点,获得feature map后按照以前RoI框选择出对应的区域等三个进程。

1.1 选择性搜索

通常对一张图像进行检测会采用不同的滑窗进行穷举的方式搜索,这种方法计算量过大且速度慢,于是通过比较一张图片不同区域颜色、纹理等方面将相识度较大的部分划分为同一个区域,这便是选择性搜索的基本思想。

(1)生成了一个区域。

计算总相似度:

(3)找相似度最高的区域,并将其合并。

(4)从中移除与和有关的相识度。

(5)计算新集与所有子集的相似度。

(6)重复上述步骤,直到为空。

图1 相邻区域的相似度

通过上述步骤就可以在需要进行行人检测的图像中找到1000-2000个候选区域,每个候选区域都作为一个节点,而每一个节点就是就是人体的一个部件,然而现在节点众多,而当图片中行人数目比较多时,各个节点之间相互连接,错综复杂,接下来就要解决节点数模过多问题,以及判断哪些节点属于同一个人。

1.2 利用卷积神经网络CNN进行特征提取

在R-CNN中, 卷积神经网络 CNN 用于每个候选框的特征提取,这需要大量的时间来改进,这在快速 R-NNN 中得到了很好的改进效果,只对原始图像进行一次卷积,得到了整个图的特征图,查找每个候选框架上的映射patch。patch是每个候选框的卷积特征。

在R-CNN中,您需要统一每个候选框的大小,然后提取特征值,降低识别效率;在Fast R-CNN中,它添加了一个名为ROI池的网络图层,该网络层将不同大小的候选框映射到固定比例的特征向量。从每个区域提取固定维度的特征来表示,下一步是使用SoftmaxLoss分类器来判断。

1.3 SoftmaxLoss分类器

该分类器需要做到使得在一个候选框特征值的输入后,能够判断出属于真实标签的概率是否达到最高。就比如说,当候选框为手的那部分时,向SoftmaxLoss分类器输入每一个候选框的映射之后,使最终的输出结果为手的可能性要达到最高,而脚、肩膀、头等的可能性较小。

下面为损失的计算公式:

这是一种CNN全连接层到损失层的计算,全连接层的输入即每个候选框的特征,全连接层的输出即为损失,若SoftmaxLoss分类器能够做到预测正确,则损失较小,若预测错误,则损失较大,即为分类候选框时所产生的误差。

1.4 SmoothL1Loss回归器

在使用完分类器进行候选框分类之后,需要使用SmoothL1Loss回归器缩小范围以更精确的框出目标物体,在使用SmoothL1Loss回归器进行计算时会产生误差即损失:

总损失等于各部分损失之和:

当预测值和目标值相差过大时,梯度就容易爆炸,在SmoothL1Loss回归器中使用-1代替了原来梯度中的-,避免了梯度爆炸问题。

2 实验

2.1 数据源

我们取用学校马路上随机的几段视频,进行行人识别检测。并用FAST R-CNN的方法与HOG模型进行比较,如图2。

图2 FAST R-CNN识别流程图

2.2 结果分析

在经过分类和回归之后,就可以识别出哪个候选框属于行人手的区域,哪些候选框是属于行人脚的区域,哪些候选框是属于行人肩膀的区域,同时也可以判断出哪些候选框属于同一个人,最后将属于同一个人的关节点连接,就可以得到任何一张所需要进行检测的图片中的行人的骨架图了,如图3。

图3 人体部位骨架识别

2.3 HOG效果比较

在尝试FAST-CRNN之前,通过使用HOG梯度直方图算法以及SVM算法识别出每张图片的行人,但这种模型速度慢,且由于背景中存在着各种各样的干扰项,背景中的某些部分与人体相似,导致最终识别出来的结果存在一些错误。如图4。

图4 HOG模型错误识别

而本模型相对基于HOG的行人识别对人体动作的识别准确性更高,通过对关键帧和重要节点的判断,能够去除多余的信息,提高识别的准确率。相比于HOG模型,在该视频识别中,排除了树等其他的干扰,并且不完整的行人也能准确识别,如图5。

图5 FAST R_CNN效果图

3 模型的前景

(1)在图片中通过选择性搜索提取候选框较慢,可以采用RPN产生候选框,即CNN卷积神经网络直接产生候选框,就可以提高图片的识别速度。

(2)除FAST-CRNN这个方针辨认的算法之外,现如今速率更快,精确度加倍的辨认方法FASTER-CRNN已被研究出来,方针检测的四块(区域生成,特征提取,分类,位置精修)终究被统一到一个深度收集框架以内。所有计算没有重复,完全在GPU中完成,大大提高了运行速度。

(3)除了采用CRNN系列进行目标识别,根据最近提出的使用最新提出的residual net进行body part的提取,得到的效果更加准确,精度更高。使用Image-Conditioned Pairwise Terms的方法,能够将众多候选区域的节点压缩到更少数量的节点。实现效果更好的识别,这就是提出的DEEPER CUT。

(4)可以采用了LSTM时间递归神经网络算法,通过行人运动时引起的各个关节点的运动,去识别出行人的动作。同时,LSTM网络能够通过自主学习,获知一系列动作持续时间内不同帧的重要性,以及不同的关节点在不同的动作中的重要性,使重要的帧和重要的关节点在识别某张图的行人的动作中起更大的作用,这是更进一步的运用。

[1]Eldar Insafutdinov,Mykhaylo Andriluka, Leonid Pishch-ulin, Siyu Tang, Evgeny Levinkov, Bjoern Andres, Bernt Sc-hiele ArtTrack: ArticulatedMulti-personTrackingintheWild,Su-bmitted on 20 Nov 2015.

[2]Eldar Insafutdinov1, Leonid Pishchulin1, Bjoern Andr-es1,Mykhaylo Andriluka1,2, and Bernt Schiele1,DeeperCut: A Deeper, Stronger, and Faster Multi-Person Pose EstimationModel,Computer Vision – ECCV:2016.

[3]林原,刘海峰,林鸿飞,许侃.基于损失函数融合的组排序学习方法[J].广西师范大学学报(自然科学版),2019,37(01):62-70.

[4]陈恩加,唐向宏,傅博文.Faster R-CNN行人检测与再识别为一体的行人检索算法[J].计算机辅助设计与图形学学报,2019,31(02):332-339.

[5]姚品,万旺根.行人再识别问题中背景抑制方法的研究[J].电子测量技术,2019,42(02):73-77.

[6]彭志勇,常发亮,刘洪彬,别秀德.基于HSV模型和特征点匹配的行人重识别算法[J].光电子·激光,2015,26(08):1575-1582.

[7]王文豪,高利,吴绍斌,赵亚男.行人检测综述[J].摩托车技术,2019(01):29-32.

[8]王斌,刘洋,唐胜,郭俊波.融合多模型和帧间信息的行人检测算法[J].计算机辅助设计与图形学学报,2017,29(03):444.

猜你喜欢

关节点分类器行人
矛盾转化关节点视角下的新时代发展特质与方向
基于关节点数据关注RGB视频的双人交互行为识别
学贯中西(6):阐述ML分类器的工作流程
重载机车网络重联TCN 故障节点识别方法研究*
毒舌出没,行人避让
基于朴素Bayes组合的简易集成分类器①
关节点连接历史图与卷积神经网络结合的双人交互动作识别
一种自适应子融合集成多分类器方法
路不为寻找者而设
我是行人