APP下载

基于加速区域卷积神经网下的人物身份属性识别方法

2017-03-08周林林胡晓君张鲁殷贾伟光杨阳丁祥张雪飞杨东东

电子元器件与信息技术 2017年4期
关键词:身份卷积准确率

周林林,胡晓君,张鲁殷,贾伟光,杨阳,丁祥,张雪飞,杨东东

(山东科技大学电子通信与物理学院,山东 青岛 266590)

0 引言

目前人物身份属性识别问题在计算机视觉技术中应用较少,Song 等人在2011年提到通过人物服装及其背景完成对职业的预测[1]。他们通过对人类服装外观与周围环境之间建立一个模型,实现了对人物职业的初步预测。但是这种方法只应用在图像领域上。随着视频监控系统的完善和普及,目前更需要在监控视频中完成对人物的检测以及对人物特定身份属性的自动识别[2]。

现实生活中,很多场景都需要对人物特定身份属性进行识别,比如在监狱监视罪犯的活动范围,交通系统中检测交警位置,医院禁止普通人员进入等。这些人物身份特征非常明显,最为显著的是制服的款式与制服的颜色差异。传统的图像检测算法大多人工进行特征提取,不仅耗时耗力而且过程困难,深度学习是一种无监督学习,通过大量数据自动学习特征[3]。区域卷积神经网络(Rcnn)[4]、快速区域卷积神经网络(Fast- rcnn)的出现[5],使深度学习在图像上的应用成为研究热点。本文提出了基于深度学习加速区域卷积神经网络算法(Faster rcnn)进行特定人物身份属性的自动识别[6]。该算法通过对人物身份属性的典型特征自动提取快速区分出监控视频中的人物属性[7],提高了识别的速度和准确率,达到了进行视频实时监测的目的并且具有高鲁棒性。可以预测的属性包括警察、罪犯、医生、护士等。

1 基于加速区域卷积神经网络算法的典型人物身份识别方法

1.1 基于区域建议的卷积神经网络(Rcnn)

Rcnn是由Ross Girshick在2014年提出的基于候选区域的卷积神经网,该算法在voc2007数据集上的准确率提高到53%。算法采用选择性搜索方法生成特征建议窗口并对其进行归一化处理,每张图片大约生成2000个建议窗口,卷积神经网(CNN)将2000个227*227大小的建议窗口送入CNN提取特征,用支持向量机(SVM)分类器对CNN输出特征分类,判断人物属性,用边界框(bounding box)回归值校正原来的建议窗口位置,生成预测窗口的坐标。图1.1是基于监控环境背景下的RCNN框架流程图。

图1 .1 rcnn框架

1.2 典型人物身份识别方法框架

加速卷积神经网络算法(Faster rcnn)是RCNN系列中对快速区域卷积神经网(Fast rcnn)算法的改进。虽然快速区域卷积神经网检测效果良好,但是在特征区域的选择上仍然采用的是selective search的方法[8]。加速区域卷积神经网络主要在提取建议窗口上做了改进,它采用共享卷积网组成了RPN(region proposal network)进行建议窗口的选择。Faster rcnn由RPN和Fast rcnn联合网络组成。图1.2为快速区域卷积网的框架图,图1.3为加速区域卷积神经网的框架图。Faster rcnn在该人物身份属性识别中分为四个部分:候选区域的生成;特征提取;分类;多任务损失函数及边框回归,在加速区域卷积神经网框架下统一实现。对比快速区域卷积神经网框架图,新增了区域建议生成网络(Region Proposal Net)。

图1 .2 Fast rcnn识别框架

图1 .3 Faster rcnn识别框架

在加速区域卷积神经网里送入带有人物身份属性标注信息的图片,经过五层卷积网(convnet)生成特征图,一部分进入区域建议网(Region Proposal Net),另一部分经过卷积进入池化层(Roi Pooling layer),进入区域建议网的特征图生成建议窗口传送至池化层,经过两个全连接层(FC)使每个建议窗口生成固定尺寸的特征图,最后通过Softmax分类器进行属性分类并进行边框回归,生成预测窗口的坐标。

图1 .4 RPN框架图

1.3 区域建议生成网(RPN)

在Rcnn和Fast rcnn中,特征区域都是由selective search的算法来实现的,但是该提取建议框的方法是在CPU上完成的,不能完全利用GPU的高度并行提取能力,所以在加速区域卷积神经网络算法中使用GPU进行建议窗口的提取,提出了区域建议RPN(region proposal network)这一概念。图1.4为RPN如何提取身份属性建议窗口的流程图。

(1)带有属性信息标签图经过ImageNet网络的五层卷积层输出维度是13*13*256的特征图送入RPN网络。

(2)使用3*3的滑动窗口在特征图上进行卷积滑动,每个滑动窗口通过卷积层映射为256维的特征向量。每个滑动窗口有k个窗口(anchors),每个窗口会映射到原图所对应的位置,产生W(width)×H(highth)×k个区域建议。Anchors是三种不同尺度,长宽比的参考窗口,三种尺度为{1282,2562,5122},三种长宽比为1:1,1:2,2:1}。256维特征向量连接两个卷积层,窗口回归层(reg layer)和窗口分类层(cls layer)。在cls层,产生的区域建议和目标区域(groud truth)进行一个IOU计算,如果IOU>0.7则判断为目标,如果IOU<0.3则判断为背景。在reg层,通过回归过程的训练,使得区域建议尽可能的接近groud truth,最后将建议区域接入到ROI pooling layer中进行全连接。

2 实验过程及其结果分析

本实验是基于监控环境下的识别检测,分类检测的目标是警察犯人这两种典型身份。实验运行环境是在基于Linux系统的caffe框架下进行的。

2.1 训练测试数据集的构建

获得包含身份属性信息的5万张图像,构建数据集,采用图像标注技术对收集图像进行特征标注[9]。用MATLAB工具进行人物身份的标注,同时生成人物身份属性的坐标信息,人物属性标签(警察、犯人),生成VOC2007格式的数据集。图2.1为数据集标注示意图,红框标记为犯人,绿框标记为警察。数据集中包含训练样本4万张,测试样本一万张。

图2.1 标注示意图

2.2 网络构建与模型训练

图2 .2为设计区域生成RPN流程图,设计合适的rpn训练网络需要在加速区域卷积神经网络算法里设置网络参数。在data层把num_classes设置为3类,犯人+警察+背景,在cls_score层把num_output设置为3,在bbox_pred层把num_output设置为12,为检测类别个数的四倍。

Faster rcnn 算法是基于imagenet网络现有模型下的继续训练。

(1)首先利用imagenet网络对RPN网络进行预训练,通过五层卷积网进行预训练,得到特征区域。

(2)同时进行的fast rcnn部分的网络预训练,用在RPN中得到的区域建议进行端对端的微调网络训练。

(3)微调后得到的fast rcnn 网络重新初始化RPN网络,共享和fast rcnn提取特征图的卷积层,设置网络学习率为0,得到新的区域建议。

(4)固定共享卷积层,利用上一步得到的区域建议重新微调 fast rcnn,一个完整的加速区域卷积神经网络构成。

训练步骤分四步,设置的每一步的迭代次数为40000,20000,40000,20000,学习率设置为0.001。为了更好的分析每个阶段是如何进行对身份属性的特征提取,将每个过程的图片特征提取做了可视化处理,图2.3是特征图可视化。第一张是测试图片经过imagenet网络的第五层卷积层后的特征图,第二张为rpn过程的输出的特征图。

图2 .3 特征图可视化

2.3 结果与分析

图2 .4 测试曲线

表1 与快速区 域卷积神经网准确率对比

图2.4给出人物身份属性识别模型的loss曲线图,显示犯人的检测准确率在0.828,警察的检测准确率在0.708。表一是两种网络在准确率和检测速度上的对比。相比于快速区域卷积神经网,犯人的识别准确率从0.670提升到0.828,警察的准确率从0.579提升到0.708。在检测速度上,快速区域卷积神经网检测一张图片的速度在2s左右,而加速区域卷积神经网检测速度在0.04s左右。分析得到加速区域卷积神经网络与快速区域卷积神经网相比,在准确率和检测速度上都有显著提升。

图2.5 模型检测图

图2 .5是身份属性检测识别图。可以看到在目标的识别还有准确率上都有很好的效果,不过因为数据集有限,监控镜头比较模糊,出现漏检情况,需要后续丰富训练数据集,提高人物身份属性识别准确率。

3 总结

本文通过基于深度学习中加速区域卷积神经网络框架实现了监控系统下的人物身份属性识别,并且与快速区域卷积神经网络在检测速度和准确率上进行了对比。本文对警察犯人两种人物身份属性进行了实验,证实了算法的可行性。利用该算法可以完成对医生、病人、警察、犯人、交警、行人等人物身份属性的自动识别,并且应用在实际中。但是因为监控视频很多不清晰,给检测识别造成了一定的困难。而且识别率有待进一步提升,解决的办法是不断增加数据集,增加样本数量,提升模型的识别准确率。

[1] Z. Song, M. Wang, X. Hua, et al. Predicting occupation via human clothing and contexts[C]. Computer Vision (ICCV), 2011 IEEE International Conference on. IEEE, 2011, pp. 1084-1091

[2] 骆云志, 刘治红 . 视频监控技术发展综述 [J]. 兵工自动化, 2009, 28(1):1-3.Luo Yunzhi, Liu Zhihong. Overview of video surveillance technology development [J]. Ordnance Industry Automation, 2009, 28 (1): 1-3.

[3] 尹宝才, 王文通, 王立春. 深度学习研究综述[J]. 北京工业大学学报, 2015(1):48-59.Yin Baocai, Wang Wentong, Wang Lichun.A Review of Deep Learning Research [J] .Journal of Beijing University of Technology, 2015 (1):48-59.

[4] Girshick R, Donahue J, Darrell T, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]// Computer Vision and Pattern Recognition. IEEE, 2014:580-587.

[5] Girshick R. Fast R-CNN[J]. Computer Science, 2015

[6] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks.[C]// International Conference on Neural Information Processing Systems. MIT Press, 2015:91-99.

[7] 杨德培. 视频监控中人物属性识别方法的研究[D]. 电子科技大学, 2016.Yang Depei.Video monitoring character recognition method [D]. University of Electronic Science and Technology, 2016.

[8] Uijlings J R, Sande K E, Gevers T, et al. Selective Search for Object Recognition[J]. International Journal of Computer Vision, 2013, 104(2):154-171.

[9] 卢汉清, 刘静 . 基于图学习的自动图像标注 [J]. 计算机学报, 2008, 31(9):1629-1639.LU Han-Qing, LIU Jing.Automatic Image Annotation Basd on Graph Learning [J] .Journal of Computer China, 2008,31(9): 1629-1639.

猜你喜欢

身份卷积准确率
基于3D-Winograd的快速卷积算法设计及FPGA实现
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
卷积神经网络的分析与设计
从滤波器理解卷积
高速公路车牌识别标识站准确率验证法
基于傅里叶域卷积表示的目标跟踪算法
跟踪导练(三)(5)
妈妈的N种身份