聚集人群人脸检测研究
2019-06-09陈靖王飞张儒良
陈靖 王飞 张儒良
摘 要:聚集人群是一种敏感场景,隐藏着突发和不易控制等因素,对人群聚集场景的检测有实际应用价值。通过缩小上下文信息模板搜索范围,采用双三次插值算法调整图像大小,利用上下文信息经感受野提取更多细节信息,基于深度残差101层网络模型提取人脸检测框,并通过非极大值抑制去除冗余的、保留最好的人脸检测框。实验结果表明,该算法平均误检率为0.022 6,与Hu算法相比,在不损失精度的同时,提高检测的平均速度为2.953 3s。
关键词:人脸检测;上下文信息;深度残差网络;双三次插值
DOI:10. 11907/rjdk. 182777
中图分类号:TP306文献标识码:A文章编号:1672-7800(2019)004-0021-03
0 引言
聚集人群的人脸检测是计算机视觉领域一个重要研究方向。聚集人群是一种敏感场景,隐藏着突发和不易控制等因素[1]。人群聚集易导致交通阻塞、踩踏事件、社会安全事件、公共健康事件等,因此对人群聚集场景检测具有非常重要的实际应用价值[2]。文献[3-6]阐述了聚集人群场景的研究意义。目前,国内外对人群聚集场景的检测取得了不少研究成果。国外针对人脸检测已经有许多比较成熟的研究机构,例如MIT、CMU等。国内以清华大学、浙江大学、中国科学院计算研究所等机构为代表进行人脸检测相关研究[7]。传统人脸检测算法主要采用Haar特征或HOG特征提取人脸特征,并结合AdaBoost算法实现人脸检测,AdaBoost算法主要是将多个弱分类器结合成强分类器[8]。由于在复杂场景中存在人脸姿态、角度和遮挡问题,故人脸检测率不高。
近年来,深度学习(Deep Learning,DL)不断崛起[9]。深度学习起源于人工神经网络(Artificial Neural Networks,ANN),其在图像处理领域取得了一系列重大突破[10]。最早,Krizhevsky等[11]提出的AlexNet架构使得神经网络再次占分类任务的主导地位。之后,Simonyan等[12]提出深层次的VGG16/VGG19网络,探索了在卷积神经网络架构中深层次网络对整体架构带来的性能改进。Szegedy等[13]提出了GoogLeNet中“Inception”架构的概念,解决了深度和宽度的限制。再到后来,He[14]等提出残差网络ResNet中的ResNet Block架构,采用恒等映射解决网络深度带来的梯度消失问题。人脸检测中对于小人脸检测仍存在挑战,可以通过多任务方法提取多层特征融合,得到更多人脸细节信息[15]。文献[16]提出用一种多层特征的融合方法检测人脸,由于单层特征无法很好地检测受姿态、光照和遮挡的人脸,故采用加权得分的非极大值抑制方法去除冗余人脸框,并且用线性加权和高斯加权两种方法进行对比实验,实验结果表明高斯加权更适合小人脸检测问题。虽然对于小人脸的检测有所提高,但是一些问题仍待解决,例如如何提高聚集人群的人脸检测精度与速度等。
本文在参考Hu[17]算法的基础上,通过缩小上下文信息模板搜索范围,采用双三次插值算法调整图像大小,并利用非极大值抑制去除冗余的、保留最好的人脸检测框。本文算法在不损失人脸检测精度的同时,提高了人脸检测的平均速度。
1 本文算法
1.1 上下文信息模板配置
表1中检测的配置信息来自于Hu的论文,本文采用该实验数据计算上下文信息模板搜索范围。
1.2 上下文信息模板搜索范围
首先输入一幅原图像raw_img,获取raw_img的高raw_h和宽raw_w;接着通过表1中clusters(1)、clusters(2)、clusters(3)和clusters(4)的值,求出clusters_h和clusters_w的值,其中clusters_h = clusters(4) - clusters(2) + 1,clusters_w = clusters(3) - clusters(1) + 1;然后通过判断表1中clusters(5)的值是否等于1,得到normal_idx的值;最后,同时对表达式log2(max(clusters_w(normal_idx)/raw_w))和log2(max(clusters_h(normal_idx)/raw_h))取整,并将取整后兩个数中的最小值作为最小尺度min_scale的值,而最大尺度max_scale的值取1和-log2(max(raw_h, raw_w)/MAX_INPUT_DIM)) 两个数中的最小值,其中MAX_INPUT_DIM = 5 000,进而确定scales的取值为两段范围,第1段范围从min_scale/1.01到0,间隔为1,第2段范围从0.5到max_scale,间隔为0.5。
以第2段范围中的scales缩放图像,并选用双三次插值算法调整图像大小。双三次插值不仅考虑到邻近像素对待求像素的影响,还考虑到对邻近点像素值变化率的影响,保留了图像中更多高频成分,因此会保留更多图像细节[18]。通过深度残差网络101层(ResNet101)模型寻找每幅上下文信息图像的人脸区域。针对每幅上下文信息图像已检测到的人脸区域,通过非极大值抑制(Non-Maximum Suppression,NMS)去除冗余的、保留最好的人脸检测框,抑制过程是一个“迭代—遍历—消除”的过程,将得到的人脸框得分按照从高到低排序,选择最高分及其对应的框;遍历其余的框,如果与当前最高得分框的重叠面积(IOU)大于一定阈值,则将框删除;从未处理的框中继续选一个得分最高的,重复上述过程,直到筛选完为止[19]。
2 实验结果
为了验证本文算法的有效性,选用香港中文大学公开的聚集人脸检测基准数据集WIDER FACE进行测试[20]。该数据集的图像数量是现有人脸数据集的10倍,同时也选用日常生活场景进行实验测试,均得到了较好的检测结果。本文仅列出部分实验结果,如图1和图2所示。
3 实验分析
本文算法选取最近邻插值(nearest)、双线性插值(bilinear)、双三次插值(bicubic)与Hu算法进行比较,结果发现,本文算法bicubic获得的精度最高,得到的图像质量高。本文算法获得的聚集人群图像平均误检率、平均精度和平均速度如表2所示。
本文算法bicubic在图像缩放时的平均误检率0.022 6达到最小,在平均精度保持不降低的情况下,平均速度为20.940 7s,比原文双线性插值的平均速度23.894 0s提高了2.953 3s。
4 结语
本文通过缩小上下文信息模板搜索范围,采用双三次插值算法调整图像大小,利用上下文信息经感受野提取更多细节信息,基于深度残差101层网络模型提取人脸检测框,并通过非极大值抑制去除冗余的、保留最好的人脸检测框。本文算法相比Hu算法在速度上有所提高,但当图像分辨率较低时,图像检测准确度降低。因此,将低分辨率图像转换为高分辨率图像再进行检测是下一步研究内容。
参考文献:
[1] 徐凌. 人群聚集场景中多人脸检测算法研究[D]. 武汉:中南民族大学, 2015.
[2] 魏梦. 基于卷积神经网络的人群密度分析[D]. 合肥:中国科学技术大学, 2018.
[3] 王姝婷. 我国自发性人群聚集活动风险评估的现状与对策研究[J]. 湖北警官学院学报,2018,31(2): 86-92.
[4] 包灵. 基于深度学习的智能人数统计技术研究与系统设计[D]. 成都: 电子科技大学,2018.
[5] 张君军,石志广,李吉成. 人数统计与人群密度估计技术研究现状与趋势[J]. 计算机工程与科学,2018,40(2): 282-291.
[6] 刘明林. 基于深度学习的人群密度估计及稠密人群计数的研究[D]. 郑州:郑州大学,2017.
[7] 边航. 人脸检测与识别算法研究[D]. 北京:北京工业大学, 2017.
[8] 陈海涛,潘静. 基于Adaboost人脸检测技术浅析[J]. 电子世界, 2018(12):91-92.
[9] LECUN Y,BENGIO Y,HINTON G. Deep learning[J]. Nature,2015,521(7553): 436-444.
[10] 李成,杨淑媛,刘芳,等.神经网络七十年:回顾与展望[J]. 计算机学报,2016,39(8):1697-1716.
[11] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]. Advances in Neural Information Processing Systems, 2012: 1106-1114.
[12] SIMONYAN K,ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. arXiv Preprint arXiv: 1409.1556, 2015: 1-14.
[13] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2015: 1-9.
[14] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]. IEEE Conference on Computer Vision and Pattern Recognition,2016:770-778.
[15] 刘璐. 基于深度神经网络的多任务视觉感知研究与应用[D]. 成都: 电子科技大学,2018.
[16] 王成济,罗志明,钟准,等. 一种多层特征融合的人脸检测方法[J]. 智能系统学报,2018,13(1):138-146.
[17] HU P, RAMANAN D. Finding tiny faces[C]. IEEE Conference on Computer Vision and Pattern Recognition,2017:1522-1530.
[18] 陈高琳. 图像缩放算法中常见插值方法比较[J]. 福建电脑, 2017,33(9):98-99.
[19] 陳金辉,叶西宁. 行人检测中非极大值抑制算法的改进[J]. 华东理工大学学报:自然科学版,2015,41(3): 371-378.
[20] YANG S,LUO P,LOY C C,et al. Wider face: a face detection benchmark[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2016: 5525-5533.
(责任编辑:何 丽)