APP下载

基于回归置信度的多尺度精确人脸检测

2020-02-08于贤杰张建伟杨梦龙

计算机工程与设计 2020年1期
关键词:候选框置信度人脸

于贤杰,张建伟,杨梦龙

(1.四川大学 计算机学院(软件学院),四川 成都 610065;2.四川大学 空天科学与工程学院,四川 成都 610065;3.四川川大智胜软件股份有限公司,四川 成都 610045)

0 引 言

人脸检测技术发展至今,已有很多工作者对其进行总结,对人脸检测方法全面的调查可参考文献[1]。目前人脸检测算法主要分为One-stage和Two-stage方法,One-stage如YOLO[2]、SSD[3]等采用多层直接预测的方式,层与层之间无相互关联,检测速度快但检测框准确度不佳。Two-stage算法如Faster-RCNN[4]、R-FCN[5]等采用由粗到精的检测方式,检测质量明显提升,但由于仅采用一层特征作为特征输入,对小目标检测效果很差。

神经网络随着层数加深对分类越来越敏感,对回归越来越不利,因此如何找到一个折中方案对检测质量有很大影响。近几年提出了很多算法在一定程度上解决了此类难题:IRNN[6]算法通过整合ROI(region of interest)内外部信息提升网络检测质量;FPN[7]算法采用特征金字塔结构,明显提升了小目标的检测质量;RON[8]算法采用特征融合结构,可以检测图像中多尺度的目标;CoupleNet[9]算法融合了全局信息与局部信息用于目标检测;DetNet[10]算法平衡了分类任务与回归任务,引入空洞卷积既保持感受野大小又保持较大的分辨率。

本文提出一种基于回归置信度的多尺度人脸检测网络(regression-based multi-scale face detection net,RM net)。该网络以R-FCN网络为原型,采用多尺度特征融合结构提取特征,在预测阶段既输出分类置信度又输出回归置信度,同时将回归置信度作为NMS[11]算法的排序指标。该网络不仅能检测多尺度的人脸,还能获得精确的候选框。

1 回归置信

通过分析目前的人脸检测算法发现一个问题:检测任务与分类任务是分开进行的,而最终得到的预测框的依据是分类置信度。这个问题会产生两方面不利影响。一是基于分类置信度的目标框迭代回归存在缺点。二是分类任务与回归任务没有明显的正相关性,部分更优的预测框被排除掉。

1.1 传统算法的迭代问题

在R-FCN网络中,分类与回归分别通过两条支路得到,二者之间无必然联系,由此得到的预测结果势必会引入误差,这也是传统方法最终预测结果与真实值有些许偏离的原因。针对这个问题,在改进的网络中增加一条用于预测回归置信度的支路,回归置信度的监督信息由预测结果和真实值决定,通过这种改进方法将回归置信度与预测结果联系起来。图1中对比了传统方法与改进后算法的迭代过程,在视觉上传统基于分类置信度得到的预测框与真实框的IOU(intersection over union)随着迭代次数先上升后下降,而改进方法得到的预测框与真实框的IOU随着迭代次数是不断上升的。改进的方法使得预测框与真实框越来越接近,对于人脸尺度变化较大的情况也会有不错的效果。

图1 传统方法与改进方法的迭代过程

1.2 错误排除质量高的预测框

在目标检测文献[12]中,该作者通过聚类算法计算预测框和真实框的IOU值与分类置信度、回归置信度的关系,发现预测框与分类置信度并无明显的正相关,而与回归置信度有明显的正相关性。人脸检测一般在最后阶段通过NMS移除部分预测框,NMS算法以分类置信度为排序依据保留分类置信度最高的预测框,这种方法并不能很好表征预测框的准确性,换言之,可能将部分最接近真实框的预测框排除,分类置信度高的预测框并不一定是最优的预测框。图2中对比了分类置信度与回归置信度两个指标,其中预测框1与预测框2都是对同一真实框的预测,根据传统算法,预测框1比预测框2分类置信度高,因此只要预测框1与预测框2的IOU超过NMS算法设定的阈值,将会保留预测框1并过滤掉预测框2,但无论视觉上还是观测IOU值,均可发现预测框2应为最优检测框,同时通过计算预测框1与预测框2的回归置信度,可以发现预测框2的回归置信度优于预测框1,因此采用回归置信度替代分类置信度将有更好的效果。

图2 分类置信度与回归置信度的影响对比

2 RM net

这部分介绍改进的人脸检测模型。2.1节展示整体的网络结构,2.2节详细介绍多尺度特征融合方法,2.3节介绍基于回归置信度的NMS算法。

2.1 网络结构

本文提出的RM net是在R-FCN网络的基础上衍化而来,图3为R-FCN与RM net网络结构对比图,图3(a)为R-FCN网络结构图,图3(b)为RM net网络结构图。R-FCN网络仅采用基础网络最后一层作为特征输入,这种方法提取的特征对尺度信息不够敏感,将单尺度特征结构改进为多尺度特征融合结构以融合高低层特征。R-FCN网络最终预测结果有两条支路,分别预测分类置信度和得到预测坐标,由于两条全连接层支路计算量太大,改为采用同一条支路进行预测、回归,同时借鉴文献[13]的思想,将全连接层改为1×1卷积层,大大减少了计算量。另一处改进为增加回归置信度支路,该支路参数与计算分类置信度、回归坐标的支路相同。

图3 R-FCN与RM net网络结构对比

2.2 多尺度特征融合结构

特征金字塔结构已经被广泛证明了其有效性,正如DetNet论文中所说,需要在分类任务与检测任务中找到一个平衡点,借鉴其网络结构构建基础网络,以ResNet-101[14]为基础网络,将网络最后一个阶段去掉,然后增加两个新的阶段,网络结构如图4所示,其中Stage5、Stage6为两个dense block模块,dense block模块借鉴论文DenseNet[15]。

图4 多尺度特征融合结构

2.3 基于回归置信度的NMS算法

传统算法存在分类置信度与精确定位之间的不匹配问题,由此提出基于回归置信度的NMS算法,该算法采用回归置信度作为排序指标。算法具体过程如下,选择与真实框具有最高回归置信度的候选框bi,用该候选框bi去评估候选框集合中的所有候选框,选择所有与候选框bi的IOU值大于Ωnms的候选框bj组成新的候选框集合,比较候选框bi的分类置信度si与所有候选框bj的分类置信度sj,令si=max(si,sj),在候选框集合中去除候选框bi与所有bj,继续进行以上步骤至候选框列表为空。算法的伪代码见表1。

表1 基于回归置信度的NMS算法

3 实验及结果分析

3.1 实验环境

本文实验环境配置见表2。

表2 实验环境配置

3.2 模型训练

RM net采用end-to-end的方式训练,图片输入进行了缩放,将图片设置为长宽限制为800px~1200px,batch size设置为2,预训练模型采用在ImageNet上训练好的ResNet模型。正负样本界定准则:IOU大于0.5设置为正样本,IOU小于0.3设置为负样本,保证正负样本比例为1∶3。采用动量梯度下降(gradient descent with momentum)算法进行训练,学习率设置:低于120 000次:0.0025;120 000 次至170 000次:0.000 25;170 000次至200 000次:0.000 03。数据增广采用随机水平翻转图片的方法。

3.3 实验FDDB

FDDB是一个专门为无约束人脸检测问题的研究而设计的,该数据集共包括2845张图片,共5171张人脸,这些图片采集于自然条件下拍摄的人脸,在表情、光照、遮挡、分辨率等各个方面都存在丰富的多样性,贴近现实情况,因而是一个具有挑战性的数据集。实验采用10重交叉验证的方式进行,结果如图5所示。误检个数为0时检测率能达到80%以上,误检个数为27时检测率即可达到90%,误检个数为2000时,检测率达到98.5%,相比其它算法优势明显。

图5 FDDB实验结果

同时,通过对比模型在FDDB数据集上的检测结果与FDDB标注数据集,将所有漏检的图片筛选出来,共有82张图片存在漏检,图6为部分漏检图片展示,矩形框为预测框,椭圆形框为真实框。实验结果中90%以上漏检人脸为模糊人脸,即造成效果低于其它模型的原因是模型未能学习好模糊人脸的特征(即困难人脸问题)。

图6 部分漏检图片展示

3.4 实验WIDER FACE

WIDER FACE[16]是一个更广泛的人脸检测基准数据集,该数据集包含32 203张图片和393 703张人脸。该数据集基于61个事件类别分类,对于每个事件类别选取其中的40%作为训练集,10%用于交叉验证,50%作为测试集。使用该数据集提供的训练集训练之后,widerface实验结果如图7所示,图7(a)为简单样本的检测结果,图7(b)为中等样本的检测结果,图7(c)为困难样本的检测结果。从图中可以看出模型的检测结果在简单样本、中等样本上的检测得分分别为0.96、0.948,效果明显优于其它算法,但是在困难样本上的检测得分仅仅达到0.797,检测质量明显下降。通过分析其中原因发现与在FDDB上测试的问题一致,都是模糊人脸的辨别能力不足,即模型对未聚焦人脸检测能力有所欠缺。

图7 widerface实验结果

4 结束语

本文提出了一种基于回归置信度的多尺度精确人脸检测模型RM net,提升了人脸尺度变化较大情况下的人脸检测率以及人脸检测框的准确率。通过融合多尺度的特征增强了对小人脸的敏感性,采用回归置信度替代分类置信度的方式使得人脸检测更加精确。本模型使用了在ImageNet上预训练的Resnet101模型,只需要很短时间即可达到很高的准确率,且采用了多尺度特征融合后对人脸不同姿态、尺度等有很好的鲁棒性。实验过程已验证该模型对不同尺度人脸具有很好的效果,但对模糊人脸检测率低下,下一步工作准备处理模糊人脸难以检测问题,进一步提升模型效果。

猜你喜欢

候选框置信度人脸
重定位非极大值抑制算法
一种基于定位置信度预测的二阶段目标检测方法
面向自然场景文本检测的改进NMS算法
硼铝复合材料硼含量置信度临界安全分析研究
有特点的人脸
一起学画人脸
系统可靠性评估与更新方法
基于深度学习的重叠人脸检测
三国漫——人脸解锁
正负关联规则两级置信度阈值设置方法