基于多任务级联卷积网络的视觉检测
2020-05-08王孝雄
张 剑 贺 鑫 王孝雄
(大连理工大学,辽宁 大连116024)
1 背景介绍
现有的人脸检测和人脸对齐方法大多忽略了这两个任务之间的内在联系。虽然已有几篇论文试图共同解决这些问题,但这些作品仍然存在局限性。但是,使用的手工特征限制了它的性能。多视点人脸检测,但由于弱人脸检测器产生的初始检测窗口,检测精度受到限制。
另一方面,在训练过程中,挖掘训练中的硬样本对增强检测能力至关重要。然而,传统的硬样本挖掘通常采用离线方式,这大大增加了手工操作。设计一种能自动适应当前训练过程的在线硬样本人脸检测与对准方法。
我们提出了一种通过多任务学习利用统一级联CNN 实现这两种任务集成的新框架。所提出的CNNs 由三个阶段组成。
在第一阶段,它通过浅层CNN 快速生成候选窗口。然后,通过更复杂的CNN 对窗口进行细化,以拒绝大量非人脸窗口。最后,它使用更强大的CNN 来细化结果并输出面部标志的位置。由于这种多任务学习框架,该算法的性能可以显著提高。
我们的应用技术概括如下:
(1)提出一种基于级联CNN 的人脸检测与对准框架,并详细介绍了该框架。
(2)本文提出了一种有效的在线硬样本挖掘方法,以提高挖掘性能。
(3)在具有挑战性的基准上进行了广泛的实验,以显示所提议的Ap-proach 在脸部检测和脸部对齐任务方面与现有技术相比有显著的性能改进。
2 CNN 构建
在目前已有的技术里,设计了多个CNS 用于人脸检测。然而,我们注意到它的性能可能受到以下事实的限制:
一些滤波器缺乏权重的多样性,这可能限制了它们产生区别描述。
与其他多类目标检测和分类任务相比,人脸检测是一项具有挑战性的二值分类任务,因此可能需要较少的滤波器数量,但需要更多的滤波器区分。为此,我们减少滤波器的数量,并将5×5 滤波器改为3×3 滤波器,以减少计算量,同时增加深度以获得更好的性能。
有了这些改进,以前的体系结构相比,我们可以以更少的运行时间获得更好的应用效果。对于公平的比较,我们使用相同的数据为这两种方法。见图。
多级联卷积网络图
3 训练
我们利用三个任务来训练CNN 检测器:人脸/非人脸分类、边界盒回归和人脸标志定位。
3.1 人脸分类
学习目标被制定为两类分类问题。对于每个样本,我们使用交叉熵损失:
3.2 边界盒回归
对于每个候选窗口,我们预测它与最近的地面真值之间的偏移即,边界框的左顶部、高度和宽度)。我们把学习目标归结为一个回归问题。每个样本的欧几里得损失:
3.3 在线硬样本挖掘
不同于传导传统的硬样本挖掘是在对原始分类器进行训练之后,在人脸分类任务中进行在线硬样本挖掘以适应训练过程。
4 结果
在本文中,我们提出了基于一种多任务级联CNN 结构框架的面部检测分割的方法。实验结果表明,我们的方法在同时进行多个任务时,始终相比其他方式更加出色,同时实现640x480的实时性能最小人脸尺寸为20x20 的VGA 图像。主要出色表现的三个方面分别为精心设计的级联CNN 架构、检测中困难样本挖掘、人脸对齐联合学习。