深度学习在口罩人脸检测领域的应用进展
2021-11-22曾其涛韦娟张津源
曾其涛,韦娟,张津源,林 彬
(桂林理工大学 理学院,广西 桂林 541004)
0 引言
2019年12月,新型冠状病毒感染的肺炎疫情开始爆发并迅速蔓延到我国多个地区,与病毒的斗争成为一场持久战。目前,人们佩戴口罩进出公共场所成为一种常态,而在当今众多人脸识别应用中,佩戴口罩带来的面部遮挡使识别准确度大大降低。在火车站、机场等安检通道进行人脸认证时需要摘下口罩,这会带来一定的安全隐患。在当前形势下,开发快速高效的口罩人脸识别算法的需求日益迫切。目前,深度学习技术在目标检测领域应用广泛,本文通过梳理现有的口罩人脸检测算法,对深度学习在口罩人脸检测领域的应用进展进行综述。
1 深度学习技术概述
近年来,深度学习技术在图像分类、图像分割、目标检测、目标跟踪等计算机视觉领域中取得了巨大的成功。深度网络模型以卷积神经网络(Convolutional Neural Networks,CNN)为代表,网络由多层神经元逐层连接构成,每层中的单个神经元与前一层的部分神经元相连接,并进行不同的操作,如卷积和池化。通过卷积和池化之间的交替,构造成一个初始的层次结构,之后通过设计全连接层来适应不同的视觉任务,再利用激活函数得到输出神经元的响应,最后根据不同的目标函数来优化整个网络结构。
目标检测是计算机视觉的一个重要分支,基于深度学习的目标检测本质上属于分类任务,基本步骤为:先对图片生成候选区域,再对候选区域提取特征进行分类与回归,最后对检测框进行合并得到检测结果。相比于传统的视觉图像类算法,深度学习类算法,具有强大的特征提取能力,因此更加适合于处理口罩人脸检测问题。
2 基于深度学习的口罩人脸检测算法
2.1 基于SSD模型
SSD 由Liu等[1]提出,其主干网络基于VGG16。SSD采用多尺度特征图检测目标,通过卷积提取检测结果,利用NMS(极大值抑制)筛选出正确的边界框,损失函数使用Softmax Loss与Smooth L1 Loss。SSD的检测速度快,稳定性高,但在小目标的检测上表现不如大目标的检测。阮士峰[2]对数据集中的人脸及口罩等进行尺度的信息统计并分析,对SSD的网络结构与NMS做了改进,保留了多尺度特征图的分析预测,在数据集上训练测试后平均检测精度可达到88%,提升了原SSD算法的检测效果,检测速度可达到46帧每秒,达到了实时检测的需求。
2.2 基于YOLO模型
YOLOv3 由Redmon等[3]提出,其主干网络为DarkNet53,用来对目标进行多特征层的提取,其内部大量使用了残差的跳层连接,使得能够在加深网络层数的同时又能解决梯度消失的问题。此外,DarkNet53在所有的卷积部分都使用了其特有的DarknetConv2D结构,每一次卷积的同时进行L2正则化,卷积完成后进行BatchNormalization标准化,激活函数与损失函数分别选择Leaky ReLU和IOU。王艺皓等[4]在YOLOv3的基础上对DarkNet53主干网、池化结构和损失函数做出了改进,提出了一种复杂场景下的人脸口罩检测算法,并使用改进后的算法与YOLOv3分别进行了人脸的目标检测和人脸佩戴口罩实验,实验结果表明,该算法在公开的人脸口罩数据集上达到了较好的准确精度,检测速度达到了38帧每秒。
作为YOLOv3的改进版本,YOLOv4使用CSPDarknet53作为主干网络进行特征提取;特征融合网络采用SPP和PANet结构,对特征进行分离与融合,激活函数和损失函数替换为更高效的Mish和CIOU。管军霖等[5]使用改进后的YOLOv4在口罩人脸数据集上进行训练,检测精度和检测速度均得到了提升。
YOLOv5的网络结构与YOLOv4非常相似,其主干网络与特征融合网络不变;隐藏层和检测层的激活函数分别选择Leaky ReLU和Sigmoid,损失函数使用GIOU,使得检测框能够更好地重合。肖博健等[6]在YOLOv5模型的基础上对样本输入的尺寸、初始候选区域的参数和卷积层的计算做了一定的调整与改进,并在口罩人脸数据集上进行训练,最后的准确率达到了95%以上,召回率在100%附近,表现出了一个高水平的检测能力,在实时性方面表现突出,拥有较快的检测速度,在使用更高性能的显卡时,速度可以达到35帧每秒。
2.3 基于RetinaNet模型
RetinaNet[7]由一主干网络和两个任务子网络组成。主干网络选择VGGNet,ResNet等网络对图像进行特征提取,再由FPN中的每一层以不同尺寸检测对象特征;两个子网络通过附加在FPN上分别负责分类和边框回归,损失函数使用Focal loss来解决正负样本、难易样本类别不均衡的情况。邓黄潇[8]在Keras深度学习框架的基础上,分别训练RetinaNet模型和YOLOv3模型,训练后的RetinaNet在验证集上得到86.45%的AP值。相比于YOLOv3,RetinaNet无论是在单张人脸还是多张人脸佩戴口罩的检测上有更高的精度与更好的鲁棒性。
3 结语
本文对基于深度学习的口罩人脸检测算法及其模型结构进行了详细的阐述与分析。SSD模型的检测速度快、稳定性高,适用于大目标的检测;YOLOv3实时性与准确率都不错,对大目标检测效果一般,适用于人流量大时的口罩人脸检测;YOLOv5在灵活性与速度上更胜一筹,训练时间快,模型小,易部署;YOLOv4综合性能优越,特别在遮挡目标检测方面效果较好;RetinaNet在小目标检测上准确率更好,适合于人脸密集情况下的检测。