多目标人脸检测与识别在智慧步道中的应用
2022-08-19唐晗罗大晖
唐晗,罗大晖
(常州信息职业技术学院,江苏常州,213164)
0 引言
近年来,随着国民经济水平的提高和人们生活水平的改善,人们对于亲近自然、健身娱乐提出了更多和更高的要求。健身步道作为连接自然游憩地和生态资源的线性开放空间,在各城市广泛存在。物联网、人工智能、大数据、云计算等数字基建助力产业升级,智慧步道应运而生,开启了全民健身新模式。智慧步道借助人脸识别技术,沿途设置多个人脸识别设备,用户在步道上运动时,设备自动识别人脸,实现无感、安全、有效的运动信息数据收集;系统自动为其记录运动数据,同时将传统的步道里程、用时及卡路里消耗等运动数据通过智能算法为跑步者的运动信息进行建模分析。这套解决方案的优点是:用户无需携带任何硬件设备,使用人脸即可获得完整体验。
多目标人脸检测与识别是智慧步道中的关键技术之一。人脸检测的目标是找出图像中所有的人脸对应的位置,算法的输出是人脸外接矩形在图像中的坐标,也可能还包括姿态信息。人脸识别则需要从图片中提取出有代表性特征,据此有效地区分不同个体。
1 人脸识别技术步骤
人脸识别的整个过程大致分为2个步骤:人脸检测和人脸匹配。
1.1 人脸检测
人脸检测是人机交互的第一步,它基于面部图像进行分析和研究。虽然人脸的结构是确定的,由眼睛、眉毛、鼻子、嘴巴、轮廓等部分组成,但由于多种因素的影响,如姿态和表情的变化,装扮差异,光照强度,遮挡等,要鲁棒地准确的检测出人脸是其实是一件相当困难的工作。人脸检测算法在面对一张图像时,由于人脸可能出现在图像的任何位置,所以通常会采用一种窗体滑动算法,即在检测时用固定大小的窗体对图像从上到下、从左到右扫描,判断子窗体里的子图像是否为人脸。此外,人脸有大有小,所以还需要对图像进行放大或者缩小,对每张缩放后的图像重复上面的扫描算法,整个检测过程非常耗时。总的说来,人脸检测负责检测图像中是否存在人脸,如果存在则记录包裹人脸的矩形的坐标和大小,如果图片中存在多个人脸则会记录多个结构相同的矩阵数据。
1.2 人脸匹配
人脸匹配首先进行特征提取,自动定位眉毛、眼睛、嘴巴、轮廓等面部关键特征点;然后将关键特征点抽取、转换成特征向量;接着将提取出的人脸特征向量与数据库中的人脸进行比较,如果特征向量的距离较近或者相似度较高,则说明人脸识别成功;如果数据库中的所有人脸都不匹配,则输出无法识别。人脸匹配仅仅是进行比对分类,一些常见的机器学习方法如KNN等就能满足其需求。
特征提取是人脸识别的关键,为了更好地提取人脸关键特征,许多特征提取算法被发展出来,例如尺度不变特征变换(Scale Invariant Feature Transform,SIFT)、直方图定向梯度(Histogram of oriented Gradient,HoG)、局部二值模式(Local Binary Pattern,LBP)及其变种等。近年,深度学习和卷积神经网络(Convolutional Neural Network,CNN)在图像分类和人脸识别领域大获成功,成为计算机视觉领域的研究热点之一,其基本思想是利用大量数据作为训练数据,通过训练模型来学习参数,最后利用模型来识别人脸。深度学习技术的发展,使得基于深度神经网络的人脸识别算法性能得到了显著提升,例如ArcFace、MobileFaceNets、SphereFace等,其中最先进的人脸识别算法在开源人脸数据集 LFW 上的识别精度甚至可以达到99%。
2 面向智慧步道环境的多人脸检测
智慧步道环境是用户跑步运动的真实场景,同时出现在摄像头中的用户少则1人,多则几十人。用户在跑步时大部分面朝同一方向,且常有部分遮挡,前面的用户头部会对后面的用户头部造成影响。而且这些用户都在运动中,随机动作较多,会造成脸部偏移。此外,受拍摄距离、角度、光照等因素的影响,采集到人脸图像的质量会低于实验室条件下的人脸质量,其中最常见的问题是由于距离影响使得获取到的人脸图像尺寸较小,图像分辨率较低。
为了实现智慧步道环境的多人脸检测,首先需要选择合适的数据集,然后选择合适的深度神经网络模型进行训练,最后使用模型进行真实场景中的人脸检测与识别。
2.1 数据集
本文的数据集来源于Caltech人脸数据库和LFW人脸数据库,它们都已经进行了标注。从中挑选出背景较为复杂且含有多人脸的图像作为研究对象,共500张,最后将所有图像统一缩放成相同大小,方便后面的模型训练和测试。
2.2 多人脸检测
人脸检测传统上可以使用基于OpenCV的Haar级联算法、基于Dlib的人脸检测算法等,但它们均不适合智慧步道这种有可能拥挤的场景。人脸检测的最新进展主要得益于强大的深度神经网络,特别是基于CNN的网络模型取得了较好的效果,基本策略是级联CNN,从粗到精学习人脸检测。在拥挤人群中进行多人脸检测主要有两种实现路径:
(1)回归算法:使用回归算法直接根据图像计算出拥挤人群密度热图,它的缺点是图像质量要求较高,不适用于低分辨率图片,而且它只能得到场景整体的一个拥挤指数,不能获知人群个体的具体位置。
(2)深度学习目标检测:类似于Faster RCNN这样的人脸检测算法可以直接检测出拥挤人群中人脸的个数。其缺点是在人物相互遮挡的情况下往往性能较差,而人群越拥挤相互遮挡的可能性越大。
本文所采用的多人脸检测模型为全卷积头部检测器(A Fast and Accurate Head Detector,FCHD)。FCHD 是近年推出的一种深度学习头部检测模型,它的特点是即使是在拥挤的场景中依然能够进行快速和准确的头部检测,同时在模型结构上比传统的目标检测算法要简单很多,其主要结构是一个单独的全卷积网络。FCHD作为一种基于深度学习的检测方法,它与传统的检测方法有很大的不同,在实验中首先需要考虑预置的边界框(锚点),这些边界框(锚点)是通过设置一组不同比例的候选框生成的。由于面部尺寸、光照对检测的影响不同,通过对目标区域进行平均池化操作生成嵌入特征来增强鉴别能力,从而消除面部各部位所带来的不同影响。针对多人脸数据的特殊性,减少锚点数量,训练时间可以大幅减少。
2.3 实验测试
实验的硬件条件包含 Intel(R)Xeon(R) CPU E5-2650v4@2.20GHzx48,内存 32GB,显卡 Nvidia GeForceGTX 1080 Ti。软件条件包括操作系统为Ubuntu 16.04 LTS,PyTorch LTS(1.8.2),CUDA 10.2,FCHD开源库。
实验前,先将数据集分为两部分,80%用于训练,20%用于测试。然后采用FCHD模型在训练集上进行训练,训练过程选用了48×48像素大小的锚点,训练30次。最后在测试集上进行测试。实验表明,该模型对于多人脸场景具有较好的检测能力,即使对于角度有偏移、甚至有部分遮挡的人脸也能检测出来。
3 人脸识别
在人脸识别之前,先要准备好人脸库,人脸库存放的是人脸特征。在人脸录入的时候对其进行特征提取并将其存储到人俩库中,已被查询和比对。
人脸识别功能在服务端实现,使用Spring Boot并基于虹软ArcFace SDK(ArcFace-V3.0)进行开发,基本过程如下:Spring Boot服务器通过RSTP协议连接网络摄像机,从而获取摄像机的视频流。服务器每隔0.5秒采集一次图像,利用上面训练好的模型进行人脸检测,然后使用虹软SDK提取人脸特征数组,接着将人脸到人脸库中去比对与识别。虹软SDK除了可以进行特征提取、人脸识别之外,还可以进行性别检测、年龄检测、活体检测等。
考虑到人脸库随着系统使用过程中的规模膨胀,为提高人脸识别的效率,人脸特征与人脸库的匹配过程采用多线程设计,基本思想如下:把人脸库按照参数compare Partition Size的大小分成多组,对每一组人脸都构建一个Completion Service子任务,在每个子任务中去实际完成人脸识别,从而提高整体效率,最后将每个子任务的识别结果按照相似度从大到小排序。
多线程主要靠CompletionService来完成,Completion Service是Java8的接口,它使用submit()方法执行任务,使用take取得已完成的任务,并按照完成这些任务的时间顺序处理它们的结果。也就是说,CompletionService的主要功能就是一边生成任务,一边获取任务的返回值。让这两件事分开执行,任务之间不会互相阻塞。CompletionService在提交任务之后,会根据任务完成顺序来获取返回值,也就是谁先完成就返回谁的返回值。
核心代码如下,代码中的passRate代表人脸匹配的阈值,根据虹软SDK的要求,一般取0.8。
4 结语
本文针对智慧步道中的具体问题开展研究,重点研究区域内多人脸检测问题,采用并实验了基于FCHD的多人脸检测神经网络。实验表明:该网络对于多人脸场景具有较好的检测能力,即使角度有偏移、甚至有部分遮挡的人脸也能检测出来。然后利用虹软SDK进行人脸的识别,并利用Java的多线程技术提高人脸识别效率。当然,本文所实验的方案还不足以完美解决智慧步道场景中的多人脸识别问题,例如角度偏移、部分遮挡、光照不足、低分辨率等所导致的检测与识别问题,研究这些不同因素组合影响下的人脸检测统一框架,提高系统的鲁棒性和实用性,是本领域非常值得关注的挑战性问题。