基于人脸区域特征相关性的视频流人脸识别研究
2017-07-15董胜李凤刘守印
董胜 李凤 刘守印
摘要:目前,基于深度学习提取人脸特征进行人脸静态图片识别的方法,在Labeled Faces in the Wild(LFW)数据集等标准集上的正确识别率几乎接近人类。但是在视频流中,由于人体的不停运动和姿态偏移等问题.导致检测到的部分人脸区域严重模糊和不完整,如监控系统中的人脸。这种情况下,单纯地采用基于图片的人脸识别方法,准确率会严重下降。在基于视频流的人脸区域提取时,本文提出采用单张人脸区域图像的特征自相关指标来衡量人脸的姿態以及模糊状况,针对连续多帧中人脸区域图像存在的信息冗余,提出利用连续多帧中人脸区域图像的特征互相关指标来衡量视频流中人脸区域的变化程度。基于提出的自相关指标与互相关指标,本文提出并实现了视频流中适用于识别的人脸区域图像的选取算法,以及加权投票的人脸识别算法。研究中收集并制作了基于视频流的人脸数据集,验证了本文提出算法的可行性。实验表明,本系统在有较高的识别率的同时,大幅度降低了人脸识别计算量,使得人脸识别可在视频流中实时稳定地进行。
关键词:视频流;人脸识别;特征相关性;深度学习
0引言
随着社会安防需求的增加,视频监控已经越来越多地出现在各种公众场所中,但对监控视频内容的解读工作仍然需要大量人工参与。实现视频中的人脸实时识别,在犯罪嫌疑人搜索、失踪人口寻找等领域都具有重大意义。而目前的监控摄像大多都只提供了事发之后查找求证的作用,并不能实时识别视频内容,发挥实时辅助公安侦查和自动寻找目标的作用。同时,一些需要考勤的区域,比如公司、办公场所、教室等人员密集地,点名或主动签到都将耗费时间和人力,而且存在考勤时间不准确的问题。
视频流人脸识别主要分为人脸检测和识别两个步骤。人脸检测首先从视频帧中提取出人脸区域图片,而识别步骤则是对提取出的人脸区域图片进行识别分类,得出结果。近年来,卷积神经网络(Convolutional Neural Networks,CNNs)应用于人脸识别领域,大大提高了人脸检测与识别的准确率。
人脸检测方面.基于CNNs的方法在Face Detection Data Set and Benchmark(FDDB)上已取得可观进展。其中,Cascaded CNN和MTCNN在检测速度上表现优异,可以在视频流中获得实时技术生成。Cascaded CNN利用级联的CNNs进行人脸检测,但其在检测时需要对人脸框设计展开矫正,带来额外的运算量。MTCNN方法采用多任务的CNNs网络提高人脸检测的准确率,该方法倍受业内人士好评。因此,研究中将直接使用MTCNN方法从视频帧中获取人脸区域图像。
人脸识别方面,目前较有影响的方法可参见文献等。这些方法在LFW数据集上均已获得了优质研发效应。虽然基于深度学习提取人脸特征进行人脸识别的方法解决了光照、表情、姿态等大部分难题,但在运动模糊、人脸姿态偏移过大、遮挡等出现频次较高的情况下,识别效果仍然未能臻至理想。
视频流中的人脸识别和单张静态图片的人脸识别在研究上则存在着显著差异。视频流中的人脸区域图像,常常呈现像素低、模糊不清和姿态偏差大的特点。图1即显示了视频中通过人脸检测方法提取的连续帧人脸区域图像。直接使用这些提取的人脸图像进行人脸识别,正确率偏低,无法应用于实际。