人脸活体检测研究综述

2021-06-03任宇

现代计算机 2021年9期

任宇

（四川大学视觉合成图形图像技术国防重点学科实验室，成都610065）

0 引言

现如今，生物识别技术被大量应用于身份认证系统中，其中人脸识别技术由于其低成本、高判别性和无接触等特点成为了智能设备解锁、安全支付、安检、考勤等身份认证应用的主要手段之一。但是，由于人脸数据相较于其他生物特征（如指纹和虹膜等）更易于获取，人脸识别应用面临着被伪造人脸攻击的风险，攻击者向认证系统展示伪造人脸并试图通过认证，主要攻击手段包括人脸打印或照片攻击、人脸视频回放攻击、人脸面具攻击等。为了应对伪造人脸攻击，人脸反欺骗检测技术，也称为人脸活体检测技术应运而生，被用于在人脸识别之前进行伪造人脸攻击检测。因此人脸活体检测技术对人脸识别系统的安全性有着至关重要的意义。

伪造人脸数据需要借助介质向人脸采集设备呈现，而真实人脸直接由采集设备采集，两种数据在颜色纹理、面部运动、多光谱反射率等方面存在差异，人脸活体检测方法借助这些差异进行伪造数据检测，这些方法大体上分为两类：传统方法和基于深度学习的方法。

1 传统人脸活体检测方法

传统人脸活体检测方法可以分为3类：基于纹理的方法、基于运动的方法、基于多光谱的方法。传统人脸活体检测方法使用手工设计的特征，从单帧或多帧图片中提取出针对性的纹理、颜色等特征后将其作为分类器的输入得出分类结果，数据源的模态和图片的色彩空间根据任务的不同可以有多种选择。

基于颜色纹理的人脸活体检测通常利用真假人脸之间的纹理差异。Li等人[1]提出了基于傅里叶频谱分析的方法，作者认为在频域中伪造照片比真实人脸具有更少的高频信息，并且提出使用多帧图片检测目标的面部运动信息以区分真假人脸。Tan等人[2]使用变分视网膜和高斯差分滤波器来提取人脸图像上的潜在反射特征。受到Tan等人工作的启发，Peixoto等人[3]将标准稀疏逻辑回归和高斯差分滤波器相结合以针对极端光照情况下的人脸活体检测。Maatta等人[4]使用LBP进行人脸活体检测，取得了不错的效果，随后Pereira等人[5]将LBP-TOP引入人脸活体检测，其效果在REPLAY-ATTACK数据集上超越了LBP。基于颜色纹理特征的检测方法泛化性能有限，因为这类特征会受到光照或阴影的影响。

除了颜色纹理特征，人脸的面部运动也是一项重要特征。Pan等人[6]使用条件随机场为眨眼的不同阶段建模，并使用眨眼作为检测依据。Soukupova等人[7]提出了眼部横纵比的概念，该方法计算待检测帧及其前后各6帧图像的眼部横纵比，得到一个13维向量并将其送入到SVM分类器判断是否眨眼。Kollreide等人[8]使用嘴唇运动进行检测，该方法要求待测试者读一系列句子，并使用嘴部运动分类器判断所读句子是否与所给的句子一致。基于运动的人脸活体检测方法属于配合式活体检测，被检测者需要根据系统提示完成指定动作进行验证，是目前被广泛采用的人脸活体检测技术，其缺点也非常明显，就是需要用户主动配合，耗时长且用户体验较差。

伪造人脸需要使用介质呈现，其材质和真实人脸差别是巨大的，这种差别在可见光下不易被察觉，但是在某些特定波段光谱下会变得明显。Zhang等人[9]选用特定的光谱，然后直接使用真假人脸之间的反射强度差异来进行活体检测。Sun等人[10]使用近红外与可见光的差分图像进行活体检测。此类方法对屏幕攻击介质区分度高，但是对打印纸张区分度较小，需要特定设备支持，并且用户距离额外光源的距离会影响其成像效果。

2 基于深度学习的人脸活体检测方法

传统方法的特征提取针对性较强但是其提取效果十分有限，这类方法很难分辨出视频回放或高清打印图片与真实人脸之间的细微差别，因此研究者将目光投向了深度学习领域。

Yang等人[11]认为LBP、LBP-TOP等手工特征无法提取真假人脸之间的判别性特征，首次将深度学习引入到人脸活体检测领域，使用卷积神经网络代替手工提取特征，最后使用SVM进行分类，并且提出背景区域与多帧图像对活体检测有重要作用。Liu等人[12]认为把活体检测简单地当作一个二分类任务可能无法学习到针对活体检测任务的判别性信息，所以使用CNNRNN结构获取深度和rPPG信号作为辅助监督手段使得网络能够有针对性地进行学习，取得了较好的效果。文献[13]中针对性地分析了提取rPPG信号的视频长度对活体检测任务的影响，认为视频长度越长，提取的rPPG信号质量越高，且7秒左右的视频提取的rPPG信号足以应对活体检测任务，同时提出在近红外光下提取的rPPG信号比可见光下提取地更适合应对打印攻击。Jourabloo等人[14]将伪造人脸反向分解为真实人脸加上伪造噪声并将伪造噪声用于活体检测。文献[15]引入了一种大规模的多模态活体检测数据集CASIA-SURF，数据集包含了可见光图、深度图和近红外图，并提供了一种多模态数据融合的基准方法。Zhang等人[16]基于CASIA-SURF提出了针对活体检测的轻量级网络框架，作者认为全局平均池化的区域权重均分特性对活体检测任务具有负面影响，提出Streaming Module来替代全局平均池化。

尽管卷积神经网络具有很强的特征提取能力，但是基于卷积神经网络的人脸活体检测方法往往泛化性能较差，针对这一问题，许多学者提出了基于域泛化的方法。Li等人[17]提出了一种无监督的域自适应活体检测框架，通过最小化最大均值差异（MMD）来将源域的特征空间转换到无标签的目标域特征空间。Shao等人[18]认为如果能提取多个源数据域共有的判别性特征，那么这种特征很有可能在未知的目标数据域表现出良好的泛化性，并提出多级对抗性深度域泛化框架。Liu等人[19]将未知攻击类型的零次学习活体检测任务定义为ZSFA，利用深度树网络将伪造样本以无监督的方式划分为语义子组。Wang等人[20]针对跨域人脸活体检测任务提出了一种特征解耦框架，其中特征解耦模块（DR-Net）负责从各数据域解耦得到活体检测相关的特征，多域学习模块（MD-Net）将不同数据域的特征再次解耦，得到与数据域无关的特征。这类方法兴起不久，是一个研究热点，其泛化性能相较于普通深度学习方法有所提升。

3 数据集

人脸活体检测由于其任务特殊性，其数据集制作成本较其他计算机视觉任务更大，人脸活体检测可能面对的攻击介质可能有如下几种：照片或者打印人脸（纸张可以弯曲或是裁剪掉面部关键部位）、手机和平板等各种智能设备、3D面具，针对每一种攻击手段的数据都需要单独制作，其中针对3D面具攻击的数据集制作成本高昂，所以在研究和实际应用中关注较少。近年来出现了较多的人脸活体检测公开数据集，如表1所示。

表1 人脸活体检测常用数据集及对比

整体上来说，人脸活体检测数据集在向更多目标、更多姿态表情变化、更多数据模态和更多攻击手段发展，但是一个数据集很难做到面面俱到。最近的CASIA-SURF数据集采集了大量目标，每个目标数据都包含三种模态的数据，并且针对打印攻击细化出了6种细化方案，但是，该数据集不包含其他类型的攻击方式，其次目标表情和姿态变化有限，并且目标的年龄分布和人种分布较为单一。SIW数据集中人脸的姿态、表情及场景的光照变化较为丰富，且各种人种、性别、面部毛发和眼镜佩戴情况都有涉及，其中人种涉及非洲裔、印度裔、亚裔及高加索人，各占7%、23%、35%和35%，接近3/4的被采集者为男性，1/5的被采集者蓄有胡须，佩戴眼镜和不戴眼镜的都接近一半，数据整体上分布较为合理，但是SIW数据集只包含RGB图像。

4 结语

总的来说，近些年的人脸活体检测研究主要分为以下几个方向：

（1）针对人脸活体检测任务和其他计算机视觉任务的差异性，设计针对性的网络结构；

（2）使用辅助信息或者结合多模态数据的优点；

（3）针对人脸活体检测网络的实际部署需求，结合MobileNet和ShuffleNet等网络框架设计轻量级的网络；

（4）针对现有方法泛化性能差的问题，结合域泛化技术提高网络泛化性能。

目前人脸活体检测是计算机视觉的热点方向，但是仍然处在发展阶段，大多数方法都停留在研究阶段，在工业中应用最多的人脸活体检测方法是配合式人脸活体检测，需要用户配合且耗时长。人脸活体检测研究还面临着一些其他问题，数据集方面，数据集样本少、攻击手段不足、伪造数据制作成本高、目标的姿态和场景光照变化少是主要问题，由于数据集制作耗费人力物力成本较高，对于这一问题，需要寄希望于新的大型公开数据集；解决方案方面，方法泛化性能不足是主要问题，方法可能对训练集中目标身份和光照等信息产生过拟合，这类方法针对特定数据集效果良好，但是一旦出现未知场景或未知攻击手段等情况性能就会直线下降，针对这一问题，结合生成式对抗神经网络的域泛化技术是一个值得研究的方向。其次，从实际应用角度来看，现有方法大多从面部区域入手，方法接受的输入是已经经过人脸检测的面部，但是攻击手段、攻击介质、环境光照是多样的，一旦面对未知情况，单从面部图像区域可能无法找到具有判别性的特征，如果结合伪造攻击行为本身的特征，例如攻击者的手势、攻击介质边框等，再结合基于面部图像的方法，可能会更适合于实际应场景。

本文认为，针对伪造人脸攻击，设计一个高精度、高性能、高泛化能力的人脸活体检测方案是目前人脸活体检测任务的主要目标，其中提高方法泛化能力是未来研究的热点，同时本文认为，扩大检测区域、从伪造攻击本身的行为特征入手能够更好地解决实际人脸活体检测问题。