面向不同传感器与复杂场景的人脸识别系统防伪方法综述
2021-12-20黄义妨魏丹丹李慧斌
黄义妨,魏丹丹,武 淼,李慧斌,郭 勐
(1.西安交通大学 数学与统计学院,西安 710049;2.中国移动通信有限公司研究院,北京 100053)
0 概述
人脸识别系统作为一种生物特征识别技术,其精度水平与安全性能是向商用化发展不可或缺的两个指标。近年来,随着深度学习技术的发展,传统人脸识别系统的精度水平大幅提升,已被广泛应用于金融、安防、交通、教育等领域,但在人脸识别系统大范围普及的同时也暴露出诸多安全问题。例如,人脸数据的隐私安全、传输安全和存储安全以及对人脸识别系统的各类假体攻击和对抗样本攻击等。由于通过各种媒介如电子照片、打印照片、录播视频等制造合法用户的人脸假体进而对人脸识别系统进行攻击的代价大幅下降,假体呈现攻击对人脸识别安全性保障提出更高要求,这也使得人脸防伪技术近年来受到研究人员的广泛研究和关注。
人脸防伪技术又称人脸活体检测技术或特指人脸呈现攻击检测技术,该技术的主要目的是利用计算机视觉和模式识别方法判断一个给定的人脸识别或核验系统前的用户是真实人脸或伪造人脸。若判断为真实人脸,则人脸识别系统进行下一步识别操作,否则将该用户列为非法攻击用户,不做任何识别操作,这样就为人脸识别系统增加了一个重要的安全保障环节。人脸防伪算法的目的是尽可能使合法用户顺利通过活体认证,同时要有效杜绝假冒人脸进入人脸识别环节从而非法闯入人脸识别或核验系统。人脸防伪技术对于人脸识别技术的商业化应用发挥着至关重要的作用,尤其是在无人值守的应用场景,如金融业务远程操作在线身份核验、在线考试身份核验等场景,均离不开人脸防伪技术。特别是银行金库、刷脸支付等高安全级别人脸识别核验系统对人脸防伪技术的要求越来越高。
近年来,人脸防伪问题受到人们广泛关注。从攻击类型的多样性、防御传感器的多样性到防御策略的复杂性都展现了该领域的快速发展。目前已有一些关于人脸防伪方法的综述[1-3],但这些方法大都从不同防伪方法和人脸防伪攻击类型梳理文献,缺少一种面向人脸识别系统的防伪方法综述介绍。本文认为人脸防伪是人脸识别系统不可或缺的一部分,人脸防伪的分类应通过人脸识别所使用的传感器和所面对的场景进行分类。本文分析近年来的人脸防伪方法,将其归纳为面向不同传感器的人脸识别系统防伪方法和面向复杂场景的人脸识别系统防伪方法,在此基础上总结19 个公开的人脸防伪数据集并比较其中部分算法的性能,分析并探讨人脸防伪问题目前面临的挑战和未来发展趋势。
1 人脸识别系统防伪方法
当前学术界关注的人脸呈现攻击方式主要有3类,分别是照片打印攻击、视频重播放攻击以及人脸面具攻击。打印攻击是指将合法用户的照片打印在各类纸质材料上进而对人脸识别实施呈现攻击。为了尽可能地逼真,对打印纸的材质可以精心设计,但由于该类攻击缺少人体生理信息和立体几何信息,因此对识别系统的攻击威胁相对较低。视频重放攻击是指将手机等电子设备事先录制好的合法用户的人脸照片或视频呈现在人脸识别系统传感器前进而对其实施攻击的一种攻击手段。由于移动互联网技术的普及,该类攻击最易实现,也是大多人脸识别系统需首先面临解决的攻击方式。人脸面具攻击是指制作合法用户的逼真面具进而对识别系统进行攻击,面具的材质可以多种多样,例如纸质面具、硅胶面具、乳胶面具、3D 打印面具等。由于精心制作的面具可以更好地模拟某个合法用户的人脸皮肤纹理、五官形状甚至面部表情变化等信息,因此面具攻击是对人脸识别系统潜在威胁最高的一类攻击手段。当然,随着攻击手段的增强,攻击代价也随之大幅提升。因而,在实际应用过程中,人脸防伪技术的防御能力或范围应与人脸识别系统的应用场景和安全等级相匹配。本文以“Face anti-spoofing”和“Face liveness detection”为关键词,检索了404 篇2010 年—2020 年期间发表的人脸防伪方法论文。图1 给出了相关防伪论文数量随时间的变化规律。可以看出,2016年之后,人脸防伪研究论文迅速增加,充分说明了人脸防伪的重要性。
图1 过去11 年公开发表的人脸防伪论文数目统计Fig.1 Statistics on the number of face anti-spoofing papers published in the past 11 years
人脸防伪技术的核心思想是充分提取并利用攻击假体与真实人脸之间本质的差异信息进行真假活体的判断。面对各种不同的攻击手段,为有效提取两者的差异信息,人脸防伪技术通常从硬件传感器和防伪算法建模两方面共同提升防伪性能。从传感器的角度来讲,除常用的RGB 摄像头外,近红外摄像头、散斑结构光3D 摄像头以及TOF3D 摄像头均已成功用于人脸识别系统,且在人脸防伪方面发挥了重要作用。此外,热红外成像仪、多光谱成像仪等传感器也被用于采集攻击假体和真实人脸照片进而设计人脸防伪算法。使用不同的传感器通常能够捕获更本质的真假差异信息。例如,3D 相机能够捕获人脸3D 几何轮廓信息,因而能够有效防御各类平面假体攻击,而近红外和热红外等传感器则能够获取人体温度、皮肤反射率等人体生理特征信息,从而对于防御各类面具等假体攻击具有独特的优势。多传感器能够有效捕获和增强纹理、形状、生理特性等真假人脸之间的差异信息,是解决人脸防伪技术的重要途径。然而,由于攻击方式的不确定性、复杂性、多样性和未知性,很难有某种单一的传感器能够有效防御所有攻击方式。因此,为有效处理复杂场景下的人脸防伪问题,利用异常检测、域适应、域泛化、元学习、信息解耦等机器学习方法对其进行数学建模逐渐成为解决问题的有效途径之一。基于不同模态人脸数据的防伪问题和同一人脸模态在不同场景下的防伪泛化问题,本文从不同传感器和复杂场景人脸识别系统的防伪技术切入,对现有的人脸防伪技术进行分类梳理,其人脸防伪分类拓扑结构如图2 所示。
图2 人脸防伪分类方法拓扑结构Fig.2 Topology structure of face anti-spoofing classification methods
2 面向不同传感器的人脸识别系统防伪方法
随着硬件传感技术的不断发展,多种光学传感相机正被逐渐应用于人脸识别系统中,用于提取真假人脸的本质差异特征,从而更好地应对各种呈现攻击手段对于人脸识别系统的威胁。当前人脸防伪方法用到的传感器主要包括RGB 可见光相机、近红外相机、深度相机、热度相机以及多光谱相机,利用这些传感器可以捕获或增强某种人体生理信息、人脸纹理信息以及几何形状信息等用于人脸防伪方法的关键特征。
2.1 基于不同传感器获取生理信息的人脸防伪方法
基于人体生理信息的防伪方法主要通过不同传感器获取人体心跳、运动(如眨眼、摇头)、热度等生命体征信息,进而用来区分攻击目标是否为活体。
2.1.1 基于RGB 视频流rPPG 的人脸防伪方法
远程光电体积描记术(rPPG)是指通过RGB 摄像头采集一段时间内的人脸视频序列来远程检测人体心率信号的技术,其原理是利用反射光变化来测量皮肤中由于血液流动导致的细微亮度变化。由于真假脸的材质不同,当光穿过皮层到达血管后,相机能监测到血液流动导致的亮度变化,而伪造的人脸则很难监测到这些信息。
基于所获取脉冲信号的不同[4],文献[5]在心率测量工作[6]的基础上提出基于人脸视频序列的心率估计方法,并将心率信息用于人脸防伪。该方法提取RGB 3 个颜色通道对应的rPPG 信号并变换至频域来构建用于反欺骗任务的特征向量,最后使用SVM 分类器进行真伪判定,如图3 所示,该方法对于纸张打印攻击以及面具攻击效果较好。为更好地抵御视频重放攻击,作者提出先用rPPG 防御纸张打印和面具攻击,再辅以传统纹理特征抵御视频攻击的一种串联机制。文献[7]在文献[5]的框架下提出了更有判别性的特征,结合3个面部区域和2 个背景区域的信息,将5 个区域的脉冲信号的频谱进行级联,进而构建特征向量进行分类,使其在面对打印攻击和视频攻击时提升性能。文献[8]在研究人脸活体检测回归问题时引入了rPPG 信号来对脉冲统计量的值进行时间辅助信息监督,以达到端到端地预测脉冲统计量的目的,该方法不仅能抵御纸质打印攻击和面具攻击,还能抵御视频重放攻击。基于真实人脸不同面部区域间rPPG 信号会有细微的时延差异(血液流动导致),而假脸中不同局部区域rPPG 信号的频域相关性很低。文献[9]从多个面部区域提取rPPG 信号并计算任意2 个局部rPPG 信号的相关性(假设它们都应与心跳的节奏一致)作为判别真伪的特征,该方法在跨数据库实验中取得了较好的结果。
图3 基于RGB 视频流rPPG 的人脸防伪方法流程Fig.3 Face anti-spoofing method procedure based on RGB video stream rPPG
基于rPPG 信号的人脸防伪方法通常受外界环境和检测对象的影响较大,所以其检测的准确度和鲁棒性一般,仍有较大的提升空间。
2.1.2 基于RGB视频时空运动信息的人脸防伪方法
基于RGB 视频流时空运动信息的人脸防伪方法,是指通过刻画视频流中真实人脸自发或交互所产生的运动信息(如眨眼、张嘴、摆头、表情等)进行真假人脸判定的一类方法。通常,可对动态线索如眨眼[10-12]、嘴部运动[13]、头部运动[14]等局部运动行为进行追踪估计来进行活跃度检测。如文献[11]通过对每一阶段的眨眼动作进行建模进而采用动态规划算法进行推理来进行活体检测。依据2D 平面物体与3D 物体结构不同导致运动模式明显不同的假设,学者们提出基于运动差异光流信息[15]的人脸防伪方法[16-19]。文献[16]通过计算所提取的人脸区域中的光流方向,对比不同区域间的光流矢量关系来进行真伪判定,该方法可有效提升用户体验,但照明变化会对结果产生负面影响。
考虑到视频流中真脸与背景运动的相对独立性,而假脸与背景运动具有较高的一致性,文献[20]将场景上下文信息纳入到反欺骗线索中,并利用序列相关性来进行活体检测。文献[21]通过测量分割后的背景区域与初始化阶段记录的原始背景区域测量相似性,计算相关指数来进行真伪判定。文献[22]提出借助光流对前景和背景运动的相关性进行防伪。将输入的视频转化为灰度图像序列,再送入面部检测器和光流分析器,最后根据系统输出的得分来判断人脸的真假。
针对3D 面具攻击,基于运动信息的方法通常利用3D 面具硬表面无法模拟复杂的面部运动这一特性进行判定。文献[20]利用用户自发的眨眼动作作为人脸的内部特征,并结合外部场景特征用于照片和3D 面具的攻击检测。但随着面具攻击的日益更新如柔软的硅胶面膜能够保留面部皮肤的细微运动,这使得基于运动的方法不太可靠。文献[23-24]提出使用深度卷积动态纹理特征来区分真脸和3D 面具之间的不同细微面部运动模式,并结合通道可辨性约束,在特征学习过程中进一步提取更具辨别力的深度卷积动态纹理进而进行活体判定。实验结果表明,该方法具有良好的泛化能力。基于RGB 视频流动态纹理特征的人脸防伪方法流程如图4 所示。
图4 基于RGB 视频流动态纹理特征的人脸防伪方法Fig.4 Face anti-spoofing method based on dynamic texture feature of RGB video stream
2015 年,XU 等[25]提出用深度学习来提取人脸视频的时空特征,使用基于LSTM 的CNN 网络并通过实验发现带有更多背景的图像能帮助提升防伪性能。针对视频攻击,3D 卷积神经网络可以学习连续视频帧的运动特征。结合3D 卷积,文献[26]提出了三维卷积神经网络(3DCNN)来提取全连接层的特征以训练SVM 线性分类器进行分类。2019 年,YANG 等[27]提出一个时空反欺骗网络(STASN)来检测打印照片攻击和视频重放攻击,该网络包括时间反欺骗模块、区域反欺骗模块和空间反欺骗模块。其中时间反欺骗模块是由CNN 和LSTM 单元组成,以学习视频的时间特征。另外还使用了注意力机制来自动选择人脸图像的K个局部区域,将这些区域图像送入空间反欺骗模块来学习空间纹理特征。
2.1.3 基于热像仪的热度信息人脸防伪方法
近红外相机的波长范围约为700~900 nm,而红外相机或称热像仪的工作波长可达14 000 nm。热像仪可检测由物体温度引起的辐射,因此与近红外相机一样不受环境光的影响。利用热像仪进行人脸防伪的基本思路在于真脸与假体之间的热辐射具有明显差异,导致热像仪所获取的热度图像具有明显的差异特征,进而可用于人脸防伪的判定。热度图像比较结果如图5 所示。
图5 真脸和假脸视频重放攻击的热度图像比较Fig.5 Comparison of thermal image between real face and fake face for video replay attack
2019年,SEO等[28]详细比较了可见光图像和热度图像在活体检测中的贡献,通过对比实验表明,热度图在活体检测任务中的贡献度超过可见光。SAFARZADEH等[29]提出一种活体检测的流程,通过可见光图像来进行活体检测,对于检测为真人的那些图像再利用其相应的热度图进行第二次检测,第二个阶段检测为活体的数据才最终判断为活体。由于文献[30]的方法是基于高像素的热度图,在研究或者实际应用中成本较高,2020年XI 等[31]提出用低分辨率的热度图来实现活体检测。为弥补低分辨热度图的不足,该方法提出利用近红外图像作为一种信息补充的方式。基于热度图的人脸活体检测方法虽然在原理和效果上存在优势,但价格昂贵的热像仪较难应用于手机和笔记本电脑等可移动设备上。
2.2 基于不同传感器增强纹理信息的人脸防伪方法
基于真假人脸图像纹理特征的差异进行活体检测是当前人脸防伪的主流方法。除最常用的可见光图像外,近红外图像和多光谱图像的纹理特征也被广泛采用。
2.2.1 RGB相机可见光图像纹理信息的人脸防伪方法
基于RGB 相机可见光图像纹理特征进行人脸防伪的方法,通常假定人脸假体经过设备多次采集后会包含更多噪声,因而必然与真脸图像存在某种细微的纹理差异。常见的可见光图像纹理特征描述符 有LBP(Local Binary Pattern)[32-39]、DoG[40-42]、HOG[37,43]、SURF[44]、SIFT[45]等。LBP[46]以其特有的旋转不变性、灰度不变性以及计算简单等特性成为纹理信息提取中最常用的特征描述子,比其余纹理算子有更好的性能表现[32]。
2011 年,MAATTA 等[32]将多尺度的LBP 算子应用于人脸防伪,之后在2012 年又增加了Gabor 小波和HOG 特征,并将LBP、Gabor 小波和HOG 特征分别送入SVM 分类器,最后将3 个特征分类的结果进行分数融合来进行人脸真伪判断[38]。文献[35-36]则是更改了LBP 的形式,将LBP 扩展为动态纹理VLBP 以及结合了空间与时间信息的LBP-TOP。为了使纹理差异特征更明显,研究者[44,47-48]提取了不同色彩空间(RGB,HSV 和YCbCr)中不同通道的局部描述子,并进一步研究了颜色纹理的内在差异在真假脸部判定中的有效性(如图6 所示)。实验结果表明,颜色纹理用于人脸防伪比灰度纹理更有优势。考虑到低分辨率假体打印照片包含较少的高频成分,文献[40-41,49]以高频信息作为出发点,通过对所捕获人脸中的高频信息进行提取和处理来做出真伪判定。该方法仅适用于低分辨率的下采样照片,对于更高质量的攻击样本可能会失败。基于可见光纹理特征的人脸防伪方法通常需要输入高分辨图像以便获得更精准的纹理细节,为解决图像分辨率和质量变化的问题,文献[50]提出一种基于尺度空间纹理分析的方法,通过连接不同尺度空间图像中提取的纹理特征来区分真伪。该方法能在一定程度上增强人脸特征对噪声和照明等因素的鲁棒性。但是,基于纹理特征的活体检测方法对于跨不同数据库攻击测试时,其性能会急剧下降[39]。为了增强可见光纹理特征对跨数据库人脸防伪的泛化性能,文献[51]提出融合镜面反射、模糊、色矩以及颜色多样性4 种不同特征以形成图像失真分析(IDA)特征向量,随后将该向量送入集成分类器来区分真假脸。该方法可以稳定高效地防御纸质打印攻击和视频重放攻击,但仅限于短距离欺骗攻击。与打印攻击类似,由于早期面具均由硬质材料制作,使用诸如纹理和颜色之类的外观特征也成为防御3D 面具攻击的有效解决方案。文献[52]通过提取纹理的多尺度LBP 特征在Morpho 数据库上实现了最佳性能。除LBP[53-55]特征描述子和Haralick 描述子[56]外,为了使算法更具稳定性和鲁棒性,文献[57-60]提出融合全局纹理特征和局部纹理特征,并在Morpho 和3DMAD 数据库上取得了较好的性能表现。
图6 基于RGB 相机不同色彩空间纹理信息的人脸防伪方法Fig.6 Face anti-spoofing method based on different color space texture information of RGB camera
基于深度学习的方法[61-65]通常设计一个端到端的征提取和分类一体化模型,基于softmax 损失函数的分类模型替代传统的SVM进行二分类监督学习。如YANG等[61]在2014 年提出使用CNN 来检测欺骗攻击,使用了AlexNet来提取人脸图像的特征,最后将特征送入SVM分类器进行二元分类。随着深度学习的发展,有学者设计一个端到端的特征提取和分类一体化模型。但由于早期人脸防伪数据较少,从头开始训练CNN 的效果很差,容易造成过拟合。研究人员提出可以借鉴迁移学习的思想,即通过使用预先训练的模型如CaffeNet[62]、VGG-facemodel[63]、VGG-16[66]、AlexNet[67]等来微调其网络进行特征提取。基于迁移学习的方法不仅避免了对大网络的过拟合,还节省了计算资源,提高了效率。
2.2.2 NIR 相机与NIR 图像纹理信息的人脸防伪方法
红外摄像技术分为被动红外摄像技术和主动红外摄像技术,本文所提到的近红外(NIR)图像是指用主动红外摄像技术获取的图像。由于NIR 的光谱波段与可见光不同,真实人脸与非活体载体对于近红外波段的吸收和反射强度也不同,因此可基于人脸与其他假体材质在光谱反射率上的差异来判定真假人脸。
文献[68]选取2 个近红外波段光谱采集人脸图像,发现面部皮肤和面具材料的反射率特征线性可分,于是利用Fisher 线性判别来区分人脸真假。然而,该方法对距离和额头部位遮挡有严格的采集要求,在实际应用中会受限。可见光传感器所捕获的图像含有较为丰富的场景信息,但其易受到天气与光照强度的影响,而红外传感器所捕获的图像受天气、光照条件影响较小,但其对细节、场景的信息反映能力较差。基于此,文献[69]在文献[5]的基础上,进一步研究了在NIR 模态下rPPG 的活体检测性能。实验结果表明,对于高清打印纸张和视频重放攻击,基于NIR 提取的rPPG 效果更好。
2.2.3 多光谱相机及图像纹理信息的人脸防伪方法
2011 年,ZHANG 等[70]通过测量真人皮肤与不同材质的假脸的多光谱特性,提出将多光谱人脸图像的反射率作为特征并利用SVM 分类器进行人脸防伪,该方法排除了距离以及用户交互的影响。2017 年,ZHANG 等[71]运用一个商业的多光谱相机SpectraCam采集了425 nm、475 nm、525 nm、570 nm、625 nm、680 nm 和930 nn 波长下的真实和虚假人脸的图像数据集(如图7所示),并在这个数据集上用现有的方法进行实验,进一步验证了多光谱数据在人脸防伪中的有效性。同年,RAGHAVENDRA 等[72]进一步对多光谱图像提取LBP 和BISF 特征,利用SVM 对提取的特征进行分类,并研究了多光谱图像的图像融合和分数融合的防伪性能,实验结果表明,分数融合的效果更好。
图7 基于多光谱相机图像纹理信息融合的人脸防伪方法Fig.7 Face anti-spoofing method based on texture information fusion of multi-spectral camera images
基于多光谱图像纹理信息的人脸防伪方法主要思路是:利用真脸与假体因材质不同导致其对不同光谱段的放射率不同这一基本差异进行真伪判定。因此,与单一波长下图像纹理方法相比有一定的优势,但是该方法的实际应用性还有所欠缺,受相机等设备的影响较大。
2.3 基于不同传感器增强形状信息的人脸防伪方法
2.3.1 可见光图像回归3D 伪深度图人脸防伪方法
由于真实面部3D 结构的存在,眼睛、鼻尖、嘴巴等不同位置都有不同的深度信息,而屏幕上和纸张上伪造的假脸即便是可以弯曲为具有非平坦3D 形状的假脸,也不会拥有与真实人脸相同的3D 结构信息。
近年来,基于深度学习结合传统3DMM 模型[73]的3D 人脸重建技术得到了广泛关注[74-77],为基于单张图像的3D 人脸深度信息估计带来了新的启示。2017 年,LIU 等[74-75]基于3D 人脸重建在文献[78]中提出利用DCNN 从单帧人脸图片中估计出人脸图像的深度信息,由于真脸的深度值是存在差异的,但纸质打印攻击和视频重放攻击假脸不存在深度差异,因此可通过深度图作为差异特征进行人脸防伪,并通过实验证明了该方法对纸质打印攻击和视频重放攻击的有效性。之后,将二分类人脸活体检测问题转变成基于深度学习的回归问题[8],引入了空间和时间线索,通过回归脉冲统计量和深度图来计算样本特征间的相似距离进行活体判断的阈值决策。为了更好地重构深度图,京东金融和中科院在LIU等[78]工作的基础上联合利用了多帧的时空信息来更精准地预测深度图,进而进行活体检测[79],如图8 所示。实验结果表明,该方法对于视频重放攻击检测性能有明显改善。
图8 RGB 相机可见光图像回归3D 伪深度图的人脸防伪方法Fig.8 Face anti-spoofing method based on 3D pseudodepth maps reconstructed from RGB camera visible images
基于深度信息的活体检测方法不受光照等变化的影响,也无需耗时进行人机交互,面对打印及视频攻击时相对基于纹理及运动信息的活体检测方法有更优越的性能表现,但在面临3D 面具攻击时效果较差。
2.3.2 基于RGB-D相机深度图像信息的人脸防伪方法
基于RGB-D 相机深度图像信息的人脸防伪方法是指利用3D 人脸的三维几何形状结构特征进行真假人脸判断的一类方法。该类方法可有效杜绝平面打印照片攻击和视频重放攻击。
2017 年,WANG 等[80]使用卷积神经网络(CNN)从2D 面部图像区域中学习背景环境特征,并融合从Kinect 捕获的深度图像特征进行真假人脸判断。2018 年,SUN 等[81]通过对每对RGB-D 图像计算彩色和深度图像之间的相关性来检测多峰特性,进而从子区域的一致性来区分真假人脸。实验结果表明,该方法可有效应对照片、平板电脑屏幕和面具等呈现攻击。从防攻击的有效性评价,通常3D 结构光优于近红外,近红外优于单目RGB,而从成本考虑,RGB 相机则更占优势,近红外相机次之。
2.4 基于多传感器多模态信息融合的人脸防伪方法
基于多传感器多模态信息融合的人脸防伪方法主要利用可见光、近红外、深度、多光谱等图像信息之间的互补信息进行人脸真假活体的判断。
文献[82]提出利用卷积神经网络从成对的RGB和NIR 图像中学习多层次融合特征的人脸防伪方法。文献[83-84]对人脸的RGB 图像和NIR 图像进行联合分析,提取特征以形成最后的特征向量用于分类检测。实验结果表明,联合两种模态数据不仅可以有效防御打印攻击,而且对3D 面具攻击也有效。
2019 年,ZHANG 等[85]采集一个包含可见光、近红外、深度图的多模态数据集,并在文献[86]的基础上提出了SEF(Squeeze and Excitation Fusion)模块来对不同层级的特征进行融合,实验结果表明,融合3 种模态信息可获得最好的效果,而仅使用RGB 信息的效果最差。之后,文献[87]设计一种基于注意力机制的多模态数据融合方法,将文献[85]数据集中的3 种模态数据以及3 个模态堆叠在一起的数据,分别送入带有注意力机制的网络中提取特征,最后将提取的特征串联起来用于人脸防伪。文献[88]提出基于图像块的融合方法,并设计一个模态随机擦除模块,避免了网络在某一模态上的过拟合。文献[89]提出用streaming model替代全局平均池化(Global Average Pooling,GAP),并设计一种新的融合分类器结构,即首先基于深度图判断好区分的样本,输出真人和假体结果,再将上一阶段样本通过IR 图像进行判断,输出最终结果。文献[90]则是在文献[85]的基础上融合网络不同层的特征,并使用不同攻击类型来训练和测试网络,以增加网络的泛化性。该方法最终在CVPR 2019 ChaLearn Face Antispoofing 比赛中夺得冠军。2020 年,GEORGE 等[91]提出把可见光、近红外、深度图像三者归一化后从通道上串联,得到新的融合图像(如图9 所示),在新的图像上进行人脸检测和人脸防伪2 个任务。
图9 灰度图、深度图、近红外图像的融合Fig.9 The fusion of gray image,depth image and nearinfrared image
2017 年,AGARWAL 等[92]收集一个包含可见光、近红外、热度图3 个模态的视频数据集,该数据集包含了10 种面具,作者对数据提取图像特征,进而进行人脸真假分类实验,实验结果表明,热度图在活体检测中的效果最好。类似地,文献[93]收集了可见光、近红外、热度图3 个模态的数据集,并且数据的采集是在真实登机场景下收集的,更能贴合实际应用场景,如图10 所示。通过实验发现,不管是采用分数融合还是图像特征融合,同时使用3 个模态数据时,活体检测性能都较高。
图10 可见光、近红外、热度图的融合Fig.10 The fusion of visible light image,near infrared image,and heat map
3 面向复杂场景的人脸识别系统防伪方法
3.1 基于单分类异常检测的未知场景人脸防伪方法
在本文第2 节介绍的方法中,人脸防伪问题通常被建模为一个基于监督学习框架的真假二分类问题。该类方法通常要求训练集与测试集中的样本分布尽量保持一致,否则其泛化性能会急剧下降[39,44,47,51,62,94]。然而,攻击类型的多样性、攻击方式的不确定性以及外界环境的复杂性等因素,会导致防伪问题要求防伪模型要具备鲁棒的泛化能力,要能够保证复杂场景中人脸识别系统的安全性。
为使得人脸防伪模型能够更好地应对未知攻击,2017 年,ARASHLOO 等[95]将单分类异常检测模型的研究思路引入人脸防伪,并将真脸样本定义为正常模式,将各种类型的攻击假脸定义为异常模式。为验证该思路的有效性,采用一组传统的纹理特征表述子如BSIF-TOP、LBP-TOP、LPQ-TOP 等,并应用基于SVM、LDA、SRC 的单分类器和二分类器形成多种组合方法。同时,设计了多种库内跨攻击和不同数据库间跨攻击方式的评估策略。实验结果表明,仅用真实人脸进行训练的单分类异常检测防伪方法性能并不低于传统二分类方法。
受文献[95]启发,2018年NIKISINS 等[96]从异常检测思路出发,首先提取正常样本即真脸的图像质量度量特征,然后采用高斯混合模型(GMM)对正常模式进行建模,并使用EM 算法对高斯混合模型进行求解。同时,设计一组更加合理针对异常检测类方法的人脸防伪实验评估策略。实验结果表明,该方法与单分类SVM 相比性能有大幅提升,进一步验证了异常检测方法用于未知场景人脸防伪的有效性。随后,异常检测用于人脸防伪的潜力被进一步挖掘[97-99]。其主要思路是同时借鉴了单分类异常检测原理和基于人脸识别系统中不同用户的身份信息设计特定的个性化分类器人脸防伪策略[94]。2020 年FENG 等[100]则从异常检测的角度提出一种残差学习框架,该框架通过约束真脸图像未携带任何欺骗信息的方式优化生成泛化能力强的欺骗线索图像。
受到单分类CNN工作[101]的启发,2020年BAWEJA等[102]将异常检测防伪方法推广至端到端深度学习框架。如图11 所示,在仅用真脸图像作为正样本进行网络训练的情况下,通过对高斯分布采样来生成伪负样本,使深度网络能够更好地学习分类边界。在Replay Attack、Rose-youtu、OULU-NPU 和Spoof in Wild 4 个公开数据集上的实验结果表明,与基于异常检测的单分类OC-SVM、OC-GMM 以及OC-CNN 相比,所提方法具有明显性能优势。
图11 基于生成伪负样本的人脸防伪方法Fig.11 Face anti-spoofing method based on generating pseudo negative samples
此外,2020 年ABDUH 等[103]借鉴了基于重建误差的异常检测方法,提出对正常样本进行卷积自编码学习。由于训练样本仅包含正常样本,因此训练好的模型仅对正常样本会有较好的重建,而不能很好地重建异常样本,即正常样本的重建误差较低,异常样本的重建误差较高,从而可利用重建误差来判断人脸图片的真伪。
基于单分类异常检测模型的人脸防伪方法目前尚处于探索研究阶段,但与传统二分类模型相比,其对于处理未知攻击具有明显优势。此外,由于异常检测问题本身已被广泛研究,基于异常检测的人脸防伪方法将会在解决复杂场景下人脸识别系统应对未知攻击中发挥重要作用。
3.2 基于域适应与域泛化的跨场景人脸防伪方法
人脸防伪问题的难点之一在于即使对于同一种攻击类型,由于数据采集时间、设备、对象、距离、光照、欺骗媒介等均可能存在不同程度的差异,导致传统人脸防伪方法对于跨库实验性能大幅下降。为更好地解决此类跨场景人脸防伪方法,近年来学者们逐渐将迁移学习中的域适应和域泛化思想引入人脸防伪中。域适应的基本思想是通过最小化源域和目标域之间数据样本的分布差异,使得通过源域训练好的模型能够很好地在目标域中适用。但在某些场景中,目标域数据事先无法获得,因此域泛化的基本思想是假定可见的源域和未见的目标域间存在一个潜在的泛化特征空间,那么通过对齐多个源域数据样本的分布来学习该特征空间,使得利用源域数据训练得到的模型可以较好地泛化到未见的目标域。
YANG 等[94]将域适应方法用于人脸防伪问题,提出针对每位已注册人脸识别系统的用户训练一个单独的防伪分类器,并利用对象域适应方法成为受试者的虚拟伪负样本。实验结果表明,该方法相对于一般分类器而言具有优势,但仅适用训练样本和测试样本采集条件相似的情况。因此,为进一步提升跨库间的泛化性能,文献[104]在针对特定人脸抗欺骗方案的基础上进一步采用了域自适应方法,减少光照和背景等其他因素的影响。
受无监督域自适应技术在很多领域成功应用的启发,2018 年,LI 等[105]提出一种无监督域适应跨库人脸防伪方法。该方法利用经典的MMD(Maximum Mean Discrepancy)度量最小化源域和目标域样本在嵌入特征空间中分布之间的差异。实验结果表明,该方法在跨数据集人脸防伪中表现出显著的泛化优势。为进一步缩小跨库数据之间的差异,2019 年,该思路被ZHOU等[106]推广至多层卷积神经网络框架中。
受生成对抗网络得到广泛应用的启发,文献[107]提出一种基于对抗域适应的跨库人脸防伪方法,如图12 所示,该方法首先在源域上训练一个人脸防伪模型,随后固定该模型参数,通过限制源域和目标域模型参数共享,并利用对抗训练机制迫使判别器无法鉴别来自不同域的样本特征来实现对抗域适应模型的训练,最后利用KNN 分类器对目标域的嵌入样本特征进行分类进而实现跨库人脸防伪的目的。该方法能够较好地利用来自源域的先验知识,使其能够在目标域执行更鲁棒的人脸防伪策略,在多个公开人脸防伪数据库中显示了良好的泛化能力。
图12 基于对抗学习域自适应的跨库人脸防伪方法Fig.12 Cross-database face anti-spoofing method based on adversarial learning and domain adaptation
2019 年,SHAO 等[108]提出一种新颖的多对抗判别深度域泛化框架来学习泛化的特征空间,从域泛化的角度出发解决跨场景人脸防伪问题。该方法主要利用对抗学习机制,使得判别器不能够区分样本来自不同域,从而学习到既有较强判别能力又有较好泛化能力的特征。考虑到不同域中真脸样本的分布差异较小而假脸样本的分布差异较大,2020 年,JIA 等[109]提出一种单边域泛化人脸防伪方法。该方法首先通过参数共享机制学习来自不同域的真脸和假脸的特征表达。随后仅对于真脸特征利用单边对抗学习机制迫使来自不同域的真脸样本具有共同的嵌入特征,同时使用度量学习机制迫使来自不同域的真脸特征尽量相似,假脸特征尽量分离,真脸与假脸之间的域内距离小于假脸与假脸之间的域间距离。最后对具有域泛化的嵌入特征进行二分类以实现人脸防伪任务。
3.3 基于元学习的未知攻击人脸防伪方法
元学习(零样本学习和少样本学习)的思想被引入人脸防伪问题的主要目的是:解决防伪方法在未知攻击场景的泛化性能或已知新攻击少量样本后算法模型对新攻击的快速适应性能。
2019 年,LIU 等[110]将未知攻击人脸防伪问题建模为一个零样本学习问题,并提出一个包含13 种攻击类型的人脸防伪数据库。考虑到不同类型的攻击存在一致特征以及不同攻击具有自身独特性的假设,随后又提出一个新颖的深度树结构网络(DTN)。该网络首先通过优化节点路由函数无监督学习建模不同攻击模式的分布情况,然后通过监督特征学习实现人脸防伪检测的目的。该方法的有效性在CASIA、Replay 和MSU-MFSD 等数据集上得到了充分的验证。
受元学习的启发,2020 年,QIN 等[111]将人脸防伪问题看作是一个典型的零样本和少样本学习问题,因而可通过学习一个统一的元模型克服未知攻击人脸防伪问题。该方法首先将不同类型的真脸样本和假脸样本进行细粒度分组,在此基础上构建用于零样本学习和少样本学习的人脸防伪任务集合,并借鉴MAML[112]学习策略进行元训练和元测试,如图13 所示。实验结果验证了该方法的有效性。文献[113]提出一种基于正则化细粒度元学习框架的人脸防伪方法。该方法在元学习的基础上引入人脸防伪的领域知识,并用该领域知识指导元学习训练阶段梯度方向更新和模型参数更新策略,可实现在不同域迁移场景下同时进行元学习,从而可以利用更丰富的域迁移信息来训练泛化性能更好的人脸防伪模型。
图13 基于零样本和少样本学习的人脸防伪方法流程Fig.13 Procedure of face anti-spoofing method based on zero-shot and few-shot learning
3.4 基于解耦表示学习的复杂场景人脸防伪方法
基于解耦表示学习的复杂场景人脸防伪方法受伪造假体生成的物理过程启发,通常认为攻击人脸样本包含与防伪任务相关和无关的信息,可在图像空间或特征空间将其解耦分离,之后仅使用与防伪任务相关的信息进行人脸防伪方法的建模和学习,以此来提升人脸防伪方法的判别性能和泛化性能。
2018 年,JOURABLOO 等[114]受噪声建模与去噪算法的启发,提出将任一攻击假脸分解为假体攻击噪声和真脸两部分,并用攻击噪声进行人脸防伪的判定。实验结果表明,该方法对纸质打印攻击和视频重放攻击效果明显,但受限于面具攻击,随后ZHANG 等[115]提出区别于传统人脸防伪方法的基于解耦表示学习的人脸防伪新框架,如图14 所示。该框架假定在特征空间中,任一人脸样本均可被解耦为活体特征和非活体特征(包括ID、背景等信息),而活体特征可被用于人脸真假的判定,为更好地在隐空间进行解耦,采用自编码器学习范式,并通过对真假人脸对的隐空间特征进行交换,以达到自监督学习的目的。
图14 传统方法与基于解耦表示学习的人脸防伪方法流程Fig.14 Procedure of traditional methods and face anti-spoofing method based on decoupled representation learning
2020 年,WANG 等[116]将解耦表示学习和多域学习相结合用来解决跨域人脸防伪问题,该方法首先将来自多个域的人脸样本送入解耦表示学习网络(DR-Net),即任一样本在隐空间被解耦为身份相关特征和防伪相关特征,然后经解耦后的多个域防伪相关特征被送入多域学习网络(MD-Net)学习不依赖域的防伪特征,进而进行人脸活体的判定。实验结果表明,该方法在跨域人脸防伪中表现良好。文献[117]认为假脸图像包含了4 种欺骗痕迹,即全局信息如颜色平衡偏差和范围偏差,低频信息如化妆区域、镜面高光和高频信息如面具边缘等。基于此,利用对抗学习构建一个假体痕迹分解网络并在图像域将假体图像分解为上述4 个部分,进而利用这些欺骗痕迹来实现人脸防伪。在实验部分,作者对假体痕迹信息进行了可视化展示,并通过实验证明了所提方法对已知和未知攻击均有效。
4 人脸防伪数据库及性能评估
4.1 人脸防伪数据库
随着对防伪方法的研究,学术界公开人脸防伪数据集在攻击类型、人数规模、场景复杂度等方面也在不断发展。2010 年,2D 人脸防伪数据库NUAA[40]被提出,该数据集仅包含15 个人在3 种不同时段和不同照明条件下所拍摄的5 105 张真人脸照片和7 509 张打印攻击照片,如图15 所示。2012 年,中国科学院公布的CASIA-FASD[41]数据集由50 个人在3 种不同分辨率相机下拍摄的600 个视频组成。同年,Idiap 研究院公开了Replay-Attack[118]数据集,该数据集包含50个人在2种环境下的1 300个视频。2015年,密西根州立大学公布的MSU-MFSD[51]数据集由55 个人使用2 种设备录制的440 个视频组成。同年,Idiap 研究院公布了Msspoof[119]数据集,该数据集包含了可见光和近红外2 种数据模态,攻击方式为打印攻击,含有21 个人、7 个不同的环境场景,共计1 680 个视频流。2017 年,奥卢大学公布了OULU-NPU[120]数据集,包含55 个人在3 种不同环境下,用6 种拍摄设备所采集的4 950 个视频。2018 年,含有不同姿势和表情的人脸防伪数据集SIW[8]被公开。
图15 打印攻击与重放攻击图例Fig.15 Legend of print attack and replay attack
3DMAD[55]数据集是第1 个公开可用的3D 人脸面具防伪数据集,它由17 个不同用户通过3D 人脸面具进行真实访问和呈现攻击的255 个视频序列组成,每个视频的每帧都有对应的深度图和RGB 图,如图16 所示。HKBU-MARs[121]是由香港浸会大学于2016 年提出的一个模拟真实场景的3D 面具防欺骗数据集,该数据集的面具是仿照12 个真人定制的高仿真面具,常用于测试基于3D 刚性面具攻击的方法。SMAD[122]是第1 个硅胶面具攻击数据集,该数据集的建立有助于研究无约束人脸呈现攻击方法。2018,基于12 个用户和6 个用户特制硅胶面具采集而成的CSMAD[123]数据集被提出,包含88 个真实视频、160 个面具攻击视频以及60 张高质量的RGB 照片。同年,包含打印攻击、视频攻击、面具攻击的Rose-Youtu[105]数据集被公开。
图16 3D 面具攻击图例Fig.16 Legend of 3D mask attack
2019 年,Idiap 研究院公布了WMCA[124]数据集,其特点为包含了可见光、深度、近红外和热度图像。同年,CASIA-SURF[85]数据集被公布,该数据集包含了可见光、近红外、深度3 种数据(见图17),较之前的防伪数据集,该数据集包含1 000 个人,数据量超过之前的防伪数据集。2020 年,CASIA-SURF CeFA[125]数据集被提出,该数据集是第1 个包含明确种族标签的人脸防伪数据集,涵盖3 个种族、3 种模态、2D 和3D 攻击类型以及1 607 个用户对象。同年,CelebA-Spoof[126]数据集被提出,该数据集是迄今最大的防伪数据集,包含10 177 个受试者在8 种场景下,使用超过10 种传感器所拍摄的625 537 张图片。其中每张图片带有43 种属性,如欺骗类型、照明条件、环境、头发、是否带眼镜等标注。表1展示了部分常见人脸防伪数据集发布年份、人员规模、攻击类型、图片或视频数量、数据模态以及采集设备等相关情况,其中,1、2、3 分别表示打印、重放和面具,P 和V 分别表示图片和视频,R、D、I、T 分别表示RGB、深度、近红外和热度数据。
表1 人脸防伪数据库Table 1 Face anti-spoofing databases
图17 CASIA-SURF 数据集部分样本Fig.17 Partial sample of CASIA-SURF datasets
4.2 实验评估
4.2.1 评估协议
在人脸防伪的早期研究中,许多已发表的文献在自制的防伪数据库上设计和测试了它们的算法[16,70,128-129]。由于缺乏公开的防伪数据集和相关的协议,研究人员对于如何研发和测试人脸防伪的性能还未达成共识,以至于无法公平比较不同方法的性能,不利于人脸防伪的发展。随着数据集的逐渐公开,一些较为完善的协议逐渐被提出[120,127]。本节将分别介绍数据库内测试协议和跨数据库协议,以比较不同情形下不同防伪方法的性能。
在一个数据库内的场景中,通常假设欺骗媒介(例如照片和屏幕显示)、相机、环境因素甚至用户对人脸防伪系统是已知的。然而,这个假设并不适用于大多数真实场景。数据库内协议通常要求在一个数据集上完成训练和性能评估,即用该数据库的训练集、开发集和测试集分别进行训练、调参和测试。在人脸防伪方法的数据库内,性能只是实际应用中无法预期的性能上限。数据库内协议可以在同一个数据库内评估方法的性能和泛化能力。
具体地,不同的数据集有不同的划分协议。Print-Attck[127]和Replay-Attck[118]按人数被分成了不相交的训练集、验证集和测试集。其中训练集用来训练网络,验证集用来决定何时停止训练或者在其上选择阈值,测试集使用验证集所选的阈值来评估分类器的最终性能。OULU-NPU[120]数据集具有4 个划分协议,分别用来评估防伪方法在同一数据集下在不同环境(光照,背景)、不同欺骗攻击类型、不同拍摄设备及三者混合的复杂场景下的泛化能力。由于CASIA-FASD[41]和MSU-MFSD[51]数据集中没有验证集,只有训练集和测试集,因此可通过对训练集进行多折交叉验证来进行参数调整。CASIA-FASD[41]数据集考虑了成像质量(3种质量视频)和各种假脸,设计了包括3 种质量、3 种攻击和整体的7 种场景下的测试协议,对于每一种场景,从训练集和测试集中选取相应的数据进行模型训练和准确率测试。
在跨数据库场景中,允许系统开发阶段和系统部署阶段欺骗媒介、摄像机、环境和用户的差异。因此,这种跨数据库性能更好地反映了在实际应用程序中系统的预期实际性能。跨数据库场景包括2 个及2 个以上的数据集。对于2 个数据集间的跨数据集协议,其中训练样本和测试样本来自2 个不同的数据集,通过在一个数据集A 上训练反欺骗检测器,并在不同的数据集B 上的测试来评估该方法的泛化性能,反之亦然。当使用数据集A 来训练、数据集B来测试时,有4 种可能性:分别在数据集A 的训练集和测试集上训练,在数据集B 的训练集和测试集上测试。多个数据集间的测试协议与2 个数据集间的协议类似,使用部分数据集作为训练集,其余的作为测试集。基于域泛化方法使用的就是这种协议,即在3 个数据集上训练,在第4 个数据集上测试。
4.2.2 性能评估指标
最常用的人脸防伪方法评估指标是活体检测性能和抗欺骗性能,其分别用错误拒绝率(FRR)和错误接受率(FAR)来进行度量。为更好地反映集成生物识别和对抗系统的稳健性,国际标准化组织(ISO)又增加了攻击呈现分类错误率(APCER)和真实人脸分类错误率(BPCER)这2 个新指标。上述指标性能的优劣将直接对整个生物认证系统的性能产生较大影响。
由于单个指标不能评估系统性能,因此人们通过错误拒绝率(FRR)、错误接受率(FAR)、真实拒绝率(TRR)、真实接受率(TAR)构建等错误率(ERR)、半总错误率(HTER)、DET 曲线和ROC 曲线来衡量防伪系统的性能。指标定义如下:
1)FRR。合法用户尝试登录被认为非活体而拒绝的次数除以尝试登录的总次数。
2)FAR。欺骗攻击被接受为活体合法用户的次数除以欺骗攻击的总次数。
3)TRR。欺骗攻击登录时被认为非活体而拒绝的次数除以欺骗攻击总次数。
4)TAR。合法用户尝试登录被接受的次数除以尝试登录的总次数。
5)EER。定义为沿ROC 或DET曲线的点,当FRR 和FAR 相等时的错误率,其值越小表示系统性能越好。
6)HTER。定义为FRR 和FAR 的均值。
7)DET 曲线。绘制了错误拒绝率FRR 与错误接受率FAR 随着判断阈值变化的曲线图。FRR 与FAR均受到判定阈值的影响,并且当FAR 逐渐增大时,FRR 错误拒绝率逐渐减小。
8)ROC 曲线。是以FPR 为横轴,TPR 为纵轴,根据给定的阈值计算出一组相对应的(FPR,TPR)坐标点连接而成的直线。但是由于ROC 曲线不能清晰地表现哪个分类器的效果更好,AUC 值也会被用作评价标准,通常AUC 值更大的分类器效果更好。
标准化的ISO/IEC 30107-3 度量标准中考虑到了每种攻击类型的攻击潜力和成功概率,成为目前最新兴的评价指标,包括攻击呈现分类错误率(APCER)和真实呈现分类错误率(BPCER)。平均分类错误率(ACER)是APCER 和BPCER 的平均,其值越低,性能越好。
4.2.3 人脸防伪方法性能比较
本节将比较不同传感器类方法和复杂场景类人脸防伪方法在一些常见公开数据集上的性能表现。对于不同传感器类方法,分别梳理了不同方法在可见光、近红外以及深度图数据集上的性能比较(见表2)。表2 中所有精度结果均来自表中所列方法对应的文献,且同一数据集上的实验结果均采用相同的实验协议。SIW 数据集包含3 个不同的实验协议,OULU 数据集包含4 个协议,表2 均选择协议1 上的结果进行比较,其中,R、D、I 分别表示RGB、深度和近红外数据。从表2 可以看出:早期的方法主要是依靠人工提取的特征,如LBP、HOG 等。随着深度学习的发展,基于深度学习的方法优于传统方法。同时,基于多传感器采集的数据集的人脸防伪性能优于可见光单模态方法。具体而言,对于Replay-Attack[118]数据集,Depth-Based CNN[78]方法比传统方法和其他的CNN 方法性能更好。对于CASIAFASD[41]数据集,Patch-Depth CNN[78]相较于传统方法和其他CNN 方法,HTER 值和EER 值更低。对于OULU-NPU[120]和SIW 数据集,WANG 等[79]提出的基于CNN+LSTM 方法表现最优,其ACER 值分别为1.3%和0.73%。通过比较不同方法在3DMAD[55]数据集的防伪性能,可以发现在抵御面具攻击时,基于迁移学习的方法优于传统LBP 方法、rPPG 方法和光流方法。同样,迁移学习在CASIA-SURF[85]数据集上表现出了最佳性能,其ACER 值为0.08%。基于CNN 的方法相比传统方法在SMAD 上表现更优。
表2 不同传感器人脸识别系统防伪方法性能比较Table 2 Performance comparison of anti-spoofing methods for facial recognition systems with different sensors
对于面向复杂场景的人脸防伪方法,目前的研究通常是在4 个公开人脸数据集OULU-NPU[120](用O表示)、CASIA-FASD[41](用C表示)、Replay-Attack[118](用I表示)和MSU-MFSD[51](用M 表示)上进行的。这4 个数据集的攻击方式均为打印攻击和重放攻击,但是4 个数据集数据采集的场景和设备存在差异。通常选择3 个数据集用于训练模型,另一个数据集仅用来测试模型。例如O& C& I to M 表示在OULU-NPU[120]、CASIA-FASD[41]和Replay-Attack[118]上训练,在MSU-MFSD[51]上进行测试。表3 为面向复杂场景的人脸防伪方法的性能比较。从表3可以看出:在4组跨场景测试任务中,基于域泛化的方法SSDG[109]是目前相对最好的方法。在O& C& I to M、O& M& I to C、O& C& M to I 3组实验中,其EER 和HTER 指标均为目前最高水平。在I& C& M to O测试任务中,基于域泛化的方法DAFL[129]的性能超过了基于域泛化的方法SSDG[109]的方法,RFM[113]和基于解耦表示学习的方法MDRL[116]仍有发展空间。
表3 复杂场景人脸识别系统防伪方法性能比较Table 3 The performance comparison of anti-spoofing methods for facial recognition systems with complex scenarios %
5 未来发展方向
随着人脸识别方法的不断改进以及人脸识别系统的广泛应用,人脸防伪问题变得日益突出,将长期吸引学术界和工业界的共同关注。对于人脸防伪技术的未来发展趋势主要有以下4 个方面:
1)人脸防伪技术将随着人脸识别技术的发展而发展,针对人脸识别的不同应用场景以及不同人脸识别终端设备,集成利用便捷式多传感器获取的多模态数据进行集成防御仍然是未来解决人脸防伪问题的有效手段。
2)面向更加复杂多变的应用场景,以及各种开放、未知、不确定的攻击类型,充分利用机器学习原理对其进行场景化和普适性建模也是未来解决人脸防伪问题的主要突破方向。
3)随着深度学习生成模型的快速发展,除当前被广泛研究的通过手工制作的假体呈现攻击外,利用生成算法合成的人脸图像、视频等虚拟假体攻击将成为一种重要的攻击形式和研究热点。
4)随着深度学习对抗样本的生成和防御研究的不断深入,对抗样本攻击将成为人脸识别及人脸防伪关注的重点问题。此外,对于人脸识别系统内部各环节,如人脸模板的加密保护等也将逐渐成为人脸防伪技术需要面对的问题。
6 结束语
本文从人脸识别系统的安全性角度出发阐述人脸防伪问题的重要性,同时从面向不同传感器的人脸识别系统和面向复杂场景的人脸识别系统两个角度出发,对现有人脸防伪方法、数据集以及相应的算法性能进行系统梳理和总结,并结合当前人脸活体检测问题面临的挑战对未来研究方向进行展望。从当前的研究方法可以看出,人脸活体检测问题在面向不同传感器的人脸识别系统和面向复杂场景的人脸识别系统应用上仍有一定的进步空间。同时,对于利用算法生成的人脸图像、视频攻击以及对抗样本攻击需要进一步探索和研究。