基于生成对抗网络的遮挡人脸表情识别方法研究

2023-06-09刘小红

现代计算机 2023年6期

陈姣，刘小红

（湖南信息学院计算机科学与工程学院软件工程系，长沙 410151）

0 引言

人脸表情是生活中最常见的一种信息传递方式，在有关情感的信息中，面部表情占总体表情量的55%，面部表情蕴含着人物的内心深处的心理活动变化，所谓的 “察言观色” 就表明人脸表情包含了非常多的信息，通过人脸表情就能很直观地获取别人的情感状态。

人脸表情识别（FER）是近几年人工智能领域的热门话题，FER 在虚拟现实、计算机视觉、人脸支付、视频会议和心理学等领域具有广泛的应用。比如：通过实时表情监测可以判断驾驶员是否处于疲劳状态，应时发出相关提醒，以减少交通事故发生。自动人脸表情识别（AFER）通过监测人脸表情，来判断用户的情感状态，并且以此为依据来创建自适应环境，比如：远程教学中可以通过监测学生的表情，获得当时比较真实的学习状态，辅助学生和老师更好地掌握学习情况。又如在审讯过程中警察也可以通过表情来检测，排除一些潜在性的欺骗。在解决心理困扰时，可以通过分析表情来获取更为真实的信息［1］。

当下人脸表情识别多是在无遮挡的表情库中进行分析的，如果想结合实际生活来研究表情识别技术并推广到日常生活，就必须要考虑现实中人脸遮挡的问题。有些人觉得戴上口罩或墨镜就可以遮挡住自己面部的某些器官，在此情况下就无法得到表情的全部特征，因此可以隐藏自己的内心世界。但越来越多人员开始对人脸去遮挡情况进行研究，即使遮挡物隐藏掉了面部的部分内容，还是可以通过算法进行还原。

1 直接舍弃和填补

目前去遮挡的思想有两种：直接舍弃和填补。

关于舍弃法，如果是图像边缘或者是无关信息的背景缺失，舍弃法则完全不会影响识别结果，但是，很多时候图像中缺失的区域很有可能是决定表情类别的五官关键所在，例如眼睛、眉毛、嘴巴和鼻子等。那么舍弃法会直接导致表情特征的大部分流失，这样的图像无论有多么精准的特征提取以及分类算法都无济于事。因此，以舍弃法为基础的遮挡图像表情识别系统不可能达到一个较高的识别率。与之相比，填补法就可靠很多，填补法更多是以某种学习算法为基础，通过学习残缺图像中的像素信息和图像结构信息来还原缺失部分，最具有代表性的是卷积神经网络［2］，以此为基础的识别系统能够处理还原后的整张人脸图像，当残缺区域面积合适时，用填补法有较高的识别结果［3⁃4］。

但是，卷积神经网络的学习能力和还原图像的能力受到了遮挡区域的大小限制，当遮挡区域过大时，学习网络将不能捕捉到正确的像素和结构信息，这种情况下能够还原的情绪状态或是五官形状与原始图像相比较都存在很大差别。2014 年，创新又实用的生成对抗网络（GAN）的生成算法为人工智能技术带来了新的突破。该算法将博弈论引入到损失函数中，在不断对抗的过程中逐渐形成了系统的学习和生成能力，由于其出色的表现力，近年来在图像生成、重建图像高分辨率、图像复原等领域被广泛应用。

本文认为用生成对抗网络进行人脸去遮挡会取得更好的效果，所以将生成对抗网络作为遮挡图像填补算法的基础，通过分析其原理与不足设计出改进方案。

2 生成对抗网络的基本原理

生成对抗网络是博弈论和机器学习相结合的产物，在2014年由Goodfellow 等［5］提出，一经问世即广受欢迎，可见人们对于这种算法的认可。如果要更详细地了解GAN，就需要知道它是怎么来的，以及这种算法能体现什么价值，存在的意义是什么。研究者最初想法是通过它完成计算机自动生成数据的功能，例如通过训练某种算法模型，使该模型通过学习一些苹果的图片，然后自动生成苹果的图片，具备这些功能的算法被认为具有生成功能。但GAN 不是第一个生成算法，而是以往的生成算法在衡量生成图片与真实图片之间的差距时采用均方误差作为损失函数，但是研究者发现有时均方误差一样的两张生成图片的效果却大相径庭。针对此不足， Goodfellow等［5］提出了GAN。

如图1所示，GAN 由两个模型组成：生成模型G和判别模型D。首先第一代生成模型1G的输入是随机噪声z，然后生成模型会生成一张初级照片，训练一代判别模型1D并进行二次分类操作，将生成的图片判别为0，而真实图片判别为1；为了隐瞒一代判别器，一代生成模型开始进行优化，然后进阶成二代模型，当它生成的数据成功隐瞒1D时，判别模型也会优化更新，进而升级为2D，按照相同的过程会不断更新出N代的G和D。直到最后一代D再也区分不出生成图片和真实图片，就意味着模型训练成功，以上过程就是GAN训练过程的通俗理解。

图1 GAN网络循环训练过程

3 基于改进的生成对抗网络的遮挡人脸表情识别方法框架

该方法主要实现遮挡人脸图像中去遮挡和表情识别的两个功能，能够有效补全含有复杂表情信息的人脸遮挡图像，缓解局部遮挡区域对于遮挡表情识别算法的影响，提高图像识别准确率和分辨率。方法以Wasserstein 生成对抗网络（Wasserstein Generative Adversarial Network，WGAN）模型为基础，该方法由一个生成器和一个判别器组成。

基于WGAN 的遮挡表情识别方法一共包含三个部分，第一部分为人脸表情的图像预处理，具体包含人脸监测、人脸校准、图像尺度归一化和图像像素值的归一化。第二部分为图像遮挡区域的生成处理，从中提出加权重构损失函数Kwr、三连子损失函数Kt 和对抗损失函数Ka对生成器进行约束。并且，输入原始未遮挡图像、生成的补全图像以及无关区域遮挡图像对判别器进行训练，充分利用遮挡图像中未遮挡区域的像素信息，被遮挡图像、生成图像和原始未遮挡图像之间的结构信息来对输入的遮挡表情图像进行填补修复，使补全图像更加逼真和自然。第三部分在WGAN 网络判别器的基础上，使用其部分卷积层和池化层完成特征提取步骤，通过Wasserstein 距离构建原始未遮挡图像、生成图像以及无关区域遮挡图像之间的对抗损失Ka 来提升系统的特征提取能力。另外加入全连接层和Sigmoid 层完成真假图像的判别，同时将全连接层和Softmax 层相连接构成表情分类器。本文提出用原始未遮挡图像、无关区域遮挡图像、去遮挡的生成图像来共同完成分类器的训练，从而完成表情分类与识别。

方法框架如图2所示，其中G和D分别代表生成器和判别器，G代表去遮挡的生成图像，X（i,j）代表遮挡图像， Kwr 和Kt 分别代表生成器的加权重构损失函数和三连子损失函数，Ka 代表对抗损失函数，Kc代表分类损失函数。

图2 基于改进的生成对抗网络的遮挡人脸表情识别方法框架

4 结语

根据对现有遮挡面部表情识别分析和研究，目前还没有发现一个成熟的、通用的、数据丰富的真实遮挡面部表情数据库。除此之外，真实的遮挡图像实际处理起来要困难很多，因为它不太容易被检测为遮挡，也不太容易同时获得无遮挡与遮挡这两个结果的训练表情图像。所以，目前对遮挡表情的识别主要是研究人员在自己建立的遮挡模拟数据库上进行研究。大多数研究人员使用掩模图像（如胶片、黑色方形、滤光片、底片等图像）与未遮挡的表情图像进行拼接，以合成模拟的遮挡数据。

对于真实的遮挡表情图像，本文研究方法的去遮挡效果并不太理想，仍有改进空间。这是由于本研究是通过在人脸表情图像的不同位置增加大小不同的黑色矩形来模拟现实中可能存在的遮挡情况，并使用模拟数据作为训练数据集。此研究缺乏一些真实遮挡表情图像作为训练数据。因此，在测试真实遮挡图像时，不能有效地还原遮挡区域，如手遮挡、太阳镜和胶带等。对于现有的面部遮挡表情识别，不管研究人员使用哪种掩模图像来模拟遮挡图像，其结果都与真实遮挡的面部表情图像的效果区别较大。没有充足的真实遮挡训练数据为基础，任何方法都不能有效地处理真实遮挡的面部表情图像。因此，建立一个公开、完善、真实的遮挡表情数据库，并利用真实数据训练网络是今后的研究方向和努力目标。