基于DCNN的人脸多属性识别

2017-04-22广长彪

现代计算机 2017年8期

关键词：人脸卷积微笑

广长彪

（1.四川大学视觉合成图形图像国家重点实验室，成都 610065；2.四川川大智胜软件公司，成都 610065）

基于DCNN的人脸多属性识别

广长彪

（1.四川大学视觉合成图形图像国家重点实验室，成都 610065；2.四川川大智胜软件公司，成都 610065）

在人脸属性的识别过程中，目前常见的方法有以下几种，基于Gabor小波变换的人脸属性识别，基于SIFT的人脸属性识别和基于差分纹理的人脸属性识别。传统方法存在很多问题，例如特征的选取需要人为的干预，而且特征的选择也不一定能够符合预期。采用有监督的基于深度卷积神经网络（DCNN）的方法，构建一个多层卷积神经网络，通过卷积神经网络获得深度卷积激活特征，该方法采用CelebA库训练，之后用JAFFE人脸库进行检测，取得很好的实验结果。

属性识别；SIFT；监督；深度卷积神经网络

0 引言

随着现代社会的发展和科技的日益革新，人们对于信息的获取和信息的处理的需求也日益增加，其中对于人脸属性的识别也是当前人工智能领域的一个重要的课题，因为人脸属性包含了很多信息，对于人脸属性的识别也将应用于诸多领域。例如人机交互[1]、智能机器人、医疗、远程教育、火车站、公安系统、图书馆管理系统、心理学研究，等等，前景非常的广阔。而人脸属性包含人脸的各种特征，例如胡须、微笑、性别等，人脸属性识别技术是指对一副人脸图像或者是摄像头捕获到的人脸进行分析，返回人脸的性别、年龄、表情等各种信息。

对于目前人脸属性的一些主流方法，如以Gabor小波作为图像工具的人脸属性识别技术，被广泛的应用于人脸图像分析，但Gabor特征存在计算量大，维数高和信息冗余等缺点,还有基于SIFT的人脸属性识别以及基于差分纹理的人脸属性识别，等等，以上的特征值都是基于人工的提取特征值，而本文提出使用深度卷积网络自动学习有效特征并进行分类的人脸识别方法。首先利用DCNN非线性映射和自动提取图像结构信息的能力，设计一个DCNN网络实现对姿态鲁棒性的人脸识别方法。在JAFFE数据库以及LFW数据库上的测试结构表明，与现有的如上述的几种人工设计特征方法相比，深度卷积神经网络方法能有效地进行特征学习，避免了人工选取特征的不稳定以及选取的特征不好等缺陷，也避免了人工巨大的工作量，在人脸属性识别上具有很好的效果。

1 DCNN介绍

1981年的诺贝尔医学奖得主是美国神经生物学家David Hubel和Torsten Wiesel以及Roger Sperry，而David Hubel和Torsten Wiesel的主要贡献，是发现了视觉系统的信息处理，可视皮层是分级的，以此提出了“感受野[2]”的概念。到了八十年代中期，Fukushima等在感受野概念的基础上又提出了神经认知机[3]，这便是卷积神经网络（Convolution neural networks，CNNs）的第一次实现，也是第一次基于神经元之间的局部连接性和层次结构组织的人工神经网络。卷积网络是为识别二维形状而特殊设计的一个多层感知器，这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。这些良好的性能是网络在有监督方式下学会的，卷积神经网络有三个显著的特点，即共享权值[4]（shared weights），时间或空间子采样（temporal or spatial sub-sampling），局部感受野（local receptive fields），卷积神经网络（CNN）局部连接权值共享和池化的方法能够很大程度上降低网络的计算复杂度，同时CNN的这些特点，即对平移，比例缩放和倾斜等形变具有很好的鲁棒性。局部感受野是一种将隐层中的每个神经元和输入图像中的局部区域相连接的一种思想。由于隐层中的每个神经元不需要和整个图像进行全连接，而只是和图像进行局部连接，所以通过这种局部感知的感受野思想，可以大大地减少连接的数目，同时也极大程度地降低卷积神经网络中需要训练的权值参数数目。

卷积神经网络（CNN）的基本结构是卷积层和池化层。对于卷积层而言，每一个神经元的结构与上一层结构局部想连，上一层的特征层则与卷积核做卷积运算，从而得出下一层的的卷积层，运算则是提取特征的过程。池化层则是由上一层的下采样变化而来，一般情况下是一个二次特征提取的特征层，它用来求局部敏感性[5]。

卷积是分析数学中的一种运算，设f（x）和g（x）是R上的两个可积函数，做积分运算如下：

公式（1）定义了f（x）和g（x）的卷积。一个完整的卷积层通常情况下由多个特征映射平面组成，使用多种卷积核（也可称为滤波器）对图像进行卷积，于是我们便可以得到输入图像的每个位置上的多种特征。

接下来便是池化操作，如前所述，在我们用卷积获得特征（features）之后，下一步我们希望利用这些特征去做分类过程。理论上讲，我们可以把所有提取得到的特征去训练分类器，但是这样做却面临海量数据的计算。例如：对于一个192×192像素的图像，假设我们已经学习得到了100个定义在8×8输入上的特征，每一个特征和图像卷积都会得到一个（192-8+1）×（192-8+ 1）=34225维的卷积特征，由于有100个特征，所以每个样例（example）都会得到一个185×185×400=33，422，500维的卷积特征向量。卷积过程如图1所示：

图1 二维卷积操作示意图

学习一个拥有几百万个特征输入的分类器十分的繁琐，并且容易出现过拟合（over-fitting）。

所以我们需要解决上述问题，我们可以利用卷积后的特征是因为图像具有一种“静态性”的属性，也就是指在一个图像区域有用的特征极有可能在另一个区域同样适用。所以，为了描述比较大的图像，我们可以利用上述特性，对不同位置的特性进行聚类统计，人们可以计算图像一个区域上某个特定特征的平均值或者是最大值。这些概要特征的维度与原维度相比也有了几何倍数的降低，大大的减少了计算量。这种聚合的操作就叫做池化（pooling），根据池化的方法不同主要分为平均池化法和最大池化法两类。最大池化示意图如图2所示。

图2 最大池化操作示意图

然而特征又是如何选取的呢，传统的特征选取过程是通过人工来选取，不仅特征选取过程工作量巨大，需要人工干预，而且选取特征的好坏很大程度上受到人为因素的影响，幸运的是，深度学习的出现解决了如何自动学习“优质特征”的问题[6]，它通过模仿人类大脑分析学习的机制，将分级信息处理过程引入到特征表达上，通过逐层特征变换，将样本在原空间的特征表达变换到新的特征空间上，从而使分类变得更加容易，也减少了人工干预，卷积神经网络作为深度学习的模型，也是当前的热点。这便是我们的深度卷积神经网络（DCNN）。

2 传统方法

传统的人脸属性方法大概有以下几种，即基于Gabor小波变换的人脸属性识别，基于SIFT的人脸属性识别和基于差分纹理的人脸属性识别。以下将介绍这几种传统方法的基本原理和优缺点，基于Gabor小波变换的人脸属性识别利用Gabor函数是唯一能达到测不准原理下界的函数，能够同时在空域和频域中取得最优分辨率的特征，获得Gabor特征，将表情特征向量进行k近邻分类，得到实验结果。基于SIFT的人脸属性识别利用SIFT算法寻找图像的不同尺度空间的特征点，并获得和特征点相关的尺度和方向等信息，得到特征点的描述子，得到特征向量，利用支持向量机对特征进行选择和分类。基于差分纹理的人脸属性识别一定程度上能够屏蔽掉个体人脸的差异同时保留人脸属性特征，首先选定人脸标准模型，该模型合理分布人脸的一些基准点，然后利用Delaunay三角剖分获取这些基准点的基准信息，然后利用纹理映射技术将人脸属性映射到标准人脸参考模型中。这些方法在一定程度上都有可取性，但是都存在一定的问题，这些选取特征的方式都是人工的选取，避免不了巨大的工作量和特征选取不好的问题。

3 文中DCNN方法

机器学习[7]是人工智能领域的一个重要学科，随着互联网的发展和人工智能的崛起，机器学习成为解决问题的重要手段，机器学习的流程包括：对问题建模，训练数据的组织，特征抽取，模型训练，模型优化等重要环节。机器学习分为无监督学习（unsupervised learning）和有监督学习（supervised learning），在实际应用中，有监督学习是更加常见和有价值的方式。本文采用的DCNN方法即使有监督的学习方法。

对于人脸图像我们做如下处理，如图3所示：

图3 人脸图像处理

本文的网络拓扑结构图4所示：

图4 人脸属性识别网络拓扑结构图

本网络分为两部分，前面是卷积网络部分，后面是全连接部分，卷积网络分为三个子网络，最开始的是pooling层，中间包含五个卷积单元，每个卷积单元包含一个卷积层和一个LRN层，之后又是一个polling层，三个子网络的输入分别是上半脸、全脸和下半脸。后面全连接部分也是三个子网络，每个子网络完成一个属性识别。

网络的输入均为128×128的灰度图像，网络中的所有polling层都采用max pooling，卷积网络部分每个子网络的参数如表1：

全连接部分的每个子网络的输入均为卷及网络三个子网络输出特征的连接，全连接网络部分的每个子网络的参数如下：全连接1的output为128，全连接2的output为2。

整个网络输出了三个二维的向量，分别对应微笑。三个人脸属性的二分类特征。由于微笑属性是研究的属性中识别难度较大且之前对微笑的识别较多，所以本文选取微笑属性来作为与之前方法作对比的试验。

表1

4 实验结果与分析

本实验是一在JAFFE库[8]上的测试，该数据库由10个女性的213张人脸表情组成，其中微笑的图片共计31张，非微笑图片182张。图5为JAFFE人脸库微笑图片的示例。

图5 JAFFE人脸库微笑图片示例

表2 文中方法与其他方法比较

Gabor小波和SIFT及本文采用的方法在JAFFE数据库上的试验结果如表2所示。

同时，以上只是在微笑的时候，能否检测出微笑的识别率，同时，也有在不是微笑的情况下，检测出非微笑的识别率。由于在JAFFE库上的样本都是不戴眼镜的女性，所以不适合我们胡须属性和眼镜属性的试验，我们从WebFace库中抽取100张人脸图片用于我们的试验，同时我们得到非微笑人脸在JAFFE库及其他的人脸属性在WebFace库上的识别率如表3所示。

5 结语

本文基于DCNN的人脸属性识别与传统方法相比，具有不用人工选取特征，选取特征较好，识别准确率更高等优点，人脸的属性识别也具有较大的实际意义，可用于人工交互、公安系统等各领域，若想取得更好的识别率，今后可以改进网络拓扑结构，采用更深的网络，用更大的数据训练。

表3 各属性识别正确率及环境

[1]薛雨丽，毛侠，郭叶，等.人机交互的人脸表情识别研究进展[J].中国图形图象学报，2009,14（5）：764-772.

[2]Hubel D H,Wiesel T N.Receptive Fields,Binocular Interaction and Functional Architecture in the Cat's Visual Cortex[J].The Journal of Physiology,1962,160（1）:106-154.

[3]Fukushima K,Miyake S.Neocognitron:A New Algorithm for Pattern Recognition Tolerant of Deformations and Shifts in Position[J]. Pattern Recognition,1982,15（6）:455-469.

[4]Won Y,Gader P D,Coffield P C.Morphological Shared-Weight Networks with Applications to Automatic Target Recognition[J].Neural Networks,IEEE Transactions on,1997,vol.8,no.5,pp.1195-1203.

[5]池艳玲.基于深度学习的人脸识别方法的研究[D]:[硕士学位论文].福州：福建师范大学，2015.

[6]Graves A,Mohamed A R,Hinton G.Speech Recognition with Deep Recurrent Neural Networks.In:Proceedings of the 38th IEEE International Conference on Acoustics,Speech and Signal Processing.Vancouver,BC:IEEE,2013.6645-6649

[7]王珏，周志华，周傲英.机器学习及其应用.清华大学出版社，书号:ISBN 7-302-12038-2,北京，2006.

[8]Affect Analysis Group.Cohn-Kanade-AU-Coded Expression Database[OL].[2010-12-06]http://www.pitt.edu/～emotion/ckspread.htm.

An Improved Algorithm of the Screen Space Ambient Occlusion

YANG Zhi-cheng
（College of Computer Science，Sichuan University，Chengdu 610065）

In computer graphics,the quality of global illumination directly affects the authenticity of the frames.The traditional ray tracing is complex,and difficult to online.So in real-time applications such as games generally choose the Ambient Occlusion,AO technology to simulate global illumination effect,which sacrifice some effect to reach real-time rendering.

Global Illumination;Ambient Occlusion;Screen Space;Mipmap

1007-1423（2017）08-0051-05

10.3969/j.issn.1007-1423.2017.08.011

广长彪（1990-）男，湖北孝感人，在读硕士研究生，研究方向为图像处理与合成

2016-12-29

2017-03-10

科技部重大仪器专项（No.2013YQ49087904）