APP下载

融合特征基于深度多核学习的动态表情识别

2018-05-22何秀玲

计算机应用与软件 2018年5期
关键词:识别率内核人脸

何秀玲 蒋 朗 吴 珂 高 倩

(华中师范大学国家数字化学习工程技术研究中心 湖北 武汉 430079)

0 引 言

人类进行情感信息交流强大而重要的载体是面部表情,人类的情绪可以通过表情的变化流露出来,因此表情在我们的日常生活中起着至关重要的作用。近几年,面部表情识别已应用在心理学、医学和人机交互等领域。为了使机器更加准确地学习和识别面部表情,需要不断开发计算机视觉和机器学习技术。

表情识别过程包括特征提取和分类识别,提取的面部特征优劣判别在于特征是否具有较高的区分度、较强的鲁棒性以及信息是否较为完整[1]。目前使用较为广泛的特征提取方法主要是针对几何和纹理两类特征[2]。脸部几何特征是通过标记面部特征点,提取面部离散的点或关联点之间的形状信息,关联点形状信息可以提高特征点对于形状变化和表情的描述能力。Gabor小波与人类视觉系统细胞的刺激响应相似,通常用来描述图像纹理特征[3]。特征融合可以获得更加丰富的特征信息[4]。文献[5]提取面部形状变化特征和纹理特征的混合特征进行表情识别。文献[6]融合面部几何信息和纹理信息后进行表情识别。文献[7]提取7个面部动态区域的几何特征和Gabor特征后训练了多类支持向量机对六种表情进行分类识别。实验结果显示,相较于仅单独使用某一种特征进行表情识别,融合特征可实现更好的识别效果。当前的研究热点是利用深度学习进行图像识别。文献[8]利用深度学习训练大容量样本后进行表情识别,获得了较高的识别率。文献[9]利用深度学习方法对面部表情运动单元进行识别。

本文提出一种融合几何特征和Gabor特征的基于深度多核学习模型的表情识别方法。此外,实验引入了慢特征分析SFA(Slow Feature Analysis)算法自动检测图片序列中的表情峰值帧[10]。在峰值帧图片上提取几何特征与Gabor特征,有效地降低了特征维度,节省了内存开销,并将两种特征进行融合,将融合特征输入到深度多核学习模型中进行训练,利用训练后得到的最终核函数作为支持向量机SVM(Support Vector Machine)决策函数进行学习识别。实验结果表明,利用本文提出的方法可以得到较为理想的表情识别率。

1 峰值帧自动检测与特征提取

1.1 峰值表情帧的自动检测

为了解决特征维数过高、内存消耗过大和信息冗余等问题,本文采取仅利用表情幅度最大的那一帧,即基于表情峰值帧提取特征。目前,已有研究者直接采用静态数据库提供的表情峰值图片或者手动选择动态数据库的表情状态图片[11-13],在样本过多的情况下,这样处理可能缺乏可行性。因此,本文利用慢特征分析(SFA)算法实现表情峰值帧的自动检测。

SFA[14]是无监督学习算法,在姿势识别及视频行为识别等领域应用较为广泛[15]。SFA可以从多维输入信号中及时提取最佳的缓慢变化的特征作为输入信号。以G维输入时序信号x(t)=(x1(t),x2(t),…,xG(t))为例,SFA目标是找到某个非线性投影函数f(x)=(f1(x),f2(x),…,fM(x)),从而生成M维的输出信号y(t)=(y1(t),y2(t),…,ym(t)),并且其输出的各分量变化尽可能慢[16]。SFA一般采用关于时间的一阶导数的平方均值来衡量y(t)的变化速率。优化框架如下:

(1)

同时满足:

〈yi(t)〉=0

(2)

〈(yi(t))2〉=1

(3)

〈yi(t)yj(t)〉=0 ∀j

(4)

式中:yi(t)表示yi关于时间t的一阶导数,<·>表示在时间t上求均值。分量yi(t)和分量yj(t)互不相关,因此每个分量都表示各自不同的信息。在求解得到的y的各个分量中,y1(t)是变化最缓慢的特征。

在非线性空间上的做线性变换可以得到相应的非线性变换。函数的非线性扩展被定义为:

φ(x):=[φ1(x),φ2(x),…,φM(x)]

(5)

慢特征函数计算步骤如下:

步骤1利用非线性的函数对原始信号x(t)进行扩展,并且把φ(x)归一化,使其均值为0,即z:=φ(x)-φ(0),其中φ(0)=[φ(x)]t,归一化后满足条件(2)。

(6)

要求得到的慢特征函数能够满足约束条件式(2)-式(4),而且也能使式(1)中的目标函数取得最小值。

人类大脑基本是通过面部眉毛、眼睛、鼻子、嘴巴这四大区域的可观变化来判定人脸表情,因此,可通过提取对表情变化贡献较大的特征点集来反映表情的变化趋势。对人脸表情变化的特征点进行跟踪是动态特征提取的一种方法,通过对面部特征点的跟踪可以忽略与表情无关的背景信息。本文中,SFA流程及实验输出样例如图1所示。

图1 表情序列对应的SFA输出

1.2 几何特征的提取

仅利用特征点位置变化信息虽能完整的表示人脸的轮廓信息,但很难概括各器官的具体形状变化。心理学家Ekman与Friesen提出了FACS(Facial Action Control System)用来模拟和研究人的面部表情[17]。FACS中一共定义了44种面部动作AU(Action Unit)编码,人类六种基本表情都可以由不同的面部动作编码组合来描述,例如:惊讶的表情是由AU1(抬起眉毛内角)、AU2(抬起眉毛外角)、AU5(上眼睑上升)、AU27(嘴巴张开)组成,等等。表情发生时主要体现在眼睛、眉毛、嘴巴等部位的形状变化,例如惊讶表情发生时脸部上下嘴唇的距离会变大,同时嘴部区域的面积也会变大。本文通过建立数学几何模型来描述面部运动单元。例如利用嘴巴区域的高斯面积和上下嘴唇特征点之间的距离模型来表示嘴巴张合动作及幅度大小。

单一几何特征具有计算量小、计算方法简单等优势,但有时它们利用了大量的特征,却未能涵盖所有可能的表情形变信息。为了解决这个问题,本文提出了一种从单一几何特征转向斜率向量、角度向量、多边形向量和距离向量多种几何向量组成的面部表情综合特征[18]。图2为本文提取的脸部几何特征向量。

图2 几何特征向量

斜率特征主要是定义2个点之间的变化程度,选取的特征点集中在眉毛和嘴巴周围,计算方法如下:

(7)

式中:t,m为对应的两个特征点的编号,为该编号的特征点的横纵坐标。

角度特征主要是涉及到3个特征点之间的夹角,计算方式如下:

Angle=

(8)

多边形特征定义3个或3个以上的特征点,将这3个点连成1个多边形并计算其面积,通过面积来反映表情运动单元的变化。计算方法如下:

(9)

距离特征主要是2个特征点之间的欧式距离,本文中用到的距离特征计算方法如下:

(10)

1.3 Gabor特征提取

几何特征是一类面部局部特征,因此在图像分类识别时可能会存在局限性。为了获取更加完整的表情信息,本文采用5个尺度8个方向的Gabor滤波器提取面部纹理信息,从而获取更多的能概括表情变化的全局信息。Gabor变换是一种加窗的傅里叶变换,二维Gabor滤波函数定义如公式所示[19]:

ψm,y=

(11)

本文利用眼部特征点对图片进行归一化预处理后再提取Gabor的特征如图3所示。可以看出,这40个表情图片滤波器都能较好地反映表情的纹理特征,利用DCT的去相关和聚能的能力,提取能量集中区的相关数据,达到降低特征维数的目的[20]。

图3 5个尺度8个方向滤波器图

2 融合混合特征与深度多核学习的人脸表情识别方法

2.1 深度多核模型

深度多核学习DMKL(Deep Multiple Kernel Learning)由多层内核函数和神经网络堆叠而成。

内核函数是深度多核学习的关键组成部分。深度多内核架构是1个多层次的网络架构,每层都有一组内核,其定义为[21]:

(12)

DMKL模型自底向上逐层训练内核函数,下层内核函数隐含层的输出作为上一层内核函数的可视层输入。逐层训练后的多内核函数可以提取高维数据中更有区别度的低维数特征。DMKL结构如图4所示。

图4 DMKL结构

2.2 融合混合特征与DMKL的人脸表情识别方法

本文提出了一种融合特征与深度多核的人脸表情别方法,流程图如图5所示,具体步骤如下:

步骤1对人脸峰值帧表情图像提取描述人脸局部区域形状变化的几何特征。

步骤2从人脸峰值帧表情图像提取描述纹理的Gabor特征。

步骤3将提取的两类特征以串联的方式进行混合后输入到深度多核模型进行训练。

步骤4利用训练后的DMKL模型得到的核函数输入到支持向量机SVM分类器进行表情分类。

图5 融合特征与DMKL的人脸识别流程

3 实验结果

3.1 表情数据库

本文选用Extended Cohn-Kanade(CK+)[22]表情数据库。表情库包含 123 个人的 593 个表情序列。选取带标签的 327 个表情序列作为实验图像,包含愤怒 45 张、厌恶 59 张、恐惧 25 张、高兴 69 张、悲伤 28 张、惊讶 83张,实验样本图像如图6所示。每次实验随机选取每种表情图像的四分之三,共255张作为训练样本,余下的72张作为测试样本集。识别实验重复进行十次后取实验结果的平均值作为最终识别结果。

图6 CK+表情样本

3.2 混合特征基于深度多核学习分类结果

DMKL虽然已在模式识别领域取得了一些成功,但至今没有研究把DMKL应用于表情图像的识别中。多内核方法可以将数据投影到高维再现内核希尔伯特空间上,增加数据表示的丰富性,适用于异构特征数据,因此将深度学习与内核方法结合既可以适用小容量样本,同时能有效地融合几何特征数据与Gabor特征。本实验通过分析表情数据库样本容量后,确定设置DMKL网络中的多核层数为3层,隐藏层节点使用4个独特的基本内核:线性内核、Sigmoid内核、径向基内核(RBF)和多项式内核[23]。实验的硬件环境为 3.30 GHz Core i5 CPU,4 GB RAM 计算机,软件环境为Matlab R2014b。不同类型特征的DMKL识别率如图7所示。

图7 基于DMKL模型识别率

3.3 与其他方法对比

为了验证本文所提出的融合特征对于表情分类识别的有效性,实验在峰值表情图像中分别提取几何特征、Gabor 特征、融合特征,之后采用 DMKL模型进行训练后再识别,识别率对比结果如表1所示。此外,为了验证DMKL对于表情分类识别的有效性,将本文所用的方法同近年来学者们所提出的表情分类方法进行对比,同时本实验也同SVM 算法进行对比。SVM采用广泛使用的台湾大学林智仁教授开发设计的LIBSVM,选用 C-SVC 类型,核函数采用径向基(RBF)核函数,采用十折交叉验证法训练得到的最佳c和g,利用最佳c、g参数的分类器进行表情的分类。

表1 本文算法与其他表情识别结果对比

从实验的结果可以看出,本文采用融合特征基于DMKL的分类方法与SVM分类识别方法相比,识别率提高了4.13%。对于基于融合特征的表情识别实验对比如下:詹永照等[5]提取面部的形状变化特征和纹理特征,利用离散隐马尔可夫模型得到六种表情的平均识别率为90.83%。苏志铭等[6]采用几何信息和纹理信息融合的混合特征,提出基于线段相似度判决方法实现动态表情识别,识别率达到86.45%。本文方法与文献[5- 6]相比,识别率是有所提高的。对于基于深度学习的表情识别方法比较识别如下:王剑云等[24]提出的局部并行深度神经网络的表情识别方法,能达到85.71%的识别利率。罗翔云等[8]利用CNN的方法对六种基本表情以及中性表情进行识别,识别率达到了96.43%,但提出的方法需要大量样本集进行训练,因此在实验过程中采集了CK库中共2 628个图像表情进行处理识别。Salah等[9]利用深度学习方法进行了面部运动单元识别,对于六种基本表情的识别率超过了90%,但对于厌恶、恐惧、高兴、惊讶这几种表情识别,本文的方法较为优良。

4 结 语

本文采用基于融合局部与全局特征的DMKL模型方法进行表情识别。从表情峰值图像中提取眉毛眼睛与嘴巴等部位的几何特征作为局部表情图像,有效地减少了冗余信息。实验分别提取面部Gabor特征与几何特征后融合,融合特征同时包含了纹理特征与形状特征,具有更加丰富的表情信息。DMKL模型通过构造深层多核学习网络获取多核函数权重,利用得到最优核函数来提高识别率。将本文所提出的方法应用在CK+表情库上,识别率可以达到94.4%,证明了本文所提出的方法对于表情识别的有效性。在今后的研究中,要进一步探索如何从自发表情视频中提取表情峰值帧,使其应用于视频实时识别。

参 考 文 献

[1] Liu S S,Tian Y T,Wan C,et al.Facial Expression Recognition Method Based on Gabor Multi-orientation Features Fusion and Block Histogram[J].Acta Automatica Sinica,2011,37(12):1455-1463.

[2] Kim D J.Facial expression recognition using ASM-based post-processing technique[J].Pattern Recognition & Image Analysis,2016,26(3):576-581.

[3] Yuan Weiqi,Fan Yonggang,Ke Li.Palmprints Recognition Method Based on the Phase Consistency Combined with Log-Gabor Filter[J].Acta Optica Sinica,2010,30(1):147-152.

[4] Zhang S,He H,Kong L.Fusing Multi-feature for Video Occlusion Region Detection Based on Graph Cut[J].Acta Optica Sinica,2015,35(4):0415001.

[5] 詹永照,李婷,周庚涛.基于混合特征和多HMM融合的图像序列表情识别[J].计算机辅助设计与图形学学报,2008,20(7):900-905.

[6] 苏志铭,陈靓影.基于自回归模型的动态表情识别[J].计算机辅助设计与图形学学报,2017,29(6):1085-1092.

[7] Hsieh C C,Hsih M H,Jiang M K,et al.Effective semantic features for facial expressions recognition using SVM[J].Multimedia Tools & Applications,2016,75(11):6663-6682.

[8] 罗翔云,周晓慧,付克博.基于深度学习的人脸表情识别[J].工业控制计算机,2017,30(5):92-93.

[9] Al-Darraji S,Berns K,Rodic A.Action Unit Based Facial Expression Recognition Using Deep Learning[C]//International Conference on Robotics in Alpe-Adria Danube Region.Springer,Cham,2016:413-420.

[10] 邵洁,董楠.RGB-D动态序列的人脸自然表情识别[J].计算机辅助设计与图形学学报,2015,27(5):847-854.

[11] Moeini A,Faez K,Sadeghi H,et al.2D facial expression recognition via 3D reconstruction and feature fusion[J].Journal of Visual Communication & Image Representation,2016,35:1-14.

[12] 刘宇灏.基于PLBP的面部表情识别分析[J].信息化研究,2016(2):47-50.

[13] Happy S L,Routray A.Automatic facial expression recognition using features of salient facial patches[J].IEEE Transactions on Affective Computing,2015,6(1):1-12.

[14] Wiskott L.Slow Feature Analysis[J].Scholarpedia,2014,6(4):1-2.

[15] 陈婷婷,阮秋琦,安高云.视频中人体行为的慢特征提取算法[J].智能系统学报,2015(3):381-386.

[16] 马奎俊,韩彦军,陶卿,等.基于核的慢特征分析算法[J].模式识别与人工智能,2011,24(2):153-159.

[17] Ekman P.Measuring facial movement with the Facial Action Cording System[J].Emotion in the human face,1987:179-211.

[18] Palestra G,Pettinicchio A,Coco M D,et al.Improved Performance in Facial Expression Recognition Using 32 Geometric Features[C]//International Conference on Image Analysis and Processing.Springer International Publishing,2015:518-528.

[19] 张永宏,曹健,王丽华.基于改进型DCT和Gabor分块的人脸特征提取与识别[J].测控技术,2012,31(12):36-40.

[20] Bober M,Farinella G M,Guarnera M,et al.Semantic segmentation of images exploiting DCT based features and random forest[J].Pattern Recognition,2016,52(C):260-273.

[21] Jiu M,Sahbi H.Semi supervised deep kernel design for image annotation[C]//IEEE International Conference on Acoustics,Speech and Signal Processing.IEEE,2015:1156-1160.

[22] Lucey P,Cohn J F,Kanade T,et al.The Extended Cohn-Kanade Dataset (CK+):A complete dataset for action unit and emotion-specified expression[C]//Computer Vision and Pattern Recognition Workshops.IEEE,2010:94-101.

[23] Strobl E V,Visweswaran S.Deep Multiple Kernel Learning[C]//International Conference on Machine Learning and Applications.IEEE,2014:414-417.

[24] 王剑云,李小霞.一种基于深度学习的表情识别方法[J].计算机与现代化,2015(1):84-87.

猜你喜欢

识别率内核人脸
多内核操作系统综述①
有特点的人脸
一起学画人脸
强化『高新』内核 打造农业『硅谷』
活化非遗文化 承启设计内核
微软发布新Edge浏览器预览版下载换装Chrome内核
三国漫——人脸解锁
档案数字化过程中OCR技术的应用分析
基于PCA与MLP感知器的人脸图像辨识技术
科技文档中数学表达式的结构分析与识别