人脸表情识别综述
2018-05-14杨晓龙闫河张杨
杨晓龙 闫河 张杨
摘要:人脸表情识别是机器视觉、模式识别和人工智能等众多领域的重点研究方向,目前已成为众多学者和专家的研究热点。本文介绍了人脸表情识别理论框架,概括性的介绍了人臉检测、表情特征提取和表情识别的常用方法,并介绍了相关改进方法和一些新的方法,同时分析了各方法的优缺点。最后,对人脸表情识别的发展和进一步改进指明了方向。
关键词:人脸表情识别;人脸检测;表情特征提取;表情识别
中图分类号:TP391 文献标识码:A 文章编号:1007-9416(2018)02-0213-02
1 引言
在日常生活中,人脸表情是人际交往中的一种方式,是一种非肢体、非语言交流方式。心理学家Mehrabian[1]指出:感情表达=7%的言语+38%的声音+55%的人脸表情。在日常生活与交流中,人们可以通过面部表情间接的表达自己的感情和想法,让对方感受到自己直观的态度。同时,人们也可以通过对方的面部表情,辨别出对方的情绪和真正的意图,可见,面部表情在日常人际交流中十分重要。随着科学技术的不断发展和人工智能的快速崛起,人机交互(Human-Computer Interaction,HCI)也成为了较多领域的研究热点,如何实现人与计算机有感情的交流也成为了当前的研究趋势。同时,众多科学家渴望人与计算机人性化、智能化的交流,计算机可以像人一样感知周边环境和世界的变化,这也是人机交互的终极目标。
2 人脸表情识别理论框架
基于计算机的人脸表情识别是指:首先在视频或图像中检测出人脸,然后对人脸的表情信息进行特征提取,最后通过训练分类器进行表情分类识别。
如图1所示,人脸表情识别理论框架大致包括人脸检测、表情特征提取和表情识别三个部分。
通常要进行人脸表情识别视频或图像中不仅包含人脸,还包含其他干扰物体和背景区域,因此,需要将人脸检测并分割出来。对于整个人脸表情识别过程中,人脸检测相当于对图像进行预处理,减少图像中干扰对表情识别的影响。人脸检测主要通过分析人脸所特有的特征,然后从待检测的图像中搜索、判定可能存在的人脸区域,进一步计算确认如果确实存在人脸,则定位、分割出图像中人脸所在的区域,最后计算得出人脸的坐标位置等信息,目前,人脸检测技术已经取得了快速的发展[2-5]。
人脸检测后,然后对人脸表情信息进行特征提取。有效的表情特征提取能够提高识别的准确率,特征的提取方法有几何特征提取、纹理特征提取和深度学习内部对特征学习的方法。
将测试集提取到表情特征作为输入,用来训练分类器,将提取到的人脸表情特征数据按照一定的评判规则划分到相应的类别,判断和归类人脸表情。根据不同表情特征提取方式,选取适当的分类器,最终训练得到分类准确、泛化能力强的分类器是该步骤的核心内容。
2.1 人脸检测
日常生活中,由于人脸是非刚性的,会存在表情、姿态等变化,同时受外界环境影响,人脸也会受到遮挡、光照变化等影响,这些因素给人脸检测带来了诸多困难。在理论和实验的基础上,发现人脸检测的问题其实就是判定人脸和非人脸二分类问题,因此,人脸检测的目的就是选取出一幅图像中人脸区域,并对其进行预处理。目前,人脸检测的常用方法有基于肤色模型的方法和基于统计理论的方法。
在通常情况下,利用肤色特征进行人脸检测是一种有效的方法,原因在于:人脸区域的肤色都明显区别于其他背景区域。研究发现:不同种族人的肤色在颜色空间聚集在一个很小的范围之内,有着较强较强的聚类特性。Hsu RL等[6]采用改进的光照补偿方法与非线性颜色变换定位出图像中全部肤色区域,然后通过面部器官的轮廓特征精确定位处人脸区域;Kherchaoui S等[7]将肤色与模板相结合,首先利用肤色模型分割出人脸候选区域,然后运用模板匹配精确定位到人脸区域。
基于肤色模型的人脸检测方法检测速度相对较快,在头部姿态变化和和部分遮挡情况下仍具有较高的检测准确率,但在背景环境颜色与肤色相近的情况下,检测准确率相对较差。
基于图像统计特征的方法结合机器学习和统计分二者的优势,通过对大量的人脸样本与非人脸样本进行训练学习,从而获得两类样本的最佳分类界面,以此作为区分来实现人脸检测。基于图像统计特征的方法主要有支持向量机(Support Vector Machine,SVM)]和AdaBoost方法[8]等。
其中,AdaBoost方法是目前人脸检测效果最好的算法之一,具有快速的检测速度,同时还具有较高的检测精度。
2.2 表情特征提取
在检测到人脸区域后,对人脸表情特征信息进行有效地分析,针对不同的表情选取合适的特征提取方法。下面将分别从几何特征提取和纹理特征提取两个方面进行详细的描述。
几何特征提取方法主要通过提取人脸的特征点,然后分析不同区域特征点之间的几何关系,比如眼睛区域和嘴巴区域等,实现对表情的分类识别,该类特征提取方法主要适用于面部疲劳别情的识别。
1995年Coots等提出了主动形状模型,该方法是一种基于统计模型的特征提取方法,主要用于提取面部器官轮廓和人脸轮廓的特征点,该模型首先通过大量的训练得到初始人脸形状,然后通过对齐操作得到较为准确的人脸的轮廓特征。最终结果的准确性会受到人脸初始定位、光照等因素的影响。Peng等[9]提出一种基于局部纹理模型的改进ASM算法,在表情识别中具有很好的应用。侯婕[10]基于经典ASM算法提出了针对人脸左右眉毛、左右眼睛、鼻子和嘴巴部分提取出118个特征点,形成各部分的轮廓形状数据信息,以此为基础实现了对6种基本表情的识别。
纹理特征反映了人脸表情图像的底层信息,突出体现了局部表情的变化。纹理特征提取方法典型的方法有局部二值模式。
LBP通过图像的局部灰度信息变化来表达局部纹理特征,通过LBP特征值用来描述图像局部纹理特征。LBP算子对图像尺度变换、旋转和光照变化具有很好的鲁棒性,能够有效地描述图像的纹理信息。Guo等[11]又先后提出了(FCL-LBP)算法和(disCLBP)算法,其通过选取最大类间距于最小类内间距,选取出的纹理特征具有更好的鲁棒性。周宇旋等[12]通过改进disLBP得到更有辨别性的表情特征,更有利于表情识别。
2.3 表情识别
表情识别是整个人脸表情识别流程的最后一步,也是最终目标,选取合适的分类器对表情识别十分重要。常用的表情分类方法有支持向量机(Support Vector Machine,SVM)和深度学习的方法。
SVM是统计学中常用于分类的一种方法,该方法具备特有的学习能力,可以有效地处理非线性、小样本和高维数据等问题。徐文晖等[13]对此提出了可从连续的视频序列中识别表情的SVM分类器。但是在大样本的情况下,矩阵计算需要耗费大量的时间和运行内存,从而影响了整体的识别效率。
研究发现,人的视觉系统对信息的处理是分级的。所有物体都是由像素点构成,像素点组成特征边缘,特征边缘组成目标物体的部分区域,最后目标物体的部分区域组成整个目标物体。深度学习模仿人类对物体的认知过程,在分类识别物体时直接把需要识别的对象进行训练,然后进行分类识别[14,15]。与传统手工标定进行特征提取的方法相比,其最大的特点就是可以对识别对象进行自学习,学习到最能表达物体的特征,最终进行分类识别。
3 结语
综上所述,在实际应用中,要实现快速的、准确的和稳定的人脸表情识别,需要从以下三个方面因素进行整体考虑:第一,人脸检测的准确性。在实验室研究阶段,为满足最后人脸表情识别系统的實现,要先对实际环境中场景进行分析,分析场景中人脸检测是受光照变化、姿态变化、遮挡等因素的影响的情况;第二,依据不同类型表情,选择合适的特征提取方法;大量文献研究表明,几何特征模型对面部疲劳表情识别具有较高的识别率以及较强的鲁棒性,面部器官多个特征点通过几何关系计算并判断嘴巴和眼睛的实时状态,综合判断出面部不同的疲劳状态;纹理特征模型在人脸识别和人脸表情识别中有着较强的适用性,通过提取人脸纹理特征,以矩阵的形式输入分类器中,进行分类识别。因此,寻求多种特征提取方法,分析其适用领域,针对不同类型表情识别选取合适的特征提取方法来提升表情识别的准确性和稳定性;第三,特征提取后,合适的分类器选取对最终的分类识别效果有着决定性的应用。目前,深度学习的分类识别方法被广泛使用,阅读大量文献发现,人脸识别和人脸表情识别不同于其他类似于汽车、猫、狗等分类,只针对于人脸进行研究,通过人脸图像预处理可以大大节约训练时间,手动的进行特征提取可以进一步的排除背景所带来的干扰,通过这两步,提取较为纯净和有区分能力的特征作为输入,输入到深度网络中进行分类识别。
参考文献
[1]A.Mehrabian. Communication without words. Psychology Today,1968,2(4):53-56.
[2]李瑞淇.基于肤色和改进的AdaBoost人脸检测算法研究[D].西安电子科技大学,2014.
[3]王琳琳.基于肤色模型和AdaBoost算法的人脸检测研究D].长安大学,2014.
[4]杨新权.基于肤色分割及连续Adaboost算法的人脸检测研究[D].电子科技大学,2010.
[5]闫斌.基于改进的肤色模型和CPSO_AdaBoost算法的人脸检测[D].新疆大学,2014.
[6]Hsu R-L, Jain A K. Face Detection in color image [J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2012, 24(5): 696-706.
[7]Kherchaoui S, Houacine A. Face detection based on a model of the skin color with constrainsand template matching[J].Proceeding of the 2010 International Conference on Machine and Web Intelligence (ICMWI),2010:469-472.
[8]Viola P, Jones M.Rapid object detection using a boosted cascade of simple feature[C]. Proceeding of the 2011 IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR 2001),2011:511-518.
[9]Peng Cheng,Wan Chuan.An active shape model for facial expression recognition based on a local texture model[C].CAAI Transactions on Intelligent Systems,2011,6(3).
[10]侯婕,人脸表情计算研究技术[D].苏州大学,2014.
[11]Guo Y,Zhao G.Discriminative features for texture description[J].Pattern Recognition,2012,45(10):3834-3843.
[12]周宇旋,吴秦,梁久祯,等.判别性完全局部二值模式人脸表情识别[J].计算机工程与应用,201753(4)::163-169.
[13]徐文晖.面向视频序列表情分类的LSVM算法[J].计算机辅助设计与图形学学报,2009,21(4):542-548.
[14]赵艳.基于深度学习的表情识别研究[D].重庆邮电大学,2016.
[15]罗翔云.基于深度学习的人脸表情识别[D].杭州电子科技大学,2017.