APP下载

传统机器学习与深度学习的表情识别综述

2020-07-24皮冰斌王云光

软件导刊 2020年6期
关键词:机器学习特征提取深度学习

皮冰斌 王云光

摘要:面部表情识别是计算机视觉热门领域.表情识别技术使得计算机能够理解人类的情绪,具有广阔应用前景。针对基于传统机器学习和深度学习的表情识别方法进行研究,首先归纳表情识别领域常用的公开数据集;然后从传统的机器学习和深度学习角度介绍表情识别基本流程与常见方法;最后指出表情识别领域存在的问题,并对未来可能的发展方向进行了总结。

.

关键词:表情识别;机器学习;深度学习;图像预处理;特征提取;表情分类

DOI:10.11907/rjdk.192322 开放科学(资源服务)标识码(OSID):

中图分类号:TP301文献标识码:A 文章编号:1672-7800(2020)006-0044-04

0 引言

心理学家Russeli的研究结果表明,人们日常交流中只有7%的信息是通过语言传递的,55%的信息是通过面部表情体现的。文献[1]-文献[2]表明,面部表情是人类传达情绪状态和意图最有效、最自然和最普遍的信号之一。

早在2l世纪,心理学家Ekman&Friesen就提出人类有6种主要情感(愤怒、高兴、悲伤、惊讶、厌恶和恐惧)。人脸表情识别,就是利用表情识别技术对人面部的表情信息进行特征提取和表情分类的过程。计算机获知人的表情信息,進而推断人的心理状态,最终实现人机智能交互。

表情识别是计算机视觉和人工智能的一个重要领域,不仅具有突出的科研价值,还有广阔的应用前景,例如临床医疗、网络学习、安全驾驶等。在相关领域,国内已取得不少研究成果,但国外表情识别研究大幅领先,目前已经进入商业化阶段。

1 表情识别数据集

对于深度表达识别系统设计,拥有足够数量的标记训练数据且数据尽可能多地考虑到种群和环境变化是十分重要的。表情识别领域常用的公开数据集如表l所示。

2 表情识别基本流程与方法

表情识别分为图像预处理、特征提取和表情分类3个步骤,如图1所示。①从输人的图片中识别找出目标区域(人脸检测),并将图片进行归一化处理;②从处理后的图片中提取能够最大程度上表达整个人脸面部的特征信息;③将上一步得到的特征送到分类器中进行表情分类。

2.1 传统方法

2.1.1 图像输入

目前表情识别研究中,输人数据的形式主要是静态二维图像和动态视频流。表情识别数据集经历了从传统实验室获取较小样本再到现实生活中大规模数据库的过程,前者的表情图片一般具有良好头部姿态,并且整个面部基本无遮挡,例如CK+、JAFFE和MMI等数据集;后者的识别因图片接近真实的复杂环境而十分困难,常见的有FER2013和SFEW2.0等数据集。在表1中可以查看更多相关信息。

2.1.2 预处理

图像预处理结果直接影响表情特征提取的准确性和表情分类效果,从而影响表情识别准确率。表情识别的预处理包括人脸检测和归一化两部分。

人脸检测就是使用人脸检测算法检测出人脸区域,即从包含非人脸区域的人脸图像中找到并框选出人脸部分。传统方法包括模板匹配、形状与边缘特征、纹理特征等基于知识的方法,以及支持向量机、隐马尔可夫模型、Adaboost算法和主成分分析等基于统计的方法。

传统人脸检测技术最重要的突破是Viola-Jones人脸检测器的成功设计。2001年,Paul Viola&Michael Jones设计出基于Haar特征的高效人脸检测器,即VJ人脸检测器。其算法创新包括3个方面:使用积分图作为特征的快速计算方法、使用AdaBoost作为有效的分类器学习方法,以及高效的级联结构作为分类策略。在特征选择方面,还有基于LBP、SURF和SIFT等特征的人脸检测方法。直到2006年深度学习逐渐走进人们视野之后,人脸检测技术才慢慢实现深度学习的跨越式发展。

人脸图像的归一化,目的是使不同成像条件(光照强度、方向、距离、姿势等)下拍摄的同一人照片具有一致性。人脸归一化主要包括几何归一化和灰度归一化。几何归一化目的是将表情子图像变换为统一尺寸,有利于表情特征提取;灰度归一化作用是增加图像亮度,使图像细节更加清晰,以降低光线和光照强度的影响。

2.1.3 特征提取

表情特征提取主要采用数学方法,依靠计算机技术对人脸表情的数字图像进行数据的组织和处理,提取表情特征,去除非表情噪声。传统特征提取方式可根据面部形变及纹理的不同分为主成分分析(PCA)、独立分量分析(ICA)、线性判别分析(LDA)等方法,以及根据局部肌肉、纹理划分为Gabor小波法、LBP算子法和Haar-like特征提取等方法,再就是基于动态的光流法和模型法(ASM、AAM)等。文献中使用优化的ASM提取几何特征并在模型中采用三角特征,最终得到了不错的结果;文献[16]中结合使用AAM和ASM方法,弥补了AAM中特征点收敛问题。

绝大多数传统方法使用人工提取特征或浅层特征。随着大量表情数据库的建立、计算能力的大幅提高以及表现良好的神经网络架构出现,表情识别领域的研究重心从传统方法逐步转向深度学习方法。

2.1.4 表情分类

表情分类是根据特征提取所得的信息,将输入的图片分为某种基本表情的过程。传统表情分类方法有KNN、HMM、贝叶斯分类算法、SVM等传统机器学习算法。

2.2 深度学习方法

基于深度学习的表情识别过程是一个端到端过程,基于深度学习的预处理过程包括传统学习中的人脸检测、人脸对齐、数据增强等一系列操作。基于深度学习的人脸检测和人脸对齐方法有CascadeCNN、MTCNN、Deep Face和FaceNet等。文献中提出的CascadeCNN是较早的基于深度学习的人脸检测方法,该方法是当时基于CNN的人脸检测方法中速度最快的;MTCNN将人脸检测与关键点检测放在一起完成,并在之后使用小网络级联方法;DeepFace主要是对人脸预处理部分做出很多精细化调整,而在算法上调整不大,但是识别效果却得到大幅提升;FaceNet可以直接将人脸图像映射到欧几里得空间,空间距离长度代表人脸图像的相似性,基于该映射空间就可完成人脸识别等操作;文献提出了基于GAN的数据增强方法;文献阐述了基于GAN的归一化处理方法。

深度学习特征提取是一个热门研究方向。很多方法已经应用在表情识别领域,如卷积神经网络(CNN)、深度置信网络(DBN)、深度自编码(DAE)和递归神经网络(RNN)等。

不同于傳统方法,深度学习特征提取和分类过程并不是独立的。在卷积神经网络中,最常见的方法是在网络的最末端使用softmax分类器作为最后的表情分类器,也有人尝试使用SVM等传统分类方法作为最后的表情分类,取得了不错的效果。

文献[27]使用DBN和adaboost方法得到了较好的结果;文献[28]使用CNN网络在CK+数据集上得到了七分类96.1%的结果;文献[29]使用CNN网络进行特征提取,将SVM作为分类器在MMI数据集上取得了六分类78.46%的准确率。还有其它一些方法,对应结果如表2所示。

3 研究展望

3.1 存在问题

表情识别是情感识别的一种重要方式,相对于语音和行为等主要的情感识别模式,表情识别具有很多优点,因此在图像识别领域热度很高。特别是在人脸识别技术日趋成熟且商业运行愈发利好的环境下,作为其分支的表情识别更加备受关注。但是,目前仍然存在着很多亟待解决的问题。

(1)需要大量数据作为训练支撑。与深度学习其它领域一样,一个数量和所携带信息充足同时又带有标注的高质量数据集,在现实生活中并不容易获取,而数据对于最后的处理结果来说至关重要。无监督学习能否突破数据标记的局限?对此,深度学习界领军人物Yann LeCun多次探讨“如何超越传统深度学习的标记训练例子”。他认为另辟蹊径的道路就是无监督学习,而整个AI界可能需要在基于能量的学习方法上做更多工作。

(2)过于依赖图像预处理过程。不论输入的表情图片来自实验室还是真实环境的摄像头,这些原始数据都很难达到直接输入模型和算法进行处理的程度。众所周知,传统识别方法过度依赖人工处理,但即使是进行“端到端”的深度学习也需要很多预处理过程来提高最后的识别准确度。

(3)方法创新程度跟不上发展需求。目前很多深度学习算法都是基于卷积神经网络(CNN)的改进,例如通过增加CNN网络宽度和深度等方法实现创新。在特征选择上的创新也只是通过多种模型的集成或不同特征的融合加以实现。虽然最终会提高准确率,但这些方法在本质上并没有很大创新。

(4)分类表情种类受限。现阶段很多研究都是基于1971年心理学家提出的基本表情,但实际中人类的表情非常复杂,远非六、七种能表达清楚,其中还可能包括表情的叠加和融合,以及微表情等等。

(5)数据结构限制。目前绝大多数表情识别数据来源都是基于图片或视频,但这些数据缺乏很多重要的原始信息,如纹理和空间信息等等,这在本质上与人类自身通过面部表情判断对方情绪的模式存在很大差距。

3.2 未来展望

传统表情识别技术的缺点是繁琐的人工处理过程,以及识别准确率易受位置、光照等不利因素的干扰。深度学习方法是一种端到端的过程,相对于传统方法在处理大规模数据上有不少优势,但在小样本上容易表现过拟合和耗费大量计算资源等问题。下面介绍目前比较前沿的研究方向。

(1)增加时空维度。人类表情的变化其实是一个动态过程,如果能将平静到产生情绪峰值,或者其它两种表情之间的变化作为一种特征(序列信息)来学习,就可形成三维数据输入。目前该研究方向是引入RNN以及C3D模型。

(2)网络集成。研究表明,融合了多个网络的集成网络比单个网络表现更好。网络集成一般要考虑两个方面:特征集成和输出的决策集成。特征集成包括两种方法:①使用不同网络模型产生不同的网络,比如使用分别经过迁移VGGl9与Resnet的特征进行集成;②使用不用的特征进行特征融合,如文献融合了Gabor和LBP特征。不论哪种方法,目的都是为了集成更多的原始数据,辅助判断有效信息,提高识别准确率。

4 结语

针对表情识别研究,本文分别从传统方法和深度学习两个方面,对表情识别流程以及方法进行了较为全面的阐述。对表情识别技术进行了深入探讨,并对未来的发展趋势进行了总结。

猜你喜欢

机器学习特征提取深度学习
基于Daubechies(dbN)的飞行器音频特征提取
Bagging RCSP脑电特征提取算法
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究
基于MED和循环域解调的多故障特征提取
Walsh变换在滚动轴承早期故障特征提取中的应用