人脸面部表情图像的隐马尔科夫建模及情感识别*
2015-01-01王长元
穆 静,陈 芳,王长元
(西安工业大学 计算机科学与工程学院,西安710021)
在人与人的交往中,人的面部表情是除了声音以外的非常重要的通信方式,作为信息载体,表情能够传达很多语音所不能传达的信息,且人脸面部表情图像中包含了丰富的情感信息.近年来,通过人脸面部表情进行情感识别是一个研究热点.文献[1]综述了面部表情的情感识别.面部表情情感识别的基本方法是基于像素的人脸面部图像情感识别,但该方法计算量大,且识别率不高.文献[2-3]使用几何特征和模板法以及Gabor小波对面部表情特征进行提取,均获得较好的识别结果.早期有专家学者将隐马尔科夫模型(Hidden Markov Model,HMM)应用到语音识别系统中[4],具有很好的应用效果.对于一个人脸面部表情图像,重要的区域有头发、前额,眼睛,鼻子和嘴,可以把每一个重要的面部区域建模为一个左右模型的一维连续隐马尔科夫模型的一个状态,因此,近年来,有专家学者将隐马尔科夫模型应用到人脸面部表情图像的情感识别上[5-6],获得了有效的结果.面部表情的情感识别进行之前的关键步骤是进行面部特征提取,选取特征算法对识别的效果有较大影响.文中使用隐马尔科夫模型对人脸面部表情图像进行情感识别,对人脸表情图像使用子窗口进行采样并使用离散余弦变换对人脸面部图像进行特征提取,然后将人脸图像建模成一维隐马尔科夫模型,对日本女性面部表情数据库(Japanese Female Facial Expression Database,JAFFE)[7]的人脸表情的七种情感:愤怒、厌恶、恐惧、中性、高兴、悲伤及惊讶进行识别,以期为人脸表情识别提供新方法.
1 基于HMM的人脸表情图像的情感识别
1.1 HMM描述
一个HMM模型由以下参数决定[4]:①模型的状态集表示为S=S{S1,S2,…,SN}.② 观测符号,其集合表示为V= {v1,v2,…,vM}.③ 状态转移概率分布A= {aij},aij=P[qt+1=Sj│qt=Si],1≤i,j≤N.④状态的观测符号概率分布B= {bj(vk)},其中bj(vk)=P[vkatt│qt=Sj]为t时刻状态为Sj时测量值为vk的概率,1≤j≤N,1≤k≤M.⑤ 初始状态分布π={πi},π=P[q1=Si],1≤j≤N.
一个隐马尔可夫模型完整地描述为Λ={N,M,A,B,π},N为状态数,M为观测符号数,通常HMM 用Λ= {A,B,π}简记.
1.2 HMM模型中的三个基本问题
具有一个观测序列O= {O1,O2,…,OT},其中T是观测序列的长度,Ot(t取值(1,2,…,T))是V中的一个符号.HMM具有三个基本问题,即
问题1:已知观测序列O= {O1,O2,…,OT}和模型Λ= {A,B,π},如何有效的计算在给定模型条件下产生观测序列O的概率P(O│Λ}.
问题2:已知观测序列O= {O1,O2,…,OT}和模型Λ={A,B,π},如何选择在某种意义上最佳的状态序列.
问题3:给定观测序列O= {O1,O2,…,OT},如何调整参数HMM的参数{A,B,π},使条件概率P(O│Λ}最大.
1.2.1 HMM 第一个问题
该问题是评估问题,通常使用前向-后向算法解决.前向-后向算法描述为
定义前向变量αt(i),后向变量βt(i)为
式中:αt(i)为在给定模型下,产生t前的部分观测符号序列O1,O2,…,Ot和t时刻处于状态Si的概率;βt(i)为在给定模型和t时刻处于状态Si的条件下,产生t以后的部分观测符号序列Ot+1,Ot+2,…,OT的概率.
迭代计算前向和后向变量的步骤为
式中:1≤t≤T-1,1≤i,j≤N;αij为状态转移概率分布矩阵中的元素;bj(Ot)为观测符号矩阵中的元素.
在给定模型下,产生观测序列O的概率为
1.2.2 HMM 第二个问题
这个问题是求取产生观测序列时的最佳状态序列,实际使用的是以动态规划为基础的寻找单个最佳状态序列的Viterbi算法.
Viterbi算法描述为
1.2.3 HMM 第三个问题
问题三是如何调整模型参数(A,B,π),该问题称之为模型参数重估问题,即使观测序列在给定模型下发生的概率最大.常用方法为Baum-Welch法来选择模型参数(A,B,π)以使得P(O│Λ)最大.
定义变量γt(i)为
其中γt(i)为在给定观测序列O和模型Λ的条件下,t时刻处在状态Si的概率,使用前后向变量计算,可得
由于αt(i)βt(i)=P(O,qt=Si│Λ),式(15)表示为
定义变量该变量为在给定模型和观测序列下,在时间t和t+1时,状态分别为Si和Sj的概率.
归一化后的ξt(i,j)使用前向变量和后向变量表示为
其中t=1,2…,T-1.式(14)定义的γt(i)与ξt(i,j)之间的关系为
1.3 使用HMM对人脸表情图像的情感识别过程
1.3.1 人脸表情图像的HMM模型建立
对于一幅X×Y的平面面部图像,从上到下可以分为前额、眼睛、鼻子、嘴巴和下巴五个区域,每个区域可以使用一维HMM的一个状态表示[5].一幅脸部图像的一维HMM建模如图1所示,其中HMM不同状态之间的转移概率aij(1≤i≤X,1≤j≤Y)不为零.
图1 人脸图像的一维左右HMM模型的建立Fig.1 One dimension left-right HMM model for facial image
1.3.2 使用离散余弦变换进行特征提取
离散余弦变换(Discrete Cosine Transformation,DCT)是使用一组基函数对图像进行变换.
一幅X×X的图像的DCT变换为
图像DCT变换后,获得频域的相应图像内容,最大的去除了图像的相关性,提取图像的特征.原始图像内容中较为平坦的成分对应于频域中的低频成分,而原始图像中小的细节部分对应于其高频的成分.频域图像处理后,需要DCT逆变换获得时域图像.
DCT逆变换公式为
使用DCT系数作为图像的特征提取.使用8×8子窗口对每一幅图像进行分割,分割顺序从左到右,从上到下,重叠区为50%,获得测量序列[8],如图2所示.对于一幅X×Y大小的图像,具有ND= (2X/N-1)(2Y/N-1)(其中N=8为窗口尺寸)子图像.对每一个8×8子图像进行DCT变换,获得64个DCT系数,采用“Z”字形进行排列,8×8的图像经过DCT变换后,其低频分量都集中在左上角,高频分量分布在右下角.低频分量包含了图像的主要信息,而高频包含了较少的图像信息,因此选择前15个数据形成观测向量,即L=15.一个子图像(a,b)的观测矢量[5]表示为
图2 获得测量向量的示意图Fig.2 Diagram of obtaining the measurement vectors
根据以上获得测量值训练隐马尔可夫模型;再对测试集人脸表情图片进行识别.采用HMM进行人脸识别,实质上是一种概率运算,根据训练集数据计算得出模型后,测试集数据只需分别计算个模型的条件概率,取此概率最大者即为识别结果.
2 实验分析
实验图像采用日本的JAFFE人脸表情数据库,JAFFE库中由10位日本年轻女性的213幅图像构成,10位女性的代号分别为KA,KL,KM,KR,MK,NA,NM,TM,UY以及 YM.图像均为256×256pixel的8位灰度图像.每个女性人脸有七种表情:愤怒,厌恶,恐惧,高兴,中性,悲伤及惊讶,每位女性的每个表情均含有2~3幅图像.每幅图像具有眼睛和嘴巴的位置大致对齐的特点.为方便对算法的研究,使用HMM算法对JAFFE图像库10名女性的表情图像进行情感识别,识别结果见表1.对JAFFE数据库YM的错误情感识别如图3所示(识别错误用“X”标出).
表1 基于HMM面部情感识别正确率统计表Tab.1 Results of emotion recognition using HMM
图3 对JAFFE数据库YM的错误情感识别(图中带叉的表示错误识别图像)Fig.3 Emotion recognition errors for JAFFE database(images with cross are recognition error)
通过表1和图3可以看到,该算法对KA,KL,KM,MK,NM,TM的人脸表情图像的情感识别算法正确率高达到90%以上,这是由于这些人脸表情相对夸张,而夸张的图像携带的信息量大,而且不同表情的图像区别比较明显,因此该算法表现了很好的识别能力;对于KR,NA,UY人脸图像识别率较高,识别正确率达到了80%以上;而对于YM人脸图像的情感识别只有63.6%,这是由于YM图像的表情相对比较平淡,而表情平淡的面部表情,携带信息少,且易与其他状态的表情混淆,模型在工作分析过程中困难较大,因此识别准确率比较低,如图3,对YM的第2~3幅的恐惧表情图像识别为中性,对第4幅的恐惧表情图像识别为悲伤,而对3幅高兴表情图像识别为悲伤.使用HMM方法对JAFFE库人脸表情的情感识别总体正确识别率达到了87.3%,说明该算法有效可行.与基于像素的人脸表情识别算法相比,该方法计算效率更高,且正确识别率更佳.
3 结 论
文中采用离散余弦变换方法提取了JAFFE数据库人脸表情图像的特征向量,给出了基于隐马尔科夫模型的人脸面部表情图像模型,结合该模型和特征向量,提出了基于隐马尔科夫模型的人脸面部表情图像情感识别方法,测试实验结果表明该方法对人脸表情图像进行情感识别有效可行,其总体正确识别率达到87.3%.
[1] CHELLAPPA R,WILSON C,SIROHEY S.Human and Machine Recognition of Faces:A Survey[J].Proceedings of IEEE,1995,83(5):705.
[2] 刘秋菊.基于Gabor的人脸表情识别研究[D].苏州:苏州大学,2009.LIU Qiu-ju.Research on Facial Expression Recognition Based on Gabor[D].Suzhou:Suzhou University,2009.(in Chinese)
[3] 陆慧聪.面部表情识别系统中表情特征提取与识别算法研究[D].南京:东南大学,2006.LU Hui-cong.Research on Facial Feature Extraction and Recognition in Automatic Facial Expression A-nalysis System[D].Nanjing:Southeast University,2006.(in Chinese)
[4] RABINER L R.A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition[J].Proceedings of the IEEE,1989,77(2):257.
[5] JOHAN S.Face Recognition Using Hidden Markov Models[D].Stellenbosch:University of Stellenbosch,2005.
[6] SANDERSON C.Face Processing & Frontal Face Verification[R].Berlin:IDIAP,2003.
[7] LYONS M,BUDYNEK J,AKAMATSU S.Automatic Classification of Single Facial Images[J].IEEE Transaction on Pattern Analysis and Machine Intelligence,1999,21(12):1357.
[8] FERDINANDO S S.Face Recognition Using Hidden Markov Models[D].Cambridge:University of Cambridge,1994.