APP下载

E—learning 系统的多模式情感识别模块的研究

2013-12-31刘辉

电脑知识与技术 2013年15期

摘要:针对当前存在的大多数情感识别的方法是单模式的,且基于刻意的情感表达和情感模型,不适用于现实生活的问题,并根据现实生活中人体外部表象的微妙变化能表示情感行为的改变,不像单模式方法那样每一类单一识别方法,需要一些夸大的外部表象才能表明这些情感的改变的特点。根据此本文采用多模式识别方法,设计了基于情感计算的E-learning系统的情感识别模块,将视觉与听觉结合起来共同识别无意识情况下的情感状态。

关键词:E-learning;单模式情感识别;多模式情感识别

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2013)15-3599-04

E-learning(数字化学习或电子学习)是利用现代通信技术,将信息技术与课本知识整合,为学习者提供理想的学习环境和学习方式,以达到深化教学改革和创新人才培养的目的。

基于情感计算的E-learning系统,就是在传统E-learning系统的基础上增加了情感识别模块,包括:情感识别模块、情感分析模块、情感反馈模块、情感评价模块等,实现情感化个性化的教学。主要目的是弥补传统E-learning系统情感缺失的问题。在这些情感模块中,情感识别模块是基础,这一模块产生的结果直接影响后面所有模块的效果,因此对情感识别模块的研究放在重要的位置上,且进行深入的研究。

由于识别的环境为远程E-learning教学的学生端,因此可以将多模式识别方法分为三部分[1],分别为:基于视觉的面部表情识别和身体动作识别,还有基于听觉的会话信息(语音)识别。

1 基于单视觉的情感识别方法

1.1 面部表情识别

对面部图像的捕捉是通过网络摄像头来实现的,采样的方法是按一定的时间间隔来停帧并存取图像(与20秒为一个时间间隔),接下来会对存取的图像进行情感的识别,确定这一时刻的情感状态,为以后的情感分析和反馈提供依据。

1.1.1 对图像进行情感的识别

对面部图像进行情感识别其实是一种人脸识别过程,其中主要包括三个方面的内容:人脸检测、人脸表征、人脸鉴别。

1)人脸检测:采用基于肤色的人脸检测算法;

根据计算机色彩理论,通过对RGB格式、HIS格式、YCbCr格式[3]等主要色彩空间的比较,选用基于YCbCr空间的肤色模型来进行肤色区域分割。YCbCr[4]色彩空间从YUV色彩空间衍生而来。其中Y代表亮度, Cb和Cr分量分别表示蓝色和红色的色度,在不同的光照下这两种色度是稳定的。该空间的优点是将亮度分量与色度分量分离开来, 这样受亮度变化的影响就比较小, 降低了两者的相关性。

2)人脸表征:主要对眼睛、鼻子和嘴巴等的特征检测与定位。

在对人脸进行表征之前首先要进行人脸区域的分割,把人脸区域用矩形框起来。所采用的分割算法流程图如图1:

具体的算法是基于相似度的方法,得到的结果图如图2所示(红线矩形框为结果),把眼睛和嘴巴表示为分段多项式曲线,用变形模版得到准确的轮廓[3],标记的结果图如下图2 :

3)人脸鉴别:采用主成分分析(PCA)

主成分分析方法(Principal Component Analysis ,PCA) 也称为主元法,主分量分析法,是一种常用、简单有效的方法。PCA方法就是将包含人脸的图像区域看作是一种随机向量,用K-L变换获取其正交K-L基底,对应其中较大特征值的基底具有与人脸相似的形状,因此又称之为特征脸(Eigenfaces)[7]。

采用PCA算法进行人脸识别时,其中的测试数据库选用Yale人脸数据库(耶鲁大学网站上下载),此人脸数据库由耶鲁大学计算视觉与控制中心创建,包含15位志愿者的165张图片,包含光照,表情和姿态的变化,效果图如图3:

1.2 人体动作识别

人体动作过程是一个动态系统,其识别方法也都是基于动态系统的识别方法。人体运动分析中一个重要的内容是运动识别和动作检索。一般认为,运动识别的任务就是把物体的轮廓从背景中分离出来,根据特征值与目标样本库中的运动进行匹配运算,以达到识别目标的目的。而动作检索则是在已知的运动类型范围内,对于每个时刻的动作,根据特征值和时间关系,与运动库中的动作匹配[16]。

2 基于单听觉(语音)的情感识别方法

基于单听觉的语音情感识别的实现大致可分成三个模块:语音数据的读取、语音数据的特征提取与分析以及语音情感识别。

2.1 语音数据的获取

语音数据的获取以话筒为依托,并将输入的语音信息存储为数字音频文件,这里采用了波形音频文件,即WAVE文件格式,扩展名为“.wav”。它是WINDOWS中缺省的也是最常用的文件格式,这种格式在IBM PC及其兼容的平台上被广泛的应用于加工处理数字声音的程序中,波形音频文件符合RIFF(Resource Interchange File Format)文件规范[10]。

本系统对语音信息的处理,主要是对WAVE文件中data结构所包含的信息进行分析和提取,以及使用优化的FFT快速傅立叶变换,可以将输出直接转化成频率(Hz)的形式,从而得到输入信号中包含的频率(Hz)及其幅度值。对音频数据的优化FFT变换在Matlab平台实现。

2.2 语音情感识别

语音情感识别有两种较为流行的方法: a)基于概率生成模型的方法如高斯混合模型(GMM)和隐马尔可夫模型(HMM);b)基于判别模型的方法,主要有支持向量机(SVM)和人工神经网络(ANN)。近来,一种新的解决思路是把上述若干模型融合起来,各自取长补短,形成混合模型[12]。这里采用基于判别模型的PNN (probabilistic neural network)和基于概率生成模型的HMM(hidden markov model)的混合模型[13],算法如下:

3 基于多模式的识别方法

3.1 多模式识别系统的设计

以上基于单模式的各情感识别方法都有自己的缺点,例如,基于单视觉的人脸识别方法,只能对人的正面脸进行情感识别,而捕捉到的人脸图像大部分却是非正面的,因为自然状态下人的头部是很随意的;基于单视觉的人体动作识别方法,其中的多数方法只能识别一些简单的运动,无法应用到复杂动作的识别,且识别出的情感种类比较少,不能识别出教学中应有的一些情感状态;基于单听觉(语音)的识别方法,受语音库的影响比较大,而语音库的建立很不完善,正确率打折,同时对活动性相近的情感[13]的区分性较差。

针对各单模式情感识别的缺点,采用多模式的情感识别方法,目的是共同来识别人在无意识情况下的情感状态,为下一步进行情感分析、反馈与评价提供准确的信息,最终利用各种情感信息调用不同的学习策略以达到学习的最佳状态。

由于识别的环境为远程E-learning教学的学生端,因此多模式识别系统包括了文章所论述的各单模式情感识别方法,即:基于视觉的面部表情识别和身体动作识别、基于听觉的会话信息(语音)识别,共同配合来进行情感的识别,系统的构架图如图4:

3.2 多模式识别方法

基于多模式的识别方法,目前有三种可以对视听信息进行融合的策略[1](特征层面、决策层面和模型层面)。其中,特征层面上的融合策略[16]的主要方法为:首先关联韵律特征和面部特征,以构造共同特征向量,然后用来建立一个情感识别器;决策层面上的融合策略[3]的主要方法为:先独立的识别视觉、听觉的情感,最后把单一模式的识别结果进行融合;模型层面上的融合策略[18]的主要方法为:可以利用音频流和视频流之间的关联性,并能同步流。

目前常用的是特征层面与决策层面的融合策略,模型层面上的融合策略要同步音频视频流,比较复杂则不常采用。特征层面上的融合策略采用单一的分类器来处理视听的特征;决策层面上的融合策略视听的特征有各自的分类器处理,最后把输出的结果按一定的标准(包括最大、平均、乘积、权值)进行组合[6]。两种方法的流程图如图5:

特征层面上的融合策略对发怒(anger)与平静(neutral)这两种情感状态的识别率最高;而决策层面上的融合策略对快乐(happiness)与悲伤(sadness)这两种情感状态的识别率最高;两种方法对其它情感状态的识别情况基本相同[8]。因此,在本文的多模式识别系统中,结合以上分析得出的教学系统中常见的情绪:平静、困惑、无聊、高兴、挫败感、厌恶、惊讶,把这两种融合策略进行结合。

两种融合策略结合的方法:以决策层面上的融合策略为主,当所有采样的数据进入情感识别模块进行处理时,使用决策层面上的融合策略来输出结果;最后经过评价模块反馈回来的信息不理想时,先进入情感分析模块重新分析,再进入评价;评价还是不理想时,则把原来采样的数据在情感识别模块中,换为特征层面上的融合策略进行处理。

4 实验结果

系统的实现采用VC++开发平台,利用VC中的网络应用函数开发出客户端/服务器的通讯系统[6],多模式情感识别模型的仿真引用MATLAB中的神经网络来进行。

本系统利用MATLAB来进行训练使其能很好的为系统服务,然后把训练好的模型嵌入到学生端,该文中所设计的模型与E-learning系统没有整合在一块儿,而是单独在每个学生端安装,并且相应的数据库也是独立安装。动画人物的实现,利用了Microsoft Agent技术来实现,选用的动画人物为Merlin,并作为ActiveX控件嵌入到学生端程序,运行界面如图6:

5 结束语

基于多模式的情感识别方法,把基于单模式的识别方法集成到一块儿来共同识别情感,识别的过程较单模式要复杂,且识别时间相对要长。处理的又是人在无意识情况下的情感状态,对多模式情感识别提出了更大的挑战。基于多模式的识别方法已经是目前情感识别方法的主流。

参考文献:

[1] Zeng Z H, Pantic M, Glenn L. Roisman and Thomas S. Huang. A Survey of Affect Recognition Methods:Audio,Visual and Spontaneous Expressions, Japan:ICMI’07,2007:126-133.

[2] Hsu R L,Abdel-Mottaleb M,Jain A K.Face detection in color images.IEEE Trans.Pattern Analysis and Machine intelligence,2002,24(5):696-706.

[3] Reuderink B,Poel P,Truong P,Ronald Poppe,and Maja Pantic. Decision-Level Fusion for Audio-Visual Laughter Detection,LNCS 5237,2008:137-148.

[4] Alejandro J,Daniel G P,Nicu S,et al.Human-centered computing:toward a human revolution[J].Computer,2007,40(5)30-34.

[5] Jin N,Mokhtarian F.Image-based shape model for view-invariant human motion recognition[A].Proceedings of Conference on Advanced Video and Signal Based Surveillance[C].London:IEEE,2007:336-341.

[6] Ogale A S,Karapurkar A,Aloimonos Y.View-invariant modeling and recognition of human actions using grammars[A].International Conference on Computer Vision,Workshop on Dynamical Vision[C].Beijing,China:Springer Verlag,2005.

[7] Parameswaran V,Chellappa R.Using 2D projective invariance for human action recognition[J].International Journal of Computer Vision,2006,66(1):83-101.

[8] 王金庭,杨敏.基于YCbCr空间的亮度自适应肤色检测[J].计算机系统应用,2007(6):99-101.

[9] 刘振,吴鹏,陈月辉.基于PCA和神经网络的人脸识别[J].山东科学,2006,19(4):63-67.

[10] 王茜.一个语音情感识别系统的设计与实现[J].大众科技,2006,94(8):103-104.

[11] 赵腊生,张强,魏小鹏.语音情感识别研究进展[J].计算机应用研究,2009,26(2):428-432.

[12 蒋丹宁.蔡莲红.基于语音声学特征的情感信息识别[J].清华大学学报:自然科学版,2006,46(1):86-89.

[13] 董静,王万森.E-learning系统中情感识别的研究[J].计算机工程与设计,2008,29(17):4525-4534.

[14] 程祥.人体动作识别的研究[J].电脑知识与技术,2006:120-133.

[15] 赵国英,李振波.基于检索的人体运动识别和模拟[J].计算机研究与发展,2006,43(2):368-374.

[16] 徐光祐,曹媛媛.动作识别与行为理解综述[J].中国图像图形学报,2009,14(2)189-195.