情感识别综述
2018-05-07潘莹
潘莹
摘要:情感交互在人机自然交互的研究中受到了很大的重视,而情感识别是人机情感交互的关键,其研究目的是让机器感知人类的情感状态,提高机器的人性化水平。该文首先对情感识别理论进行了概述,继而对情感识别的研究方法进行了分类描述,接着简述了情感识别的应用领域,最后对情感识别的发展进行了展望。
关键词:情感识别;综述;多模态融合;特征提取;情感分类
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2018)08-0169-03
1引言
随着智能技术的迅猛发展以及智能机器在各领域的广泛应用,人们渴望对机器进行更深层次地智能化开发,使机器具备和人一样的思维和情感,让机器能够真正地了解用户的意图,进而让机器更好地为人类提供智能化的服务。在智能机器研究中,自然和谐的人机交互能力受到很大的重视。情感识别作为人机情感交互的基础,能够使机器理解人的感性思维,影响着机器智能化的继续发展,成为人机自然交互的关键要素。同时,情感识别融多学科交叉为一体,其发展将会带动多学科共同发展,其应用也会带来巨大的经济效益和社会效益。因而,情感识别技术的研究具有很大的发展前景和重要的学术价值。
2情感识别概述
情感是一种综合了行为、思想和感觉的状态。情感信息主要表现在内外两个层面:一是外在情感信息,是指通过外表能自然观察到的信息,如面部表情、唇动、声音、姿势等,二是内在情感信息,是指外部观察不到的生理信息,如心率、脉搏、血压、体温等。
情感识别本质上也是一种模式识别,它是指利用计算机分析各种情感信息,提取出描述情感的情感特征值,建立特征值与情感的映射关系,然后对情感信息进行分类,从而推断出情感状态的过程。
3情感识别的研究方法
情感识别的研究方法主要有:面部表情识别、语音情感识别、姿态表情识别、文本识别、生理模式识别和多模态情感识别。情感识别过程一般包括四个部分:数据获取、数据预处理、情感特征提取、情感分类。情感特征提取过程一般包括:特征提取、特征降維和特征选择。其中,特征提取的方式各有不同,而特征降维和选择的方式大致相同。
特征降维常用的方法有:主成分分析、独立成分分析、等距特征映射、拉普拉斯特征映射、多维尺度变换、线性鉴别分析、局部线性嵌入、局部切空间排列和减秩回归法等。
特征选择常用的方法有:双向搜索、序列前向选择、序列后向选择、列浮动选择等。
情感分类常用的方法有:基于模型匹配法、决策树、支持向量机、朴素贝叶斯、贝叶斯网络、K近邻法、人工神经网络、随机森林、隐马尔科夫模型、线性回归、多层感知器、卷积神经网络和多分类器融合等。
3.1面部表情识别
在特定情感状态下,面部肌肉会发生变化。例如心情愉悦时,双目含笑,嘴角上翘,颧肌收缩;悲伤时,两眼呆滞,嘴角下拉,双眉紧锁;愤怒时会皱眉,睁大眼睛等。除此之外,也包括一些头部姿势,例如点头、摇头、低头等。
面部表情识别过程一般包括四个部分:人脸图像获取、图像预处理、表情特征提取、情感分类。
第一步:人脸图像获取。一般从影像数据中得到人脸的图像,包括图片和视频,分别对应静态表情和动态表情。视频就是图像序列,含有时间特性。
第二步:图像预处理。一般包括人脸检测定位、人脸扶正、剪裁处理、尺度归一化、直方图均衡化、去光照、光线补偿、同态滤波、灰度化、高斯平滑处理等方式。
第三步:表情特征提取。(1)基于静态图像的特征提取方法主要有:Gabor小波变换、局部二值模式、尺度不变特征变换、离散余弦变换和区域协方差矩阵等;(2)基于动态图像序列的特征提取方法主要有:光流法、差分图像法、特征点跟踪法、基于模型法和弹性图匹配法等。
第四步:情感分类。除了一些常用的分类器以外,还包括典型相关分析、稀疏表示分类法和基于专家规则的方法等。
3.2语音情感识别
语音是最普遍、最自然的交流形式,语言除了包含语义信息,还包含具有情感的语速、语调等信息。例如心情愉悦时,语调比较欢快;烦闷时,语调比较沉闷;生气时,音量变大,音调变高等。
语音情感识别过程主要分为四个部分:语音信号采集、数据预处理、情感特征提取、情感分类。
第一步:语音信号采集。一般采集语音信号的方式是使用麦克风等语音录制设备。
第二步:数据预处理。语音信号预处理的方式主要有:反混叠滤波、采样和量化、预加重处理、分帧加窗、端点检测和清浊音判别等。
第三步:情感特征提取。典型的语音情感特征分为三类:(1)韵律特征,包括音调、能量、基频、语速、时长等;(2)音质特征,主要有共振峰及其带宽、谐波噪声比和短时抖动等;(3)普特征,常见的有梅尔频率倒谱系数、线性预测倒谱系数和对数频率功率系数等。
第四步:情感分类。除了一些常用的分类器以外,还包括基于D-S证据理论、高斯混合模型、马氏距离分类法和矢量量化法等。
3.3姿态表情识别
姿态表情是除面部以外身体其他部位的表情动作,它在协同或补充表达言语内容的同时,也有效地传递着情感信息。例如开心时,手舞足蹈;悲痛时,捶胸顿足;焦虑时,坐立不安;失败时,垂头丧气等。
姿态表情识别过程主要分为四个部分:运动数据采集、预处理、运动特征提取、情感分类。
第一步:运动数据采集。一般运动数据的采集方式分为两种:(1)接触式:内嵌各式传感器的穿戴式装置,例如电子手套和数据鞋套等;(2)非接触式:一般通过摄像头得到图像信息。接触式的识别技术所需设备成本较高,用户体验不舒适,不符合人机自然交互的意图,本文选取非接触式的姿态识别技术。
第二步:数据预处理。一般包括:人体目标检测、图像去噪、图像分割、图像二值化处理、时间窗口、滤波处理等。其中,人体目标检测的方法主要有:基本图像分割、背景差分法、帧间差分法、光流法和能量最小化法。
第三步:运动特征提取。常用的运动特征分为四类:(1)静态特征:大小、颜色、轮廓、形状、深度等;(2)动态特征:速度、光流、方向、轨迹等;(3)时空特征:时空上下文、时空形状、时空兴趣点等;(4)描述性特征:场景、属性、物体、姿态等。常用的运动特征提取方法分为三类:时域分析法、频域分析法和时频域分析法。
第四步:情感分类。除了一些常用的分类器以外,还包括动态时间规整法、动态规划法、潜在狄利克雷分配、概率潜在语义分析、上下文无关文法、有限状态机和条件随机场等。
3.4文本识别
文本识别过程主要分为四个部分:素材搜集、文本预处理、特征提取、情感分类。
第一步:素材搜集。一般使用爬虫工具搜集材料,大部分的素材来自博客、电子商务站点和新闻站点。
第二步:文本预处理。一般包括:分词、词性标注、标签过滤、词缀修剪、简化替换等。
第三步:特征提取。文本特征主要有:词、词组、n-Gram和概念等。一般特征词可以自动抽取,有的也要人工参与构造情感词表,另外使用的方法还有频繁模式挖掘技术和关联规则挖掘技术。
第四步:情感分类。除了一些常用的分类器以外,还包括中心向量分类法、最大熵、基于情感词标注和词频加权统计等。
3.5生理模式识别
当机体处于特定情感状态下时,其内部会发生一系列的生理反应,例如恐惧时,心跳加速,呼吸加快,血压升高等。常用的生理信号有:脑电图、心电图、肌电图、血容量搏动、皮肤电反应、呼吸信号、体温、光电脉搏等。
生理模式识别主要分为四部分:生理信号采集、预處理、特征提取、情感分类。
第一步:生理信号采集。一般通过生理信号传感器进行采集。例如肌肉电反应传感器、呼吸传感器、血容量搏动和皮肤电导传感器等旧。
第二步:生理信号预处理。主要是为了去伪迹,常用的方法包括:归一化、滤波、独立成分分析、主成分分析、平滑处理等。
第三步:特征提取。生理信号特征一般包括:自回归系数、小波系数、能量谱、功率谱密度、近似熵等。常用的生理信号提取方法有:时域分析法、频域分析法和时频域分析法。
第四步:情感分类。除了一些常用的分类器以外,还包括共空间模式、误差反向传播算法等。
3.6多模态情感识别
单通道的情感信息性质比较单一,有时无法反映真实的情感信息,因此,情感识别需要利用多通道信息互补来提高鲁棒性和情感识别率。多模态情感识别是指利用面部表情、语音、姿态和生理信号等多个通道的情感信息进行情感识别。
多通道信息融合层次可以分为三类:数据层、特征层和决策层。
(1)数据层融合,是直接对采集的原始数据进行融合处理,然后从融合后的数据中提取特征向量,最后进行情感分类;(2)特征层融合,是先对采集的各通道数据进行预处理和特征提取,然后对提取的情感特征信息进行融合处理,得到特征向量,最后进行情感分类;(3)决策层融合,是对采集的各通道数据分别作单独的情感分类决策,然后对单模态的识别结果进行融合处理,得到最终分类结果。常用的信息融合方法有:D-S证据理论、人工神经网络、模糊集理论、贝叶斯推断、聚类分析、专家系统方法等。
4情感识别的应用
情感识别涉及了模式识别、传感器技术、人工智能、心理学、生理学和认知科学等多学科领域,有着广阔的应用前景。在医学领域,在情感识别理论基础上进行孤独症、压力识别和癫痫等研究,辅助诊断和治疗精神类疾病;在教育领域,在远程教学系统中加入情感识别,可以实时地检测学生的情感状态并及时给予反馈,实现了人性化的网络教学;在安全驾驶领域,基于情感识别的非接触式信号采集装置可以实时分析司机的情感状态,及时地提醒司机或进行自动控制,确保驾驶的安全;在电子商务领域,将情感识别运用到购物网站系统中,可以记录用户的情感状态,分析用户的偏好,有助于满足用户的喜好,从而提高销售量;在智能监控领域,将情感识别加入到银行、机场和停车场等重要公共场所的监控系统中,可以自动识别出监控场地每个人的情感状态,有助于这些场所的安全管理;在娱乐领域,各种机器宠物、智能机器人、情感饰物等的出现给人们增添了更多的生活乐趣。随着情感识别研究的不断完善,将会把情感因素引入到各类产品和服务中,有助于我们创造更加和谐、美好的生活。
5未来展望
情感识别技术的研究具有重要的理论意义和应用价值,在人机自然交互中有着无可替代的作用。情感识别有大量的研究成果,但由于人类情感的复杂多样性,情感识别依旧存在许多问题。开展融合面部表情、语音、姿势、文本和生理信号等的多模态情感识别研究具有重要的应用前景。另外,结合唇读、手语识别等技术,可以将情感识别更好的应用于残疾人的日常交流,是一个很好的、人性化的发展方向。