基于深度学习算法的正负性情绪识别研究
2017-10-18喻一梵乔晓艳
喻一梵, 乔晓艳
(山西大学 物理电子工程学院, 山西 太原 030006)
基于深度学习算法的正负性情绪识别研究
喻一梵, 乔晓艳
(山西大学 物理电子工程学院, 山西 太原 030006)
为探究感知正性情绪(高兴、 惊奇、 自豪、 感动)和负性情绪(愤怒、 悲伤、 恐惧、 厌恶)时, 人体生理信号特征变化, 并依此进行情感识别, 设计了视频诱发情感的实验范式. 利用多导生理仪同步采集人体脉搏和心电两种生理信号; 采用中值滤波和小波去噪方法消除测量中的基线漂移和噪声干扰; 通过差分阈值法进行峰值检测, 提取心电和脉搏波特征; 设计栈式自编码深度学习算法, 利用神经网络分类器实现正负性情绪分类识别. 基于心电信号特征或脉搏信号特征, 4种正性情绪的平均识别正确率分别为83.16%和81.66%, 4种负性情绪的平均识别率分别为90.33%和86.33%, 4种正负性混合情绪的平均识别率分别达到87.86%和85.28%. 结果表明: 采用栈式自编码深度学习算法, 基于脉搏和心电生理信号特征, 均可以有效识别正负性情绪, 并且心电特征相比脉搏特征在正负性情绪识别方面更优越, 该方法可以应用于情感机器人的研究中.
小波去噪; 栈式自编码; 脉搏信号; 心电信号; 情感识别
Abstract: In order to explore the physiological characteristics changes for positive emotions (happy, surprise, pride, moving) and negative emotions (anger, sadness, fear, disgust), and recognize the different emotions, the experimental pattern of video-induced emotion was designed in this paper. And PPG and ECG signals were collected simultaneously by using multi-channel physiological instrument. The method of wavelet denoising and median filtering were used to remove baseline drift and noise interference. The difference threshold detection method was applied to detect the peak, and extracted ECG and pulse wave signal characteristics. The stacked self-coding deep learning algorithm was designed to achieve the positive and negative emotional classification by neural network classifier. Respectively based on the ECG signal features and pulse signal features, the average recognition accuracy rates are 83.16% and 81.66% for four positive emotions, the average recognition accuracy rates are 90.33% and 86.33% for four negative emotions, the average recognition accuracy rates are 87.86% and 85.28% for four positive and negative mixed emotions. The results show that the stacked coding deep learning algorithm can effectively identify the positive and negative emotions based on the features of pulse signal and ECG signal, and the ECG features are superior to the positive and negative emotion recognition in comparison with the pulse features. The methods can be applied in the study of emotional robots.
Keywords: wavelet denoising; stacked self-encoding; pulse signal; ECG signal; emotion recognition
0 引 言
在人机交互领域中, 情绪和认知模型被赋予计算机, 使得计算机具有能够识别、 理解用户情感的能力, 实现和谐的人机交互、 用户体验以及可穿戴的情绪感知. 国内外在情感识别研究中已取得了一定的成果, 美国MIT媒体实验室情感计算研究小组Picard教授等人率先以图片为诱发材料, 从人体肌电、 脉搏、 皮肤电导和呼吸信号中提取特征, 并对愤怒、 憎恶、 悲伤、 柏拉图式的爱、 罗曼蒂克的爱、 高兴、 崇敬以及中性状态共8种情感状态进行分类, 取得了较好的分类效果[1,2]. Pflomba等人[3]采用恐惧、 愤怒和平静等情感的电影素材激发46名被试的不同情感, 测量他们的心率、 呼吸、 皮肤电导水平的变化, 发现不愉快的电影素材引起被试者的各种生理信号变化剧烈, 产生可区分自主响应的模式. 2006年Pierre Raimllef等[4]研究了被试者愉快和不愉快的回忆, 激发出高兴、 恐惧、 悲伤和愤怒等情感, 测试他们的脑电信号和呼吸信号, 获得了56.3%的平均识别率. 西南大学刘光远教授等人[5,6]应用小波变换提取脉搏波主波间隔、 潮波间隔、 重搏波间隔的均值、 中值等特征, 识别悲伤、 愤怒、 恐惧3种负性情感状态, 正确率均达到65%; 采用BP神经网络算法对面部肌电特征进行情感分类, 平均识别正确率达到75%.
目前, 情感识别主要集中于6种基本情绪(高兴、 惊奇、 悲伤、 厌恶、 愤怒、 恐惧)的情感分类. 基于生理信号的情感识别与研究较为成熟的语音和图像的情感识别相比, 具有显著不同的特点, 它更具真实性、 客观性且不受主观操控, 进而对它的研究构成了情感计算领域中一个重要方向[7]. 但由于生理信号较微弱, 基于生理信号的情感识别相比人脸图像和语音情感识别存在特征差异较小, 在特征选择和分类识别算法上还有待进一步提高[8]. 因此, 本文通过提取脉搏和心电生理信号特征, 寻找有效的生理特征参量, 利用栈式自编码深度学习算法, 实现正负性情绪的有效识别.
1 实验范式设计与生理信号采集
1.1 正、 负性情绪的选取
二维情绪模型包含唤醒(Arousal)和效价(Valence)两个维度, 维度代表着某类情绪的固有特征, 每个维度上的情绪变化具有两极性, 其中唤醒维度有两个极端状态: 高唤醒水平(例如惊恐)和低唤醒水平(例如平静). 效价维度则包含正向情绪(例如高兴)和负向情绪(例如忧伤). 客观事件或情境对人有积极的或消极的影响, 从而导致情绪出现两极情况, 即正性情绪与负性情绪. 凡对人有积极意义的事件引起正性情绪, 而具有消极作用的事件则引起负性情绪. 本文选取6种基本情绪(高兴、 惊奇、 悲伤、 厌恶、 愤怒、 恐惧)和两种复合情绪(感动、 自豪)[9], 将其划分为正性情绪(高兴、 惊奇、 自豪、 感动)和负性情绪(愤怒、 悲伤、 恐惧、 厌恶)两大类别, 采用情绪模型的主观测量方法, 通过填写自陈量表获得被试者感知的正负性情绪.
1.2 情绪诱发实验范式
由于电影视频片段可以同时刺激人的视觉和听觉, 相比单纯的视觉刺激或者听觉刺激, 能够给人更强的代入感, 从而获得更佳的情绪诱发效果. 本研究选用精心剪辑的视频片段激发受试者产生相应8种正负性情绪. 视频材料要求如下: ① 长度相对较短, 时长控制在200 s以内; ② 易于理解, 不需要附加解释; ③ 每个视频片段仅包含一种单一的情感; ④ 剪辑合成的视频材料可用于诱发多种情感状态.
选择视频片段进行了严格的问卷调查分析以确保能够激发相应的情感. 针对高兴、 悲伤、 惊奇、 自豪、 愤怒、 恐惧、 感动、 厌恶8种情感, 各选取5段不同视频, 观看者每看完一种对应情感的电影片段, 立即填写观看时激发的真实情感问卷, 包括: 激发情感类别和激发情感强度. 将激发情感强度分为很强、 比较强、 一般、 比较弱、 很弱5种级别, 按40%, 30%, 20%, 10%, 0对其进行加权平均, 选取期待值最高的作为实验诱发该种情绪的视频材料. 之后将选取的情绪诱发材料添加到实验范式软件Superlab中. 在每种情绪诱发的视频片段之间插入50 s过渡片段, 主要为风景或轻音乐, 以便受试者能及时从上一段情绪中脱离出来, 避免对下一段情绪诱发产生影响, 实验范式设计如图 1 所示.
图 1 情绪诱发实验范式Fig.1 Experimental paradigminduced emotions
1.3 生理信号采集
实验选择100名身心健康的大学生, 均无任何心理和生理疾病, 实验前2 h内未做剧烈运动, 避免剧烈运动导致心律变快, 影响实验数据采集以及结果分析. 实验仪器选取BIOPAC公司的MP150生理信号采集仪进行心电和脉搏信号的采集, 信号采集流程如图 2 所示.
实验开始时, 被试者静坐在椅子上, 身体处于自然放松状态, 按照在电脑1中编写的情绪诱发实验范式呈现相应视频材料, 进行情绪诱发. 被试者在观看视频片段时, 填写情感诱发调查问卷, 评价每段视频材料激发该情感的强度. 利用BIOPAC MP150生理信号采集仪对应传感器和电极同步采集脉搏和心电信号, 采样频率均为500 Hz, 将信号送至电脑2显示并存储. 每个被试者分别在不同时间执行了3次情感诱发和生理信号采集实验, 每种情感采集得到心电和脉搏信号各为300个. 每种情感生理信号采集了3 min数据, 数据处理仅截取其中从第2 min开始的30 s内的脉搏和心电数据作为样本数据, 因为这个时间段的生理信号较稳定且充分诱发出了对应情绪. 图 3 为不同情感状态采集的脉搏与心电信号(仅显示了30 s的信号波形).
图 2 生理信号采集系统Fig.2 Signal acquisition process
图 3 不同情感状态的脉搏和心电信号Fig.3 PPG and ECG signal under different emotional states
2 特征提取与分类识别算法分析
由于ECG和PPG信号是一种随机性很强的非平稳微弱信号, 极易被各种噪声污染, 在进行特征提取之前, 必须对采集的原始信号进行预处理. 通过带阻切比雪夫Ⅱ型滤波器滤除50 Hz工频干扰; 通过零相移数字滤波, 去除信号的基线漂移; 通过巴特沃斯带通滤波器和小波阈值去噪方法消除测量中的伪迹和噪声. 数据预处理后, 可以得到纯净的脉搏和心电信号, 从而进行相应的特征提取.
2.1 特征提取
图 4 脉搏主波峰及周期序列检测Fig.4 The main peak of pulse wave and its periodic sequence
对于脉搏波信号, 采用峰值检测分析方法提取时域基本特征PPG波峰值、 PPG波峰间隔, 采用周期图功率谱分析方法得到PPG功率谱. 分别计算时域和频域统计特征量, 即均值、 最大值、 最小值、 中值、 方差、 标准差, 生成22维的脉搏特征向量. PPG波峰均值的提取是通过检测每个样本30 s的波形数据, 计算该30 s内检测到的所有波峰的平均值, 进而每种情绪的300个样本提取得到300个平均值, 其它统计特征量的提取类似于均值提取方法. 通过差分阈值法检测脉搏主波P波峰, 对预处理之后的脉搏信号检测最大值、 最小值, 其差值为最大波形高度, 定义阈值规则为: ① 峰值大小波动范围不超过最大波形高度的0.3倍; ② 波峰大于左右200个样本点的所有幅度值. 当这两个阈值条件均满足时, 则可以确定该波峰点为待检测的P波. 对脉搏信号每间隔600个样本点进行一次波峰点检测, 检测波峰点位置的同时记录相邻波峰间隔, 从而得到脉搏波的周期序列, 结果如图 4 所示, 图 4 中横坐标表示在30 s的脉搏信号中检测到脉搏波的波峰数, 共检测到40个峰值点.
对于心电信号, 一个典型的心电图是由5个基本波形所组成: P波、 Q 波、 R 波、 S 波和T波. 心电信号主要特征包括: 各波的时间间隔、 幅值特征和心率. 相邻心拍的各波间隔和心率可以用于区别正负性情绪, 采用差分阈值法进行峰值检测, 提取心电信号9个时域基本特征, 包括连续R波间隔(RR-I)、 R波峰值(R-H)、 P波峰值(P-H)、 QRS波时间间隔(QRS)、 P波起始到Q波的时间间隔(PRQ)、 Q波开始到T波结束的时间间隔(QT)、 QT波时间间隔除以RR间隔的平方根(QTC)、 S波到T波结束的时间间隔(ST)以及心率. 计算它们的统计特征量, 包括: 均值、 最大值、 最小值、 中值、 方差、 标准差, 共计得到54维特征向量.
2.2 栈式自编码算法分析
自编码神经网络是一种无监督学习的神经网络, 通过逐层贪婪训练法依次训练网络的每一层, 进而训练整个深度神经网络. 栈式自编码由稀疏自编码器和softmax分类器级联而成. 构建一个3层(输入层、 隐藏层和输出层)的自编码神经网络时, LayerL2中蕴含着输入数据的信息, 输入数据通过自编码神经网络学习到特征. 自编码神经网络输出层的误差目标函数为
自编码神经网络训练是使输出与输入的差距最小, 即J(W,b)最小, 由于其采用非线性的Sigmoid或Than激活函数, 可以使用梯度下降算法进行训练. 神经生物学研究发现: 复杂神经网络中的神经元在传递信息过程中, 通常只有少量神经元被激活, 将这个特性引入自编码神经网络模型构成稀疏自编码神经网络, 有助于提高模型效率. 加入稀疏性限制, 稀疏自编码器误差目标函数变为
通过逐层贪婪训练法依次训练每一层参数的时候, 会固定其它各层参数保持不变. 因此, 如果想得到更好的结果, 在上述预训练过程完成之后, 可以通过反向传播算法同时调整所有层的参数以改善结果, 这个过程称作“微调”. 实际使用逐层贪婪训练时, 是在参数接近收敛时使用微调的.
最后, 采用 softmax回归模型对栈式自编码学习到的特征进行分类. 由于softmax回归模型被过度参数化了, 可以求出多组参数值, 通过增加一个权重衰减项γ, 代价函数就变成了严格的凸函数, 因此, 代价函数为
式中: 1{·}是示性函数, 其取值规则为: 1{值为真的表达式}=1, 反之为 0.
3 结果与分析
本文构建了一个输入向量为22个神经元节点, 两个隐层神经元的节点数均为11, 输出分类为4 类的栈式自编码神经网络. 其中, 输入层神经元个数与特征向量维数相同, 而隐含层的神经元个数确定是通过反复实验训练调节得到的, 隐含层节点数过多会出现过拟合现象, 过少则会出现欠拟合, 仿真实验发现隐含层节点数为11, 较好地拟合了训练数据的结构, 且网络初始值可以取得合适的值, 便于有监督阶段加快迭代收敛. 第1个隐含层是输入为样本的稀疏自编码网络学习到的隐含层特征Feature Set 1, 第2个隐含层是输入为 Feature Set 1 的稀疏自编码网络学习到的隐含层特征 Feature Set 2, 将 Feature Set 2 作为 softmax分类器输入, 分类器输出为情感模式分类的概率, 概率最大者为最终的判别结果. 实验中, 各种情绪状态的生理信号实验数据均进行了归一化处理, 每种情绪均选取240个样本作为分类器的训练集, 60个样本作为测试集. 表 1 为分别采用脉搏特征和心电特征对正性、 负性情绪分类的结果. 表 2 为正负性情绪融合的分类结果.
表 1 正性和负性情绪分类正确率对比
从表 1 可以看出, 正性情绪的平均分类正确率为81.66%, 而负性情绪平均识别率达到了86.33%, 表明负性情绪的唤醒程度更高, 更有助于分类识别. 实验结果表明了栈式自编码深度学习算法可以较好地应用于生理信号情感识别.
表 2 各种正负性情绪融合的分类正确率对比
表 2 结果表明, 正负性情绪融合识别时, 不同的正负性情绪状态组合会对识别率产生较大的影响. 由表 2 中脉搏特征和心电特征的识别率可知: 心电信号用于正负性情绪分类正确率更高, 识别结果更具一致性. 对于不同融合的正负性情绪状态, 基于脉搏信号特征, 最高识别率达到95%, 最低为75%; 基于心电信号特征, 最高识别率为96.67%, 最低为80%. 由此可见, 不同的正负性情绪状态, 模式识别的难易程度不同, 相近的情感状态之间会产生干扰, 从而降低情感识别正确率.
4 结束语
本文采用峰值检测时域分析方法对脉搏信号和心电信号进行特征提取, 并利用栈式自编码算法对正负性情绪进行识别, 获得了较高的识别正确率, 表明了深度学习算法应用于情感识别的有效性. 仿真实验结果表明: 心电信号用于正负性情绪识别相比脉搏信号的识别正确率高, 负性情绪的识别率相比正性或者正负性混合情绪的识别率要高, 对于不同的正负性情绪状态, 分类器识别的难易程度不同, 相近的情感状态识别率较低. 该研究成果可以应用于情绪认知和情感机器人研究.
[1] Bidarra R, Bronsvoort W F. Semantic feature modeling[J]. Computer-Aided Design, 2000, 32(3): 201-225.
[2] Bronsvoort W F, Bidarra R, Meiden H A V D, et a1. The increa-sing role of semantics in object modeling[J]. Computer-Aided Design and Applications, 2010, 7(3): 431-440.
[3] Palomba D, Sallo M, Angrilli A, et a1. Cardica responses associated withAffective processing of unpleasant film stimuli[J]. International Journal of Psychophysiology, 2000, 36(1): 45-57.
[4] Rainville P, Bechara A, Naqvi, el at. Basic emotions are associated with distinct patterns of cardiorespiratory activity[J]. International Journal of Psychophysiology, 2006, 61(1): 5-18.
[5] 葛臣, 刘光远, 龙正吉, 等. 情感识别中脉搏信号的特征提取与分析[J]. 西南师范大学学报(自然科学版), 2010, 35(3): 243-246. Ge Chen, Liu Guangyuan, Long Zhengji, el at. Feature extraction and analysis of pulse signals in emotional recognition[J]. Journal of southwest China Normal University (Natural Science Edition), 2010,3 5(3): 243-246. (in Chinese)
[6] 程波, 刘光远. 基于小波变换与神经网络的表面肌电信号的情感识别[J]. 计算机应用, 2008, 28(2): 333-335. Chen Bo, Liu Guangyuan. Emotion recognition of surface EMG signals based on wavelet transform and neural network[J]. Computer Application, 2008, 28(2): 333-335. (in Chinese)
[7] 刘烨, 王思睿, 傅小兰, 等. 5种基本情绪的心肺系统生理反应模式[J]. 计算机研究与发展, 2016, 53(3): 716-725. Liu Ye, Wang Sirui, Fu Xiaolan, el at. Five basic emotional heart and lung system physiological response model[J]. Computer Research and Development, 2016, 53(3): 716-725. (in Chinese)
[8] Chao Li, Chao Xu, Zhiyong Feng. Analysis of physiological for emotion recognition with the IRS model[J]. Neurocomputing, 2016, 178: 103-111.
[9] Gyanendra K. Verma, Uma shanker Tiwary multimodal fusion framework: a multiresolution approach foremotion classification and recognitionfromphysiologicalsignals[J]. Neurocomputing, 2014, 102: 162-172.
PositiveandNegativeEmotionRecognitionBasedonDeepLearningAlgorithm
YU Yifan, QIAO Xiaoyan
(College of Physics and Electronic Engineering, Shanxi University, Taiyuan 030006, China)
1671-7449(2017)05-0398-06
TP391
A
10.3969/j.issn.1671-7449.2017.05.005
2017-02-26
国家自然科学基金资助项目(81403130); 山西省自然科学基金资助项目(201601D102033)
喻一梵(1992-), 女, 硕士生. 主要从事智能信息处理及情感机器人等研究.