APP下载

基于CNN和LSTM的脑电信号情感识别

2021-03-24卢官明丛文康魏金生闫静杰

关键词:电信号分类器预处理

卢官明,丛文康,魏金生,闫静杰

(南京邮电大学通信与信息工程学院,江苏 南京 210003)

人类情感是伴随着人的意识过程产生的心理和生理状态,在人际交流中扮演着非常重要的角色。随着人工智能等技术的不断进步,情感识别作为情感计算的一个分支,是实现人-机情感交互的基础和核心技术,已经成为计算机科学、认知科学和人工智能等领域的研究热点,受到了学术界和工业界的广泛关注[1]。利用情感识别技术对情感进行分析和评估具有重要的应用和研究价值。例如,在临床医疗护理中,如果能够知道患者,尤其是有表达障碍的患者的情感状态,就可以采取不同的护理措施,以提高护理质量。此外,在对精神障碍患者的心理行为监控、情感机器人的人-机友好交互等方面也得到了越来越多的关注。

目前大多数的情感识别研究是基于面部表情、语音语调或身体姿态等外观特征来识别人的各种情感[2-6]。但是,这些外显特征往往容易被人为掩饰或伪装。有时候人们为了掩盖自己的真实情感而强颜欢笑、装腔作势或沉默不语,此时,面部表情或身体姿态具有一定的欺骗性,而当人们沉默不语时基于语音的情感识别方法就会失效。而伴随情感的生理反应则由自主神经和内分泌系统支配,具有自发性,不易受主观意念控制,能够较为真实和客观地反映人们内心的情感状态。因此,生理信号为情感状态的分析和识别提供了一条重要的线索,基于生理信号的情感识别也受到了广泛的关注,已成为情感计算的重要分支。

认知和神经生理学理论研究表明,人的大脑活动在情感的产生和活动过程中扮演着重要的角色,并且从大脑采集到的脑电信号(Electroencephalogram,EEG)[7]能够检测到与情感状态变化相关的信息。近年来,随着干电极技术的发展,可穿戴的便携式脑电信号采集设备得到了广泛应用[8-9],为实时采集脑电信号和开发基于脑电信号的情感识别系统开辟了新途径。

基于脑电信号的情感识别在娱乐游戏、教育、刑侦、辅助驾驶、健康护理等领域具有潜在的应用前景[10-11]。例如,在刑侦领域,有些犯罪嫌疑人心理素质良好,虽然可以做到“面无表情”,但是脑电信号的波动依然能反映出真实情感。将脑电信号与微表情两种情感模态结合会大大提高情感识别准确率,这对攻破嫌疑人心理防线,提升破案率有重大意义。因此,基于脑电信号的情感识别逐渐成为情感计算领域的一个新的研究热点。

1 相关工作

传统的基于脑电信号的情感识别主要包括脑电信号采集、数据预处理、情感特征提取和情感分类4个步骤[12-13]。

从脑电信号中提取与情感关联大、区分能力强的特征,是脑电情感识别过程中的一个重要环节。目前用于脑电情感识别的特征分析方法主要包括时域特征分析、统计特征分析、频域特征分析和非线性动力学特征分析[14]。时域特征分析主要是直接提取脑电信号的波形特征,包括事件相关电位(Event Related Potential,ERP)、信号统计量、能量、功率、高阶过零分析、不稳定指数(Non-Stationary Index,NSI)和分形维数(Fractal Dimension,FD)等。频域特征分析主要通过频谱图分析脑电信号中的各频带节律的分布与变化情况。在认知神经科学的研究中发现,并非所有收集到的频谱分量都对情感识别是有效的,脑电信号的不同频带和不同的大脑活动密切相关。由于频域特征在不同频带上的能量分布不同,通常将 0~50 Hz频带分为δ频带(1~4 Hz)、θ频带(4~8 Hz)、α频带(8~13 Hz)、β频带(13~30 Hz)和γ频带(30~50 Hz)等5个频带。在这5个波段中分别提取特征,这些特征通常包括功率谱密度(Power Spectral Density,PSD)、微分熵(Differential Entropy,DE)、微分不对称特征(Differential Asymmetry,DASM)、理性不对称特征(Rational Asymmetry,RASM)和微分尾部特征(Differential Caudality,DCAU)[15]。由于脑电信号是一种非平稳和非线性的随机信号,在传统的时频分析方法中,短时傅里叶变换很难找到一个合适的窗来同时得到很好的时间分辨率与频率分辨率,因而很难提取有效的特征。在现有技术中,经常利用近似熵、多尺度熵处理脑电信号的非平稳、非线性问题,但是近似熵存在着依赖脑电序列长度和自匹配的问题,而多尺度熵则是一种用于评价不同时间尺度下时间序列复杂度的方法。虽然多尺度熵算法已经成功地应用于许多不同的领域,而且能够比单一尺度熵更能反映动力学特征与信号序列的变化,但是多尺度熵不能获得时间序列中的长期演变结构,无法同时处理脑电信号的非平稳和非线性问题,导致情感识别精度和准确率不高。

上海交通大学的吕宝粮教授团队创建了包含积极、消极、中性这3类情感的脑电情感数据集(SJTU EEG Emotion Dataset,SEED),并对提取的 PSD、DE、DASM、RASM、DCAU等5种特征分别使用支持向量机(Support Vector Machines,SVM)和深度置信网络(Deep Belief Network,DBN)进行情感分类实验。 在采用SVM分类器的实验中,基于微分熵(DE)特征的情感识别效果最佳,取得了83.99%的平均分类准确率;在采用DBN分类器的实验中,仍然是基于微分熵(DE)特征的情感识别效果最佳,取得了86.08%的平均分类准确率[15]。文献[16]使用由伦敦玛丽皇后大学研究团队开发的情感数据集DEAP,从脑电信号中提取小波系数、小波熵,以及在θ频带、α频带、β频带上提取双谱指数作为脑电特征,并使用支持向量机(SVM)在效价(Valence)-唤醒度(Arousal)情感模型上进行情感分类识别,分别获得 76.80%、74.30%的平均分类准确率。Tripathi等[17]在DEAP数据集上提取脑电信号的中位数、均值、方差和峰态等统计特征,使用卷积神经网络(Convolutional Neural Network,CNN)作为分类器,在效价-唤醒度情感模型上进行情感识别,分别获得81.40%、73 36%的平均分类准确率。杨豪等[18]从脑电信号中提取微分熵(DE)特征,使用深度信念网络(DBN)模型对积极、消极、中性3种情感状态进行分类识别,平均准确率达到89.12%±6.54%。另外,长短时记忆(LongShort-Term Memory,LSTM)网络将动态时序信息加入到神经网络中,在自然语言处理、机器翻译等具有时序信息的信号处理上有着不错的表现[19]。 阚威等[20]使用公开的情感数据集DEAP进行脑电情感识别研究,脑电信号被分成多个非重叠的信号段,并从每段信号中提取多种时域、频域和非线性动力学特征,这些特征沿时间连接成特征序列并用来训练LSTM分类模型,实验结果表明,该模型在唤醒度、愉悦度和喜欢度上进行高和低两类的二分类问题上分别得到73.87%、73.50%和72.80%的分类准确率。

2 基于CNN和LSTM的脑电信号情感识别

考虑到卷积神经网络和长短时记忆网络在特征提取以及处理动态时序信息方面的优点,本文提出了一种基于CNN和LSTM的脑电信号情感识别方法。基于CNN和LSTM的脑电信号情感识别模型如图1所示。首先,利用一维卷积神经网络自动提取每个通道脑电信号的情感特征;然后,利用LSTM网络在序列上的建模能力提取62个通道的融合情感特征;最后,使用Softmax分类器对多通道融合的情感特征进行分类,将情感分成积极、中性、消极3种类别。

图1 基于CNN和LSTM的脑电信号情感识别模型

2.1 基于CNN的单通道情感特征提取

对于每个通道的脑电信号,在经过预处理后,分别采用一维CNN提取情感特征。一维CNN的结构如图2所示,包括3个卷积层、2个最大池化层和1个平均池化层。卷积层对上一层中的局部感知区域进行卷积操作,每个卷积层都使用1×5的卷积核,卷积核的步长设为1。卷积层之后使用修正线性单元(Rectified Linear Unit,ReLU)激活函数来加入非线性因素,使训练后网络中的部分神经元的输出为0,具备适度的稀疏性,加速网络的收敛,并且减少了参数的相互依存关系,避免模型的过拟合问题,从而提高模型的泛化能力。平均池化层输出的特征为单个通道的高层次的特征。

图2 一维CNN的结构示意图

2.2 基于LSTM的多通道融合情感特征提取

经过上述的特征提取后,得到了62个通道脑电信号的情感特征向量。研究表明,脑电信号各通道之间存在一定的关联。考虑到LSTM网络对于时序信息建模的能力,本文采用LSTM网络对各通道脑电信号情感特征之间的关联信息进行建模分析,从62个通道的情感特征中提取多通道融合的情感特征。

LSTM单元的基本结构如图3所示,LSTM单元通过引入遗忘门f、输入门i和输出门O三种门控单元作为内部机制来调节信息流。遗忘门f能决定前一个LSTM单元输出的信息中应该丢弃或保留哪些信息,输入门i用来更新单元状态,输出门O决定输出到下一个LSTM单元的信息。

图3中,σ表示sigmoid函数。ht-1表示前一个LSTM单元输出的隐藏状态,xt表示当前时刻输入的序列。本文中xt指的是t时刻输入的特征序列。ft为遗忘门的输出信息,其表达式为

图3 LSTM单元结构示意图

其中,Wf和bf分别为遗忘门的连接权重和偏置向量。

式(2)和式(3)中的Wi和Wc是与输入门相关的连接权重,bi和bc表示输入门的偏置向量。ft与前一个LSTM单元输出的隐藏状态Ct-1相乘,得到应丢弃或保留的信息。将前一个LSTM单元输出的隐藏状态信息ht-1和当前输入的信息xt分别输入到sigmoid函数和tanh 函数中,得到表示中保留的信息。相加使LSTM单元获得更新的信息,这样就完成了LSTM单元状态的更新。

ht=Ot·tanh(Ct)表示输出门的输出结果。 首先把前一个LSTM单元输出的隐藏状态信息ht-1和当前输入的信息xt输入到sigmoid函数得到Ot,接着把当前时刻的单元状态Ct输入到tanh函数得到tanh(Ct),然后把 tanh(Ct)和Ot相乘,得到隐藏状态应携带的信息ht,最后把新的单元状态Ct和新的隐藏状态ht传输给下个时刻的LSTM单元,其中

其中,Wo和bo分别表示与输出门相关的连接权重和偏置向量。

LSTM单元最终输出由遗忘门ft、输入门it、单元状态Ct和输出门Ot共同决定。

基于LSTM的多通道融合情感特征提取原理如图4所示。对于CNN输出的62个通道的m维特征向量,取每个通道特征向量的第一维特征值重构成第一个特征序列,取每个通道特征向量的第二维特征值重构成第二个特征序列,…,以此类推得到m个按通道次序拼接在一起的特征序列。然后,将上述m个特征序列分别输入到LSTM中,利用LSTM在序列上的建模能力提取多通道融合情感特征。

图4 基于LSTM的多通道融合情感特征提取原理示意图

3 实验与结果分析

为了验证所提出的基于CNN-LSTM网络的脑电信号情感识别方法的有效性,本文在上海交通大学吕宝粮教授团队创建的脑电情感数据集(SJTU EEG Emotion Dataset,SEED)[17]上进行了实验。

3.1 脑电情感数据集(SEED)

SEED数据集自2015年发布以来受到了极大关注,已在诸多研究中使用。SEED数据集的诱发材料为中文电影的情感片段。在SEED数据集中一共采集了15名(7名男性,8名女性)平均年龄在23岁左右的受试者(Subject)的脑电信号数据。在进行脑电信号数据采集实验时,通过观看国产电影片段来诱发一种情感。每名受试者参与3个时间段(Session)的数据采集实验,为了保证采集到的数据互不干扰,每个时间段间隔1~2周。在每个时间段的数据采集过程中,每名受试者观看15个视频片段,包含喜剧片、纪录片、悲剧片3种不同类型的视频,诱发出积极、中性、消极3种不同类别的情感。为了保证每次采集的数据属于激励源所诱发的相应情感的正确数据,每位受试者在观看视频前都有几分钟平静时间,以消除参与实验的紧张或激动的情绪。每段激励视频播放时间为4 min左右。每段视频结束后,受试者有45 s的时间进行自我评估,完成评估后有15 s休息时间,然后进行下一段视频的观看。每名受试者在每个时间段都观看完所有的15个视频片段。经过预处理后的SEED数据集包含了62导联的EEG信号,其构成如图5所示。

图5 SEED数据集的构成

3.2 训练样本和测试样本的数据处理

实验是对每个时间段分别进行的,数据库中每个时间段有15组预处理数据。每组预处理数据都包括62个通道,但是不同组预处理数据中通道的样本点数不一样。如图5所示,第一组预处理数据每个通道有47 001个样本点,第二组预处理数据每个通道有46 601个样本点,……。如果直接将上述15组预处理数据作为15个样本进行实验,会导致训练出的模型不稳定,这是因为样本个数太少。因此实验时基于这15组预处理数据生成新的训练样本和测试样本。将数据库中每个时间段的前9组预处理数据进行处理,生成496个样本(每个样本包含800个样本点),作为训练样本。对后6组预处理数据进行处理并生成340个样本,作为测试样本。以第一组预处理数据为例,样本生成过程如图6所示。

图6 样本数据处理示意图

图6中的预处理数据为一个62×47 001的二维矩阵,其中62表示通道数,47 001表示每个通道中的样本点个数。截取每个通道中的前800个样本点作为样本1,每个通道中第801~1 600个样本点作为样本2,……,以此类推,得到58个样本。每个通道剩余601个样本点不够构成一个样本,因此将每个通道最后的601个样本点舍弃。

3.3 实验环境与设置

本文实验采用的硬件设备为装载NVIDIA GeforceGTX1080TI GPU的PC台式机。软件环境采用Ubuntu19.04操作系统,搭载Linux内核,同时借助Google开源的TensorFlow深度学习架构搭建神经网络模型。网络模型参数随机初始化,采用Adam优化算法对网络模型进行训练,学习率设置为0.001,每次迭代的批量大小(batch size)为64。

3.4 实验结果分析

实验记录了每个受试者(Subject)每个时间段(Session)的分类准确率,相加求平均从而获得每个受试者的分类准确率。最后将15个受试者的分类准确率相加求平均,得到整体平均分类准确率。为了更加全面地评价文中所用方法的性能,使用了F1-score作为模型评价指标。表1记录了实验过程中每个受试者的分类准确率和F1-score。

表1 基于CNN-LSTM的脑电信号情感分类准确率和F1-score

从表1中可以看出,对于不同的受试者,分类准确率存在差异,其中,对于受试者9,在3个时间段的平均分类准确率是83.96%(最低),对于受试者15,在3个时间段的平均分类准确率是92.11%(最高),这体现出个体的差异性。但对于同一个受试者,在不同时间段上的分类准确率存在波动,例如,对于受试者 15,在时间段 1的分类准确率是89.00%(最低),在时间段 3的分类准确率是96.76%(最高)。整体平均分类准确率为88.15%。

为了比较本文所提出的方法与基于传统人工设计特征的方法,本文采用文献[15]所用的PSD、DE、DASM、RASM 和 DCAU 五个特征,并将δ、θ、α、β和γ五个频带上的特征串接成一个新的特征向量,作为LSTM网络的输入,最后将LSTM网络的输出连接到全连接层和Softmax分类器进行情感分类识别。基于传统人工设计特征的对比实验结果如表2所示,其中使用支持向量机(SVM)和深度置信网络(DBN)进行分类的实验结果引用自文献[15]。

表2 基于传统人工设计特征的脑电信号情感分类准确率 %

由表2可知,对于相同的分类器,使用不同特征的情感识别结果差异较大。在采用SVM分类器的实验中,基于微分熵(DE)特征的平均分类准确率最高,达到了83.99%;而基于功率谱密度(PSD)特征的平均分类准确率最低,只有59.60%。与此类似,在采用DBN分类器的实验中,仍然是基于DE特征的平均分类准确率最高,达到了86.08%;而基于PSD特征的平均分类准确率最低,只有61.90%。在采用LSTM+全连接层+Softmax分类器的对比实验中,依然是基于DE特征的平均分类准确率最高,达到了83.24%,略低于采用DBN分类器的86.08%;但基于其他特征的平均分类准确率均高于采用SVM和DBN分类器的结果。这验证了LSTM网络对于脑电时序信号建模的能力,但相比之下,本文提出的基于CNN-LSTM的脑电信号情感识别方法的平均分类准确率达到了88.15%,高于其他方法。该对比结果表明,CNN-LSTM的网络结构可以有效地对脑电情感特征的时空结构进行建模。

4 结束语

随着人-机交互技术研究的不断深入,基于脑电信号的情感识别成为情感计算领域的一个新的研究热点。受益于深度神经网络在特征提取和分类识别方面的成功应用,各种新的脑电信号情感识别方法不断涌现。然而,由于脑电信号的多样性和复杂性,不同脑区对情感的体验程度也不完全相同,这些因素大大增加了脑电情感识别的难度,如何提高基于脑电信号的情感分类的识别率仍是有待解决的难题。

本文提出了一种基于卷积神经网络和长短时记忆网络(CNN-LSTM)的脑电信号情感识别方法。利用CNN自动提取样本抽象特征以及LSTM对于动态时序信息建模的能力,从62个通道的脑电信号中提取多通道融合的情感特征,避免了人工特征提取、选择与降维等繁琐步骤,同时取得了88.15%的平均分类准确率。本次实验仅使用了三层卷积神经网络,后面可以进一步研究和分析增加卷积层数来挖掘更深层次的通道特征对情感分类准确率的影响。此外,将人体生理信号和表情、语音、行为姿势等外部情感表征载体结合起来进行多模态情感识别研究,对于进一步提高情感识别的准确率也具有非常重要的现实意义。

猜你喜欢

电信号分类器预处理
KR预处理工艺参数对脱硫剂分散行为的影响
求解奇异线性系统的右预处理MINRES 方法
学贯中西(6):阐述ML分类器的工作流程
基于联合聚类分析的单通道腹部心电信号的胎心率提取
污泥预处理及其在硅酸盐制品中的运用
基于朴素Bayes组合的简易集成分类器①
基于Code Composer Studio3.3完成对心电信号的去噪
一种自适应子融合集成多分类器方法
基于随机森林的航天器电信号多分类识别方法
基于预处理MUSIC算法的分布式阵列DOA估计