基于多尺度卷积核CNN的脑电情绪识别*
2021-07-16戴紫玉马玉良高云园佘青山张建海
戴紫玉,马玉良,3*,高云园,3,佘青山,3,孟 明,3,张建海
(1.杭州电子科技大学智能控制与机器人研究所,浙江 杭州310018;2.杭州电子科技大学计算机学院,浙江 杭州310018;3.浙江省脑机协同智能重点实验室,浙江 杭州310018)
情绪是对一系列主观认知经验的通称,是多种感觉、思想和行为综合产生的心理和生理状态,在生活中扮演着非常重要的角色,情绪识别已经运用在检测机械员工损伤、视频游戏用户体验、协助医护人员评估患者健康等各行各业,围绕它的领域正在持续增长。传统的情绪识别主要是基于面部特征、肢体动作和语音的研究,这些外在特征容易伪装,并不能反应出真实的情绪,脑电信号可以反映大脑在加工情绪时所伴随的神经电生理活动,能够很好的弥补传统研究方法的缺陷。
传统的人工提取情感特征结合机器学习相关算法取得了较好的发展,传统的方法大都需要大量先验知识寻找脑电信号的特征,构建特征工程,而脑电信号容易受到噪声干扰,且不同被试之间的差异性,使得基于脑电信号人工特征选取耗费大量的时间和精力。近年来深度学习在脑电情绪识别分类方面的研究越来越多,并且取得了不错的成果。深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合底层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。深度学习的概念由Hinton等人于2006年提出。基于深度置信网络(Deep Belief Network,DBN)提出非监督贪心逐层训练算法,为解决深层结构相关的优化难题带来希望,随后提出多层自动编码器深层结构[1]。此外LeCun等人提出的卷积神经网络也是第一个真正多层结构学习算法,它利用空间相对关系减少参数数目以提高训练性能。深度学习因其能够深层挖掘数据更本质的特征,被很多研究者运用到脑电情绪分类上[2]。Jinpeng Li等人[3]将改进后的HCNN(hierarchical convolutional neural networks)网络用于脑电情绪分类,在每个通道特定时间间隔内提取其微分熵特征,并且为了保持脑电信号的位置信息,他们将一维脑电的时域信息转化成二维的微分熵频域特征,以供后续HCNN训练,并且比较了HCNN、SAE(Stacked autocoder)、KNN(K NearestNeighbor)、SVM(Support Vector Machine)之间的分类性能,实验结果显示HCNN的分类性能均优于其他分类器,其分类准确度为88.2%;Zheng等人[4]为提高情绪识别系统性能,提出了一种新的基于深度信念网络的关键通道和频带检测方法,提取脑电信号的微分熵特征作为DBN的输入,训练DBN识别三种情绪(积极、中性、消极),并与 KNN、LR(Logistic Regression)、SVM等浅层模型进行比较,实验结果显示,DBN模型的平均分类准确率达到86.08%;田莉莉[5]等人针对传统机器学习需要构建特征及其特征质量较低等问题,提出了一种基于一维卷积神经网络的特征提取方法,用卷积层和下采样层构成编码器网络提取脑电信号情感特征,采用随机森林分类器进行情绪三分类,在公开数据集SEED上进行实验,达到94.7%的情感分类准确率;文献[6]使用机器学习来研究脑电情绪识别的稳定性问题,在DEAP和SEED数据集上评价了各种流行的特征提取、特征选择、特征平滑和模式分类方法的性能,采用判别图正则化极限学习机对微分熵特征进行分类,在SEED数据集上准确率达到91.07%。
许多研究者已经将深度学习应用于情绪识别,并且取得了不错的结果,为进一步提高脑电情绪分类准确率,本文在传统CNN模型的基础上进行改进,提出一种多尺度卷积核CNN模型,相比于传统的CNN模型,多尺度卷积核CNN模型可以在卷积层设置多个不同尺寸的卷积核,同时提取数据不同维度的特征,而传统的CNN模型只能提取单一维度的特征。本文采用多尺度卷积核CNN模型对脑电数据进行二次特征提取及分类,在国际公开数据集SEED上进行实验,取得了不错的分类效果。
1 方法与模型
1.1 微分熵特征
微分熵扩展了香农熵的思想,并用于测量连续随机变量的复杂性。对于固定长度的脑电信号,微分熵等效于某个频带内的对数能量谱[7]。设有脑电信号X i,其微分熵表达式为:
式中:f(x)是脑电信号的概率密度函数,如果随机变量服从高斯分布N(μ,σ2),则上式中的微分熵可通过以下公式简单计算:
虽然原始的脑电信号不服从一定的固定分布,但经过2 Hz到44 Hz的带通滤波后,每相隔2 Hz,脑电信号在连续子频带中服从高斯分布[8],从上式可知,我们只需要知道σ2就能得到X i的微分熵,正态分布N(μ,σ2)的方差计算公式为:
1.2 特征平滑
为过滤出与情绪状态无关的成分,引入了LDS(linear dynamic systems)平滑特征的方法[9]。线性动力系统可以表示为:
式中:x t表示观察变量,z t表示隐藏的情感变量,A为转移矩阵,w t是均值为¯w、方差为Q的高斯噪声,v t表示为均值为¯v、方差为R的高斯噪声,上述方程也可以用高斯条件分布的形式表示:
1.3 多尺度卷积核CNN
传统人工神经网络包含输入层、隐层、输出层三种网络结构,卷积神经网络在其基础上,隐层体现为全连接层,并在输入层与全连接层之间增加卷积层与池化层两种网络类型。通过多层卷积,不断提取更为抽象的信号特征,在增强有效信号特征的同时,也弱化了噪声信号的特征[10]。一般CNN的卷积层采用的是单一尺寸的卷积核,为了提取信号更深层次的特征,需要构建多个卷积层,从而使网络结构变得复杂,网络层数的增加会使网络参数成倍增长,不利于网络的快速收敛,严重影响网络性能。因此本文在经典CNN模型基础上进行改进,在CNN的卷积层上增加不同尺度的卷积核,扩大了卷积层提取特征的维度,减少了卷积层层数,降低了网络复杂度,极大提高了网络性能。
本文设计的多尺度卷积核CNN模型一共五层,第一层为输入层,将脑电信号切割成M×N×1的大小作为多尺度卷积核CNN模型的输入;第二层为卷积层,采用多尺度卷积核对输入信号进行不同维度的特征提取,设置多尺度卷积核尺寸为:M×5×1,M×3×1,M×1×1,每个尺寸的卷积核各128个;第三层为池化层,采用空间金字塔池化;第四层为全连接层,将数据铺平为分类做准备;第五层是输出层,采用Softmax分类器,实现三分类。多尺度卷积核CNN结构如图1所示。
图1 多尺度卷积核CNN结构图
1.3.1 损失函数:
多尺度卷积核CNN通过前向传播输出卷积层中可学习卷积核与本层输入的卷积作为下一层的输入,通过误差的反向传播修正各层的网络权值和偏置[11]。其前向传播公式为:
损失函数表达式为:
式中:x i为输入,j为单个样本的预测结果,y i为真实类别的结果;W为权重参数,f为激活函数,此网络模型采用Relu激活函数,Δ为犯错容忍度,为正则化惩罚项,其中λ为惩罚系数,k、l分别为权重参数的行和列;
1.3.2 Softmax分类器
Softmax分类器表达式为:
式中:k为类别数,z j表示第j个类别的线性预测概率,z k为k个类别的线性预测概率之和,f j(z)表示每一类的归一化预测结果。反向传播时,使用Adam梯度算法。
1.3.3 空间金字塔池化
卷积神经网络的卷积层可以处理任意大小的图片,而全连接层的特征数是固定的,所以在网络输入时,需要固定全连接层的输入大小,空间金字塔池化[12-13]可以使任意大小的特征图转换成固定大小的特征向量。
2 数据集和数据预处理
本文采用国际公开数据集SEED进行实验[14],被试者共15名(7名男性,8名女性,平均年龄23.27),每次实验观看15个电影片段(5个积极片段,5个消极片段,5个中性片段),因此每次实验总共有15个试验trials。在一个trial中,每个影片之前有5 s提示,电影播放时间4 min,自我评估为45 s,休息为15 s。实验环境如图2所示,实验流程如图3所示。影片放映过程中,针对同一情感的两个影片剪辑不会连续显示。每名志愿者进行三次实验,每次实验时间相隔一周,共45次实验。
图2 实验环境
图3 实验流程图
数据集包含了62个通道上记录的脑电信号,根据国际10-20标准系统记录,62通道电极分布如图4所示。之后对采集的信号进行预处理,原始EEG数据(1 000 Hz)被降采样到200 Hz,为了滤除噪声和去除伪影,用0~75 Hz的带通滤波器对EEG数据进行处理,提取了与每部电影的时长相对应的脑电图片段,得到预处理数据集。
图4 62通道电极分布图
2.1 数据特征提取
微分熵特征相对于其他特征而言更适合情绪识别[14],因此我们根据信号的持续时间将信号分成多个1 s段,在每一段中,使用256点非重叠汉宁窗短时傅里叶变换计算预处理后的数据五个频段(δ:1 Hz~3 Hz,θ:4 Hz~7 Hz,α:8 Hz~13 Hz,β:14 Hz~30 Hz,γ:31 Hz~50 Hz)的微分熵特征。
2.2 数据格式说明
本文选用15名被试的预处理数据集和特征提取后的数据集分别进行实验。其数据格式如表1。
表1 数据格式说明表
2.3 数据集样本划分
本文在划分数据集之前对每个被试的样本进行随机打乱操作,然后将其进行归一化处理,本文采用零均值规范化,零均值规范化也称标准差标准化,经过处理的数据的均值为0,标准差为1。转化公式为:
式中:¯x为原始数据的均值,σ为原始数据的标准差。脑电信号进行零均值规范化后可以使所有数据在相同的数量级上,以便后续分类处理。之后按照比例8∶2将数据集划分成训练集与测试集。
3 实验结果与分析
3.1 多尺度卷积核CNN验证
首先确定最佳的多尺度卷积核尺寸。参考文献[11,15]结果,选取了三个不同尺寸的多尺度卷积核在被试15预处理后的数据上分别进行实验,三个尺寸的多尺度卷积核分别是:[1,3,5],[1,2,3],[10,12,15],实验结果如图5所示,发现尺寸[1,3,5]和尺寸[1,2,3]的分类准确率均高于尺寸[10,12,15],说明较小的尺寸能更好的处理情绪脑电信号,且尺寸[1,3,5]的分类准确率是最高的,因此确定多尺度卷积核尺寸为[1,3,5]。其次验证多尺度卷积核CNN的有效性,选用被试15、14、13、12预处理后的脑电数据进行实验,分别采用单尺度卷积核1,3,5和多尺度卷积核[1,3,5]对其脑电信号进行分类,其余参数设置均相同,被试15迭代70次,被试14、13、12分别迭代600次。由图6可知,其中图a,b,c,d分别为被试15、14、13、12的实验结果图,被试13和14,单尺度卷积核[3]、[5]分类准确率几乎相同,被试15单尺度卷积核[3]准确率高于卷积核[5],被试12单尺度卷积核[3]准确率低于卷积核[5],这从侧面反应出脑电情绪具有个体差异性,四个被试实验中,多尺度卷积核的分类准确率均高于其他三个单尺度卷积核,因为多个尺度卷积核中,卷积核较小的感知野较小,因此对于细节特征的检测相对较好;大尺度卷积核考虑到了很大感知野的信息,因此可以忽略掉大量噪声,对整体特征检测较为精确,结果验证了多尺度卷积核CNN的有效性与鲁棒性。网络相关参数设置见表2。
表2 多尺度卷积核CNN参数设置表
图5 多尺度卷积核与多尺度卷积核分类准确率对比
图6 单尺度卷积核与多尺度卷积核分类准确率对比
3.2 通道选择
在实际应用中,使用较少的脑电通道来实现高精度的情感识别是非常重要的,因此我们使用SEED数据集的预处理后的数据探究了脑区和电极数量对情绪识别精度的影响。由于影响情绪的区域主要在脑区的颞叶、前额和前半脑区[4,16],图7显示了本文选取的五种情况下的通道:1)4通道(FT7、FT8、T7、T8);2)6通道(FT7、FT8、T7、T8、TP7、TP8);3)9通道(FP1、FPZ、FP2、FT7、FT8、T7、T8、TP7、TP8);4)15通道(FP1、FPZ、FP2、FT7、FT8、T7、T8、TP7、TP8、C5、C6、CP5、CP6、P7、P8);5)33通道(FT7、FT8、T7、T8、TP7、TP8、C5、C6、CP5、CP6、P7、P8、FP1、FPZ、FP2、AF3、AF4、F7、F5、F3、F1、FZ、F2、F4、F6、F8、FC5、FC3、FC1、FCZ、FC2、FC4、FC6)。
图7 5种不同通道的头皮电极分布
表3 显示了每名被试在5种不同通道上的分类准确率,4通道、6通道、9通道、15通道及33通道的平均准确率分别为74.32%、78.99%、80.52%、83.36%、89.72%,从平均准确率可以看出,随着通道数量的增加,分类准确率也在上升,而且33通道的准确率几乎接近62通道的准确率,说明33通道包含了情感识别的大部分判别信息。此外使用33通道数据进行分类所用的时间比使用62通道数据降低了近80%,通道选择能有效地去除冗余信息,用关键通道进行训练可以提高分类效率。
表3 每名被试在4、6、9、15、33及62通道上的分类准确率 单位:%
3.3 脑电情绪识别分类实验
通过通道选择的实验结果,选用SEED数据集中全部被试者提取微分熵特征后的33通道数据来进行情绪三分类实验。首先将数据集转变成适合作为多尺度卷积核CNN输入的特征样本,每名被试者共有10 182个样本,在输入网络前先对样本进行归一化处理并进行样本划分,最后将样本输入多尺度卷积核CNN,CNN模型超参数设置分别如表4所示,最终取得了理想的分类结果,预处理数据集平均准确率达到89.72%,提取微分熵特征后的平均分类准确率达到98.19%,由图8可知,提取微分熵特征后的分类准确率均高于预处理数据,可见先对预处理数据提取微分熵特征,再输入多尺度卷积核CNN模型进行二次特征提取后的特征更适合情绪分类,虽然不同被试之间存在个体差异性,但是不同被试经过二次特征提取后的分类准确率均高于90%,说明模型具有很好的泛化能力。
表4 提取微分熵特征数据多尺度卷积核CNN模型超参数设置
图8 各被试原始数据与微分熵特征数据在33通道上的分类准确率结果及其对比图
3.4 同类研究结果对比
为了进一步验证本文多尺度卷积核CNN模型特征提取与分类的科学性和优越性,将与同样采用SEED数据集的特征提取与分类方法进行对比分析。文献[4]首先提取脑电信号的微分熵特征,结合深度信念网络进行通道选择,获得86.08%的分类准确度;文献[3]将一维脑电时域信息转换成二维的微分熵频域特征,结合分层卷积神经网络做二次特征提取,获得了88.20%的识别精度;文献[6]提取了原始脑电信号的微分熵特征,通过判别图正则化极限学习机进行分类,得到91.07%的平均准确率;文献[5]采用CNN对脑电信号进行特征提取,用多种分类器进行分类比较,最终随机森林分类器获得最高准确率94.7%;本文首先用多尺度卷积核CNN模型直接对预处理数据集进行情绪分类,得到89.76%的平均准确率,高于文献[3]与文献[4],说明多个尺度卷积核能有效的提取出情绪特征,再次验证了本文方法在特征提取方面的优越性;此外,通过图9可以看出,利用本文方法,对提取过微分熵特征后的数据集进行二次特征提取后的分类准确率比其他文献方法都要高,说明本文方法在SEED数据集上取得的效果更好,在情绪识别方面具有一定价值。
图9 同类研究结果对比图
4 结论
本文以情绪脑电信号作为特征提取对象,在经典CNN模型的基础上进行改进,提出了多尺度卷积核CNN的情绪脑电特征提取与分类方法,并在国际公开数据集SEED上验证了其有效性,取得了98.19%的平均分类准确率,与预处理数据集的分类准确率相比,高出近八个百分点,且高于同类研究结果。本研究证实了多尺度卷积核CNN模型能有效的提取情绪有关特征,且用关键通道进行情绪识别分类可以提高分类效率,也证实了二次特征提取能大大提高分类准确率,同时也表明基于脑电的情绪识别分类准确率与被试的脑电数据质量密切相关,存在个体差异性。虽然进行通道选择后,数据量减少了,训练时间缩短了将近80%,但相对其他方法而言,训练时间还是过长,后续还需要进一步提升。总之,本文提出的模型在情感识别方面具有较好的研究潜力和应用背景。在未来工作中,我们打算在本文的基础上,将眼动信号与脑电信号融合,设计出多模态卷积神经网络用于情绪分类。