APP下载

基于脑电空间域表征可视化的情感识别研究*

2023-11-08王竞茜苗敏敏徐宝国胡文军

传感技术学报 2023年9期
关键词:脑电残差受试者

王竞茜,苗敏敏,2*,徐宝国,胡文军,2

(1.湖州师范学院信息工程学院,浙江 湖州 313000;2.浙江省现代农业资源智慧管理与应用研究重点实验室,浙江 湖州 313000;3.东南大学仪器科学与工程学院,江苏 南京 210096)

情感是多种感觉、思想和行为综合的复杂状态,是人类的一种高级认知活动。 情感识别作为人工智能和现代人机交互等研究中的重要课题,在医疗保健、远程教育和智能机器人等领域具有广泛的应用前景。 早期的情感识别研究通常利用人脸表情、语音以及身体姿态等非生理信号特征,但是人们可以刻意控制表情和声音,因此难以得到客观的情感状态评估结果[1]。 头皮脑电作为一种典型的生理信号,直接从大脑活动中捕捉信息,不易伪装,可以反映大脑的特定状态,在情感识别中发挥着关键作用[2]。

基于EEG 的情感识别主要包括特征提取、选择以及分类方法。 EEG 特征通常能够从时域、频域和时频域中进行提取。 在时域特征方面,Hosseini等[3]将非线性时间序列分析应用于脑电信号,并提取近似熵(Approximate Entropy,ApEn)和小波熵(Wavelet Entropy,WE) 特征,使用支持向量机(Support Vector Machine,SVM)对平静和消极情绪进行分类,得到了73.25%的识别准确率。 在频域特征方面,郝琰等[4]计算功率谱密度(Power Spectral Density,PSD)作为特征来完成唤醒度与愉悦度2 个维度的情感分类,准确率分别达到82.33% 和75.46%。 在时频域特征方面,Liu 等[5]提出了一种基于经验模态分解(Empirical Mode Decomposition,EMD)的混合特征提取方式,并结合序列后向选择(Sequential Backward Selection,SBS)方法实现最优特征选择,利用K近邻(K-Nearest Neighbor,KNN)分类器在愉悦度和唤醒度两个情绪维度上进行识别,准确率分别达到86.46%和84.90%。 此外,主成分分析(Principal Component Analysis,PCA)、小波变换(Wavelet Transform,WT)及共空间模式(Common Spatial Patterns,CSP)等特征提取方法也广泛应用于情感识别。 随着脑电信号处理方法的发展和实际应用需求的提升,从脑电信号中挖掘情感相关鲁棒特征依然值得深入研究。

深度学习通过组合浅层特征形成抽象的高层特征来表示属性类别,从而有利于发现复杂数据的分布特性。 近年来,国内外已有部分研究团队采用深度学习技术进行情感脑电分析。 Zheng 等[6]从多通道EEG 信号提取微分熵特征,利用深度置信网络(Deep Belief Network,DBN)对积极、中性和消极情绪识别分类,平均准确率达到86.08%。 Sharma等[7]基于长短时记忆(Long Short-Term Memory,LSTM)网络使用Softmax 分类器在DEAP 数据集上进行情感分类,得到了82.01%的平均分类准确率。孟明等[8]提出了将CNN 和LSTM 相结合的混合深度神经网络,对DEAP 数据在效价和唤醒维度上进行情感分类实验,平均识别准确率分别达到87.60%和88.58%。

在深度学习技术不断发展的背景下,深度学习可解释性方法也越来越多地被应用在情感脑电分析中。 Qing 等[9]提出了一种新的具有激活机制的可解释情感识别方法,根据分类结果构造包含相关系数和熵系数的情绪激活曲线来揭示情绪的激活过程。 Nie 等[10]利用特征的相关系数发现与情绪相关的脑电特征主要集中于Alpha 频带的右枕叶和顶叶、Beta 频带的中央区以及Gamma 频带的左额叶和右颞叶。 Zheng 等[11]通过研究DBN 模型学习到的权重分布来探索情感识别的关键通道和频带,发现外侧颞叶和前额叶区在Beta 和Gamma 频带比大脑其他区域更活跃。

综合以上分析,本文提出一种基于二维空间域表征可视化的情感脑电分类方法,整体框架如图1所示。 大量研究表明,高频节律比低频节律更有助于情感识别。 Li 等[12]指出Gamma 频段的EEG 信号更适合对快乐和悲伤情绪进行分类。 本研究首先利用带通滤波提取脑电信号的Gamma 频段信号并计算其DE 特征,再根据导联位置将一维DE 特征向量映射成二维矩阵进行拓扑重构,最后通过三次插值法提升图片分辨率。 由于深度学习能够自动学习和提取抽象特征,因此使用ResNet 深度残差网络作为情感分类模型。 虽然许多情感脑电识别模型已经取得了良好的精度,但是仍然无法较好地理解模型的内部表示和处理过程,本文采用事后可解释技术Grad-CAM 解码网络模型,分析模型决策原因。 相较于传统的情感识别方法,本文方法可以更好地获取多通道情感脑电的空间信息,在解决网络退化问题的同时更方便地优化网络,达到较好的分类效果,并结合了可视化技术,有助于理解深度学习模型的内部表征,验证决策过程的正确性。

图1 基于脑电二维空间域表征可视化的情感分类整体框架

1 脑电信号数据集和特征提取

1.1 SEED 数据集与数据预处理

SJTU Emotion EEG Dataset(SEED)[6]是上海交通大学提供的一个免费、公开的情感脑电数据集。该数据集记录了受试者观看15 个电影剪辑片段的EEG 和眼球运动信号,电影片段分为积极、中性和消极三种情感类别,每个电影片段激发受试者单一情绪。 整个试验过程分为5 s 的提示、4 min 左右的电影剪辑放映、45 s 的自我反馈以及15 s 的休息时间。 具体实验过程如图2 所示。

图2 具体实验过程

受试者有15 名(7 名男性,8 名女性,平均年龄23.27 岁,标准差2.37)。 在观看电影剪辑片段时,使用62 通道的ESI NeuroScan 系统和SMI 眼动追踪眼镜收集数据。 实验使用提供的预处理版本,数据由1 000 Hz 降采样到200 Hz,应用带通滤波器将信号滤波至0~75 Hz 频段范围内。

每名受试者共进行3 次实验,取每名受试者的第1 次实验数据作为研究对象,对原始信号进行31 Hz~50 Hz 的带通滤波得到Gamma 频带信号,对15 个观影片段数据按1 s 为时间窗口进行无重叠划分,总共得到3 394 个样本,每种情感类别的样本数目相近。

1.2 微分熵

微分熵是香农信息熵的连续版本,用来度量连续随机变量的复杂性[13]。 Duan 等[14]和Zheng等[15]证明微分熵特征在情感脑电分类任务中具有良好的性能。 因此,本研究计算Gamma 频带信号的微分熵,将其作为特征。 概率密度为f(x)的连续随机变量X的微分熵公式为:

对于一段[a,b]时间范围内的EEG 信号,服从高斯分布N(μ,),其微分熵为:

在特定频带i中,微分熵定义为:

式中:hi表示相应EEG 信号在频带i的微分熵,表示信号方差。

1.3 特征提取

基于脑电的脑机接口系统使用多通道电极帽采集脑电信号。 SEED 数据集采用ESI 神经扫描系统,从62 个电极通道记录脑电信号,62 导联的平面图如图3 左侧所示,实验保留该数据集使用的所有导联。

图3 一维向量拓扑成二维矩阵

从EEG 电极图中可以发现:每个电极都有若干个相邻电极,这些电极记录了大脑特定区域的EEG信号,不同的大脑区域对应不同的大脑活动,而链状的一维EEG 向量仅能包含两个相邻电极的相关性。原始提取的一维DE 特征向量可表示为S=[s1,s2,…,sn],其中sn是第n个电极通道的微分熵值,n为通道总数。 对SEED 数据集来说,采集系统共有62个通道,即n=62。 为了保存多个相邻通道之间的空间信息,根据电极分布图将一维DE 特征向量拓扑成二维矩阵(h×w),其中h为垂直方向使用电极的最大数量,w为水平方向使用电极的最大数量。二维矩阵中不包含电极的位置用0 填充。 在SEED数据集上,h=w=9,由一维特征向量拓扑成二维矩阵的具体过程如图3 所示。 一维DE 特征向量对应的二维矩阵可以表示为:

为了显示特征图的细节,对上述DE 特征二维矩阵进一步使用三次插值,提高其分辨率[16]。 三次插值示例如图4 所示。

2 情感脑电识别模型与可解释性分析

2.1 ResNet 模型构建

卷积神经网络具有局部感知和权值共享等特性,能够有效地挖掘脑电信号不同通道之间的相关性,并获取多导联脑电信号的空间特征[17]。 本文针对性地设计了一种深度残差网络(ResNet)模型对情感EEG 进行分类识别,将二维特征图作为输入,应用二维卷积运算,输出三分类预测的条件概率。残差网络通过层与层之间的快捷连接,可以有效地缓解梯度消失和梯度爆炸等问题。

深度残差网络由多个堆叠的残差单元组成[18],每个单元的一般形式为:

式中:xl和xl+1是第l层的输入和输出,F是残差函数,h(xl)=xl是一个恒等映射,f是ReLU 激活函数。

本文构造的ResNet 模型由6 个残差单元、1 个平均池化层、1 个全连接层以及1 个Softmax 层组成,总体网络结构如图5 所示。 卷积核个数分别设置为32、64 和128,采用全局平均池化减少网络参数,之后将数据输入全连接层输出三维列向量并经过Softmax 函数得到概率分布。 所有中间层使用修正线性单元(Rectified Linear Unit,ReLU)作为激活函数,每个卷积层后包含一个批标准化(Batch Normalization,BN)层。 网络包含两类残差块,考虑到二维脑电特征图的稀疏性,残差块卷积核大小都设置为3×3。 第一类残差块中第一个卷积块步长设置为2,实现降采样,将特征图尺寸缩小,第二个卷积块步长设置为1,同时对原始输入进行下采样以保证经过恒等映射后的输出和经过残差函数处理后的输出维度相同;第二类残差块中的卷积块步长均为1,实现快捷连接,残差块的详细结构如图5虚线框所示。 选用自适应运动估计(Adaptive Moment Estimation,Adam)优化算法,学习率设置为0.0001,权重衰减率设置为0.001。 残差网络的各层参数如表1 所示。

表1 残差网络的各层参数以及输入大小

2.2 情感脑电空间域表征可视化

在卷积神经网络中,特征层层传递,低级特征组合成高级特征[19]。 对于输入数据,通过CNN 的空间卷积操作,得到的最后一个卷积层的特征图包含高级的语义与空间信息。 模型基于这些高级特征进行分类,其在最终决策中的权重可视为特征重要性,同时对特征映射计算加权平均值可有效定位具有类别区分性的局部区域。

梯度加权类激活映射[20]基于上述原理提出,是卷积神经网络表征可视化中基于局部解释的一种重要方法,对网络决策生成视觉解释,凸显分类物体的位置。 基本思想是根据最后一个卷积层的特征图,进行反向传播获取梯度,将梯度作为权重对特征图加权,得到关于某个特定类别的热力图。 此方法简单直观且适用于各种CNN 模型,可以应用在图像分类、弱监督定位、图像描述和视觉问答等方面。

为了识别情感脑电二维空间特征对结果产生重大影响的区域,解释ResNet 模型的决策,使用Grad-CAM 方法。 首先计算类c(消极、中性或积极)的输出yc关于最后一个卷积层第k个特征图Ak的梯度,然后对该梯度进行高和宽维度(分别用i和j表示)的全局平均池化,获得特征图的重要性分数,即:

对特征图的线性组合使用ReLU 函数是为了筛选出对关注类别有正向影响的特征,抑制与其他类别有关的负向影响特征。 将热力图上采样到与输入图像相同尺寸大小以方便和原图叠加进行解释,并归一化得到最终解释图像。 对于类别c,将其所有样本的热力图求取均值,以表示该类的重要区域分布。 使用Grad-CAM 实现可视化过程如图6 所示。

图6 Grad-CAM 实现可视化

3 实验结果与分析

本文的训练和测试过程使用Pytorch 框架在Python3.7 软件环境下实现。 每次实验随机选取受试者样本的80%作为训练集,在训练样本中随机选取10%作为验证集,并将所有样本剩余的20%作为测试集。 实验共有15 名受试者,每名受试者对应一次实验,共进行15 次实验,每名受试者的样本数为3 394,因此训练集、验证集与测试集的样本数分别为2 443、272 和679。 设置训练迭代次数为120,最终取15 次实验结果的平均值作为模型的分类准确率。

3.1 模型准确率

本研究将模型的准确率作为评估指标,即所有测试样本中正确预测的百分比,定义为:

式中:TP 是正确分类的正例数,TN 是正确分类的负例数,FP 是错误分类的负例数,FN 是错误分类的正例数。

为了展示模型对不同情绪的识别效果,利用前4 名受试者的样本训练并测试模型,得到模型的分类混淆矩阵如图7 所示。 从中可以观察到,模型在4 名受试者的三种情绪上均表现优异,每种情绪的分类正确样本数远大于错误样本数。 此外,相比于中性情绪和消极情绪,模型对积极情绪的分类更加准确、分类精度更高。

图7 模型的分类混淆矩阵(前4 名受试者)

本研究使用三次插值法,将9×9 大小的矩阵扩展成32×32,分别对这两种设置进行了实验,结果如图8 所示。 9×9 设置的准确率为94.16%,32×32 设置的准确率为94.88%,提高了0.72%。 同时,对于32×32 大小的样本,每一个受试者的准确率都达到88%以上,具有较好的分类效果,也进一步增加了图片的分辨率,有利于实现Grad-CAM 可视化。

为了验证本文方法的有效性,除选用的微分熵特征外,提取均方根(Root Mean Square,RMS)、方差(Variance,VAR)、功率谱密度、近似熵和样本熵(Sample Entropy,SampEn)特征,分别在SVM(kernel=rbf)、KNN(Neighbors =5)、线性判别分析(Linear Discriminant Analysis,LDA)(Components =2)、随机森林(Random Forest,RF)、深度学习VGG(3 层)以及所设计的ResNet 模型上进行情感分类。 不同特征与模型的分类性能对比如表2 所示。 结果表明,本文的方法在近似熵、样本熵和微分熵特征方面具有最好的分类性能,分别达到92.45%、91.57%和94.88%。 VGG 模型在均方根和方差这两个特征上分类准确率高于ResNet 模型,分别为93.16%和90.84%,但对近似熵和样本熵特征识别效果不理想。 相较于其他特征,微分熵特征在不同的分类器上均能达到较高的准确率,适用于情感脑电识别研究。 本研究选取的DE 特征以及设计的ResNet 模型在SEED 数据集上取得了最优的结果。

表2 不同特征与模型的分类性能对比 单位:%

3.2 同类相关研究对比

将本文的情感识别方法与其他采用SEED 数据集进行识别分类的研究进行对比,几种方法的识别结果如表3 所示。 文献[21]首先对信号段进行短时傅里叶变换(Short-time Fourier Transform,STFT),再将不同通道的DE 特征组织起来构建二维映射,使用分层卷积神经网络(Hierarchical Convolutional Neural Network,HCNN) 识别不同情绪,达到了88.20%的分类准确率。 文献[22]提取脑电信号的DE 特征,采用图正则化稀疏线性回归(Graph Regularized Sparse Linear Regression,GRSLR)作为分类模型,获得了88.41%的识别准确率。 文献[23]利用有向连通图对多通道脑电DE 特征建模,在动态图卷积神经网络(Dynamical Graph Convolutional Neural Networks,DGCNN)上进行脑电情感分类,得到了90.40%的分类准确率。 文献[24]从脑电数据中提取DE 特征,利用双峰深自编码器(Bimodal Deep AutoEncoder,BDAE)网络生成的共享表示特征训练线性SVM 分类器,获得了91.01%的识别准确率。文献[25] 通过小波包变换(Wavelet Packet Transform,WPT)分解脑电数据生成节点并计算其能量作为特征,再基于六种不同深度的CNN,应用加权平均法建立集成模型,取得了93.12%的分类准确率。 本文提取脑电Gamma 频段的DE 特征,将一维DE 特征向量拓扑至二维矩阵并进行三次插值,构造ResNet 模型对情感脑电分类,准确率达到94.88%,高于其他文献,证实了本方法的优越性。

表3 相关研究分类结果

此外,将本文方法与近3 年的研究进行对比。Gao 等[26]提出在脑电信号的多个频带上提取DE 特征并构建核心大脑网络,将第1 次实验数据按照6 ∶4划分训练集和测试集,使用多层卷积神经网络(Multilayer Convolutional Neural Network,MCNN)模型进行分类,准确率达到91.45%。 Li 等[27]和Topic 等[28]都采用3 次实验数据进行10 折交叉验证,分别使用图正则化极限学习机(Graph regularized Extreme Learning Machine,GELM)和SVM 模型对情感脑电进行分类,获得了88.00%和88.45%的识别准确率。 本文使用相同的实验数据和划分方法进行对比分析,准确率分别达到93.10%和93.40%,具体比较结果如图9 所示。

图9 同类研究分类结果比较

与上述基于脑电信号的同类相关方法相比,采用ResNet 深度残差网络在积极、中性、消极三种情感识别问题上获得了最佳分类准确率,表明本文方法具有较强的竞争力。

3.3 可视化结果分析

本文应用Grad-CAM 方法分析生成决策需要关注的输入部分,定位每个情感类别对应的关键脑区。根据导联的空间位置,将62 个导联分成16 个簇[29],具体每个脑区的导联分布情况如表4 所示。

表4 不同脑区的导联分布

为了确定情绪识别的关键通道,需要计算每个情绪类别脑区对应的热力图。 图10 显示了15 名受试者对应积极类别的Grad-CAM 图。 热力图能够反映导联重要性分布,受试者在积极情绪状态下不同脑区中导联的平均重要性值如图11 所示。 从图11 中可以看出,对于积极情绪,关键通道主要分布在外侧颞区。

图10 15 名受试者对应积极类的所有样本的平均Grad-CAM 可视化结果图

图11 在积极情绪状态下不同脑区中导联的平均重要性值

图12 展示了受试者15 通过Grad-CAM 获得的所有样本的平均热力图。

图12 所有样本的平均Grad-CAM 可视化结果图(受试者15)

图13 描述了受试者15 在三种情绪状态下不同脑区中导联的平均重要性值。 从图13 中可以看出,外侧颞叶对积极情绪和消极情绪影响较大,前额叶对中性情绪影响较大,即在Gamma 频段,外侧颞叶和前额叶区域对情感分类的贡献较大。 本文得出的结论与文献[6]、文献[10]、文献[11]、文献[15]中一致。 由于二维卷积运算的影响,定位的关键脑电通道区域比实际范围更广,即与情感识别相关的真正关键的脑区应该集中在热力图亮度最高的几个通道中。

图13 在三种情绪状态下不同脑区中导联的平均重要性值(受试者15)

4 结论

本文对SEED 情感脑电数据集进行研究,将每名受试者15 个4 min 左右的脑电数据按1 s 划分样本。 选取Gamma 频段计算DE 特征,并将一维DE特征向量拓扑成二维矩阵以保留空间信息,利用三次插值法将9×9 大小的矩阵扩展成32×32。 然后采用ResNet 深度残差网络进行情感脑电识别,由表3和图9 可知,所设计模型的准确率高于其他几种模型。 最后通过Grad-CAM 方法定位每个情感类别对应的关键脑区,发现外侧颞叶区和前额叶区对决策产生影响较大。 针对深度学习的黑盒问题,许多理解和解释CNN 的方法已经得到深入研究,本文只应用了其中一种表征可视化方法解释网络模型预测结果,未来可以考虑采取更多的可视化方法应用于脑电深度学习模型可解释性研究。

猜你喜欢

脑电残差受试者
涉及人的生物医学研究应遵循的伦理原则
涉及人的生物医学研究应遵循的伦理原则
基于双向GRU与残差拟合的车辆跟驰建模
涉及人的生物医学研究应遵循的伦理原则
基于残差学习的自适应无人机目标跟踪算法
基于递归残差网络的图像超分辨率重建
涉及人的生物医学研究应遵循的伦理原则
现代实用脑电地形图学(续)
现代实用脑电地形图学(续)
现代实用脑电地形图学(续) 第五章 脑电地形图的临床中的应用