基于Swin Transformer的四维脑电情绪识别

2023-12-30陈宗楠金家瑞潘家辉

计算机技术与发展 2023年12期

陈宗楠,金家瑞,潘家辉

(华南师范大学软件学院,广东佛山 528225)

0 引言

情绪识别是计算机感知人类情感从而进行人机交互反馈的重要环节,在情感脑机接口领域得到了学术界和企业界的广泛关注。在众多情绪识别的方法中,脑电图(Electroencephalogram,EEG)是一种使用电生理指标记录大脑活动的方法,通过记录大脑正常活动的电信号变化,可以反映出脑神经细胞产生的各种生理电信号在大脑皮层的变化情况。已有研究表明,脑电模式会随着生理与心理状态不同而变化,因此使用脑电图来进行情绪识别是可行的[1],能够真实地反映人的情绪状态。

基于EEG的情绪识别是人工智能领域的一个重要分支。在各类基于EEG的情绪识别方法中,使用传统的机器学习如支持向量机(Support Vector Machine,SVM)、决策树等模型[2]对复杂函数表达能力有限,且不同人的脑电之间存在领域偏移(Domain Shift)问题[3],这类浅层模型容易受到不同领域数据分布变化的影响,一定程序上限制了机器学习模型分类复杂模型的能力,使得跨被试情绪识别准确率不高。近年来的工作主要使用基于深度学习的卷积神经网络(Convolution Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)和深度信念网络(Deep Belief Network,DBN)等来分类情绪,通过多层非线性网络结构能够更好地拟合复杂函数[4-5]。Wang等[6]利用3DCNN同时捕获时间和空间特征,并配合批标准化和密集预测解决数据分布偏移和参考标签不可靠问题,其消融实验证实了上述模块的有效性。陈景霞等[7]基于EEG信号的时域、频域特征,提出一种基于CNN的EEG情感特征学习与分类算法,在效价维度上平均准确率最高达到88.76%,在唤醒度上平均准确率最高达到85.57%。Zhang等[8]提出时空RNN,包含空间和时间两层RNN结构,实验策略上选择被试依赖,达到了89.50%的准确率。Chen等[9]提出了一种基于估计熵的深度信念网络情绪识别框架,对情绪四分类的识别准确率达到了83.34%。然而,由于EEG信号的非平稳性所造成的被试间的不同数据分布差异[4],针对单被试训练的分类模型在跨被试情绪识别时存在困难。这种分布差异使得利用固定分类模型对脑电情绪的预测效果随时间改变而下降,极大地限制了脑电情绪识别技术的实际应用。

脑电图的非平稳特性和个体差异限制了情绪识别模型在不同时间、不同受试者之间的泛化,为了解决跨被试情绪识别问题,部分研究团队使用了领域适配(Domain Adaptation)[10-11]和对比学习(Contrastive Learning)方法[12]。李劲鹏[13]为了解决EEG情绪识别模型的跨被试适配问题,提出了一种多源迁移学习框架。在每个合适的源上,减少目标和源域的差异,使源域上的分类器直接用于推断目标中样本的情绪标签。Jin等[14]利用域对抗神经网络(DANN)建立跨被试情感识别模型,在训练阶段保持特征区分性和领域不变性,在SEED数据集上的平均准确率为79.19%±13.14%。郭苗苗等[15]提出全局域适应与相关子域自适应串联系统模型来实现跨被试的情感识别,以解决EEG的非平稳性及个体差异性造成的情绪识别模型跨被试泛化性能低的问题。Shen等[12]提出了基于对比学习的跨被试对齐方法,通过最大化被试间脑电的相似性,来降低跨被试脑电的差异。DANN等模型适配了源域和目标域等边缘分布,但来自多名被试多源域场景的脑电数据则无法进行对抗学习。如果被试间的相关性较低,单源域迁移学习可能会造成负迁移现象。同时,深度神经网络能够对脑电分类进行端到端的自动学习,却忽略了脑电特征和情绪之间的内在关系,导致深度学习模型自动提取情绪特征的可解释性不如人工设计的情绪特征。因此,如何将传统的脑电特征提取方式与深度学习算法相结合,提高模型的可解释性和跨被试情绪识别性能是该文研究的重点。

该文使用Swin Transformer[16]模型用于情绪识别,Swin Transformer是在Transformer[17]和ViT (Vision Transformer)[18]模型上的改进。具体使用上,针对脑电信号特征,该文提出了改进的Swin Transformer框架,进行模型优化。为了适配脑电通道数以及特征维度,修改了输入尺寸和维度,并通过修改滑动窗口大小、特征块大小和优化结构层数来降低模型参数量和浮点运算次数。针对脑电情绪识别任务,通过改进的Swin Transformer将人工特征生成二次特征,映射到一个公共的特征空间,在跨被试情绪识别中也有较高的准确率。为验证模型改进效果,改进后的模型在SEED数据集上测试。通过融合频域和空间域的人工情绪特征,模型速度效率和准确率均有提升,并进行了融合特征的有效性分析。研究结果表明,使用改进的Swin Transformer框架在跨被试情绪识别中有较高的准确率和较快的测试速度,这是将传统机器学习人工提取特征与深度学习特征分类在情感脑机接口的情绪识别任务上的一次有益尝试。

1 数据预处理

1.1 脑电情绪识别框架

基于Swin Transformer的EEG四维脑电情绪识别框架如图1所示,由三部分组成:脑电人工特征提取、特征组合与融合、改进的Swin Transformer情绪识别模型。在脑电特征提取中,将预处理后的脑电源数据从时域、频域和空间域特征提取,得到不同的人工脑电特征。在特征组合与融合中,将脑电特征进行多特征组合形成四维脑电特征数据,4个维度包含单通道特征、脑电多通道、单特征维度、多特征组合。最后将组合特征输入改进的Swin Transformer情绪识别模型,输入的特征大小是单通道特征长为56的56个脑电通道集合,特征深度由组合的原始各个特征维度决定。依照情绪分类任务的类目数量,改变全连接层实现情绪多分类。

图1 基于Swin Transformer的EEG四维脑电情绪识别框架

1.2 脑电特征提取

为提高情绪识别的可解释性,并使传统的脑电特征提取方式与深度学习算法相结合,该文从以下人工特征中开展实验,包含时域、频域、空间域。时域特征包括一阶差分、二阶差分、Hjorth Mobility特征、Hjorth Complexity特征和不稳定指数(Non-Stationary Index,NSI);频域特征包括微分熵(Differential Entropy,DE)和功率谱密度(Power Spectral Density,PSD);空间域特征包括不对称差(Differential Asymmetry,DASM)、不对称商(Rational Asymmetry,RASM)和不对称系数(Asymmetry Index,AsI)。针对频域特征,脑电按频率分为5个频段:δ(1～4 Hz),θ(4～8 Hz),α(8～13 Hz),β(13～30 Hz),γ(30～47 Hz)。各情绪特征的参数根据具体特征维度有所不同,如表1所示。

表1 情绪特征参数

1.3 特征组合与融合

为了脑电数据能够符合文中Swin Transformer模型的输入大小,对源数据的通道和时长进行了选择和处理。模型输入的尺寸大小是(56,56),第一维的56表示将选择56个脑电通道。因为大脑的额叶部分主要控制人们的情感,与情绪密切相关[25],所以例如在62导脑电设备中剔除了非额叶部分6个对脑电特征影响较小的通道:P7,P8,PO7,PO8,CB1和CB2。第二维的56表示一个脑电通道在一个时间片下的特征长度为56。该文对受试者每个实验单次诱导情绪片段截取了175秒脑电数据,共35 000个脑电采样点,按7秒为时间片切分为25组,每组有1 400个脑电采样点。以微分熵为例,将每25个采样点计算1次微分熵特征,使得该时间片微分熵特征是长度为56的向量,与56个通道和5个频段结合后,一个7秒时间片的特征大小为(56,56,5)。最后将这25组时间片叠加成(25,56,56,5),代表了观看一段诱导视频中按7秒为一个时间片分为了25组,其中包含56通道脑电数据各自的长为56的特征,这些特征按频段或者特征组数在维度上进行叠加。

2 情绪识别模型

Swin Transformer[16]是2021年提出的一种新型的Transformer架构,通过一个层次化的Transformer来解决二维数据的训练难点,其表示是用滑动窗口计算的。根据脑电特征图的大小和维度,对其模型结构进行了适配,图2是适配后的模型结构和其输入特征尺寸和维度的变化细节。针对脑电情绪识别任务,Swin Transformer模型适配了人工脑电特征的输入尺寸和维度,将人工特征生成二次特征,映射到一个公共的特征空间,使得跨被试情绪识别效果更好。模型通过优化与改进结构,修改特征块(Patch)的大小和通用结构层数,降低了模型参数量和浮点运算次数,使其有较快的运行速度。

图2 改进的Swin Transformer模型

为适配Swin Transformer模型的输入结构,输入模型的脑电特征大小定为56×56,输入特征的维度由具体特征或特征组合而定,假定为n维,则通过2×2的特征块分区转化为28×28×4n的大小。根据人工脑电特征的构建,每个2×2特征块包含相邻时间和相邻通道的特征数据。块合并(Patch Merging) 类似于CNN的池化层,能够让模型产生多尺度的特征。随着模型的深入,经过块合并后每个块会拥有成倍增加的视野,使得表征能力更强。线性嵌入层(Linear Embedding)把特征维度升至8n,提高了不同特征间的可区分性。在Swin Transformer基本模块中,使用基于窗口的掩码自注意力机制(W-MSA)对2×2特征块内计算自注意力,再使用基于滑动窗口的掩码自注意力机制(SW-MSA)使窗口之间进行互动,不同块的特征之间产生联系。滑动窗口方案将自注意力机制限制在非重叠的局部窗口上,通过允许跨窗口连接从而提高了效率。这种分层结构具有在不同尺度下建模的灵活性,并且相对于图像大小具有线性计算复杂性,能够提高模型的运行速度。通过线性嵌入层后,单层特征会被拉直为序列,使用层归一化(Layer Normalization,LN)在通道方向上进行归一化操作,最后通过一个全连接层(Multilayer Perceptron,MLP)输出到下一个模块。鉴于原始特征输入大小为56,对最小的Swin-Tiny模型的模块进行修改,删去了最后一个块合并和基本结构块,整个模型由3个阶段组成,如图2所示,最后的输出再接上对应三分类的全连接层即可进行脑电情绪三分类。

3 实验结果与分析

3.1 数据集

实验数据集使用上海交通大学提供的情绪脑电数据库(Shanghai Jiao Tong University, Emotion Electroencephalogram Dataset,SEED)[4]。SEED包含15名受试者(7名男性,平均年龄23.27,标准差为2.37)在观看电影片段时收集的脑电图。电影片段诱发受试者产生不同类型的情绪:积极、中性和消极。15个电影片段包含5个积极片段、5个中性片段和5个消极片段。15名受试者观看约4分钟的单个电影片段时,使用62通道的ESI Neuro Scan系统采集脑电信号,相应的EEG电极布置如图3所示。

图3 SEED的EEG电极通道

SEED提供了15名受试者各进行3次实验的脑电数据,共45次实验。每名受试者每次实验分为15段诱导脑电,其中表示积极、中性和消极的脑电数据各5段。单个脑电数据包含62通道上记录的脑电图,对其进行下采样处理,从原始1 000 Hz的EEG数据降采样到200 Hz。为了滤除噪声和去伪影,使用0.3～50 Hz的带通滤波器对EEG数据进行预处理。该文将在SEED提供的预处理脑电上进行实验。

3.2 实验设计

为了研究Swin Transformer模型在不同特征组合下单被试、跨被试的情绪分类能力,设计了三种实验,分别为代表情绪特征的选取、单被试情绪识别和跨被试情绪识别,最后通过消融实验在单被试和跨被试中验证特征融合的有效性。

在代表情绪特征的选取中,使用Swin Transformer模型分别对各个特征单独做情绪识别测试,以选取有代表性的一种或多种特征来代表情绪,实验中训练集和测试集的比例为8∶2。其中单被试准确率表示使用该特征分别测试15名受试者,取所有受试者准确率的平均值作为该特征的单被试准确率。在跨被试实验中,将SEED的15名受试者分别划分为15个独立的域。当1名受试者作为目标域时,其脑电数据将作为测试数据计算跨被试准确率,其余14名受试者将作为训练数据生成二次特征,映射到一个公共的特征空间,最终取各受试者作为目标域的测试准确率平均值作为该特征的跨被试准确率。通过对比各特征单被试和跨被试准确率,选取效果较好的人工特征融合为代表情绪特征,达到提高情绪识别效果的目的。

在代表情绪特征的单被试和跨被试情绪识别中,单被试和跨被试的实验设计与上述方法相同。其目的是从融合的不同人工脑电特征中获得最具差异性的信息,利用特征之间的互补性,融合特征之间的优点,进而提高模型的性能。为保证融合代表特征中每一个特征都起到了提升模型情绪识别能力的作用,消融实验则通过测试代表情绪特征不同组合的情绪识别准确率,以验证单个特征对模型情绪识别能力提升的贡献。

3.3 结果与分析

在代表情绪特征的选取中频域DE特征的单被试准确率最高(90.24%),频域PSD特征的跨被试准确率最高(82.16%)。空间域的特征表现不如频域特征优秀,但它能补充频域特征在空间分布上的位置信息。时域特征则表现较差,在情绪三分类任务里准确率较低,并不能达到很好的情绪表征能力。各个特征的情绪识别准确率如表2所示。结合不同特征的特点和测试准确度,选用单被试准确率高于80%且跨被试准确率表现较好的3个特征,即频域的微分熵和功率谱密度、空间域的不对称系数组成融合代表特征。

表2 单特征情绪识别准确率 %

在代表情绪特征的单被试情绪识别中,测试准确率如表3所示,该表包含了15名被试各自模型的情绪识别准确率。相较于单一特征,融合了3个特征的组合特征在情绪识别准确率更高,平均准确率达到了94.73%,标准差为1.72%,其中最高的单被试准确率达到了96.89%。

表3 单被试情绪识别准确率 %

模型在各个被试上训练测试的结果较为稳定,皆能达到90%以上的结果。各个被试的融合代表特征情绪识别准确率高于原先单一特征的DE最高平均准确率90.24%,说明多个有效特征的融合有利于情绪识别能力的提升。

图4展示了以第一位受试者作为单被试训练以及跨被试的目标域时,其脑电数据作为测试数据计算单被试和跨被试的准确率和测试误差的结果。从结果来看,模型在第150轮左右开始收敛,在单被试测试上能达到约95%的准确率,在跨被试测试上能达到约90%的准确率。为保证模型测试的稳定性,对15名受试者进行单被试和跨被试测试的准确率取平均值记录,用该值代表模型的平均性能。将文中模型与近三年脑电情绪识别模型在SEED的识别准确率进行对比,如表4所示。

表4 情绪识别的准确率对比 %

表5 消融实验

图4 文中模型的准确率与测试误差

利用Swin Transformer使用层次化Transformer解决二维数据训练困难的特点,将脑电特征构造成相应的模型输入,在单被试和跨被试中都取得了较高的脑电情绪识别准确率。文中模型的输入融合了不同特征,相较于单个模态,有更好的情绪识别准确率。在单被试中,相较于STNN[8],R2G-STNN[26],BiDANN[3],BiHDM[27],ATDD-LSTM[28]的单模态模型输入,文中模型通过融合多个有效特征提升模型的情绪识别能力。与多模态输入的DGCNN[29]相比,DGCNN通过动态图卷积神经网络将不同通道的EEG用邻接矩阵学习空间域特征,文中模型使用人工特征中的不对称系数来代表脑电的空间域特征,在单被试实验准确率和模型可解释性上都更优秀。在跨被试中,文中模型依然可以达到接近90%准确率,高于PSD单特征的82.16%。由于没有在代表特征中融合进有效的时域人工特征,仅使用7秒的时间片来计算每种特征,文中模型在跨被试准确率上比ATDD-LSTM[28]的90.92%低1.29百分点,但仍然在跨被试情绪识别上有较高的分类准确率。

此外在模型速度方面,文中模型的测试速度能达到实时处理的水平。相比起原本的Swin-T模型29 M模型参数量和4.5 G的浮点运算次数,修改后的模型使用的模型参数量为12.1 M,浮点运算次数为902.6 M。在实验训练条件的脑电识别测试时,处理一段7 s的脑电平均用时0.37 s,说明在一些计算能力较弱的环境以及未来实际应用时能够较为容易达到实时处理的水平。

从消融实验结果中可知,使用多种人工特征组合后的效果要优于单一人工特征的脑电情绪识别效果。在单被试脑电情绪识别中,使用PSD和AsI能够给单一DE特征带来3.57百分点和2.69百分点的提升,使用DE和AsI能够给单一PSD特征带来4.49百分点和3.14百分点的提升,使用DE和PSD能够给AsI特征带来11.5百分点和11.03百分点的提升。在跨被试情绪识别上也有同样的准确率提升,平均能够提高约3.2百分点。使用3种特征的组合特征效果最好,能够在单被试达到94.73%、多被试达到89.63%的情绪识别准确率。这说明在融合代表特征种的3种人工特征对脑电情绪识别的结果都有各自的贡献,通过特征组合来提高情绪识别能力是有效的。

4 结束语

该文提出一种基于Swin Transformer的EEG四维脑电情绪识别模型来对脑电情绪进行分类研究。通过对Swin Transformer进行模型优化,修改了输入尺寸、维度和模型内滑动窗口、特征块的大小。研究结果表明,通过Swin Transformer进行跨时间或跨被试情绪识别,最终均得到了较高的准确率和较快的测试速度,在单被试达到了94.73%±1.72%的准确率,跨被试达到了89.63%±3.42%的情绪识别准确率。在与同类任务的其它模型的对比中,文中模型在效果上不仅有显著优势,并且在可解释性上也更好。测试速度上,模型优化结构后的参数量和浮点运算量能够满足实时脑电情绪识别的要求。这是将传统机器学习人工提取特征与深度学习特征分类在情感脑机接口的情绪识别任务上的一次有益尝试,为脑电情绪识别的实际应用提供了新的方法。