结合3D-CNN和频-空注意力机制的EEG情感识别

2022-07-04张雪英陈桂军

西安电子科技大学学报 2022年3期

张静，张雪英，陈桂军，闫超

(太原理工大学信息与计算机学院，山西太原 030024)

人工智能技术的发展，正在改变着人机交互的方式。其中，情感识别促进了人与智能设备的交互，在人机交互领域占有重要地位。情感的产生往往是由外部刺激诱发的复杂心理和生理变化过程，相比于语音、表情等非生理信号，脑电(ElectroencEphaloGram，EEG)信号能够在不受人为主观控制的情况下反映人的内心情绪状态，并且具有无创、可靠、成本低等特点。近年来神经科学研究表明，大脑皮层存在一些特定区域，这些区域与情感存在密切的关系[1-2]。因此，基于脑电信号的情感识别在情感计算领域得到了越来越多的关注。

随着深度学习在计算机视觉、自然语言处理等领域取得显著成效，研究者们逐渐将深度学习应用于脑电情感识别领域。文献[3]结合卷积神经网络和循环神经网络提出了一种卷积递归神经网络，其在DEAP数据集[4]效价维和唤醒维二分类的识别率分别为72.06%和74.12%。文献[5]提出一种多模态残差基于长短时记忆网络，其在DEAP数据集效价维和唤醒维二分类的识别率分别为92.87%和92.30%。上述研究表明，基于深度学习的情感识别模型比传统机器学习具有更好的识别性能。

脑电信号包含丰富的时域、空间域以及频域信息，但是要融合不同域的脑电信息以期得到更好表征情感识别的模型仍具有挑战性[6]。目前的研究主要集中在两个方面：一是寻找新的方法表征原始脑电信号，使之能够包含更有效的脑电信息；二是设计一种更适合情感识别的深度学习网络。针对上述问题，国内外学者做出了诸多尝试。文献[7]利用小波变换得到脑电信号的二维时频图，并采用自适应卷积神经网络模型在DEAP数据集的效价维和唤醒维二分类以及效价-唤醒维四分类上分别达到76.56%，80.46%和73.43%的平均识别率。文献[8]设计了一种三维特征表示方法，同时保留脑电信号的频率和空间信息，并采用连续卷积网络在DEAP数据集的效价维和唤醒维二分类平均识别率分别为90.24%和89.45%。文献[9]针对微分熵(Differential Entropy，DE)特征[10]设计了一种4D-CRNN模型，分别使用卷积神经网络和LSTM学习脑电信号中的空频域特征和时域特征，在DEAP数据集效价维和唤醒维的识别率分别达到了94.11%和94.22%。上述研究表明，结合脑电信号时域、空间域和频域的特征有助于提升情感识别性能。然而，现有研究只结合脑电信号时域、空间域和频域任意二者之间的信息，并没有一种方案可以同时关注脑电信号的时域、空间域和频域的信息。

此外，不同脑区和频段的脑电信号对情感表达能力也不尽相同，近年来注意力机制逐渐被引入脑电情感识别中，用于挖掘脑电信号在时间、空间和频率上与情感相关的特性[11]。文献[12]提出了一种具有注意力机制的两层双向门控循环单元(Gated Recurrent Unit，GRU)模型，通过对局部和全局脑电特征分配不同的权重，从而提取脑电信号的显著特征，在效价维和唤醒维二分类识别率分别达到了67.9%和66.5%，较传统LSTM模型分别提升了4.2%和4.6%。文献[13]提出了一种基于注意力机制的CRNN网络，采用基于通道的注意机制卷积神经网络模型和基于自注意机制LSTM模型分别挖掘脑电信号不同电极通道和不同时间的重要性，该模型在 DEAP数据集的效价维和唤醒维二分类识别性能分别达到了93.72%和93.38%，较传统CRNN模型分别提升了30.75%和26.26%。由此可以看出，注意力机制可以很好地关注脑电信号中更能表达情感的时间、频率以及空间电极位置，进而提升情感识别性能。因此，将频率注意力机制和空间注意力机制结合，可以挖掘脑电信号中更能反映情感状态的空间和频率信息。

以提高脑电信号的情感分类识别性能为目标，笔者提出一种基于3D-CNN和频率-空间注意力机制(Frequency-Spatial Attention mechanism-based 3D-CNN，FSA-3D-CNN)的情感识别模型。首先，提取DEAP公共数据集中脑电信号的DE特征并设计了一种四维特征表示结构，将DE特征转换为时间-空间-频率的四维特征结构，有效地整合脑电信号的时域、空间域和频域信息；其次，提出一种改进的3D-CNN识别网络，可以同时学习脑电信号中的时间、空间和频率的信息；然后，将频域注意力机制和空间注意力机制相结合并应用于3D-CNN网络中，挖掘脑电信号中更能显著反映情感状态变化的空间和频率信息。最后，FSA-3D-CNN在公共DEAP情感数据集[4]的效价维和唤醒维二分类平均识别率分别达到约95.87%和95.23%，效价-唤醒维四分类平均识别率达到约94.53%。

1 模型和方法

图1为FSA-3D-CNN情感识别框架。主要包括情感脑电信号时域分段，DE特征提取和四维特征表示，以及提出的FSA-3D-CNN情感识别模型。

图1 FSA-3D-CNN情感识别框架

1.1 四维特征结构

图2为提出的四维特征构建过程。首先，将原始脑电信号分为N个相同长度的脑电段信号，并通过傅里叶变换分别提取θ(4～8 Hz)、α(8～12 Hz)、β(12～30 Hz)、γ(30～45 Hz)4个频段的脑电信号。相比于其他情感脑电特征，DE特征在情感识别领域应用更加广泛且具有较好的情感识别性能。因此，对每段脑电信号在每个频段上分别计算DE特征h(X)。其计算过程如下所示：

图2 四维特征构建过程

(1)

(2)

为了保持脑电电极位置的空间结构信息，根据脑电电极的空间坐标以及不同电极之间的相对位置，将32导联脑电信号的DE特征值映射为二维特征图，如图3所示。按照图3(a)中给出的脑电电极空间坐标，将原始电极按照水平和垂直划分映射到二维空间，对于没有值的位置采用0填充，最终得到大小为9×9的二维特征图，如图3(b)所示。

图3 32导联电极节点映射二维图

基于此，每个频段脑电信号的DE特征均可转换为二维特征图，将4个频段(θ，α，β，γ)的二维特征图叠加后得到9×9×4的三维特征矩阵，该矩阵包含脑电信号的空间和频率信息。最后，由于每个脑电信号被等分为N段，对每段脑电信号分别求取其三维特征，最终得到一个大小为N×9×9×4的四维特征，更多地保留了脑电信号的时域、频域和空间域的信息。

1.2 改进的3D-CNN识别模型

3D-CNN在图像特征提取方面具有强大的能力，目前在计算机视觉领域已经得到广泛应用。文献[8]使用3D-CNN提取脑电信号中的频率和空间信息，但是并没有考虑脑电信号的时间特性。然而上述四维特征包含脑电信号的时间、空间和频率信息，无法直接使用3D-CNN进行情感识别。基于此，借鉴计算机视觉中二维图像的彩色通道思想，将脑电信号的频率维度类比为视频序列中的RGB通道，此时每个时刻的三维特征类比为一幅彩色图像，四维特征类比为视频序列，具体对应关系如表1所示。

表1 脑电特征结构与计算机视觉对应关系

针对四维特征提出一种改进3D-CNN情感识别模型，如图4所示，该模型可以同时提取脑电信号中的时间、空间以及频率维度的信息。改进3D-CNN模型包括输入层、3个三维卷积层、全连接层和输出层。首先，采用3个三维卷积层提取脑电信号的深度时、空、频特征，然后通过全连接层将特征空间通过线性变换映射到样本标记空间，并得到情感识别结果。其中，三维卷积核的大小均为3×3×3，每层卷积核的个数分别为32、64、128。与传统的3D-CNN模型不同，在相邻的两个三维卷积层之间没有池化层，这是由于DE特征图的大小只有9×9，如果进行多次池化，则会导致大量脑电特征中空间信息的丢失。

1.3 FSA-3D-CNN模型

注意力在人类感知中起着重要作用。受人类注意力的启发，近年来各种注意力机制被提出并用于计算机视觉领域，如通道注意力、空间注意力、语义注意力等[11，14]。现有研究表明[5]，情感诱发下不同频带的脑电信号对情感的识别能力各不相同，其中β和γ频段的识别性能较好，α频段次之，θ频段最差。此外，由图3可以看出，在电极映射的二维特征图中有很大一部分的值为0，然而在3D-CNN训练过程中，将它们与有值的电极位置分配相同的权重，这与脑电电极的实际空间信息分布不一致。基于此，将3D-CNN模型与注意力机制模型相结合，提出一种频率-空间融合注意力机制的3D-CNN情感识别模型，通过对3D-CNN中卷积层的输出信号进行加权调整，更好地利用脑电信号中与情感显著相关的频段和电极节点位置。网络结构如图5所示。

图5(a)展示了FSA-3D-CNN模型。对于输入的四维特征，依次经过3个FSA-3D-CNN层、一个全连接层以及一个Softmax层，得到情感识别结果。其中，每个三维卷积层都使用相同的网络结构，每个3D-CNN层的内部结构如图5(b)所示，包括2个三维卷积层，BN层，频率-空间注意力层，Dropout层以及ReLu层。

图5 FSA-3D-CNN模型

频率-空间注意力机制的具体过程如图6所示。

图6 频率-空间注意力机制

假设3D-CNN网络中每个卷积层输出维数为C×W×H×B，其中C、W、H、B分别为四维特征图在每个卷积阶段的通道、宽度、高度和频段。对于给定输入信号X∈RC×W×H×B，依次经过频率注意力机制Ff∈R1×1×1×B和空间注意力机制Fs∈R1×W×H×1，得到输出信号Y∈RC×W×H×B。整个过程可以表达为

X′=Ff(X)⊗X，

(3)

Y=Fs(X′)⊗X′ ，

(4)

其中，X′表示经过频率注意力机制以后的输出信号。

1.3.1 频率注意力机制

不同频段的脑电信号对情感的反应能力不同，为了探索脑电信号中不同频段的重要程度，将频率注意力机制应用于3D-CNN网络的每层输出X。如图6所示，首先对X采用全局平均池化去除时间和空间维度，得到第b个频率下的特征均值Fave，b：

(5)

其中，Xb∈RC×W×H×1，表示第b个频率下的C个通道中大小为W×H的二维特征图集合。

然后，采用2个全连接层、ReLu激活函数和Sigmoid激活函数实现频率注意力机制，最终得到与频段数相同的1D向量作为频率注意力机制的权重系数Ff(X)∈R1×1×1×B：

Ff(X)=f2(ReLu(f1FAave)) ，

(6)

其中，f1和f2分别表示2个全连接层的映射过程，FReLu(x)和FSigmoid(x)激活函数分别表示为

FReLu(x)=max(x，0) ，

(7)

(8)

最后将频率注意力机制的权重系数Ff(X)施加于输入信号X实现频率注意力机制的过程。通过上述过程最终为各个频段分配不同的权重，更加关注与情感相关的脑电频段。

1.3.2 空间注意力机制

在包含多通道的情感脑电信号中，必然存在与情感不相关以及对情感反映不强烈的电极通道。此外，图3所示的二维特征图在保持了大脑空间结构的同时，也引入了大量值为0的无意义信息。基于此，在频率注意力机制之后增加空间注意力机制，自适应地捕获重要的大脑区域。如图6所示，对于频率注意力机制的输出特征X′，首先分别进行最大池化Smax，(h，w)和平均池化Save，(h，w)操作，并将二者拼接得到新的特征描述S∈R1×W×H×2。最后对S依次经过2D卷积层和Sigmoid层生成空间注意力图Fs∈R1×W×H×1。该过程可以表示为

(9)

(10)

S=cat(Save，(h，w)，Smax，(h，w)) ，

(11)

Fs(X′)=Sigmoid(conv(S)) ，

(12)

最后将得到的W×H大小的空间注意力权重系数施加于特征X′，最终得到空间注意力机制的输出特征Y，即输入信号经过频率-空间注意力机制以后的输出信号。

2 实验结果分析

2.1 实验参数设置

DEAP数据库[4]是由英国伦敦玛丽皇后大学的KOELSTRA等人通过实验采集得到，用来研究人类情感状态的多通道数据，记录了32名受试者观看40段时长为1分钟的音乐视频的脑电信号和外周生理信号；参与者对他们的唤醒、效价、联系和支配能力水平进行自我评估。DEAP数据库包含32通道脑电信号，经下采样后频率为128 Hz。一般情况下，人的情绪状态持续时间为1 s到12 s。研究表明，3 s滑动窗口可以获得较好的分类准确率[13，15]。因此，每个被试者最终得到800个脑电样本。通过分析DEAP情感数据库在效价维和唤醒维的二分类和四分类情感识别性能，验证FSA-3D-CNN模型的有效性。

所有实验使用相同的软硬件环境、实验数据集划分、参数设置和评价指标。硬件环境为戴尔 XPS 8930台式电脑，处理器(CPU)为英特尔Core i7-8700K @ 3.70 GHz六核，内存(RAM)为16 GB，显卡为Nvidia GeForce RTX 1080。软件环境为Windows 10操作系统，Python 3.6编程语言环境以及Pytorch深度学习框架。对于提出的FSA-3D-CNN情感识别模型，采用Adam优化算法最小化交叉熵损失函数，学习率和batchsize分别为0.000 3和128。为了减少模型训练过程中的过拟合现象，设置Dropout的值为0.3。此外，每个被试者均使用五折交叉验证，并将五折平均值作为该被试的情感识别结果，最后计算32名被试者的平均识别率和标准差，用于评估最终模型的识别性能。

2.2 不同数量脑电段的识别性能

由于脑电信号的长度决定了所包含情绪信息的不同，笔者重点研究了时间段的个数对情感识别性能的影响，选取时间段个数N∈[2，3，6，12]。表2给出了不同时间长度划分下的效价维和唤醒维二分类和四分类的情感识别结果。从中可以看出，当N=3时，FSA-3D-CNN模型识别性能达到最优。其中，效价维、唤醒维二分类以及效价-唤醒维四分类的平均识别率分别约为95.87%、95.23%和94.53%。相比于N为2、6和12时，N=3在三种分类性能上平均提高了约0.37%、1.99%和3.14%。因此，在后续的实验过程中，将脑电信号均分为3段，此时的四维特征维度为3×9×9×4。

表2 不同个数脑电段下FSA-3D-CNN的情感识别性能 %

2.3 不同注意力机制下的脑电情感识别性能

为了分析提出频率-空间注意力机制中每个部分的贡献，对FSA-3D-CNN模型进行消融，通过分析每个部分的作用验证融合注意力机制模型的有效性。主要包括无注意力机制(3D-CNN)、频率注意力机制(FA-3D-CNN)、空间注意力机制(SA-3D-CNN)和频率-空间注意力机制(FSA-3D-CNN)4种情况。图7展示了不同注意力机制下的EEG情感识别性能。可以看出，相比于3D-CNN模型，增加注意力机制的FA-3D-CNN、SA-3D-CNN和FSA-3D-CNN模型在效价维和唤醒维二分类以及效价维-唤醒维四分类的情感识别率均取得了2%～5%的提升。实验结果表明，在3D-CNN模型中增加注意力机制模块，可以有效地提升脑电信号情感识别性能。

图7 不同注意力机制下的脑电情感识别性能

此外，FSA-3D-CNN模型比3D-CNN、FA-3D-CNN和SA-3D-CNN模型在效价维二分类分别提升了约4.85%、1.62%和2.66%，在唤醒维二分类分别提升了约4.52%、1.01%和2.43%，在效价-唤醒维四分类上提升了约4.51%、1.96%和1.71%。实验结果表明，采用FSA-3D-CNN可以更好地提取脑电信号在频率和空间上更能表达情感的认知模式，有助于寻找更能表达人类情感状态的频率和大脑区域。

2.4 不同情感识别模型的性能对比

为了进一步验证方法的有效性，将FSA-3D-CNN模型分别与传统的卷积神经网络和LSTM，以及最新的CCNN[8]、CRNN[9]以及4D-CRNN[9]进行了比较。每种方案的识别准确率和标准差如表3所示。

为了验证设计的四维特征组织形式的有效性，首先将提出的改进3D-CNN与传统的3D-CNN和LSTM进行了对比。传统的卷积神经网络只能从脑电信号中提取频率和空间信息，LSTM只能提取脑电信号的时间和频率信息，而改进的3D-CNN可以同时提取脑电信号的时间、空间和频率信息。从表3可以看出，改进的3D-CNN方案相比传统方案在二分类和四分类上都取得了较好的提升。其中，改进3D-CNN方案在效价-唤醒维四分类识别性能提升最高，比传统的3D-CNN和LSTM分别提升了约5.02%和12.34%。实验结果表明，改进3D-CNN模型在频率和空间特征学习方面优于传统的3D-CNN、LSTM模型。

表3 不同方案的情感识别性能对比结果 %

为了验证频率-空间注意力机制的有效性，将FSA-3D-CNN方案与单一注意力机制的性能对比以外，还与最新的ACRNN[13]进行了对比。ACRNN采用通道注意力机制和自注意力机制，分别关注脑电信号中的空间信息和EEG信号本身的重要性。实验结果表明，FSA-3D-CNN比ACRNN在效价维和唤醒维二分类上分别提升了约2.14%和1.95%。相比单一注意力机制模型FA-3D-CNN和SA-3D-CNN，也取得了较好的提升。上述结果进一步验证了频率-空间注意力机制可以很好地利用情感脑电信号在不同频段和空间上的对情感识别能的差异性，进而提升整体识别性能。

此外，表3中也将FSA-3D-CNN方案与最新的CCNN 、CRNN和4D-CRNN模型进行了对比。CCNN是同时提取脑电信号的空间和频率特征，忽略了脑电信号的时间特性；CRNN方案先提取脑电信号的空间特征，然后提取时间特征，忽略了脑电信号的频率特征；4D-CRNN方案先提取脑电信号的频率和空间特征，然后提取时间特征。与CCNN、CRNN和4D-CRNN方案相比，FSA-3D-CNN在效价维二分类上分别提升了约6.07%、3.89%和1.65%；在唤醒维二分类上分别提升了约4.73%、2.77%和0.65%；在效价-唤醒维四分类上分别提升了约9.23%、8.69%和5.66%。综上所述， FSA-3D-CNN同时考虑脑电信号的时间、空间和频率信息，可以更好地提取与情绪相关的特征。

3 结束语

考虑到情感脑电信号包含时间、空间以及频率三个维度的信息，笔者提出一种FSA-3D-CNN情感识别模型。首先，根据脑电信号的特性设计了一种四维特征结构，可以同时包含脑电信号的时间、空间以及频率上的信息。其次，针对四维输入特征提出一种改进的3D-CNN模型，可以同时提取脑电信号中的时-空-频特征，在DEAP数据库的效价维和唤醒维二分类以及效价-唤醒维四分类的实验结果表明，提出的改进3D-CNN模型比传统的卷积神经网络和LSTM模型取得了明显的提升。最后，针对改进的3D-CNN情感识别模型，设计了一种频率-空间注意力机制模块提取脑电信号中更反映情感状态变化的频段和脑区。通过对不同注意模块的消融研究表明，提出的频率-空间注意机制是有效的。最后，DEAP数据集上实验结果表明，FSA-3D-CNN模型的性能优于目前最新的方案。在未来的工作中，可以考虑尝试将DE特征与更多的特征相结合，通过特征互补性进一步增强脑电信号的情感识别性能。