APP下载

基于连续卷积神经网络的3D脑电图情绪识别

2023-09-25李文书王浩

计算机时代 2023年9期
关键词:立方体脑电图效价

李文书 王浩

摘 要: 作为人类大脑神经活动的重要指标,脑电(EEG)信号能更深层次地反映人的情绪状况,但当前大多数深度学习模型通过EEG识别情绪不够精确。本文提出基于连续卷积神经网络的3D脑电图情绪识别模型,采用提取DE和PSD特征时得到的等价矩阵所构造的三维脑电图立方体作为输入,舍弃卷积神经网络中的池化层。在DEAP数据集上进行实验,Arousal准确率为95.77%,Valence准确率为93.52%,表明该方法非常适用于情绪识别,能给后续相关研究提供参考。

关键词: 脑电情绪识别; 连续卷积神经网络; 深度学习; DEAP数据集; 3D脑电图

中图分类号:TP183          文献标识码:A     文章编号:1006-8228(2023)09-96-05

Emotion recognition in 3D EEG based on continuous convolutional neural network

Li Wenshu, Wang Hao

(Laboratory of Intelligent Identification and Systems, School of Computer Science, Zhejiang Sci-Tech University, Hangzhou, Zhejiang 310018, China)

Abstract: As an important indicator of human brain neural activity, the electroencephalography (EEG) signal can reflect human emotional condition at a deeper level, but most current deep learning models are not accurate enough to identify emotions by EEG. A 3D EEG emotion recognition model based on continuous convolutional neural network is proposed, which uses the 3D EEG cube constructed from the equivalence matrix obtained when extracting DE and PSD features as input and discards the pooling layer in the convolutional neural network. Experiments are conducted on the DEAP dataset with an accuracy of 95.77% for Arousal and 93.52% for Valence, which shows that the method is suitable for emotion recognition tasks and can provide references for subsequent related research.

Key words: EEG emotion recognition; continuous convolutional neural network; deep learning; DEAP dataset; 3D-electroencephalogram

0 引言

“棄我去者,昨日之日不可留;乱我心者,今日之日多烦忧”。此句出自诗人李白,其揭示的是情绪对日常生活的影响。如今,人工智能技术对于精确获得人类的情绪状态起到至关重要的作用[1]。

人类情绪可以通过面部表情、言语、眼动信号和生理信号来检测。前三种都容易受到被试者的主观影响,而脑电图(EEG)[2]、眼电图(EOG)等生理信号是由人体自发产生的。脑电信号来自人脑,其变化可以直观准确地反映人类情绪状态。因此,许多研究者开始使用脑电图信号来研究情绪识别。

郑伟龙研究脑电图的情绪识别临界频带,并得出beta和gamma频带更适合于任务[3]。一项关于脑电信号分布的研究也证实了高频波段更能区分情绪状态[4]。唐昊等人使用双峰深度去噪自动编码器和双峰-LSTM对情绪状态进行分类,平均准确率为83.25%[5]。还有一种将多通道脑电图数据转换为二维帧表示的预处理方法,结合了CNN和RNN来识别情绪[6]。李友军从不同的脑电图通道中提取功率谱密度(PSD),构建多维特征图像(MFI),并结合CNN和LSTM来处理脑电图MFI序列,识别人类情绪[7]。杨仪龙从EEG信号中分频提取微分熵(DE),对高频波段分类训练,集成CNN来识别情绪,平均准确率为89.84%[8]。

大多数研究忽略了基础信号(无刺激下记录的脑电图信号)的重要性。据此分析,我们提出一种脑电图片段的三维输入形式(融合了微分熵DE和功率谱密度PSD),通过等价二维矩阵的方式将其输入至连续卷积神经网络,舍弃原卷积神经网络中的池化层,有效地提升了准确率。

1 情绪维度理论及DEAP数据集介绍

1.1 情绪维度理论

情绪维度理论由美国心理学家威廉·詹姆士和丹麦生理学家卡尔兰格提出,目前已成为情绪分类标准的主流方案[9],如图1所示。

情绪维度模型由两个维度组成,横轴表示效价度(Valence),纵轴表示唤醒度(Arousal)。人类基本情感包括放松、沮丧、愉快、悲伤、恐惧等,均可映射到二维平面点上,四个象限依次为高唤醒高效价,高唤醒低效价,低唤醒高效价,低唤醒低效价。

1.2 DEAP数据集

DEAP数据集是一个公开可用的数据集[10],在情感计算和情绪识别研究中广泛使用,其包含多种信号(EEG、周围生理信号和音视频记录)。数据集包含32名参与者观看40个时长约一分钟的音乐视频,每段视频数据由32导脑电信号和8导其他生理信号组成,然后要求其填写对效价和唤醒程度的自我评估。效价和唤醒等级从1到9(1代表悲伤/平静,9代表快乐/兴奋)。

2 方法

2.1 频率分解和特征提取

数据集中的数据进行了降采样处理,采样频率从512Hz降到128Hz。预处理阶段,我们对脑电信号使用了带通滤波器来进行频段分割工作。根据张等人的总结[11],脑电图频率模式及其对应特征见表1所示,情感的兴奋程度和频段的频率成正比,因此我们对原始脑电信号进行频段分解,分解后得到对情绪识别效果较好的后四个频段。

2.2 三维输入结构

国际10-20系统是一种国际公认的描述和应用头皮电极位置和大脑皮层底层区域的方法,如图2所示,每个电极物理上相邻多个电极,这些电极记录大脑特定区域的EEG信号。为了保留多个相邻通道之间的空间信息,根据电极分布图,将一维的DE和PSD特征变换为二维平面,0代表未使用该通道。

因此,我们得到每个脑电图段的八个二维平面。下一步是将这些平面堆叠成三维脑电图立方体作为CNN的输入进行训练。在计算机视觉领域中,图像的分类任务采用RGB彩色通道来组织图像,0~255用于表示每个颜色通道中的颜色的强度,使用彩色图像的表示法作为类比[8],如图3所示。

我们对不同波段的脑电信号提取微分熵(DE)和功率谱密度(PSD)来描述这些不同的波。PSD描述了信号中存在的功率,它是频域中用于实现情感识别的最常用的特征之一[12],DE度量了信号的复杂度[13]。这两种方式非常适用于提取脑电特征映射。PSD的提取公式为:

[h(X)=Xf(X)log(f(x))dx]    ⑴

其中,x是一个随机变量,[f(x)]是x的概率密度函数。对于服从高斯分布的级数[X,N(μ,δ2)],DE的提取公式为:

[h(X)=-∞∞12πδ2ex-μ22δ2log12πδ2e-x-μ22δ2dx] ⑵

施[14]等人已经证明了对于一个特定的频带i,微分熵可以定义为:

[hi(X)=12log2πeδ2i]     ⑶

其中,[hi]和[δ2i]分别表示对应的脑电图信号在频带i上的差分熵和信号方差。因此,一段特定频带i的特征可以用一维向量来表示[Vi∈R32]。从原始脑电图信号中提取每个波段的PSD和DE向量,然后根据32通道的等价二维矩阵将其转换为二维平面,对于每个0.5秒的窗口,所有波段和特征的二维平面都被创建,而且深度堆叠。每个脑电图立方体都是模型的输入,高度为8,宽度为9,深度为9,如图3的step3-4所示。

2.3 基础信号处理

情绪是一种复杂的心理状态,外部因素的细微差别对人们的情绪有一定的影响。在DEAP数据集中,收集了参与者在无刺激下产生的三秒基础信号。为了研究基础信号的特征对最终分类结果的影响,我们将三秒的基础信号切割为三个一秒的片段,并用上述提取特征的方法将每个信号转换为四对DE和PSD特征向量,然后计算这三个脑电图立方体的DE和PSD特征值的和的平均值来表示基础信号的DE和PSD特征。最后,计算实验脑电图(刺激下)和基础脑电图(无刺激下)之间的DE和PSD的偏差来代表该部分的情绪状态特征。其中,DE和PSD的权重相等,单步骤可以表示为:

[final_vij=exper_vij-k=13base_vik3] ⑷

其中,[exper_vij]表示频段i在段落j上的特征向量,[base_vik]表示频段i在基础信号段落j上的特征向量,[final_vij]表示频段i在j段落上的最终情绪状态特征向量。

2.4 连续卷积神经网络

如图3中构建的三维脑电立方体可以被视为彩色图像,这使得我们可以充分利用CNN从输入中提取代表性的特征。在本文中,如图4所示,我们使用了一个具有四个卷积层的连续卷积神经网络来从输入立方体中提取特征,添加了一个具有退出操作的全连接层用于特征融合,传入最终分类。“连续”表示在两个相邻的卷积层之间没有池化层。虽然在计算机视觉领域中,卷积层后面通常是池化层,其主要功能是以一些信息丢失为代价降低数据维数,但由于三维脑电立方体的大小远小于计算机视觉场的大小,所以在本模型中池化层被丢弃。此外,在每个卷积层中,采用零填充来防止立方体边缘信息丢失。在前三个卷积层中,内核设置大小为4*4,步幅为1。在卷积运算后,加入RELU激活函数,使模型具有非线性特征变换能力。使用64个特征映射开始第一个卷积层,并在接下来的两个卷积层中将特征映射加倍,因此,在第二接层,层和第三层中有128个和256个特征映射。为了融合特征映射并降低计算成本,增加了一个包含64个特征映射的1*1卷积层。在这四个连续的卷积层之后,添加了一个全连以将64个9*9特征映射到最终的特征向量(1024),最终的分类器接收[f∈R1024]以预测人类的情绪状态。

3 实验

3.1 实验环境及参数设置

实验中脑电图数据为40*8064*8*32(视频*样本*波段*通道),将被试者在刺激下的脑电图数据切成(40*N)段,每个段的长度为L。将这些片段分类到相应的标签中,分割后,脑电图数据转换为40*N*L*8*32(视频*段*长度*波段*通道)。

在我们的实验中,长度L设置为128,即每个参与者身上有2400个片段,我们应用所提出的方法从DEAP数据集中识别效价和唤醒。其中,我們选择5作为阈值,根据唤醒和效价的评分水平(1-9)将标签分为两个二元分类问题,即高/低效价、高/低唤醒。

本實验基于tensorflow2.3.0平台,采用Ubuntu 18.04LTS 64位操作系统,搭载Intel E5-2620 CPU,NVIDIA GTX2080Ti GPU,显存11G。采用截断的正态分布函数初始化核的权值,为了避免过拟合和提高泛化能力,加入L2正则化,CNN和MLP对L2的惩罚强度分别为0.5和0.05。相关参数如表2。

为了检验基础信号及分频段对最终分类结果的影响,我们设计了三种分类,对三种不同的分类进行了实验,并比较了他们的结果。

分类1表示丢弃基础信号的特征的情况,分类2表示只使用基础信号的DE特征的情况,分类3表示使用基础信号的DE和PSD特征的情况,结果如表3、表4所示。可以看出,使用双基础信号的特征能显著提高情绪识别的准确性。另外,频带越高,对情绪的识别度越精确,而且所有波段的组合可以相互补充,有助于取得更好的结果。

3.2 相关方法之间的结果比较

我们还将本实验结果与其他五种方法进行了比较,如表5所示,所提出的使用三维脑电图立方体作为输入的连续卷积神经网络在唤醒和效价分类任务上都优于这五种方法。

4 结束语

本研究表明,基于脑电信号的DE和PSD双特征可以比单特征提取显著提高情绪识别的准确性。实验信号的DE和PSD特征向量与基础信号之间的偏差可以更好地表征情绪状态。本文三维脑电图的表示方法结合了来自不同频段的信号特征,同时保持了各通道间的空间信息。我们发现,可以显著提高情绪识别性能的改进是使用多模态方法,例如,与使用EEG信号提取特征相比,同时提取个体面部的相关特征[17]等可以组合成不同的模型,为我们提供一种有效的多模态情感识别方法。

参考文献(References):

[1] 乔建中.情绪研究:理论与方法[M].南京:南京师范大学出版社,2003:16-17.

[2] 聂聃,王晓韡,段若男,等.基于脑电的情绪识别研究综述[J].中国生物医学工程学报,2012,31(4):12.

[3] Zheng W L,  Lu B L. Investigating Critical Frequency Bandsand Channels for EEG-Based Emotion Recognition with Deep Neural Networks[J]. IEEE Transactions on Autonomous Mental Development,2015,7(3):1-1.

[4] Li J,  Zhang Z,  He H. Hierarchical Convolutional NeuralNetworks for EEG-Based Emotion Recognition[J]. Cognitive Computation,2017,10:368-380.

[5] Tang H,  Liu W,  Zheng W L, et al. Multimodal EmotionRecognition Using Deep Neural Networks[A] International Conference on Neural Information Processing[C].Springer, Cham,2017:812-818.

[6] Li X,  Song D,  Zhang P, et al. Emotion recognition frommulti-channel EEG data through Convolutional Recurrent Neural Network[A].IEEE International Conference on Bioinformatics & Biomedicine[C].IEEE,2016:352-359.

[7] Li Y, Huang J, Zhou H, et al. Human Emotion Recognitionwith Electroencephalographic Multidimensional Features by Hybrid Deep Neural Networks[J]. Applied Sciences,2017,7(10):1060.

[8] Yang Y,  Wu Q,  Fu Y, et al. Continuous Convolutional

Neural Network with 3D Input for EEG-Based Emotion Recognition[A].25th International Conference[C].Siem Reap: ICONIP 2018:433-443.

[9] MILAD M, HADI D.Synchronization of fractional order

hyper-chaotic systems based on a new adaptive sliding mode control[J].International Journal of Dynamics Control,2015,10(7):435-446.

[10] Koelstra, S. DEAP: A Database for Emotion Analysis;

Using Physiological Signals[J]. IEEE transactions on affective computing,2012.3(1):18-31.

[11] Zhang X,  Yao L,  Kanhere S S, et al. MindID: Person

Identification from Brain Waves through Attention-based Recurrent Neural Network[J],2017,2(3):1-23.

[12] Sarma P,  Barma S. Emotion recognition by

distinguishing appropriate EEG segments based on random matrix theory[J].Biomedical Signal Processing and Control,2022.70(9):1-13.

[13] Topic A,  Russo M. Emotion recognition based on EEG

feature maps through deep learning network[J]. Engineering Science and Technology an International Journal,2021,24(6):1442-1454.

[14] Shi L C,  Jiao Y Y,  Lu B L. Differential entropy feature

for EEG-based vigilance estimation[A]. 35th International Conference of the IEEE Engineering in Medicine & Biology Society[C].Osaka,EMBC,2013:6627-6630.

[15] Yin Z,  Zhao M,  Wang Y, et al. Recognition of emotions using multimodal physiological signals and an ensemble deep learning model[J]. Computer Methods & Programs in Biomedicine,2017,140(Complete):93-110.

[16] Xie Y, Wang L P.EEG-Based Emotion RecognitionUsing Autoencoder and LSTM[D].Bachelor Degree,Singapore:NTU,2021.

[17] 李文書,何芳芳,钱沄涛,等.基于Adaboost-高斯过程分类的人脸表情识别[J].浙江大学学报(工学版),2012,46(1):79-83.

猜你喜欢

立方体脑电图效价
叠出一个立方体
情绪效价的记忆增强效应:存储或提取优势?
应用HyD在仔猪断奶早期可提高维生素D的效价
图形前线
立方体星交会对接和空间飞行演示
脑炎早期诊断的脑电图与磁共振成像比较
折纸
脑电图在脑肿瘤患者中的应用价值及意义
视频脑电图在癫癎诊疗中的临床应用价值
如何提高抗生素效价管碟测定法的准确性