APP下载

基于时空Inception残差注意力网络的脑电情绪识别

2024-02-26周建华刘紫恒赵世昊伏云发

关键词:脑电电信号残差

王 伟,周建华,刘紫恒,赵世昊,伏云发

(昆明理工大学 信息工程与自动化学院,昆明 650500)

0 引 言

情绪是人对客观事物的态度的一种反映,与人的行为和日常生活紧密联系。对情绪的研究是一个有重要意义的课题,在医疗、教育、安全等领域都有着广泛的应用。传统研究往往针对语音、面部表情、身体姿势等外在特征来进行情绪识别[1],但是由于这些特征本身可以进行伪装来影响识别效果,因此通过这些外在特征并不能准确地进行情绪识别。而脑电信号具有很好的客观表征情绪的特点[2],因此以脑电对情绪进行研究成为情绪识别领域的常用手段。

以往对脑电信号进行研究多采用传统机器学习的方式,需要大量经验寻找最佳脑电信号特征,选择合适的分类器对情绪进行分类,而不同被试者脑电信号差异很大,采用传统机器学习的方式对脑电信号进行情绪分类往往需要大量时间[3]。因此,有学者开始将深度学习用于脑电情绪识别的领域。文献[4]使用单一尺寸卷积进行脑电情绪识别,然而随着识别种类数增加准确率不断地下降。文献[5]提取脑电信号的时域、频域和非线性动力学特征,沿时间构成特征序列,用长短期记忆网络(long short-term memory,LSTM)对脑电信号从愉悦度和唤醒度两个维度进行二分类,准确率分别为73.5%和73.87%。LSTM的递归结构能够加强时间特征的提取,但是也忽略了空间信息的利用,整体时空特征的利用依旧不足。文献[6]提出了新的识别框架,称为通道融合的密集卷积神经网络(channel-fused dense convolutional network,CDCN),该网络由一维卷积层和一维密集层组成,处理后的脑电数据提取微分熵后输入到上述网络,在情绪三分类上取得了90.63%的识别精度。然而一维卷积无法获取电极间相互关系,不能充分利用采集电极的分布性信息,且没有利用时间连续性特征。文献[7]从脑电信号中分别提取了统计特征、功率谱密度特征、希尔伯特黄特征,并一起输入到深度置信网络(deep belief networks,DBN),在唤醒和效价两个维度分别得到了75.92%和76.83%的识别精度。多重特征提取虽然增加了特征提取的丰富度,但是手动特征提取大大增加了工作量,而且识别准确度偏低。文献[8]利用离散小波变换(discrete wavelet transformation,DWT)将脑电信号分解成多个频段,并利用粒子群优化算法(particle swarm optimization,PSO)对数据进行降维操作,之后采取LSTM深度学习网络对特征进行提取分类,在情绪四分类上实现了82.01%的识别精度,但是过多的特征往往导致特征堆积,影响识别效果。

针对以上方法存在的不足,本文保留了脑电电极的位置信息和拓扑结构,提出了一种时空Inception残差注意力网络,从空间和时间两个维度提取与情绪相关的信息。在数据处理层面,将原始电极映射到9×9的矩阵中,采集信号作为数据通道,构成图像化形式的脑电信号;在空间层面,将Inception结构作为空间特征提取的主体结构构建空间特征提取模型;在时间层面,使用双向长短期记忆(bi-directional long short-term memory,BiLSTM)网络探究脑电信号时段重要性和时序关联性,获取与情绪相关的时间信息。将IAResnet和BiLSTM进行融合实现了脑电信号时空特征的提取,丰富了脑电信号的提取方式,有效地提高了识别精度。

1 数据集与数据处理

1.1 DEAP数据集

DEAP数据集采用了音乐视频诱发情绪的方式,将包含特定情绪类型的音乐视频片段用来诱发受试者情绪的变化;总共选取32名受试者,每个受试者观看40个时长约1分钟的音乐视频,每观看完1个视频片段受试者均需要使用SAM量表来完成对诱发情绪状态的自我评分[9];每个实验数据包含60 s音乐视频诱发信号和3 s基线信号,基线信号记录受试者没有接受刺激的状态下的脑电信号,每段视频的采集数据均由32导脑电信号和8导其他生理信号组成,数据库已将采样频率由512 Hz降采样到128 Hz。该数据集数据格式为32(受试者数量)×40(音乐视频数)×32(EEG通道数)×8 064(采样数)。

1.2 情绪维度理论

情绪分类有多种标准,维度理论是情绪分类的主流方案,研究中常用效价度、唤醒度来量化人的情绪。效价度用于反映情绪的积极和消极程度;唤醒度反映人某一状态时的兴奋程度。按照情绪维度理论,受试者每次参与实验后产生的情绪,可以用SAM标准从效价度、唤醒度等维度来量化。维度评分为1-9,评分结果高于5划为高水平组,否则为低水平组[10],情绪维度模型如图1所示。图1中,4个象限依次为高唤醒高效价、高唤醒低效价、低唤醒低效价、低唤醒高效价。使用DEAP数据集来进行情绪识别的四分类任务。

图1 情绪维度模型Fig.1 Emotional dimension model

1.3 数据预处理及电极映射

从所有通道中提取基线信号C并以固定长度L将其切成N段,得到N段C×L矩阵,用X表示该矩阵;计算分段信号基线的平均值A,用其来表示受试者的基本情绪状态,公式为[11]

(1)

将原始脑电信号用O表示,减去对应的基本情绪状态数值A获得两者差值G,得到预处理后的信号数据,表示为

Gj=Oj-A

(2)

国际10-20系统及其电极平面映射矩阵如图2所示。图2a中,红圈中字母Fp1、Fp2等表示采集电极,红色节点表示DEAP数据集中脑电采集电极的分布位置。DEAP数据集丢失了原始 EEG 信号电极的位置信息,为了解决这个问题,实验中将DEAP数据集使用的32个脑电信号采集电极重新定位到基于10-20系统的2D电极拓扑结构。对于每个时间采样点来说,32 通道的脑电信号都被映射到一个 9×9 的矩阵之中,未使用的电极用零数据填充[12],如图2b所示。使用1 s的无重叠滑动窗口,对处理后的数据进行切割,获得76 800个数据维度为128×9×9的脑电数据。

a 国际10-20系统

b 电极平面映射矩阵

2 模型架构

脑电信号包含着空间和时间两部分信息,情绪识别模型在对采集电极进行平面映射后分别从空间和时间两个方面对脑电信号进行表征后分类。

空间层面,使用Inception残差注意力卷积网络利用提取电极之间的拓扑信息,最大程度保留脑电信号的空间特征;时间层面,使用BiLSTM网络来获取脑电信号间的时序信息,提取时间特征;最后使用分类模块进行结果分类。整体架构如图3所示。

图3 情绪识别整体架构Fig.3 Overall architecture of emotion recognition

由图3可见,将原始脑电信号经过基线处理和平面映射处理后得到数据维度为128×9×9的数据,再输入到上述时空模型之中,经全连接操作后(Dropout=0.2)使用LogSoftmax操作得到分类结果。

2.1 空间特征提取模块

本文提出的Inception残差注意力网络由两层Inception作为主体,这两层Inception结构由残差模块连接网络主干之后添加ECA注意力机制,用于提取图像化脑电数据的空间信息。每层Inception结构中使用的卷积核大小为1×1、3×3、5×5。Inception残差注意力网络如图4所示。

图4 Inception残差注意力网络Fig.4 Inception residual attention network

传统的卷积神经网络往往是朝着增加网络深度的方向来发展的,若深度增加使网络训练参数过多,则将导致过拟合。Inception从加宽网络的角度出发,增加了横向网络结构,对输入特征图进行并行特征采集,将所有输出拼接为一个新的特征图。在并行提取特征时,每一层中卷积核大小不一样,因而可提取到不同的特征。将脑电信号电极平面映射得到类似图片的文件之后便可以将用于图像领域的Inception网络用于脑电情绪识别领域。使用Inception网络不仅实现了多尺度特征提取的功能,增加了神经元的个数,还在此基础上减少了网络参数量,提高了网络性能[13]。

本文对Inception结构进行了改进,将1×1、3×3、5×5的卷积核与池化操作并行连接,增加了BN层和Relu函数,并通过增加一个1×1的卷积核保持通道数的统一,同时进行降维实现同一层网络下多特征提取的目标。改进后的Inception网络如图5所示。

图5 改进后的Inception网络Fig.5 Improved Inception network

传统的多尺度模型采用并行相连的结构,即前一个尺寸为1的卷积核与后面尺寸为1的卷积核相连接,前一个尺寸为3的卷积核与后面尺寸为3的卷积核相连接,这使前一层无法得到融合特征来传递给下一层。本文把改进后的Inception结构看作一个整体,将输入端与经Inception后的输出采用残差形式[14]相连接得到Inception残差网络,如图6所示。

图6 Inception残差网络Fig.6 Inception residual network

图6中,Xl代表输入;Y1—Y4代表从Inception结构各部分得到的输出;H(xl)为经Inception后的输出部分与输入之和。计算式为

Yn=Fn(xl,ωl)

(3)

H(Xl)=(Y1+Y2+Y3+Y4)+ωsxl

(4)

本文将两层Inception残差网络层相连接,得到空间特征提取模块的主体结构;将ECA注意力机制引入到空间提取主体结构,得到Inception残差注意力网络,以赋予权重[15]的形式将信息重要性展现出来使网络性能得到提高。

ECA注意力机制保留了原有的特征图维度,充分利用通道间的交互信息[16]获得和周围通道的局部交互关系,最早用于图像处理领域。本文把ECA注意力机制引入脑电情绪识别。脑电信号是二维的,使用时必须转换为三维,即将二维的脑电数据映射到128×9×9三维矩阵之中,再利用ECA注意力机制获得通道的权重信息。权重计算公式为

ω=sigmoid(C1Dk(y))

(5)

(5)式中:k代表卷积核大小;sigmoid为激活函数;H、W、C指特征图维度。将权重与原始输入特征图对应元素相乘,得到输出特征图。ECA注意力机制结构如图7所示。

图7 ECA注意力机制结构图Fig.7 ECA attention mechanism structure diagram

2.2 时间特征提取模块

BiLSTM神经网络由两层LSTM组成,按照时间的方向分为前向LSTM和后向LSTM[17],BiLSTM结构如图8所示。由图8可见,BiLSTM的输出结果由前向LSTM计算结果和后向LSTM计算结果叠加得到[18]。将BiLSTM与注意力机制结合,调整权重信息,即可构建新的BiLSTM层。

图8 BiLSTM神经网络Fig.8 BiLSTM neural network

前向LSTM公式[19]为

Mi=f1(ω1xi+ω2Mi-1)

(6)

后向LSTM公式为

Ni=f2(ω3xi+ω5Ni+1)

(7)

BiLSTM最终输出公式为

Zi=f3(ω4Mi+ω6Ni)

(8)

(6)—(8)式中:Xi代表各个时刻的输入数据;Mi、Ni代表前向和后向LSTM;Zi代表相应的输出数据;ω1、ω2、ω3、ω4、ω5、ω6代表各层相应权重。

2.3 分类模块

分类模块由展平、全连接操作和LogSoftmax操作构成。将时空Inception残差注意力网络输出信号输入到全连接层,通过LogSoftmax操作获得分类结果。当输入数据为(z1,…,zn)时,LogSoftmax公式为

(9)

(9)式中:zi代表输入数据;zm代表输入数据最大值。

3 实验与结果分析

3.1 电极平面映射有效性实验与分析

为了验证电极平面映射方法的有效性,将DEAP数据集中的数据按照A-V情绪维度理论进行四分类,分别对应高效价高唤醒(HAHV)、高效价低唤醒(LAHV)、低效价高唤醒(HALV)、低效价低唤醒(LALV)4类标签,对应样本量为26 340、16 140、17 880、16 440,如表1所示。

表1 DEAP数据集样本划分要求及对应样本数

将DEAP数据集脑电采集电极位置信息映射到二维平面之后得到的三维数据和未经映射的原始二维数据分别输入到时空Inception残差注意力网络(分别使用2D和1D卷积,其他参数均保持一致),实验在pytorch框架实现,使用Adam优化器,学习率设置为0.000 1,训练集与测试集按照9∶1划分,进行4组实验,结果如图9所示。

图9 准确率对比图Fig.9 Accuracy comparison chart

由图9可知,在相同参数下,将脑电电极映射在矩阵平面上可使时空Inception残差注意力网络情绪识别准确度提升1.5~2个百分点,这表明脑电电极各位置之间保留大量相互关系信息,将电极映射到平面之后可将这些信息最大程度进行保留,提升空间特征获取能力。将电极映射到平面之后对脑电进行情绪识别的能力优于未将电极映射到平面的方式。

3.2 改进Inception与多尺度卷积对比

为了验证改进Inception模块的有效性,将改进的Inception结构中池化和1×1卷积部分由7×7的卷积代替组成多尺度卷积,进行10次试验取平均准确度,对比结果如表2所示。

由表2可知,由改进Inception结构组成的模型优于多尺度卷积组成的模型,可取得更好的分类准确度。虽然7×7卷积可有更大感受野,但是较大卷积核也导致细节特征挖掘不明显,同时较大卷积核导致计算量增大。因此,脑电进行情绪识别的过程中,Inception结构效果是好于多尺度模型的。

3.3 空间时间模块分解实验与分析

为了验证时空Inception残差注意力网络的有效性,将DEAP数据集脑电采集电极位置信息映射到二维平面之后得到的数据用于时空Inception残差注意力网络中。在相同的参数下,将空间特征提取网络即Inception残差注意力网络(IAResnet)、时间特征提取网络即BiLSTM网络、时空融合特征提取网络即时空Inception残差注意力网络(IAResnet-BiLSTM)3种网络进行性能对比。训练过程均在pytorch框架下完成,使用Adam优化器,学习率设置为0.000 1,用10折交叉验证法加以验证,以10次运算结果的平均值作为算法准确度。实验结果如表3所示。

表3 不同网络下准确度对比

由表3可知,本文时空融合特征提取网络获得了93.71%的识别精度,相较于空间和时间模型分别提升了1.36和2.16个百分点,原因是利用了导联的位置信息、导联之间的相互关系以及信号的时间连续性,充分挖掘了脑电信号的时空特征,避免了传统网络特征提取不全面的问题。

3.4 同类研究结果对比

将本文研究方法IAResnet-BiLSTM与现有脑电情绪识别方法进行对比,结果如表4所示。文献[20]采用基于灵活解析小波变换的方式,将脑电信号分解为多个子波段信号并从中提取特征,经随机森林分类,分类准确度为71.43%;文献[8]使用离散小波变换结合LSTM网络进行情绪识别,分类准确度为82.01%;文献[21]将注意力机制引入Resnet网络,并将残差模块中Relu函数改为Selu函数,得到MAResnet网络,在情绪五分类任务中获得了85.2%的分类准确度。对比方法的分类准确度均明显低于本文方法。

表4 DEAP数据集下已有研究成果与本文结果对比

4 结束语

传统的脑电情绪识别研究仅针对空间或时间单一角度,忽略了脑电采集电极空间位置信息。本文使用DEAP数据集对脑电情绪识别问题进行研究,对4种情绪状态进行分类,提出IAResnet-BiLSTM网络。该网络将原始数据集映射到一个二维平面,保留了原有电极的位置信息;通过IAResnet网络将多尺度卷积和注意力机制结合在一起,最大限度提取到空间信息和各电极之间的关联性信息;采用BiLSTM对时间信息加以提取,使得时间连续性信息得以保留;以时空融合的方式来提取情绪相关特征,分类准确度得到较大提高。该模型在效价度、唤醒度组成的二维平面模型四分类中取得了93.71%的分类准确度,相较于传统方法有10%~20%的精度提升,实验结果证明了本文方法在脑电情绪识别领域的有效性。

猜你喜欢

脑电电信号残差
基于双向GRU与残差拟合的车辆跟驰建模
基于联合聚类分析的单通道腹部心电信号的胎心率提取
基于残差学习的自适应无人机目标跟踪算法
基于递归残差网络的图像超分辨率重建
基于Code Composer Studio3.3完成对心电信号的去噪
基于随机森林的航天器电信号多分类识别方法
现代实用脑电地形图学(续)
现代实用脑电地形图学(续)
现代实用脑电地形图学(续) 第五章 脑电地形图的临床中的应用
现代实用脑电地形图学(续) 第五章 脑电地形图在临床中的应用