结合互信息通道选择与混合深度神经网络的脑电情感识别方法∗
2021-10-27明胡家豪高云园马玉良
孟 明胡家豪高云园马玉良
(杭州电子科技大学自动化学院,浙江 杭州310018)
情感是一种综合了感觉、思想和行为的复杂状态,是人类对内部或外部刺激真实的心理和生理反应[1]。随着人工智能技术的不断发展,情感识别已经成为了人机交互(Human Machine Interface,HMI)领域的研究热点[2],将情感自动识别技术引入到HMI应用,可显著提高用户的体验质量,并推动实现人工智能由感知智能到认知智能的飞跃[3-5]。脑机接口(Brain Computer Interface,BCI)可以有效的作为人机交互的桥梁,BCI技术可通过非侵入的方式采集人体脑电信号(electroencephalography,EEG),且大量的神经生理学和心理学研究发现,人类的情绪产生和情感活动与大脑皮层的电信号高度相关[6],因此EEG信号凭借其高时间分辨率,低成本,高便捷的优点被有效地运用在人类情感识别任务中。
如何对情感EEG信号进行特征提取并分类是一项具有挑战性的任务,基于浅层机器学习方法的研究在该领域取得了一定的进展。Shahnaz C等人[7]对EEG信号进行经验模态分解(EMD)运算,选取得到的本征模式函数(IMF)进行离散小波变换(DWT),然后选择合适的DWT系数方差、峰度、偏度来形成特征向量,并使用SVM进行情感分类。Liu[8]等人分别从时域和频域提取脑电信号的高阶过零分析、分型维度和离散小波变换、功率谱密度等特征,利用随机森林算法(Random Forest,RF)进行最后分类。Guo[9]等人分别提取受试α,β,γ脑电频段的granger因果特征,并引入稀疏组lasso算法进行特征筛选,获得高相关性特征子集作为情感分类特征,最后使用SVM进行情感分类。然而这类方法依赖人为从EEG信号中寻找和提取各种与情感相关的特征,这也成为了阻碍系统性能突破的瓶颈。
近年来随着深度学习技术的不断发展,深度神经网络(DNN)被越来越多研究者应用在情感EEG信号处理中。Shawky[10]等人提出了一种3D卷积神经网络(3-Dimensional Convolutional Neural Networks,3D-CNN)来进行情感脑电信号的特征提取与分类。Xing[11]等人提出了一种基于堆栈自动编码器(Stacked Auto Encoder,SAE)的脑电源信号特征提取方法,并使用长短期记忆网络(Long-short term memory neural network,LSTM)对提取到的特征进行分类。DNN摆脱了特征工程,能够自行实现端到端的“黑箱”学习过程,适合对抽象的EEG信号进行识别分类,得到的分类结果也普遍优于浅层机器学习。然而EEG信号是一种集时域、频域、空间域信息于一体的复杂信号,仅使用单模态DNN模型难以充分挖掘其潜在的特征规律。且脑电信号多个通道中可能存在着冗余信息干扰,不仅影响最终的分类结果还增大了样本维度,提高了DNN的训练难度。
针对上述存在的问题,本文提出了一种结合互信息通道选择与混合深度神经网络的脑电情感识别方法。提取EEG信号各通道中γ节律的微分熵(Differential Entropy,DE)特征,进一步计算通道归一化互信息(NMI)矩阵选取一定数量的最优通道,之后采用卷积神经网络(CNN)和长短期记忆网络(LSTM)相结合的混合DNN进行特征提取和分类,并利用DEAP数据集对所提出的方法进行评估。
1 数据描述与预处理
1.1 DEAP数据集
DEAP是由Koelstra[12]等建立的面向情感识别领域的包含多模态信号的数据集。数据集采集了32位健康被试各自观看40段时长60 s的情感诱发视频的生理电信号,其中包括32通道的EEG信号和8通道的外周生理信号,采样频率为512 Hz,图1为一次实验的具体流程。
图1 实验任务时间轴
实验开始后,屏幕显示2 s当前视频编号,随后屏幕呈现交叉十字,记录5 s信号基值,接着播放60 s的情感诱发视频,最后被试将对观看后的视频在情感的效价、唤醒度、喜好度、控制程度4个维度上进行1~9的评分。DEAP中提供了预处理后的数据,包括将EEG信号下采样至128 Hz,利用ICA算法去除眼电伪迹干扰。每段EEG信号的长度为63 s(包括3 s实验前的脑电基线信号和60 s的视频刺激信号)。本文进行的是针对效价和唤醒度的二分类任务,根据被试的评分标记数据集中样本的类别,以5为阈值,即将低于5的样本标记为低效价/低唤醒度,高于5的样本标记为高效价/高唤醒度。
1.2 数据预处理
根据脑神经科学和心理学的研究,脑电信号的δ(1 Hz~3 Hz)、θ(4 Hz~7 Hz)、α(8 Hz~13 Hz)、β(14 Hz~30 Hz)、γ(31 Hz~50 Hz)5个节律与人的生理活动有着密切联系[13],其中γ节律与人类情感活动有较大关联[14-16]。根据各节律的起始和截止频率,使用8阶巴特沃斯滤波器对原始脑电信号进行带通滤波得到γ节律信号用于进一步的提取特征和通道选择。
2 方法
2.1 基于归一化互信息的通道选择
2.1.1 微分熵
微分熵(Differential Entropy,DE)可对连续性随机变量概率分布的不确定性总量进行具体量化,Duan[17]等人首次将其作为特征引入到基于EEG的情感识别任务中。采用DE特征可以减小获取EEG高频信号时所产生的滤波误差[18],进而提高模型后续的学习效果,DE的定义为:
式中:p(x)表示连续信息的概率密度函数,[a,b]为信息的取值区间。对于固定频带的EEG样本,其各通道采样值可近似地认为服从正态分布N(μ,σ2),故单个EEG样本各通道的DE特征为:
2.1.2 归一化互信息
互信息(Mutual Information,MI)是衡量两个随机变量之间相互依赖性的统计学指标[19],对于两类离散随机变量X和Y,其互信息为:
式中:p(x,y)为两个随机变量的联合分布,p(x),p(y)分别为两个随机变量的边缘分布。为了方便计算和对比,将所得的互信息进行归一化处理:
式中:H(X)与H(Y)分别为随机变量X和Y的信息熵:
2.1.3 通道选择
首先计算一次实验中各通道EEG信号的DE特征,然后计算各通道DE值之间的MI并进行归一化处理,相同通道之间的MI值为1,如此便得到了一个n×n(n为通道个数)的实对称互信息矩阵INMI。
以权值来表征各通道的任务相关程度并进行通道选择,零初始化各被试全通道权值向量求出被试每次实验对应的INMI后,对其按列相加,得到各通道与其他通道互信息和的向量VNMI,互信息和值越大代表该通道在情感活动中与其余脑区电极交互信息越多,任务相关性越高,故取VNMI中最大元素,记其对应的通道编号为l,同时将向量Ws中的值加一。单个被试共进行M次实验,故经过M轮更新计算后得到单个被试的最终权值向量Ws。
由于个体的差异性,依赖被试的通道选择最终得到的是每个被试的最优通道集,然而在一些应用场景中对每一位使用者设计特定的最优通道集是不切实际的,这里采用一种权值求和的思想,选择出适合所有被试的最优通道集,将每位被试经过M轮更新后的权值向量Ws按通道编号对应相加,得到不依赖具体被试的共性通道权值向量其中
N表示被试总数表示被试s第i个通道的权值。将Wf中的元素按从大到小的顺序排列后,选出前k个通道作为最优通道集合。
通道选择方法的整体流程如表1所示:
表1 通道选择流程
2.2 分类
2.2.1 二维脑电序列变换
EEG信号由携带特定电极排布的可穿戴式脑电帽采集,DEAP中使用的是国际常用的“10-20”脑电帽,“10”和“20”是指相邻电极之间的实际距离为颅骨前后或左右总距离的10%或20%[20]。各通道在某采样时刻t采集到的脑电信号构成向量Xt=为t时刻第n个通道采集的脑电数据。对于一个时间窗[0,T-1],共有T个这样的向量构成脑电信号序列。
原一维脑电信号只能表示两个相邻采样点之间的数据变换情况,根据脑电帽的电极分布,将一维脑电信号Xt转换为二维矩阵形式,既保留了电极空间排布的拓扑特性,又可作为后续CNN网络的输入,因此向量Xt可转换为二维矩阵形式的Yt,其中未排布电极的位置设为0,如此一个时间窗[0,T-1]内的T个一维脑电数据[X0,X1,…,XT-1]便转换为T个脑电数据矩阵[Y0,Y1,…,YT-1],如图2所示。
图2 脑电信号采集和变换流程
2.2.2 混合深度神经网络结构
混合网络结合了CNN和RNN两种深度学习模型在提取样本空域和时域特征的独特优势,CNN模型用于处理二维脑电数据,而从属于RNN网络模型的LSTM则直接用于处理一维脑电数据,两个并行的网络同时对输入样本提取特征,然后对各自提取的特征进行特征融合[21],最后根据融合的特征进行分类,如图3所示。
图3 混合深度神经网络(HDNN)模型
CNN模型从经过二维转换的脑电信号序列中提取空间域特征,第j个EEG样本经过转换后输入到CNN模型中为Pj=[Y0,Y1,…,YT-1]εRT×h×w,其中Yk(k=0,1,2…T-1)是维度为h×w的矩阵。在CNN模型中共有4个卷积层,对于前三个卷积层,输入的是二维的稀疏矩阵,使用3×3卷积核可能无法充分提取特征图的特征信息,使用5×5卷积核可能会加大卷积运算复杂度,故选择4×4的卷积核,卷积核步长设为“1”,并进行调整补零(Padding)使得经过卷积后的特征图维度与卷积前保持一致,三个卷积层分别使用32、64、128个卷积核。传统CNN模型中卷积核之间需要有池化层(Pooling Layer)操作,降低数据维度加速训练效果,然而本文CNN模块中输入的脑电矩阵维数较小,加入池化层可能会丢失关键的特征信息,故此CNN模型中未设置池化层。输入序列经过三层卷积后还需经过一个拼接层(Concatenate Layer)使得各个采样时刻特征融合为一个输入序列的总特征,之后经过一个具有10卷积核,卷积核维度为1×1的卷积层,作为CNN网络的最终特征输出,为了方便特征融合将最终特征输出展平(Flatten)为一维特征向量CjεR810。
构建双层LSTM网络提取各采样点之间的时间域特征,LSTM模型第j个EEG样本输入为Qj=[X0,X1,…,XT-1],记第一层LSTM单元在当前时刻t的隐层输出为ht,则ht-1表示在前一时刻t-1时的隐层输出,在LSTM的每一层中,前一个时间点的信息被传递到当前时间点,以此类推,影响最后一个采样时刻的最终输出。第一层LSTM的隐层输出序列[h0,h1,…,hT-1]作为第二层LSTM单元的输入。由于我们感兴趣的是输入EEG样本整个时段的情感类别,因此取第二层最后一个单元的输出h′T-1作为输入样本的特征,将h′T-1送入全连接层,作为LSTM模型提取的最终特征Lj,其中Lj∈R1024。
将上述两个模型提取到的空域特征和时域特征连接起来作为最终的特征向量,最后经过一个带有softmax输出的全连接层进行分类。
3 实验结果与讨论
3.1 实验描述
本文的实验由两部分组成,一部分是基于NMI的最优通道选取,另一部分是模型分类效果对比。其中我们分别对比了不同通道模式下混合深度神经网络与单模态深度神经网络的分类效果。
本文对DEAP中预处理后的单次实验EEG信号,去除其前3 s的基线数据,以1 s时间窗将原信号划分为60个互不重叠的样本,故每位被试的40次实验共得到2 400个样本,每个样本的数据维度为128×32。对每位被试取80%的样本作为训练集,20%的样本作为测试集,并进行5折交叉验证,取平均值作为单被试的分类结果。所有被试分类结果的平均值作为模型的最终分类结果。
3.2 基于互信息的通道选择结果
依照前述基于NMI的通道选择算法,利用权值相加法对所有被试进行统一的最优通道选择。将所得最终通道权值向量Wf中的元素按从大到小排列,取满足前文通道选择要求的前k个通道最为最优通道集。为确定合理的k值,定义了阈值a:
通过调整a的值,来确定k的最优解,同时计算每个阈值下对应的通道集合,经过实验验证,当a值取55.46%时所对应的通道集在被试验证集上取得了最优的分类效果,此时k=10,最优通道集的名称和所对应的权值数量如图4所示:
图4 最优通道权值
为进一步验证所提通道选择算法的普适性和泛化能力,本文以不放回抽样的方式分别随机抽取了8,16,24名被试的数据组成新的样本集,分别使用本文所提出的基于互信息的通道选择法筛选最优通道,根据各通道所得到的归一化权值大小绘制出对应的脑地形图,如图5所示:
图5 通道权值脑地形图
由图5可以看到,随着样本集数量的不断增加,权值较大的通道的分布呈现出明显的聚集域,如前额叶区(尤其是左前额叶)、顶叶区和颞叶区,这也在经验上和人类情感活动相关的脑区大致吻合[22-25],进一步验证了本文所提的通道选择方法的合理性,同时也可以观察到由不同数量的随机被试数据组成的新样本集所得到的高权值通道分布大致相同,且随着样本数量的增加,分布范围愈发稳定,这在一定程度上证明了本文所提的通道选择方法具有普适性和泛化能力。
3.3 全通道模型和基于通道选择模型的分类性能对比
基于通道选择的结果,对比了全通道HDNN和选择通道HDNN两种模型在情感的效价和唤醒度上的分类效果,基于上文通道选择的结果,对CNN模块输入层的二维脑电矩阵中未经选择的22个通道数据置0,选中的10通道数据保持不变;对LSTM模块的输入层仅选择这10个通道的数据即可。表2展示了各被试在两种模型下的输入数据格式。
表2 不同通道模式下模型输入数据格式
所有被试在情感V-A维度上的平均分类结果如表3所示,可以看到经过通道选择后,NMI-HDNN在使用低维度,高稀疏样本的条件下分类准确率较全通道HDNN模型在效价和唤醒都上分别得到了1.15%和0.7%的提升,推断在相同分类模型下,通道选择可以排除冗余通道的信息干扰,提高模型稳定性。
表3 两种模型下所有被试的平均分类准确率(均值±标准差)
3.4 混合深度神经网络与单模态深度神经网络的分类性能对比
为研究空域特征和时域特征对脑电情感识别的影响和作用,分别去掉HDNN模型中的空域特征提取器CNN模块和时域特征提取器LSTM模块,保持余下独立的CNN和LSTM模型网络架构不变,得到Single LSTM,Single CNN两种分类模型,结合通道选择在DEAP数据集上对所有被试数据分别使用这两种模型进行分类实验,结果和对比如图6所示:
图6 不同通道模式下Single-LSTM,Single-CNN,HDNN分别在情感V-A维度上的分类效果
从图6中可以看到,相同通道模式下HDNN模型的分类准确率最高,Single-CNN模型其次,Single-LSTM模型最低,经过通道选择后的各模型得到的分类准确率均高于全通道模型。
从以分类准确率标准差做出的误差线可以看到,相同通道模式下HDNN模型的标准差最小,Single-CNN模型其次,Single-LSTM模型最高,且经过通道选择后的各模型标准差大多低于全通道模型。
实验结果佐证了提出的NMI-HDNN模型不仅可以集成不同深度学习网络的分类优势,还排除了冗余通道的信息干扰,取得了最优的分类结果。
3.5 同类研究对比
表4 为其他使用DEAP情感脑电数据集文献的分类结果与本文方法结果的对比,分类任务均为在效价和唤醒度上的二分类。
表4 同类研究不同分类方法的分类结果比较
文献[7-9]。均通过浅层机器学习模型进行情感识别,其中文献[7]和文献[8]对提取到的EEG特征进行直接分类,文献[9]则引入稀疏组lasso算法对获取的granger因果特征值进行特征筛选,获得高相关性特征子集作为分类特征,其取得的分类结果优于前者,这一定程度的证明了对任务相关性的特征进行筛选有助于提高BCI的分类性能。本文则通过计算个通道间的NMI值达到了对任务相关通道的筛选,并结合混合深度神经网络进行分类,结果优于基于浅层机器学习模型的方法。
文献[10]与文献[11]。使用单模态深度神经网络进行特征提取和情感识别,其分类结果低于本文提出的NMI-HDNN的分类结果,说明HDNN较DNN能更充分的提取EEG信号的多域特征,且通道选择可排除冗余信息干扰,降低模型的训练难度,证明了本文方法的可行性和优越性。
4 结论
本文提出了一种结合NMI通道选择与混合深度神经网络的脑电情感识别方法,提取EEG信号各通道中与情感活动最相关的γ节律的DE特征,通过DE计算通道间相互的NMI,将所得NMI矩阵按列求和后的向量作为表征各通道任务相关性的权值,通过权值大小选出一定数量的最优通道,之后采用CNN与LSTM相结合的混合DNN网络进行样本特征提取和分类。使用该方法在公开的DEAP情感脑电数据集进行了实验对比,结果表明通道选择可以排除冗余通道信息干扰,提高分类准确率。同时HDNN的分类效果优于单一结构的深度神经网络,说明混合神经网络可以继承不同深度神经网络的优势,挖掘更多的EEG样本信息。该方法一定程度解决了浅层机器学习在脑电情感识别领域依赖特征工程的问题。在未来的工作中将进一步探索可进行跨被试,跨时段工作的脑电情感分类模型,以提高情感BCI技术的应用价值。