APP下载

基于脑电通道增强的情绪识别方法

2022-07-20胡景钊王洁琼郑佳宾吴东亚

关键词:脑电电信号卷积

王 晨,胡景钊,刘 科,王洁琼,郑佳宾,吴东亚,冯 筠, 2

(1.西北大学 信息科学与技术学院,陕西 西安 710127;2.新型网络智能信息服务国家地方联合工程研究中心,陕西 西安 710127)

情绪是人类将客观事物和自身需求相比较后产生的一种态度或体验, 它能够反映人类当下的心理和生理状态, 对人们认知、决策和沟通等有着至关重要的作用[1]。 情绪的识别是人工智能时代智能交互中最关键的研究问题之一, 如何进行便携式、 有效、 精确的人类情绪识别, 已然成为推动人工智能新时代发展的催化剂[2]。 无论在生物医学工程、 智能教育、 物联网还是影视娱乐等众多领域中, 情绪识别都具有非常宝贵的研究价值[3]。

通常使用人类的面部表情、语音信号或姿势步态进行情绪识别,这样容易受到人类主观因素的影响,不易反映真实的情绪状态[4]。而基于脑电信号的情绪识别研究可以避免人类伪装情绪,通过检测电生理信号更加真实准确地分析人类的情绪[5]。与目前已有的情绪识别研究工作相比,本文将提出一种基于脑电通道增强的情绪识别方法,能够更加便携精确地识别人类的情绪状态。

脑电信号是一种非线性非平稳的随机信号,通过对脑电信号进行信号预处理、特征提取等可以分析检测人类的意图和情绪状态[6]。从使用脑电通道个数的角度出发,脑电情绪识别可以分为单通道和多通道的情绪识别方法[7]。据相关研究表明,单通道的脑电情绪识别能够快速高效地进行大规模的情绪识别任务,在智慧课堂、智能教育中已有初步应用。例如刘窈窈等设计了基于视频诱导的情绪识别实验,使用一款可穿戴脑电设备Mindeep采集被试在积极和消极情绪状态下的脑电信号,再将情绪识别结果等反馈显示在APP界面上[8]。多通道的脑电情绪识别方法具有高精度、多维度的特点,能够更加真实精确地检测人类的情绪状态,并可以从时间、空间和大脑区域等多维度全面分析其情感及相关认知心理活动等[9-11]。李昕等从多通道脑电信号提取4种不同脑电节律的小波熵、小波系数能量、近似熵和Hurst指数特征,利用主成分分析(PCA)方法降维,然后进行情绪识别,达到了较好的分类效果[12]。

从采用机器学习方法进行特征提取的角度出发,主要通过传统的手工特征提取和利用深度学习自动提取相关特征来进行脑电情绪识别[13]。基于传统手工特征提取的脑电情绪识别方法具有丰富的先验知识,能够充分利用脑电非平稳非线性信号的特征进行处理;而基于深度学习自动提取脑电特征的识别方法能够从原始的脑电信号中充分挖掘各类信息,研究表明,利用数据驱动的高维特征进行情绪识别效果较为显著[14-17]。

然而,目前无论是单通道、多通道的脑电情绪识别方法,还是基于传统手工特征提取和基于深度学习自动提取脑电特征的情绪识别方法,依然存在较大的提升潜质:① 多通道脑电信号数据量大,信息冗余;② 采集脑电信号所有通道重要程度一致,不能更高效地有针对性地增强脑电情绪识别的效果[18-19]。

为解决以上问题,本文提出一种基于缩放卷积神经网络层和脑电通道增强模块融合进行脑电情绪识别的网络结构。该情绪识别网络能够融入原始脑电信号时间维度和频率维度的信息,自动提取特征,并通过脑电通道增强模块使网络自动学习对情绪识别任务更为重要的相关脑电通道,进而减少网络在与任务相关性不高的脑电通道上的学习能力,提升脑电情绪识别的精确度。与此同时,通过输出该情绪识别网络增强模块各脑电通道重要性的权重大小,并将其可视化在脑地形图中,可以分析不同情绪状态在人类大脑不同脑区的激活程度。最后,对比了各个脑电通道在进行增强前后信号能量的变化,以验证本文所提基于脑电通道增强的情绪识别网络的有效性。

1 相关工作

脑机情感交互可以增强人工智能的“类脑化”,只有将机器赋予了人类敏锐的情绪识别功能,才能更高效、更智能地与用户进行交互[20]。近年来,随着6G时代的发展,基于脑电信号的情绪识别也成为热点研究领域[21-22]。

目前,利用脑电生理信号进行情绪识别的算法主要分为两大类:传统的脑电情绪识别算法和基于深度神经网络的脑电情绪识别算法。传统的脑电情绪识别算法主要包括对脑电情绪信号进行预处理、特征提取、特征降维和分类等步骤,需要具有一定的先验知识设计和提取与情绪识别相关的脑电特征,例如Petrantonakis等人从脑电情绪信号中提取了高阶交叉特征,该特征能够反映脑电情绪信号的波动情况,实验表明在单通道和多通道的脑电情绪识别准确率上均有较大的提升[23]。

随着深度学习以及图神经网络的发展,基于深度神经网络的脑电情绪识别研究受到更多研究学者的关注。相较于传统的脑电情绪识别算法,利用深度神经网络模型识别脑电情绪可以避免因缺乏脑电情绪相关先验知识而导致识别效果低的问题。同时,深度神经网络具有较强的非线性变换能力和学习能力,对于复杂的多通道脑电情绪信号的识别会表现出更优越的性能[24]。如胡景钊等人提出的多通道脑电情绪识别网络ScalingNet,利用深度神经网络直接对脑电信号的时空频三域的信息进行建模,用卷机神经网络对脑电情绪进行分类[25]。Xing等人考虑脑电信号的时间动态信息,将长短时记忆(long short term memory, LSTM)网络模型应用到脑电情绪识别中,分别对愉悦度、唤醒度和喜爱度3种维度上的二分类进行探究,并证明LSTM网络模型适合对脑电信号进行处理[26]。Zhong等提出一种基于脑电信号的正则图神经网络(regularized graph neural networks,RGNN),通过考虑不同脑区之间的生物拓扑结构捕捉不同脑电通道之间的局部和全局关系,进行脑电情绪的识别[27]。

对于多通道脑电情绪识别的研究,其在特征提取阶段能够得到更加完整和丰富的脑电信息,同时也包含了许多与脑电情绪识别任务相关性不高的冗余信息,出现信息过载的问题,并且所有脑电通道重要性一致,不能有针对性地进行脑电情绪识别。

综上,本文基于缩放卷积神经网络层和脑电通道增强模块提出一种新的用于脑电情绪识别的网络结构,并通过可视化各脑电通道权重脑地形图探究不同情绪维度脑电通道增强效果。

2 方法设计

本文脑电情绪识别方法主要包括脑电信号预处理、自动类时频特征提取、脑电通道增强和分类识别4个步骤。图1所示为该方法的处理流程框架图。

图1 本文方法处理流程框架图Fig.1 Processing flow chart of the method in this paper

2.1 脑电预处理

通常在实验采集脑电信号过程中,所使用的信号采样率均比较高,一是为了减少信号采集过程中的噪声干扰,二是可以提升脑电信号的传输速率。图2所示为一段32通道的原始脑电信号。为了减少后续脑电数据处理和特征提取等数据量的大小,提升数据的可用性,首先将其下采样至128 Hz。

图2 32通道原始脑电信号Fig.2 32-channel raw EEG signal

由于脑电信号的频带特性,其频率一般都在50 Hz以下,以避开在采集过程中存在的工频干扰。因此,采用带通滤波器得到特定频段4~45 Hz的脑电信号。同时,考虑到被试在诱导情绪采集其脑电信号时存在的个体差异性和基线漂移问题,将前3 s的数据去除。然后将预处理之后的多通道脑电情绪信号送入自动类时频特征提取模块。

2.2 类时频特征提取

脑电预处理后的多通道脑电情绪信号为时间序列信号,其存在情感信息表征不足的问题。为了融入脑电信号中时间维度和频率维度的丰富信息,自动从时序脑电信号中提取情感特征,同时,又可以利用深度学习技术进一步自动提取脑电信号中的高维特征张量。在得到预处理后的多通道脑电信号后,本文采用基于缩放卷积神经网络层的特征提取模块,自动提取多通道脑电情绪信号中的类时频特征。

缩放卷积层是用来提取一维时间序列信号特征的一种神经网络层(见图3),它的输入可以是任意长度的脑电情绪信号[25]。对于每一个缩放卷积层,都会有一个缩放卷积核与脑电情绪信号进行互相关计算。为了提取不同脑电通道情绪信号的类时频特征,给每一个脑电通道将独立分配一个缩放卷积层。

图3 缩放卷积神经网络层[25]Fig.3 Scaling layer neural network

对每一个脑电通道的缩放卷积层,首先,采用初始的缩放卷积核与脑电情绪信号进行互相关计算,初始的缩放卷积核为一个奇数,目的是为了保证在每一次进行互相关计算后,缩放卷积层的输出结果长度保持不变。然后,再对该脑电通道的缩放卷积核进行下采样,缩放卷积核的大小,不断地进行这样的操作,直至达到设定的缩放卷积核的下界。由此,便可以获得与该脑电通道对应的类时频特征图。式(1)为该缩放卷积层的计算式[25],

Houtput(l)=δ(bias(l)+

downSample(weight,l)⊗Hinput)。

(1)

其中:Hinput表示缩放卷积层中输入的一维脑电情绪信号;Houtput表示缩放卷积层输出的类时频特征矩阵;bias是每次通过缩放该卷积核产生对应的偏置,它是一个为了更好拟合数据的标量;downSample表示池化操作符,通过一个窗口大小为2的平均卷积核对权重进行下采样,并执行l次,直至达到设定的缩放卷积核的下界;l表示控制缩放的水平;δ(·)表示缩放卷积层的激活函数;weight表示缩放卷积核的权重;⊗代表互相关算子,其定义如式(2)所示[25],

(2)

其中:f为downSample(weight,l),即经过下采样后的缩放卷积核;g为Hinput,在该网络层中即为输入的一维时间序列信号;N为时间序列信号数据的总长度;n是一个自变量;m为求和变量。f在g上滑动,即输入的一维脑电情绪信号与缩放卷积核不断进行滑动,连续做互相关计算。

对每一个脑电通道都使用独立的缩放卷积层提取该通道上的类时频信息,然后在脑电通道维度上堆叠各脑电通道的类时频特征图,得到所有脑电通道情绪信号的三维类时频特征张量。

2.3 脑电通道增强模块

脑电情绪识别任务中存在多通道信息过载、脑电通道重要性一致,以及特征中包含与情绪识别任务相关性不高的特征等问题。通过对提取到类时频特征中的有效情感信息进行增强,并抑制冗余信息带来的负面影响,可以改善情绪分类的性能。为了提升脑电情绪识别过程中的有效性和针对性,采用基于注意力机制的脑电通道增强模块,以达到增强脑电情绪识别任务相关脑电通道重要性的目的[28]。这是首次使用注意机制直接对脑电物理通道进行增强,进而提升脑电情绪识别的准确率。

在2.2节中得到的三维特征张量形状为(脑电通道数,时间信息,频率信息),通道增强是在三维特征张量中的脑电物理通道维度上进行的。通过脑电通道增强模块,可以在情绪识别过程中对不同的脑电通道赋予不同的重要性。脑电通道增强模块主要由全局平均池化层、全连接层、ReLU激活函数和Sigmoid激活函数等构成[29]。通过该增强模块,可以得到一个和脑电通道数一样大小的一维向量作为各脑电通道的重要性程度,然后,再将此一维向量重要性程度重新与三维类时频特征张量加权相乘,得到增强后的特征图。图4所示为脑电通道增强模块的结构连接图,从缩放卷积层输出类时频特征之后即连接脑电通道增强模块,其中,r表示降维过程的压缩比,这样做一方面可以降低网络计算量,另一方面增加了网络的非线性变换能力。对类时频特征张量进行全局平均池化处理,能够增强网络的全局感受野,使用两层全连接层能够增强网络的非线性变换能力。最终达到增强与脑电情绪识别相关脑电通道的重要性,同时抑制与其不相关脑电通道的目的。

图4 脑电通道增强模块Fig.4 EEG channel enhancement module

2.4 网络结构

本文所提的基于注意机制的脑电通道增强情绪识别网络,其输入是多通道原始的脑电情绪信号,输出为积极情绪或消极情绪,网络的主要组成部分包括缩放卷积层模块和脑电通道增强模块。图5所示为基于注意力机制的脑电通道增强情绪识别网络结构。自动类时频特征提取模块由32层独立的缩放卷积层组成,脑电通道增强模块由一层全局平均池化层、两层全连接层、 ReLU激活函数和Sigmoid激活函数层组成,深度特征变化模块由三层二维卷积神经网络层组成,最后由Softmax层进行脑电情绪的分类。

图5 基于注意力机制的脑电通道增强情绪识别网络结构Fig.5 EEG channel enhancement emotion recognition network structure based on the attention mechanism

该网络为端到端的情绪识别网络,每一个脑电通道都独立分配一个缩放卷积层来提取该通道的类时频特征,在脑电通道维度上将所有通道的类时频特征图进行堆叠得到类时频特征张量。首次利用注意力机制直接在脑电物理通道中对其进行增强,脑电通道增强模块输出重要性的一维向量,然后,与类时频特征进行加权相乘得到脑电通道增强重标定特征,接着,再经过深度特征变换模块提取脑电信号的深层信息,最后,使用全连接神经网络对情绪识别分类。

该网络融合了多通道原始脑电信号的时间和频率信息,利用缩放卷积层全自动提取脑电情绪信号的类时频特征,利用注意力机制对脑电物理通道进行增强,同时抑制与脑电情绪识别任务不相关的脑电通道,有效提高了脑电情绪识别的准确率。

3 实验结果及分析

3.1 数据集

本文的实验评估均在DEAP多模态情感数据集上进行[30]。该数据集记录了32名被试分别观看40段不同诱导音乐视频下的脑电信号及周边生理信号。采集脑电信号的设备是BioSemi ActiveTwo system,设备采样率为512 Hz,采用的是10-20国际标准32通道。BioSemi ActiveTwo system脑电设备在多通道、高分辨率、生物电势测量系统中设立了世界领先的标准,保障了本实验所使用脑电数据的可靠性[30]。

DEAP数据集对情感的描述采用了SAM三维情感模型,图6所示为SAM情感描述模型空间图。除了在愉悦度(valance)、唤醒度(arousal)和支配度(dominance)上对情感进行描述,同时记录了被试对每一段诱导音乐视频的喜爱度(liking),作为情感的评估,被试在每一个维度上的评分均在1~9之间。在本实验中,定义评分大于等于5为积极的情绪,评分小于5则为消极的情绪。经评估分析,该数据集在情感激发上是成功的[30]。

3.2 实验设置

3.2.1 验证及评估 32名被试观看40段不同诱导视频产生的脑电信号样本大小为1 280。经脑电数据预处理后,每一个脑电情绪信号样本的采样率均为128 Hz,采样时间为60 s,因此,脑电情绪信号的形状为(32,7 680)。按照8∶2的比例划分训练集与测试集,并进行五折交叉验证。

图6 SAM三维情感描述模型Fig.6 SAM 3D emotion description model

实验在3个情感维度上的评估指标均为准确率accuracy,其定义为式(3)。在每一个情感维度上的分类准确率均采用五折交叉验证的平均分类准确率。

(3)

其中:TP、TN表示真正例和真负例;FP、FN表示假正例和假负例。

3.2.2 参数选择 为了使该情绪识别模型具备最佳性能,在不同参数设置上对模型进行了实验。表1所示为不同大小的深度特征变换模块对网络性能的影响,当深度特征变换模块的卷积核大小为(16,16,32)时,网络的性能较好。

表1 深度特征变换模块对比实验

同时,对网络的批大小batch size、初始化缩放卷积核大小、脑电通道增强模块的压缩比r,以及不同的网络优化器进行了对比实验,图7为参数对比实验的结果。可以看出,4种参数对脑电情绪识别网络的整体性能都有较大的影响。因此,对网络中的参数设置极为重要。综上述所示,本文在最终验证与评估脑电情绪识别性能时采用了如表2所示的参数设置。

表2 网络参数选择设置Tab.2 Network parameter selection settings

3.3 实验结果

为了探求引入不同注意力机制对脑电通道增强模块的效果对比,本文采用了4种不同注意力机制进行脑电通道增强。表3展示了4种不同注意力机制对脑电通道增强情绪识别的结果。其中SE-FC表示使用全连接层进行特征非线性变换过程;SE-Conv表示使用1×1的卷积层进行扩增特征维度的过程;ECANet是通过自适应内核大小具备跨通道信息交互的注意力机制[31];SE-DFC是在原SE-FC注意力机制中再增加一层非线性变换的脑电通道增强模块。经实验验证评估,基于SE-FC注意力机制的脑电通道增强模块更适用于情绪识别的任务。这也表明利用更多的脑电通道进行情绪识别是更合理的,对其进行脑电物理通道的增强也是十分新颖和有必要的。

为进一步验证该情绪识别网络模型性能,与其他采用同一数据集的脑电情绪识别实验进行了对比,结果如表4所示。本文所提出的基于脑电通道增强的情绪识别方法在愉悦度、唤醒度和支配度3个维度上的平均识别准确率均达到了最优的性能,分别为71.18%,70.08%和70.86%。这表明类时频特征图能有效地进行数据驱动的信号变换,有利于后续网络结构进一步抽取与任务相关的高阶语义信息,减少非参数化信号变换可能导致的非任务相关信息被过多保留的问题。由于类时频特征图是逐通道提取的,其在神经网络特征空间中既存在任务相关浅层表征,又保留了脑电通道本身的物理映射。脑电通道增强模块直接在特征空间中作用于物理通道维度,既对信号表征进行了任务相关的通道增强,又保留了物理通道的可解释性,这表明直接在脑电物理通道上利用注意力机制对其进行增强是有效的。对不同的脑电物理通道通过脑电通道增强模块赋予不同的重要性,增强对脑电情绪识别任务相关通道的权重,同时抑制与任务不相关的脑电通道学习能力。在引入时频信息的同时,采用缩放卷积层,其相较于非参数化的信号变换方法,可以在学习过程去除浅层特征中部分与任务无关信息。结合脑电通道增强模块可以有效解决多通道脑电信号数据量大、信息过载,以及有效特征表征能力不足的问题。该方法能够有效提升多通道脑电情绪识别的准确度,在推动脑机情感交互和6G时代创新与发展的同时,促进基于脑电信号情绪识别在生物医学、神经康复等交叉领域的应用。

图7 网络性能影响对比实验Fig.7 Comparative experiment on network performance

表3 不同脑电通道增强模块对比实验

表4 与其他相关研究实验结果对比Tab.4 Comparison of experimental results with other related studies

为了进一步探究类时频特征和脑电通道增强模块对情绪识别的影响,在DEAP数据集上进行了消融实验。首先,将本文所提出的网络去除掉类时频特征和脑电通道增强模块作为比较基准(baseline);然后,依次探究类时频特征及脑电通道增强模块(SE-FC)的有效性。结果如表5所示,相比于基准方法(baseline),本文使用的类时频特征可以有效地从脑电信号中提取情绪识别相关的特征信息,同时,脑电通道增强模块(SE-FC)可以进一步提升情绪识别的准确率,这也表明了直接在脑电物理通道上利用注意力机制对其进行增强是有效的。

表5 消融实验Tab.5 AblationStudy

3.4 分析讨论

在情绪识别网络模型训练好后,本文绘制了SE-FC、SE-Conv、ECANet和SE-DFC 4种不同脑电通道增强方法下3个情感维度上的脑地形图,如图8所示。脑地形图中的值表示每一个脑电通道的重要性。 由图8可以看出, 4种增强方法和3维情感维度上的大脑激活区域都主要都分布在额叶、 枕叶和颞叶区。 据相关生物学脑区功能划分研究表明, 大脑额叶区主要负责人类计划、 判断、 智力、 注意力, 包括情绪和自我意识等高级功能, 图8中的脑地形图也从侧面可以反映这点[37]。 人类的情绪与脑电信号都是极其复杂的, 图8中脑地形图在枕叶区的激活程度也比较高, 其原因与实验在诱导被试情绪时观看音乐视频相关, 导致在负责视觉相关信息的枕叶区也相当活跃。

图8 3个情绪维度上的脑地形图Fig.8 Brain topography on the three emotion dimensions

脑地形图在不同的情感维度上也会有不同的差异存在, 图8中的脑地形图反映了在256个测试样本上计算得到的脑电通道的平均重要性。 样本之间的差异性并不大, 在3个情感维度上的通道重要性略有不同, 具体在表6中有所体现。 表6展示的是经过脑电通道增强后, 各情感描述维度上通道重要性在前8名的脑电通道。 近年来, 大量脑科学与神经心理学研究报告了与情绪活动相关的主要区域, 研究发现其主要集中在大脑杏仁核(靠近海马体, 位于颞叶的额部)与前额叶皮层(覆盖额叶的一部分)[38]相关区域。 在表6中对比了3个情绪维度的重要通道, 发现C4、P4、P3、 PO4、 F7这5个脑电通道在3个情感模型维度上均比较活跃,表明与情绪识别相关的大脑活跃区域分布在额叶、 枕叶和颞叶区,这与已有的脑认知科学理论是相符的, 进一步说明基于纯数据驱动的脑电通道增强结果与人类的先验知识是一致的。

表6 脑电通道增强后重要性前8名结果

4 结语

针对多通道的脑电情绪识别研究,本文从各脑电通道的重要性角度出发,通过脑电增强模块在网络中重新赋予各脑电通道不同的重要性,以增强与脑电情绪识别相关的通道,同时抑制与任务不相关的脑电通道。通过实验验证了直接在脑电物理通道上增强识别情绪的有效性,同时绘制了不同情感维度上的脑地形图,表明与情绪识别相关的大脑激活区域主要分布在人脑的额叶、枕叶和颞叶区等边缘系统,额叶区和枕叶区的C4、P4、P3、PO4和F7这5个脑电通道在3个情感模型维度上均比较活跃。本文所提出的基于脑电通道增强的情绪识别方法促进了脑机情感交互在生物医学,特别是在自闭症等精神疾病康复方面的应用。

猜你喜欢

脑电电信号卷积
认知控制的层级性:来自任务切换的脑电证据*
基于全卷积神经网络的猪背膘厚快速准确测定
基于图像处理与卷积神经网络的零件识别
工作记忆负荷对反馈加工过程的影响:来自脑电研究的证据*
基于成本最小化信息的社会性意图识别:来自脑电和行为的证据*
基于单片机的心电信号采集系统设计
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
神经元电生理模型的构建及分析
机电工程中存在问题之我见