脑电信号情绪识别研究综述
2022-04-13王忠民赵玉鹏郑镕林张嘉雯
王忠民,赵玉鹏,郑镕林,贺 炎,张嘉雯,刘 洋
1.西安邮电大学 计算机学院,西安710121
2.陕西省网络数据分析与智能处理重点实验室,西安710121
3.西安市大数据与智能计算重点实验室,西安710121
情绪是人在外界刺激条件下所产生的一种综合状态。良好的情绪状态有利于保持身心健康,而长期的不良情绪对人的心理健康和生理健康都有极大的影响。例如,长期的不良情绪容易引发抑郁症,影响人的社会功能和人际交往,甚至会威胁到生命安全;对于心脑血管疾病患者来说,愤怒、焦虑等极端情绪会增加发病的风险;驾驶员在驾驶过程中产生的愤怒情绪,容易引发路怒症,严重影响驾驶员和其他交通参与者的生命安全等。综上所述,情绪对人类生活的各个方面都产生着重要的影响,因此,准确地识别情绪显得尤为重要。
现阶段情绪识别的方式主要分为两方面:一是通过人的面部表情、语音声调、身体姿态等非生理信号进行识别,由于这些非生理信号可以通过伪装等手段进行人为控制,导致有时不能获取到可以代表情绪的真实信号,从而无法准确地识别出真实的情绪状态。另一方面可以利用脑电信号(electroencephalography,EEG)、眼电信号(electrooculogram,EOG)、心电信号(electrocardiogram,ECG)、肌电信号(electromyography,EMG)、皮肤电流反应(galvanic skin response,GSR)等生理信号进行情绪识别。由于伴随情绪所产生的生理信号是由人体的神经系统和内分泌系统自发产生的,不易受到人为因素的影响,生理信号能够更准确地反映人类的情绪状态,基于生理信号的情绪识别能获得更加客观真实的结果,也更有利于实际应用。
脑电是由中枢神经系统产生的一种空间离散的非平稳随机信号,可以直接记录头皮电位的变化情况,相比其他生理信号更能真实可靠地反映人的情绪状态。随着脑科学的不断发展和信号处理技术的不断进步,脑电信号在情绪识别领域受到了越来越多研究者的青睐,并取得了一定的研究成果。
传统的研究方法通常是通过提取脑电信号的线性和非线性特征来进行情绪识别,忽略了脑区之间的信息交互。近些年来,越来越多的学者将复杂网络理论引入到脑电情绪识别研究中,通过构建脑功能网络来探寻情绪产生机理,进而进行情绪识别。
本文从脑电情绪识别研究基础、特征提取和选择、脑网络构建和属性提取以及分类识别方法等方面出发,详细介绍了脑电情绪识别的相关理论以及使用脑电信号进行情绪识别的主要方法和研究进展,最后对目前存在的问题以及未来的挑战进行了总结和展望。
1 脑电情绪识别研究相关理论
1.1 情绪的定义和分类
情绪是在外界刺激条件下的人的复杂的生理物理变化过程,具有3 种成分:主观体验,即人对于不同情绪的自我感受;外部表现,即人处在不同情绪时身体各部分动作的量化反应形式,包括面部表情、姿态表情和语调表情;生理唤醒,即由情绪的变化所引起的生理信号的变化,生理唤醒是一种生理的激活水平,不同情绪的生理反应模式是不一样的。
目前,情绪识别相关研究大多在可控的实验环境下进行,情绪识别研究的一个重要条件就是诱发出被试的不同情绪,Picard 等人将情绪诱发方法分为两种,一种是主体诱发,一种是事件诱发。主体诱发是指通过让被试做情绪所需要的表情,或者回忆带有某种情绪的事件,来使被试产生相应的情绪。事件诱发是一种通过文字、图片、声音、视频片段等刺激素材来诱发被试特定情绪状态的方法。主体诱发方法虽然能有效地诱发出目标情绪,但是由于它需要被试有意识的合作,会导致实验条件不可控。为了使实验更加可控,很多研究者选择使用事件诱发方式来进行情绪诱发相关实验。在事件诱发方法中,使用视频片段作为刺激素材同时综合了听觉、视觉情绪刺激的优点,能够更有效地诱发情绪,因此视频片段情绪诱发方法被广泛应用。目前最常用的情绪诱发方法是通过图片、音乐和视频等外部刺激诱发被试的不同情绪。Koelstra 等人通过音乐视频材料的刺激诱发被试情绪,采集了32 名被试观看音乐视频时的32 导脑电信号,并且记录了被试对诱发视频的效价(valence)、唤醒(arousal)、喜好(liking)、支配(dominance)心理量表以及前22 名被试的面部表情视频,提出了一个用于分析人类情绪状态的多模态数据集(DEAP 数据集)供研究者们使用。上海交通大学的吕宝粮教授领导的BCMI 实验室提供了SEED 数据集供研究者们下载使用,该数据集通过视频材料的刺激诱发被试情绪,其中影片剪辑经过仔细选择,以引起积极(positive)、消极(negative)和中性(neutral)等不同类型的情绪,采集了15 名中国受试者在观看15 个中国电影片段时的62 导脑电信号,其中男性7 名,女性8 名,平均年龄为23~27 岁。
情绪识别的另一问题是如何划分情绪,也就是建立情绪分类模型。采用一个世界通用的分类标准将有利于不同研究结果间的可比性和推广性。现有的情绪量化模型主要有离散模型和连续模型两种。在离散模型中,情绪空间由离散而有限的基本情绪构成,例如著名心理学家Ekman 提出的6 种基本情绪类别(愤怒(anger)、厌恶(disgust)、恐惧(fear)、高兴(happiness)、悲伤(sadness)、惊讶(surprise))在情绪识别领域得到广大学者的认可。随着情绪研究的深入,人们认识到情绪的产生和消失是一个持续不断的过程,从而提出了连续模型。连续模型认为每种情绪都是一个连续体上的一部分,每种情绪状态都可以在二维空间或者三维空间中找到与之对应的一点。常用的连续模型是二维情绪模型,基于认知评价将情绪空间划分为效价和唤醒两个维度,效价表示情绪是积极还是消极的,唤醒度反映情绪的强烈程度,如图1 所示,在维度模型中,各种复杂的情绪都可以用这两个维度的线性组合来表示。
图1 二维情绪分类模型Fig.1 Two-dimensional emotion classification model
1.2 脑电信号的采集与预处理
脑电信号(EEG)是大脑中大量神经元放电活动中突触后电位引起的细胞外场电位的总和,它是一种使用电生理指标记录大脑活动的方法。脑电信号大体上可分两种:(1)自发脑电。无任何特定的外加刺激时,神经系统自发产生的大脑电位变化。(2)诱发脑电。对人施加某种感官刺激(如声、光、图像、体感等)时,在脑中相应部位诱发的电位变化。脑电信号的产生机理复杂,却蕴含着丰富的信息。EEG是一种空间离散的非平稳时变信号,时域波形较不规则,难以总结规律,从频域上看,它具有节律性,各个节律和具体描述如表1 所示。
表1 脑电信号的不同频带及其描述Table 1 Different frequency bands of EEG signal and their description
脑电信号的采集一般是通过将物理电极放置在头皮处实现的,采集方式主要分为侵入式和非侵入式两种。侵入式采集方法得到的脑电信号具有更高的精度和更低的噪声,但是为了安全起见,非侵入式的采集方法仍然被广泛使用。根据采集设备的不同,非侵入式采集方式主要分为干电极采集设备和湿电极采集设备两种,如图2 所示。湿电极采集设备需要在电极和大脑皮层之间添加一些导电介质,可以减少电阻干扰,有利于采集信号的稳定性,但是导电介质容易消耗磨损,使用周期较短,因此不利于持续性长时间的脑电信号采集。此外,在头皮上涂抹粘稠的电解质也会影响被试的体验。干电极采集设备的优点是不需要添加导电介质,可以减少受试者长时间参与实验产生的不适感,更有利于脑电采集实验的进行以及脑电可穿戴设备的普及和应用。缺点是电极与头皮间的接触不灵敏,受到的干扰较大,导致采集的信号强度较弱,在后续实验过程中增大特征提取的难度。由于两种采集设备各有优缺点,在研究过程中可以根据实验时长等因素选择合适的设备进行脑电信号采集。
图2 非侵入式脑电采集设备Fig.2 Non-invasive EEG acquisition equipment
脑电采集设备上带有很多电极用于采集头皮脑电信号,不同采集设备的电极数量不同,常用的有16电极、32 电极和64 电极等。这些电极根据10-20 系统电极放置法放置在大脑头皮的不同位置,用于采集不同脑区的脑电信号。图3 是目前使用最广泛的10-20 系统电极安放位置,其中10 和20 表示相邻电极间的实际距离是前后或者左右头骨的距离的10%或者20%。
图3 国际标准10-20 脑电记录系统电极安放位置Fig.3 International standard 10-20 EEG recording system electrode placement
在脑电数据采集过程中,由于外界环境、眼动、肌肉运动等因素的影响,会引入一些干扰噪声。数据预处理就是为了去除原始脑电信号中的干扰噪声,得到可以用来进行情绪识别的较为纯净的脑电信号。目前比较常用的预处理方法主要包括滤波、主成分分析、独立成分分析等。滤波可以去除一些频段比较固定的干扰,比如工频干扰可以通过带通滤波或低通滤波的方式进行过滤。对于那些不易通过滤波去除的脑电噪声,如眼电噪声、肌电噪声等可以采用主成分分析、独立成分分析等方法进行处理。主成分分析(principal component analysis,PCA)是在EEG 各导联分布的基础上,把脑电信号分解为互相独立的成分,去掉不需要的干扰部分,再重构EEG,以达到去伪迹的效果。由于主成分分析方法是利用正交原理将原始EEG 信号分解为互相独立的成分,对于一些和EEG 波形相似的伪迹,主成分分析就无法进行有效分离。独立成分分析(independent component analysis,ICA)是一种盲源信号分离方法,由于脑电信号中的心电、眼电等伪迹都是由独立的信号源产生的,通过ICA 便可以对原始数据进行解混,剔除心电、眼电等干扰信号,从而得到干净的脑电信号。ICA 去伪迹时不需要专门记录伪迹的参考电极,分解之后各分量相互独立,伪迹去除的精度较高,已被广泛应用于脑电信号的预处理当中,使用Matlab 的工具箱EEGLAB、Python 的工具包MNE 等都可以对脑电数据进行独立成分分析。
Bartels 等人将盲源分离和支持向量机相结合,提出了一种去除脑电信号中的眼电(EOG)和肌电(EMG)伪迹的预处理方法。结果表明,使用该方法预处理过的数据可以大大提高识别性能,进而表明该预处理算法是有效的。Zhang 等人利用离散小波变换和独立成分分析相结合来分离伪迹分量,提出了一种基于先验伪迹信息的数据预处理算法,通过情绪脑电数据进行验证,结果表明采用提出的预处理方法进行伪迹去除能在一定程度上提高情绪识别的准确率。Yang 等人为了解决传统方法去除眼电伪迹需要额外电极来记录眼电信号的弊端,提出了一种基于深度学习网络的眼电伪迹去除方法。该方法不需要额外附加电极,并且可以分析任意通道数量的EEG 数据,具有很强的泛化能力,与经典的去伪迹方法相比具有更好的处理效果。
1.3 脑电情绪识别框架
利用脑电信号进行情绪识别的主要步骤包括脑电信号采集、数据预处理、特征提取和分类识别,如图4 所示。其中,特征提取分为传统特征和脑网络特征两部分。
图4 脑电情绪识别框架Fig.4 EEG emotion recognition framework
2 脑电特征提取和选择
在基于EEG 的情绪识别研究过程中,特征提取主要是为了降低脑电数据的维数从而提取出与情绪相关的特征,用来对被试的情绪状态进行研究。作为情绪识别的关键环节,特征的优劣直接决定了情感识别模型的性能,提取表征性好、与情绪高度相关的特征对情绪识别来说至关重要。目前,常用的EEG 信号特征主要有四类:时域特征、频域特征、时频特征和非线性特征。
2.1 时域特征
脑电信号的采集大多是以时域形式进行的,因此时域特征是最直观易得的。脑电信号的时域特征很早就被用来进行脑电的相关研究,常用的脑电信号时域特征主要包括:幅值、方差、均值、均方根、过零点分析、方差分析、直方图分析、峰值检测、波形参数分析以及线性预测等。
Kashihara通过刺激被试获取事件相关电位,将信号均值、标准差等统计特征作为EEG特征。Tripathi等人在DEAP 数据集上提取了EEG 信号的偏斜度和峰度等特征,分别使用深度神经网络(deep neural networks,DNN)和卷积神经网络(convolutional neural networks,CNN)在效价和唤醒两个维度上进行情感识别研究,取得了较好的分类识别效果。Zhang等人将对称电极间的振幅差作为脑电特征,和面部表情等特征相结合进行情绪识别。
2.2 频域特征
时域分析表现的是脑电波形随时间的变化情况,而频域分析表现的是脑电波形随频率的变化情况。频域分析的主要思想是将时域中的信号通过某种算法变换到频域上,体现出信号随频率变化的特性,从而更直观地观察到EEG 中的各个节律的分布变化情况。频域分析通常将EEG 信号分为delta 频段(0~4 Hz)、theta 频段(4~8 Hz)、alpha(8~13 Hz)、beta(13~25 Hz)和gamma 频段(25~50 Hz)进行特征提取。常用的EEG 频域特征有功率、功率谱密度和能量等,这些特征的提取通常都建立在功率谱估计的基础上。其特点是计算方便,对信号的适应性强,物理意义明显。
傅里叶变换(Fourier transfer,FT)是一种线性的积分变换,通常被用来进行脑电信号时域到频域的转换,连续时间信号()的傅里叶变换为:
离散时间序列(1),(2),…,()的傅里叶变换为:
一般通过上述时频域转换之后再分别提取功率、功率谱密度等频域特征进行情绪识别。
功率谱密度是最常用的脑电信号频域特征,它定义为单位频带内信号的功率大小,功率谱曲线横坐标是脑电频率,纵坐标是功率大小,表现的是脑电信号功率在不同频段上的分布状况。设()为离散时间序列(1),(2),…,(),则信号的功率谱密度可以定义为:
Zouridakis 等人采用带通滤波得到delta(0~4 Hz)、theta(4~8 Hz)、alpha(8~13 Hz)、beta(13~25 Hz)和gamma(25~50 Hz)5 个频段的脑电信号,然后计算5 个频段的功率谱密度作为脑电特征进行情绪识别。Gadade 等人使用快速傅里叶变换将EEG 数据从时域转换到频域,然后使用带通滤波得到theta、alpha、beta 和gamma 4 个频段的脑电信号,计算各个频段功率特征,采用Relief-F 算法进行特征选择,在效价、唤醒、支配和喜欢4 个维度进行情绪分类识别,平均准确率均在85%~92%。Al-Nafjan 等人使用从EEG 中提取的功率谱密度特征与深度神经网络相结合,对情绪进行分类。Li 等人使用短时傅里叶变化 进行时频转换,分别计算了theta、alpha、beta 和gamma 波段的功率谱密度特征和面部表情特征,进行融合,使用长短期记忆网络进行情绪识别,取得了较好的识别效果。
2.3 时频特征
脑电信号是一种非平稳信号,通过频域分析只能观察到信号中有哪些频率成分,无法获知各个成分出现的时间。为了研究信号频率随时间的变化情况,时频分析应运而生。所谓时频分析,就是既考虑了信号的时域特征,又考虑信号的频域特征,描述信号随时间和频率的变化情况,时频分析可以更全面地反映出脑电信号的特征信息。时频分析通常是划分一定数目的时间窗,把整个时域信号分解成数个等长的小过程,每个小过程可以看作是平稳的,然后对每个小过程的信号进行时域到频域的转换,之后提取频域特征,滑动时间窗可处理不同时段,可以得到信号在各个时刻的瞬时频率和幅值,从而可以估算某种情绪开始和持续的时间。常用的时频分析方法有:短时傅里叶变换(short-time Fourier transform,STFT)、小波变换(wavelet transform,WT)、希尔伯特-黄变换(Hilbert-Huang transform,HHT)等。
短时傅里叶变换是Gabor 于1946 年提出的一种时频分析方法,其实质是加了窗函数的傅里叶变换,在对信号进行傅里叶变换之前引入窗函数,假定信号在短时间内是平稳的,窗函数随着时间轴移动,把脑电信号分割成等长的时间单元,然后对每个信号单元进行傅里叶变换:
之后求出各窗函数内的频域特征,就可以得到信号频率随时间的变化关系。对于短时傅里叶变换来说,选择合适的时间窗长度至关重要,时间窗过窄的话,窗内信号太少,会导致频域分析不够精准;时间窗太宽的话又会导致时间不够精细,时域分辨率降低。目前情绪识别研究中效果好的时间窗长度多为1~2 s。
小波变换是Morlet 于1982 年提出的另一种时频分析方法,它继承和发展了短时傅里叶变换局部化的思想,将短时傅里叶变换的时间窗函数变为了可以随频率改变的可变窗口,改进了其时窗不可变的缺点,小波变换计算方法:
其中,是缩放因子,当||<1 时,基小波被压缩,对应到高频;反之,当||>1 时,对应到低频,是平移参数,用来移动基小波的位置,不同频率的信号段,可用不同宽度的基小波时窗函数进行约束,时频域特征都能够进行准确高效的分析。当式中参数、取连续值时,称为连续小波变换,当参数、取离散值时,称为离散小波变换。
小波变换的思想是在短时傅里叶变换的基础上将时窗函数变为了可变长度时窗截取变换,继承了时频分析的特点,改进了其时窗不可变的缺点,时窗的变化可随信号频率改变。小波变换主要有两种基本类型:连续小波变换(continuous wavelet transform,CWT)、离散小波变换(discrete wavelet transform,DWT)。
希尔伯特-黄变换是一种非线性的时频特征提取方法,主要包括经验模态分解(empirical mode decomposition,EMD)和希尔伯特谱分析(Hilbert spectrum analysis,HSA)两部分。希尔伯特-黄变换处理非平稳信号的过程:首先使用EMD 得到固有模态函数(intrinsic mode functions,IMF),IMF 是基于信号的时间尺度特征将其分解为有限个平稳的单分量信号。假设通过个IMF 来表征EEG 信号:
其中,()表示残余函数,残余函数由任意信号()减去每一个IMF 分量得到。之后对IMF()进行Hilbert变换:
上述几种时频分析方法各有优缺点,在进行情绪识别的研究时可以根据实验需要,从多个角度出发选择合适的时频分析方法进行时频特征的提取。Murugappan 等人利用离散小波变换提取子频带能量、子频带能量所占比率和Alpha 频带小波系数均方根作为EEG 特征,进行了高兴、厌恶、恐惧、惊讶四情绪分类。Chen 等人基于重构脑电信号源提取的时频域情感特征分析方法,提高了分类识别准确率。陈萌等人采用了经验模态分解(EMD)的方法对脑电数据进行时频分析,提取了波动指数作为特征进行脑电信号和个人情绪状态的关联性分析研究。
2.4 非线性特征
脑电信号是产生于复杂大脑系统的一种非平稳时变信号,具有显著的非线性和混沌性,线性分析方法会丢失很多脑电信号的原始信息,因此将非线性系统和复杂度分析应用到脑电的分析方法应运而生。非线性分析方法主要是解释大脑的动力学特征和不同情绪状态之间的关系,探索不同脑区在不同情感下的活动变化,为采用脑电进行情绪识别等相关研究提供可靠的技术支持。常用的脑电信号非线性特征包括各种类型的熵、相关维数、分形维数等。
Hosseini 等人提取脑电信号的近似熵、小波熵特征,利用支持向量机(support vector machine,SVM)进行情绪识别,正确率达到了73.25%。Liu 等人通过提取脑电的分型维数等非线性特征进行六种情绪分类,取得了不错的效果并搭建了实时应用系统,辅助治疗疼痛、抑郁等症状。柳长源等人提取了脑电信号的频带能量、微分熵以及不对称特征,使用遗传算法优化的支持向量机进行情绪分类识别,结果表明和传统的特征相比,不对称熵特征的识别率有明显提高,在DEAP 数据集上平均识别率为88.63%。
3 脑网络构建与特征提取
大脑是一个复杂的系统,情绪活动的过程大脑并非是一个脑区独立工作的结果,而是由多个脑区信息交互共同完成的。传统的基于时频特征的情绪识别方法没有考虑脑区之间的信息交互。近年来,为了找出和人的情绪状态变化最为相关的脑区,为脑电信号在情绪识别领域的研究和应用提供理论基础,越来越多的研究者将复杂网络理论应用于脑电信号情绪识别研究中。
为了对基于脑网络的情绪识别研究现状进行分析,通过关键词Emotion Recognition、EEG Network、脑网络、情绪识别,在Web of Science、谷歌学术以及中国知网等网站进行检索,筛选出17 篇基于脑网络进行情绪识别研究的文章,对文章采用的脑网络构建方法和度量指标进行统计,结果如表2 所示。通过表2 可以发现,相位锁值(phase locking value,PLV)在面向情绪识别的脑网络构建中应用较多。
表2 基于脑网络的情绪识别研究Table 2 Research on brain network-based emotion recognition
3.1 脑网络构建
脑网络是借助复杂网络理论将脑电信号抽象成物理中的网络,脑网络构建大致包括三个步骤:选择网络节点、节点之间连接边的定义、选择合适的阈值将连接矩阵转二值化。一般选取采集数据的通道作为网络节点,然后选择合适的功能连接方法得到功能连接矩阵。根据功能连接矩阵构建方法的不同,脑网络可以分为功能脑网络和因效性脑网络。
功能性脑网络,主要用来描述脑网络中各个节点之间的连接关系,依赖模型本身,而不依赖时间,是一种相互之间的信息模式,是无向网络,如图5(a)所示。因效性脑网络,本质上是一种特殊的功能性脑网络,它在数据预处理和节点定义上都与功能性脑网络相同,不同之处在于因效性脑网络可以反映出不同脑区之间的信息流向,使功能性脑网络的无向图变成了有向图,如图5(b)所示。表3 列举了常用的功能性脑网络和因效性脑网络构建方法。
图5 面向情绪识别的脑网络分类Fig.5 Brain network classification for emotion recognition
表3 常用脑网络构建方法Table 3 Common brain network construction methods
(1)互相关
互相关函数表示两时间序列之间的线性同步性,计算得到的是时域中两通道之间的相关程度。预处理后的多通道脑电数据中任意两通道脑电信号(),(),=1,2,…,之间的相关函数定义为:
(2)相位锁值
相位同步分析可以将脑电信号中的相位成分与振幅成分分离开来,对脑电信号进行精确分析,有利于挖掘脑电信号中隐含的重要信息。相位锁值(PLV)是一个用于度量相位同步性的量化值,表示的是某一时间段内的两个信号之间的同步程度。PLV的定义如式(9)所示。
其中,Δφ()=Δφ()-Δφ()表示表示信号与信号在时刻的相位差,为该时间段内的样本点总数。PLV 的值域范围为0~1,值越大代表两个信号之间的同步性越强,PLV 最小值为0,表示两个信号完全不同步,PLV 最大值为1,表示两个信号之间完全相位同步。
(3)互信息
互信息(mutual information,MI)是信息论中用来评价两个随机变量之间的依赖程度的一种常用的信息度量,代表的是一个随机变量中包含的关于另一个随机变量的信息量,在脑电情绪识别领域,MI 也被用来估计两个电极中脑电信号之间的同步性大小。两个随机变量间的互信息可以定义为:
(4)相位滞后指数
相位滞后指数(phase lag index,PLI)是一种基于相位的功能连接分析方法,可以用来测量两个通道信号之间的相位同步程度,适用于研究多通道脑电信号之间的功能连接。它的最大优点是可以减少电极间容积传导效应带来的影响,更多地关注信号之间的耦合关系。PLI邻接矩阵的计算方法如下:
其中,表示时间点,Δ(t)表示两个信号在时间t处的相位差,sign 是一个符号函数,当自变量为正值时其输出为1,当自变量为负值时其输出为-1,当自变量为0 时其输出为0。PLI 的值介于0 和1 之间,若PLI 的值为0,则相位差分布完全对称,反之,则信号的相位始终滞后(超前)于信号。并且滞后越一致,相位差的分布越不对称。
(5)格兰杰因果关系
“因果”这一概念最先由经济学家Granger 于1969 年首次提出,文章认为,如果用和现在的值预测的未来值比仅仅使用现在的值预测的未来值效果好,那么说明对的未来发展趋势有影响,即是的格兰杰原因。1982 年Geweke 将和之间的格兰杰因果关系称为反馈,文章认为任意两个时间序列之间要么相互独立,要么存在反馈作用。Friston 在大脑相关研究中引入格兰杰因果关系,用来衡量脑区之间的因效连接,即假如脑区可以帮助预测脑区的未来,则认为在某种程度上是脑区的原因。格兰杰因果关系分析可以得到两个时间序列之间是否存在因果联系以及因果相对强度,定义如下:
假设有两个时间序列()、(),定义()、()的自回归模型为:
()、()的联合回归模型为:
(6)部分定向相干
部分定向相干(partial directed coherence,PDC)分析是在格兰杰因果关系的基础上发展出来的一种方法,可以对多通道脑电数据进行建模,用来研究各脑电通道之间的相互联系。PDC 是一种因效性脑网络构建方法,与传统的功能连接方法不同的是,PDC是测量通道之间的因果影响,因此是具有方向性的。对于一个通道的EEG 信号:
可以用一个多变量的自回归模型MVAR 来描述:
对模型的稀疏矩阵()做变换可得:
其中,为回归模型的阶数,为相应的频率。现定义:
则当频率为时,通道对通道的PDC 值为:
3.2 脑网络属性
在构建好脑功能网络之后,基于图论对复杂网络进行分析,网络中的基本元素有节点和边,通常电极位置代表节点,节点之间的边代表着两通道之间是否有信息交互。描述网络的拓扑结构以及网络中不同的变化的常用属性有:度、聚类系数、路径长度、全局效率和局部效率等。
(1)聚类系数
聚类系数是用来量化网络中节点间聚集程度的一种网络属性。节点的聚类系数C定义为该节点和邻居节点间已有连接边数和该节点可能连接的最大边数的比值,如式(21)所示。
其中,E代表节点和邻居节点间已有连接边的数目;k表示节点的全部邻接点数目;k(k-1)/2 表示k个相邻节点之间可能存在的边数。
(2)平均最短路径长度
两节点间的最短路径长度是指从一个节点到另一节点所经过的最小边数。最短路径长度描述网络内节点之间信息传递的性能,反映脑区间功能整合水平的高低,网络的最短路径长度越短,网络节点间传递信息的速率就越快,则网络全局效率越高,脑区的功能整合水平越高。平均最短路径长度是指两节点之间最短路径长度的均值,平均最短路径长度的定义如式(22)所示。
其中,d表示节点到节点之间的最短路径长度。
(3)全局效率
全局效率定义为任意两节点的最短路径的调和平均值的倒数,如式(23)所示。全局效率可以用来度量网络的全局信息处理和传输能力以及网络的整合程度,全局效率的降低说明脑区之间的信息传输和交互效率降低。
其中,d表示节点和节点之间的最短路径长度。
(4)局部效率
局部效率反映的是网络中节点间的分化程度,同时也代表着网络的局部信息传输能力和网络防御随机攻击的能力。节点的局部效率计算如式(24)所示。
其中,G表示节点的邻居节点和节点间的连接边所构成的子图,d表示从节点到节点所要经过的最短路径长度。
Costa 等人构建了基于相位同步的静态脑功能连接,用来研究不同情绪状态下大脑区域之间的相互依赖模式,结果表明在高兴状态下额叶和枕叶间的相位同步明显增强,在悲伤状态下所有脑区之间的相位同步现象明显增强。Gonuguntla 等人通过相位锁值构建脑网络进行研究表明,相位同步分析可以识别和情绪相对应的脑功能网络模式和区域。Wang 等人通过构建PLV 脑网络将脑电数据时频特征建模为图数据,采用图卷积神经网络进行情绪识别,取得了较好的识别效果。Lee 等人使用相干性、相关性和相位同步三种方法构建了静态功能连接网络,利用不同情绪状态下功能连接模式的差异性对积极、中性、消极三种情绪进行分类,取得了79%的识别准确率,结果表明不同情绪状态下大脑的功能连接模式存在明显区别,可以用来进行情绪状态的识别和预测。
4 分类识别方法
分类识别是脑电情绪识别研究的重要一环,主要任务是通过提取的各种类型的脑电特征来确定不同情绪状态对应的脑电模式,然后未经训练的脑电信号特征进行分类。虽然特征提取是决定情绪识别是否准确的一个关键环节,但是选择一个好的分类识别方法对情绪识别来说也至关重要,可以在一定程度上提高准确率。常用的EEG 情绪识别分类方法主要有无监督学习、半监督学习和有监督学习。目前,常用的分类器有自组织映射(self-organizing map,SOM)、支持向量机(SVM)、近邻(-nearest neighbor,NN)等。
自组织映射(SOM)是一种常用的无监督学习方法,在对模型进行训练时,只需要输入样本数据,不需要输入样本的标签信息,学习过程中通过对所有样本内在信息进行挖掘,找到样本间的关系,使得特性相近的样本聚集在一起,而特性相异的样本之间互相远离,最终实现样本的分类。
Khosrowabadi 等人采用图片作为刺激材料,采集了26 名被试在四种不同情绪刺激下的8 通道脑电信号,由于各种原因的影响导致被试诱发出的情绪可能会与所期望的不同,采用自组织映射的无监督学习方法来找到不同情绪间的边界,对样本进行情绪类别的划分,然后提取相应的脑电特征,对平静、高兴、悲伤和恐惧四种情绪进行分类,识别准确率达到了84.5%。
支持向量机(SVM)是在脑电情绪分类中最常用的一种方法,它的核心思想是将在低维上不可分的数据集映射到高维空间上,找到使得不同类别样本间的边缘最大化的超平面,然后实现对低维空间上数据样本的分类。SVM 中常见的核函数包括线性核函数、多项式核函数、高斯核函数等,核函数的选择对于其性能的表现有至关重要的作用,通过控制核函数可以决定判决边界的线性或非线性,线性核函数支持向量机的优点是复杂度较低,速度快,非线性核函数支持向量机的优点是在很多情况下能够更好地拟合出不同类别间的边界。支持向量机是一种快速可靠的分类算法,可以在有限数据量的情况下很好地完成分类任务,因此被广泛应用在脑电情绪识别研究当中。
近邻法(NN)的核心思想是在对某个测试样本进行分类时,首先计算这个测试样本和它周围其他样本间的欧氏距离,找出距离最近的个样本,然后将此样本归类为这个样本中出现次数最多的类别。近邻法是一种相对简单的非线性有监督分类器,原理通俗易懂,广泛应用于拥有较大训练集的分类实验当中。
Degirmenci 等人提出了一种基于经验模态分解的EEG 情绪分类识别方法,提取脑电信号的功率谱密度特征,对比了支持向量机、线性判别分析、朴素贝叶斯分类器的识别效果,研究表明,SVM 分类器可以更好地区分情绪,是一种方便、高精度的情绪识别分类算法。Qing 等人在DEAP 数据集上提取脑电信号的一阶、二阶差分特征,在SEED 数据集上提取微分熵特征,选择决策树、近邻和随机森林作为分类器,进行情绪分类研究。
近年来,随着深度学习的快速发展,越来越多的学者将深度学习方法应用于基于脑电信号的情绪识别研究当中。在脑电情绪识别领域常用的深度学习方法包括卷积神经网络(CNN)、循环神经网络(recurrent neural network,RNN)、深度信念网络(deep belief network,DBN)等。上海交通大学的郑伟龙等人引入DBN 构建了对积极、中性、消极三种情绪的EEG情绪分类模型,结果表明,基于DBN 的脑电情绪识别可以获得较高的分类精度,与积极、中性和消极情绪相关的神经特征确实存在,并且它们在个体之间具有共性。Xing 等人将堆栈自动编码器和长短期记忆神经网络相结合,提出了一种新的情绪识别框架,在效价和唤醒度上分别取得了81.10%和74.38%的识别效果。Chen 等人提出了一种基于估计熵的深度信念网络情绪识别框架,对高兴、冷静、悲伤和恐惧四种情绪的识别准确率达到了83.34%。
深度神经网络能够对脑电信号的预处理、特征图提取和分类进行端到端的自动学习,基于深度学习算法的脑电情绪识别比人工设计的特征维度更高,识别用时更短。然而,在研究过程中,研究者们忽略了脑电信号和情绪产生之间的内在关系,如何将传统的脑电信号特征提取方式与深度学习算法相结合,探索新的情绪特征提取方式,提高特征提取和分类识别性能是以后在脑电情绪识别领域的重点研究方向。
脑电信号的非平稳特性和个体差异限制了情绪识别模型在不同时间、不同受试者之间的泛化,为了解决该问题,研究者们提出了基于迁移学习的跨被试/实验时间的情绪识别分类研究。传统的机器学习针对不同的域和任务分别训练模型。迁移学习中,不同的域和任务可共享知识,从一个域/任务中获取的信息,可用于另一个域/任务中的模式识别任务。李劲鹏为了解决EEG 情绪识别模型的跨被试适配问题,提出了一种多源迁移学习框架。选择合适的源,在每个合适的源上,消减目标和源的差异,使源上的分类器直接用于推断目标中样本的情绪标签。在多分类器集成框架下,实现了对目标域的高精度分类。蔡梓良等人为了解决跨被试、跨时间情绪分类的问题,提出了最大分类器差异域对抗方法,通过建立神经网络情感识别模型,将浅层特征提取器分别对抗域分类器和情感分类器,进而使特征提取器产生域不变表达,在实现近似联合分布适配的同时训练分类器学习任务特异性的决策边界,提高了情感脑机接口在实际应用中的泛化能力,为情感脑机接口走向实际应用提供了新的方法。
5 总结与展望
近年来,基于EEG 的情绪识别研究取得了一定的进展,各种算法的性能也在不断提升。但是,基于EEG 的情绪识别研究还远未结束,依照目前的发展现状,目前该领域还有一些关键性的问题有待进一步研究。
缺少权威且覆盖面广、数据量足够大、公开可免费获取的数据集:面对相同的实验材料,不同个体对情绪的反应强烈程度不同,因此得到的脑电信号通用性较差,导致可使用的训练数据有限。目前较为常用的数据集有DEAP 和SEED,两个数据集的受试者人数较少,数据量较小且没有覆盖到各个年龄段和不同性格特征的人群;此外,还有很多研究者基于自己采集的脑电数据进行研究,很难与其他研究者的成果进行对比分析,不利于该领域的进一步发展。因此建立一个权威的、覆盖面广、数据量足够大、公开可免费获取的数据集对基于脑电信号的情绪识别研究非常重要。
最能反映情绪变化的电极尚未明确:目前,脑电情绪识别大多根据全通道的脑电信号进行研究,全通道脑电信号的采集不便于后续便携式设备的开发,且全通道脑电信号中存在大量冗余信息,为后续计算增加了难度。随着可穿戴技术的发展,使用可穿戴脑电设备进行实时情绪识别应用前景广泛,因此采用通道选择技术来减少电极数量是当前研究热点之一。目前,哪些电极与情绪状态高度相关、最能反映情绪变化尚没有普遍认可的标准。
缺少统一的情感识别方法集成框架:近些年来,随着神经网络、深度学习等技术的发展和应用,基于EEG 的情绪识别研究方法也越来越丰富,许多新方法也取得了良好的效果。但是,要将基于EEG 的情绪识别技术应用到实际生活中,还需要建立一个统一的综合性方法框架,该框架应具有良好的普适性,能够屏蔽不同性格、不同年龄层次、不同性别、不同种族、不同地区用户的差异。
情感产生机理有待深入研究:情绪是如何产生的,情绪产生和哪些脑区高度相关,情绪产生过程中各脑区之间的连通性有什么变化,不同脑区之间如何协同工作,情绪转换过程中脑功能网络拓扑结构的动态变化特点,这些问题都有待进一步研究,以揭示情绪产生过程中大脑的内部机理。
综上所述,情绪对人类的社交生活、行为调控、心理健康等各方面都有重要的影响,情绪识别研究具有十分重要的理论意义和应用价值。随着脑电采集技术和信号处理技术的不断进步,利用脑电信号进行情绪识别的相关研究越来越多,并且已经取得了一些被广泛认可的研究成果。在目前已有的研究成果之上,不断优化基于脑电信号的情绪识别方法,找到和情绪状态高度相关的脑区和频段,开发出可靠的非用户依赖的可穿戴情绪识别设备,发挥出脑电情绪识别研究的应用价值和社会效益是未来需要开展的重要工作。