定量评估脑电源成分的通道选择方法
2020-09-04王忠民
王忠民,冯 璁,贺 炎
(1.西安邮电大学 计算机学院,陕西 西安 710121;2.西安邮电大学 陕西省网络数据分析与智能处理重点实验室,陕西 西安 710121)
0 引 言
脑机接口(brain-computer interface,BCI)技术是一种利用在大脑内部、皮质表面、头皮检测到的生物电信号实现人类大脑与计算机或其它电子设备相互交流、通讯,从而允许使用者在没有外围神经系统和肌肉组织参与的情况下进行有效通信的技术[1]。脑电信号(electroencephalogram,EEG)因其非侵入性、采集便捷、高时间分辨率等特性被广泛用作脑机接口的源信号[2]。随着科学技术的发展以及科研水平的不断提高,研究者通过使用尽可能多的通道采集脑电信号,以提高情感识别精度、获得较为准确的监测效果。但是,使用较多的通道信号会产生降低可穿戴设备使用者的舒适度,增加信号处理过程中的计算负荷、成本等负面影响。为解决上述问题,通道选择技术应运而生,该技术通过结合实际应用场景,去除与任务不相关的通道以简化系统,提高计算效率。
目前,在基于脑电信号的情感识别领域,研究者们提出了多种不同的通道选择方法。Wu等[3]依据情感与大脑“前额叶区域脑电活动不对称”这一特点之间的相关性,将国际10-20系统中Fp1和Fp2通道采集的数据作为脑电信号分析的输入。Peng等[4]从多位被试的脑电信号中提取香农熵、差分熵、第一差分等特征,通过Mean-ReliefF算法实现特征选择,并依据特征权重进行通道排序,最终选择较优的通道子集。现有的大多数通道选择方法主要从已有的脑区功能划分、特征选择等角度进行研究分析,存在实验结果依赖于前期特征提取是否合理、计算复杂度高等不足。为此,本文提出一种以脑电信号产生机制为理论基础的通道选择方法。
1 通道选择方法
通过任意位于大脑皮层通道测得的被观测脑电信号由多个象征不同精神活动诱发、不同脑部区域产生的相互独立的脑电源成分叠加而成[5]。因此,本文对多通道脑电信号进行脑电源成分定量分析,选择与情感诱发相关度较高的脑电源成分,最终通过反投影实现通道选择。
如图1所示,定量分析脑电源成分的通道选择方法包括脑电源成分提取、脑电源成分定量分析、脑电源成分反投影3部分。
图1 定量评估脑电源成分的通道选择方法框
1.1 脑电源成分提取
通常,脑电信号是由固定在头皮上的采集通道感应到大脑活动过程中微弱的电压变化,通过差分放大、滤波、数模转换等一系列手段获得的一种非平稳随机信号,是脑神经细胞在自发状态或不同事件诱发下的电生理活动在大脑皮层或头皮表面的总体反映。实际上,每个通道采集到的脑电信号都是大脑内部多个活动源产生的电生理信号的叠加,是一种易受干扰的混合信号。把这些活动源产生的电生理信号从脑电信号中分离出来,对脑部疾病的临床诊断、大脑认知功能研究、情感产生及传导机理研究等具有重要意义。
脑电信号用矩阵形式可表示为X={x1(t),x2(t),x3(t),…,xn(t)}T,n表示采集脑电信号的通道数量,T为X的转置表示。X由m个相互独立的脑电源成分向量S={s1(t),s2(t),s3(t),…,sm(t)}T经过矩阵W混合而成
X=WS
(1)
在上述模型中,通过脑电信号数据矩阵X得到源成分向量和混合矩阵,即
U=W-1X
(2)
其中,W-1被称为解混矩阵,是混合矩阵W的逆矩阵,定义Wm=(w1m,w2m,…,wnm)T为矩阵W-1的列向量。
本文通过基于信息传输最大原则(information maximization,Infomax)算法[6]提取多个脑电源成分,即当输入的脑电信号与输出的多个脑电源成分的互信息越大,输出的各脑电源成分间的冗余信息越小。由式(2)可知,各通道的脑电信号是各个脑电源成分与其对应的wnm(m=1~n)线性加权的结果,因此,脑电源成分sm(t)对应采集的脑电信号xn(t)中的变量wnm称为sm(t)对xn(t)的权重,若权重越大,则代表该脑电源成分sm(t)在脑电信号xn(t)的所占比重就越大。因此,由矩阵W-1的列向量可以得知各个脑电源成分在脑电信号采集通道的分布情况。
1.2 脑电源成分定量分析
Infomax算法得到的多个脑电源成分不仅包括与给予特定刺激相关的大脑活动信号,而且掺杂外界环境、其它生理电信号等引起的干扰信号。在本文中,为去除与情感识别任务不相关的脑电源成分,多个相互独立的源成分经维格纳分布变换后得到相应的时频图,使用盒计数法作为时频图所含信息的量化指标,从而优选出与情感识别密切相关的脑电源成分。
1.2.1 维格纳分布
时频分析旨在将一维非平稳信号通过二维的时间-频率密度函数表示,以揭示包含在非平稳信号中的频率分量及其随时间的变化规律。与传统短时傅里叶变换相比,维格纳分布是一种双线性时频分析方法,处理非平稳连续信号时具有时间-频率边缘特性、能量集中性、高分辨率等特点[7]。因此,本文采用维格纳分布对多个脑电源成分进行时频分析,且任意脑电源成分S均为连续时间信号
(3)
通过式(3),任意脑电源成分均使用时-频域表示,并以时频图形式输出,以便通过盒计数法衡量脑电源成分的信息量。
1.2.2 盒计数法
分形维数技术是提取图像隐藏特征较为有效的方法之一,运用分形维数不仅可以表征图像的粗糙程度,而且可以表征其复杂程度。盒计数方法[8]是计算图像分形维数的常用方法之一,本文将其作为多个脑电源成分的时频图所含信息的量化指标,从而优选出与情感识别任务密切相关的脑电源成分。在应用盒计数方法之前,需要先将灰度时频图转换为二值图像
TFI(pix(k))>thrd→1,TFI(pix(k)) (4) TFI表示任意脑电源成分的时频图,pix(k)表示第k个像素,thrd表示阈值。若像素值小于或等于阈值,则将该像素设置为0,否则为1。 进行二值化处理后的时频图表示为F,其分形维数计算如式(5)所示 (5) Dα为F的分形维数值,Nr(F)表示覆盖F所需盒子的数目,r即为盒子的边长。 本文采用分形维数量化各脑电源成分与情感识别任务的相关性后,使用反投影技术推导各脑电源成分在多通道脑电信号的强度、位置等信息,进而判断其在大脑皮层所激活的区域,从而将筛选出来的与情感识别任务相关的脑电源成分映射到相应的脑电信号通道。 脑电研究主要由脑电模型、脑电正问题、脑电逆问题3部分组成。脑电源成分反投影技术属于脑电逆问题研究范畴,是指根据头皮观测到的电位来信号反演脑电活动源的信息。脑电逆问题研究方法主要包括基于边界元、有限元等的脑电皮层电位成像技术和等价偶极子定位技术。使用偶极子解决脑电逆问题首先需要分别假设头模型和源模型。通常,源模型包括单偶极子源、多偶极子源,头模型包括球模型、椭球模型、真实头模型。本文使用等价偶极子分析方法[9]实现脑电源成分反投影将任意脑电源成分视为一个电流偶极子,使用最小化残余误差确定电流偶极子的位置和强度等信息,如式(6)所示 (6) 其中,j为跃迁偶极矩,Z为导联场矩阵。 本文基于DEAP公共情感数据集[10]验证该通道选择方法的可行性与有效性。DEAP数据集共32位被试,每位被试在观看40段用于诱发情感状态的音乐视频的同时,被要求记录其脑电信号、眼电信号、皮肤温度等生理信号,其中22位被试被额外记录了观看视频时的面部表情。观看音乐视频后,每位被试通过Arousal、Valance、likedislike、Dominance and Familiarity这4个维度对音乐视频进行评价。由此可知,DEAP数据集是一个可用于分析人类情感状态变化的多模态数据集。在本文实验中,仅使用DEAP数据集中32位被试的32通道脑电信号,以及Arousal、Valance两个维度的情感空间模型。 DEAP数据集中32位被试的32通道脑电信号已进行去噪处理,主要包括下采样至256 Hz、使用脑电信号Lab工具箱以2 Hz截止频率进行高通滤波,以及应用盲源分离算法去除眼部伪影等。预处理后的32通道脑电信号被用于对4类情感状态(high arousal-positive(HA-P)、low arou-sal-positive(LA-P)、high arousal-negative (HA-N)、low arousal-negative(LA-N))进行分类。 为增加训练样本数量,每个60 s实验样本被分为15个不重叠的4 s样本,即每位被试共有600个样本数据。每位被试的实验数据均包含数据和标签两个数组。标签数组表示每位被试对观看的每个音乐视频的评价级别,代表从1至9连续范围内的Arousal、Valance两个维度的等级。每个维度取5为阈值,若视频对应标签的评价级别大于或等于5,被认为是高级别,否则相反。 卷积神经网络(convolutional neural network,CNN)概念的提出来源于生物学理论中的感受野机制。感受野是指大脑中的神经只接受特定刺激区域内的生理信号。目前的卷积神经网络主要是一种由输入层、若干卷积层和池化层交叉堆叠而成的深层前馈神经网络,通常使用多个反向传播(back propagation,BP)算法进行训练,使之以最高速度执行分类任务。其中,卷积操作部分由多个滤波器完成,产生输入数据的相应特征;池化层主要实现特征降维任务。根据输入数据的不同,卷积神经网络通常可分为1-D、2-D、3-D卷积神经网络,2-D卷积神经网络主要应用于图像识别领域,3-D卷积神经网络主要应用于视频流处理、行为识别领域。本文使用的1-D卷积神经网络通常被用于信号处理中,脑电信号正是通过位于头皮通道采集的一维信号,符合1-D卷积神经网络的输入要求。将32通道脑电信号作为1-D卷积神经网络的输入,通过适当地训练1-D卷积神经网络以学习、提取不同情感状态的特定特征,分类任务由Softmax回归模型完成,最终达到情感识别的目的。 通常,在使用深度学习模型进行数据训练时,需进行参数设置。在本文中,1-D卷积神经网络交替使用两个双卷积层和池化层,双卷积层由两个卷积层叠加构成。卷积核的大小为3,池化层滤波器大小为2。4个卷积通道的大小分别为64、64、128、128。为防止过拟合,第二层池化层后使用Dropout层,其参数设置为0.6。Dropout层后使用全连接层,并在输出层选择Softmax激活函数,用于对脑电信号实现四分类。 本文采用准确度(Accuracy)、特异度(Specificity)、敏感度(Sensitivity)这3个参数作为1-D卷积神经网络的分类性能衡量指标,计算公式分别如式(7)、式(8)、式(9)所示 (7) (8) (9) 其中,TP、TN、FP、FN均通过混淆矩阵来定义,见表 1。 表1 混淆矩阵 本文通过Infomax算法提取被观测脑电信号的多个脑电源成分,采用维格纳分布、盒计数法对脑电源成分进行量化评估,将含有与特定诱发刺激相关度较高的脑电源成分进行反投影以实现通道选择。基于DEAP情感数据集,使用1-D卷积神经网络实现情感识别任务,并通过情感识别准确率验证本文提出的通道选择方法的有效性。首先,将通道依照所含信息量从大到小依次作为1-D卷积神经网络的输入,依据分类误差率的变化确定最佳通道的数目。其次,将选出的通道子集与全通道、其它文献方法的分类性能进行比较。最终,计算采用不同通道数量时时间复杂度的变化情况,验证该通道选择方法可以在基本不损失情感识别准确率的情况下,有效减少脑电信号处理的数据量。 具体实验操作流程为: (1)在Python3.5环境下,完成多通道脑电信号的脑电源成分提取和定量分析。其中,脑电源成分提取采用Infomax算法,定量分析采用维格纳时频分布、盒计数法完成。 (2)在Matlab环境下,使用EEGLAB工具箱完成脑电源成分投影。其中,使用BEM作为头部模型,通过DIPFIT2.2插件计算各个脑电源成分对应的电流偶极子。 (3)通过步骤(1)、步骤(2),多通道脑电信号依据与情感的相关性由高到低进行排序;随后,依次添加各通道脑电信号作为1-D卷积神经网络的输入,完成情感识别任务。其中,1-D卷积神经网络在Python3.5环境下的Keras平台实现。 DEAP数据集中32位被试的32通道脑电信号进行预处理之后,执行Infomax算法,首先进行去中心、白化等预处理,目的在于去除各通道信号之间的关联性、增强Infomax算法的收敛性。其次,分离出脑电源成分并且结合大脑地形图分析各脑电源成分在脑部区域的活跃程度。如图2所示,可知32位被试的32通道脑电信号依据Infomax算法可分离出32个脑电源成分,同时每个脑电源成分在各通道的权重即为脑电源成分在大脑皮层的空间分布情况(大脑地形图)。大脑地形图中不同的颜色深度代表某脑电源成分在不同脑部区域的活跃程度,颜色越深代表活跃程度越强。 图2 32个脑电源成分地形 为衡量任意脑电源成分所含信息量,使用维格纳分布将32个脑电源成分信号变换为时间-频率图像,并进一步转换为二进制形式。将基于盒计数方法的分形维数应用于每个时频图,32个脑电源成分对应分形维数值见表2。 由表2知,任一脑电源成分的时频图包含的信息量不同,因此将32个脑电源成分根据所含信息量由大到小进行排序,继而反投影实现通道选择。实现反投影后依据所含信息量由高到低的前16个通道依次排序为:Fp1、PO3、F7、O1、FC2、F3、Pz、P3、FC5、AF3、C4、P7、CP5、CP6、AF4、FC6。如图3所示,分类精度曲线是依据各通道在定量评估中所含信息量的权重进行依次添加得到的,首先添加所含信息量较大的通道。当通道数目低于8时,随着通道数目的增加,分类误差率迅速降低;当通道数目增至8以上,分类误差率降低较为缓慢。 表2 脑电源成分的分形维数值 图3 分类误差率随通道数目的变化情况 选择Fp1、PO3、F7、O1、FC2、F3、Pz、P3通道的脑电信号作为1-D卷积神经网络的输入,从而在使用较少通道的情况下达到较低的分类误差率。其8通道的脑区分布如图4所示。 图4 最佳通道分布 为验证该通道选择方法的可靠性,本文对比了采用两种不同通道集进行情感识别的结果:①利用本文提出的通道选择方法选择的通道子集;②全通道,即不进行通道选择。 如图5所示,使用本文提出的通道选择方法所选通道子集采集的信号作为1-D卷积神经网络的输入,其准确度、特异度、敏感度3个指标分别为67.2%,69.5%,71.4%。另一方面,不进行通道选择而直接使用32通道脑电信号作为1-D卷积神经网络的输入,其准确度、特异度、敏感度3个指标分别为70.4%,61.9%,74.1%。由此可知,与全通道的实验结果相比,8通道采集的信号实现情感四分类仅牺牲较低的分类性能。 图5 不同通道集合的分类性能比较 表3将本文通道选择取得的分类结果与其它研究情感四分类的通道选择文献[12,13]的结果进行比较。现有文献提出的方法取得了65.04%、58.16%的平均准确度,均低于本文所用框架的结果。 上述实验分别将所选通道的表现性能与全通道、其它相关文献的结论进行比较,验证了本文提出的方法在基于脑电信号通道选择的情感识别中可获得较高的识别准确率。 表3 与现有通道选择文献的性能比较 通道选择旨在通过对各通道的脑电信号进行定量评估,去除冗余通道,提高可穿戴设备的使用便捷性、简化后续的信号处理。在这一过程中,寻找与特定刺激相关的脑部区域对于建立一个高精度的脑机接口应用系统至关重要。大脑主要由额叶区、顶叶区、枕叶区、颞叶区、中央5个区域构成,不同区域负责不同的脑部活动,如:额叶区负责有意识地思考、颞叶区负责嗅觉与听觉、顶叶区负责整合来自多个感官的感知信息、枕叶区负责视觉。 Soraia M等[14]提出在情感诱发过程中,与情感最相关的脑部区域主要是额叶和顶叶位置。如表4所示,DEAP数据集采集脑电信号的通道共32个,每个脑部区域分布不同数量的脑电信号通道。在情感识别研究中,通过本文提出的通道选择方法选择的Fp1、PO3、F7、O1、FC2、F3、Pz、P3通道主要位于额叶区域与顶叶区域,与上述理论研究相一致,验证了选出的通道子集的合理性。 表4 DEAP公共情感数据集通道位置与脑部区域对应 为验证通道选择的必要性,本文分别从通道数目与分类准确度、后续脑电信号处理时间变化两个角度进行分析。从分类准确度进行分析,使用全通道脑电信号、8通道脑电信号实现情感识别的准确度分别为70.4%、67.2%,即使用本文提出的通道选择方法进行通道选择可将通道数目由32降到8,分类准确度仅降低3.2%。从后续脑电信号处理时间变化角度分析,通道数目的增加伴随着计算时间的急剧提高。如图6所示,当通道数目从32降至8时,1-D卷积神经网络的训练时间可以节省1/4,大大降低计算复杂度。为通过可穿戴设备采集的数据实行实时性处理提供有效的参考价值。 图6 计算时间随通道数目的变化情况 如表5所示,分别示例5组通道数目下的情感识别准确度与计算时间,识别准确度与计算时间均随着通道数目不断变化。在实现情感识别任务时,按照各通道与情感刺激的相关性由高到低依次添加,选取Fp1、PO3、F7、O1、FC2、F3、Pz、P3这8个通道信号作为1-D卷积神经网络的输入,计算时间为1.72 min,准确度为67.2%;选取Fp1、PO3、F7、O1、FC2、F3、Pz、P3、FC5这9个通道信号作为1-D卷积神经网络的输入,计算时间为1.8 min,准确度为66.8%;选取Fp1、PO3、F7、O1、FC2、F3、Pz、P3、FC5、AF3、C4、P7、CP5、CP6、AF4、FC6这16个通道信号作为1-D卷积神经网络的输入,计算时间为2.4 min,准确度为69.6%;选取所有的32个通道信号作为1-D卷积神经网络的输入,计算时间为5.1 min,准确度为70.4%。当通道数目由8增至9时,准确度略有下降,该现象的原因可以认为是后续增加的通道信号对于前一阶段的实验数据造成干扰,无法达到更好的实验效果。当通道数目增至8时,情感识别的准确度变化较为缓慢。因此,据分析可知,以牺牲分类性能的轻微降低为代价提高可穿戴设备的便捷性、简化计算复杂度是值得的。 表5 准确度与计算时间随着通道数目增加的变化情况 本文提出一种定量评估脑电源成分的通道选择方法。DEAP数据集的32通道脑电信号作为该方法的输入进行通道选择,1-D卷积神经网络利用所选通道的脑电信号实现情感识别(HA-P、LA-P、HA-N、LA-N)任务。与全通道的分类识别率相比,以牺牲较低的分类精度为代价,将脑电信号的通道数目从32个减少到8个。另一方面,选择的通道均位于大脑的额叶和枕叶,这与现有的神经生理学理论相一致,验证了通过该方法选择的脑电信号通道的合理性。该研究为可穿戴设备的便捷性、舒适度方面的改善提供了较可靠的参考,并且可以简化后续信号处理的复杂程度。1.3 脑电源成分反投影
2 数据集及实验设置
2.1 DEAP公共情感数据集
2.2 1-D卷积神经网络
2.3 评价函数
3 通道选择结果及分析
3.1 选择的最佳通道分布
3.2 最佳通道的表现性能
3.3 通道选择结果的论证
4 结束语