基于多相关性的导联前向搜索算法用于运动想象分类
2020-12-23殷飞宇王行愚
殷飞宇, 金 晶, 王行愚
(华东理工大学信息科学与工程学院,化工过程先进控制和优化技术教育部重点实验室,上海 200237)
脑-机接口(BCI)系统是指直接跳过大脑外周神经和肌肉的参与,通过意念实现对外部装置的控制[1]。由于脑电图(EEG)信号拥有较短的时间常数和相对较高的时间分辨率,因此成为最广泛应用于BCI 系统中的脑电信号[2-3]。对于不同的受试者,其在进行同一个思维任务时所影响的皮层区域范围各不相同,所以仅仅通过生理知识和实验经验不能完全确定有效导联位置和导联使用数量[4],因此实验中采取多导联的方式记录脑电数据[5]。事实上,多导联采集脑电数据虽然可以获得较全的脑电信息,但同时也会引入冗余信息,增加数据维度,影响模型性能并且不利于实际使用[6],因此,选择优质的导联组合对提升分类精度非常重要。
传统的导联优化算法主要分为3 类:(1)基于神经学的先验知识。分布在运动想象感知皮层的导联往往会被认为包含更多有效信息而被选为最终导联组合,例如 C3 和 C4 等[7]。(2)基于 Wrapper 的导联优化算法。其核心思想以分类器的分类精度作为导联搜索策略的评价指标,根据分类结果不断修正所选导联子集,选择的导联分类准确率高但计算开销大[8]。(3)基于导联分布的优化策略。根据导联之间相关性进行排序选择,选择强相关导联作为最优导联子集[9]。对于同一个范式下的实验数据,已有的算法往往根据单个相关性进行导联选择,但单个相关性会由于受试者之间的差异性而无法对所有受试者的导联分布进行准确排序选择。因此本文提出了结合神经学的先验知识和基于导联分布优化策略相结合的导联选择算法,在选择位于运动感知皮层的C3 和C4 导联后,通过多相关性集成算法前向搜索选择剩余导联,从而获得有效导联组合,减少数据维度和计算量,提高分类精度。同时,以BCI 竞赛IV 中的 dataset I 和 BCI 竞赛 III 中的 dataset IVa 两个公共竞赛数据集来检验算法的可行性。实验结果表明,运用MCFS 导联优化算法不仅大幅减少了导联集的数目,而且分类精度提升明显,因此选择策略具有可行性。
1 运动想象脑电信号数据集
数据集1(Dataset 1)采用的是2008 年第四届国际脑-机接口大赛的数据(BCI competition IV dataset I),由柏林BCI 研究组提供。实验选择4 名健康受试者(分别命名为 a、b、f、g),实验中计算机屏幕上提示进行左手、右手或脚3 种运动想象思维任务,但单次实验只进行两类运动想象任务。实验共包含200 个运动想象任务,降采样频率为100 Hz。BCI 研究组使用59 个有效导联进行脑电数据的采集。实验步骤如下:
(1)0~2 s,此时计算机黑屏,受试者处于空闲放松的状态;
(2)2 s,短暂的蜂鸣声提示受试者实验即将开始;
(3)2~6 s,屏幕出现向左、向右或向下的箭头,受试者根据屏幕箭头提示,完成相应的运动想象任务。
数据集2(Dataset 2)采用2005 年第三届国际脑-机接口大赛的脑电数据(BCI competition III dataset IVa),5 名健康受试者(分别命名为 aa、al、av、aw、ay)执行右手和脚两类运动想象任务。实验采用118 导联电极帽,按国际标准10-20 导联放置,BrainAmp 放大器为脑电采集设备,降采样频率为100 Hz,共执行280 个运动想象任务。实验步骤如下:
(1)0~3.50 s,受试者根据屏幕提示执行运动想象任务;
(2)3.50~5.75 s,受试者在 1.75~2.25 s 内的不固定时间段放松。
Dataset 1、Dataset 2 的实验范式如图1 所示。
图 1 Dataset 1(a)和 Dataset 2(b)的实验范式Fig. 1 Experimental paradigms of dataset 1 (a) and dataset 2 (b)
2 分析方法
2.1 数据预处理
对Dataset 1 和Dataset 2 都采用提示想象信号出现后到提示信号消失的时间窗,分别将2~6 s 和0~3.50 s 时间序列作为分析数据。由于运动想象具有相关同步/去同步现象,其脑电特征在Mu 节律段(主要分布在 8~13 Hz)[10]和 Beta 节律段(主要分布在13~30 Hz)表现最为明显,同时脑电信号弱,易混入噪声,信噪比低,因此本文采用8~30 Hz 带通滤波器对多导联EEG 信号进行滤波,去除眼电、肌电等干扰信号对脑电信号的影响,同时保留运动想象事件相关去同步/事件相关同步发生的Mu 和Beta 节律段,得到运动想象思维的有效信号。
2.2 MCFS 算法
其中:cos(·)表示导联 ci和 cj的角度,角度越小,则两个导联的相似程度越高,反之亦然。cin和cjn分别表示导联ci和cj的时间序列长度。
2.2.3 皮尔森相关分析 皮尔森相关分析(Pearson’s Correlation Analysis,PCA)是一种判别变量之间线性相关性的分析方法[12],具体定义如下:
2.2.5 基于多相关性的导联搜索算法 MCFS 算法主要分为训练更新信任值和通过信任值进行导联优化两个阶段:
表 1 各受试者对于3 种相关性算法的信任值Table 1 Trust values of three correlation algorithms for each subject
(1)分别计算导联之间在互信息、余弦相似性和皮尔森相关分析下的导联之间的相关性,然后选择位于运动感知皮层的C3 和C4 导联,根据随机初始化的导联排序前向搜索,通过训练集训练模型,在验证集上交叉验证,以分类精度作为评价标准。一旦新增加的导联提高分类准确率,则该导联被选用,否则被放弃,与此同时根据式(4)更新对3 种相关性的信任值。
(2)随机初始化导联排序后,根据3 种相关性的信任值选择导联组合。此时导联组合f 由P1(P1=0.9)概率的信任值和 P2(P2=0.1) 概率的投票共同决定,然后对导联组合f 进一步优化。前向搜索导联组合f,提取共空间模式(CSP)特征后输入以线性核SVM作为分类器训练模型,以10 次交叉验证的分类精度作为评价标准,输出最优导联组合fbest。
MCFS 算法流程图如图2 所示。
2.3 共空间模式
CSP 算法是一种广泛使用的脑电信号预处理算法,能够有效地提取差异性特征[13]。该算法通过设计空间滤波器对脑电信号进行空间投影,使得两类信号的方差差异性最大,进而实现对两类信号的分类识别。Xi∈RN*T
假设滤波后的脑电数据为 (N 为有效导联数目;T 为每个通道的采样点),则规定单次脑电信号EEG 的空间协方差矩阵求解如下:
图 2 MCFS 算法导联选择流程图Fig. 2 Flow chart of channel selection with MCFS algorithm
对脑电信号进行特征提取,将投影后的信号Zp做如下变换得到fp,fp即为两类运动想象任务的特征值。
2.4 交叉验证
为了减少模型过拟合的可能性,交叉验证是一个有效的方法[14]。为防止信任值的参数信息被提前学到,本文将数据集分为训练集(80%)、验证集(10%)和测试集(10%)。在训练集上创建模型,通过验证集10 次交叉验证修正对3 种相关性的信任值,最终在测试集上测试模型的分类性能。
3 结果与分析
3.1 信任值优化
MCFS 导联优化算法通过更新3 种相关性的信任值优化最终的导联组合。从表1 中不难看出,相比其他两种相关性,互信息的信任值越高,在选择导联上的效果越好。对于Dataset 1 的4 名受试者而言,受试者g 的互信息和余弦相似性的信任值非常接近;受试者b 的余弦相关性的信任值高于互信息。对于Dataset 2 中的5 名受试者而言,互信息总是值得信赖的,而余弦相似性和皮尔森相关分析的信任值更为接近,仍有一定的参考价值。因此,本文提出以P1概率信任某一种相关性,同时仍然以P2概率保证其余两种相关性对导联选择的作用。
3.2 导联优化
对于 Dataset 1 和 Dataset 2,实验中分别采用59 和118 个导联记录脑电数据。事实上,多导联采集脑电数据虽然可以提供充足的脑电信息,但也会带入冗余信息和引入噪声,对脑电分类精度造成影响。本文采用MCFS 算法来选取有效导联,不但可以减少数据复杂度和计算量,还可以提升分类精度。图3 示出了选择全部导联(All Channels, AC)和所有受试者通过MCFS 导联搜索算法各自选择的导联数。从图中可以清晰地看出,经过MCFS 算法选择后,导联数大幅减少(Dataset 1:59vs13,Dataset 2:118vs35),各受试者经过AC 和MCFS 算法选择的导联数如表2 所示。
如表2 所示,对于Dataset 1 中的4 名受试者而言,通过MCFS 算法优化导联组合后,导联数目大幅减少,其中受试者a 保留11 导联,减幅81%;受试者b 保留 4 导联,减幅 93%;受试者 f 保留 13 导联,减幅 78%;受试者 g 保留 24 导联,减幅 59%;4 名受试者平均选择13 导联,减幅接近78%。
对于Dataset 2 中的5 名受试者,采用MCFS 算法选取导联后,受试者aa 仅从118 导联中选取25 导联,减幅79%;受试者al 选取28 导联,减幅76%;受试者 av 选取 52 导联,减幅 56%;受试者 aw 选取51 导联,减幅 57%;受试者 ay 选取 19 导联,减幅84%;5 名受试者平均从118 个电极中选取35 导联,减幅约为70%。
由此可见,MCFS 算法在降低导联数目上具有明显的优势,因此可以通过MCFS 算法选取导联数目,节约建立模型时间,有利于在线系统的使用。图4示出了所选导联的分布情况。对于Dataset 1,圆圈的颜色表示导联被选中的次数,其中α 表示该圆圈内导联被选中的次数;对于Dataset 2, β 表示该圆圈内导联被选中的次数。如图4(a)所示,选择的导联(α≥2)主要分布在运动感觉区,符合生理学的认知,对于图 4(b)而言,选择的导联(β≥3)也仍然符合这一生理学认知。不仅如此,从图4 中也可以看出,由于受试者之间的差异,每个受试者所选择的导联仍有一定的区别,因此也会出现导联相对分散的情况。
图 3 各个受试者在AC 和MCFS 算法下的导联选择数Fig. 3 Numbers of channels selected by each subject under AC and MCFS algorithm
表 2 各个受试者在AC 和MCFS 算法下的导联选择数Table 2 Numbers of channels selected by each subject under AC and MCFS algorithm
图 4 Dataset 1 和Dataset 2 的导联选择分布图Fig. 4 Distribution of selected channels for dataset 1 and dataset 2
3.3 导联优化算法
将MCFS 算法与其他3 种算法进行比较,结果如表3 和表4 所示。其中AC 算法将所有导联采集的脑电数据用于运动想象分类任务中。3C 算法仅将 3 个通道(即 C3、Cz 和 C4)所采集的 EEG 数据应用于运动想象分类任务中,可以减少因准备时间不足而导致精度降低的问题。CSP-rank 算法是基于CSP 滤波器排序的导联选择算法,该算法首先根据滤波器系数绝对值对滤波器分类排序,然后从两个滤波器中依次选择次最大滤波器系数值,如遇到重复导联,则在该滤波器下重新选择次最大滤波器系数值,直至选到新的导联。
从表3 和表4 可以看出,无论是单个受试者的分类精度还是不同数据集的平均分类精度,MCFS 算法都有最好的表现。
表 3 Dataset 1 在不同导联选择算法下的分类精度Table 3 Classification accuracy of dataset 1 with different algorithms
表 4 Dataset 2 在不同导联选择算法下的分类精度Table 4 Classification accuracy of dataset 2 with different algorithms
3.4 导联优化算法比较
为了进一步体现MCFS 导联优化算法的优越性,将MCFS 算法与同一数据集的其他方法相比较,结果如表5 所示。文献[15]提出的智能多目标粒子群导联选择算法获得了60.47%的平均分类精度,相比于MCFS 算法准确率降低了20.53%。Qiu等[16]通过改进序列前向搜索导联优化算法(Improved Sequential Floating Forward Selection,Improved SFFS),将分类精度提高至67.25%,但是该算法平均精度仍比MCFS 算法低13.75%。文献[12]提出的基于互信息的导联选择算法(仅选用文章中的CCS-CSP 算法),得到平均分类精度78%,比本文算法低3%。
表 5 Dataset 1 在不同导联选择算法下的分类精度Table 5 Comparison of classification accuracy with different algorithms for dataset 1
表6 示出了MCFS 算法与其他算法在Dataset 2 上的比较结果。Barachant 等[17]提出的基于瑞利熵的方法,得到78%的平均分类精度,比MCFS 算法低9.4%。Arvaneh 等[18]提出空间稀疏共空间模式(Sparially Sparsed Common Spatial Pattern),提升运动皮层区导联选择的权重,减弱非运动皮层区导联权重,其平均精度比MCFS 算法低5.12%。Belwafi 等[19]提出对脑电信号实现动态滤波的WOLA-CSP 算法得到62.79%的平均分类精度,与MCFS 算法相比低20.11%。Feng 等[20]提出基于多频带的CSP 特征提取算法,通过Lasso 算法进一步提取有效特征组合,获得82.48%的平均分类精度,与MCFS 算法相比低4.92%。
表 6 Dataset 2 在不同导联选择算法下的分类精度Table 6 Comparison of classification accuracy with different algorithms for dataset 2
综上所述,本文提出的MCFS 算法对提升模型的分类性能具有良好的效果。
4 结 论
针对运动想象脑-机接口导联优化问题,本文提出一种基于多相关性导联前向搜索(MCFS)算法。该算法可以根据受试者的不同,选择与运动想象任务相关的脑区所对应的导联,从而减少无关脑区导联所采集的脑电数据对分类的干扰。实验结果表明,对两个竞赛数据集运用MCFS 算法进行导联选择时,不仅仅大幅减少导联数,减少计算量,同时相比传统算法分类精度也得到较大提升。此外,将MCFS 算法与其他成功的算法相比,仍然可以获得最高的平均分类精度,同时也为基于运动想象的BCI 系统提供了技术参考。