基于WCSP-LSTM的脑电运动想象意图识别研究

2022-10-12甘亚奇李楠轩孙云梅

中国电子科学研究院学报 2022年8期

甘亚奇，李楠轩，孙云梅

(1. 桂林电子科技大学，广西桂林 541010;2. 北京东华合创科技有限公司，北京 100086;3. 北京无线电测量研究所，北京 100843)

0 引言

脑机接口(Brain-Computer Interface, BCI)直接连接大脑和外部设备，无需肌肉和周围运动神经参与，进行通信并控制外部设备。1973年，文献[1]首次提出BCI这个概念，与在设备之间传输非生命信息的传统电子接口不同，BCI在大脑和非生命设备之间架起一座通信桥梁[2]。

运动想象(Motor Imagery, MI)被定义为没有任何的运动输出，仅凭大脑想象给定运动的思维过程[3]。MI作为一种高级的认知过程，已广泛地应用于运动技能学习、神经康复和BCI等领域[4-5]。基于MI的BCI系统(MI-BCIs)通过从大脑信号中获得的不同任务进行分类，将受试者的运动意图转化为命令[6-7]。研究表明，通过MI-BCIs反复刺激受伤的运动皮层，激活周围的运动神经细胞，可以帮助运动功能障碍病例恢复运动能力[8]。文献[9]在MI-BCIs上提出促进恢复的神经式脑运动疗法，可以达到较好的康复效果。文献[10]在MI-BCIs中使用功能性电刺激(Functional Electrical Stimulation, FES)作为反馈，发现BCI-FES系统可有效恢复中风病例上肢的运动功能。

皮层脑电图(Electrocorticography, ECoG)常用于自发的运动动作或MI中产生的α波，β波和γ波的分析[11]，大脑活动中的控制信号事件相关电位(Event Related Potential, ERP)，感知运动节律相关的MI已经在基于ECoG的BCI系统中得到广泛应用。文献[12]在1999年提出利用ECoG进行ERP的识别完成动作分类。文献[13]提出BCI系统的MI训练中ECoG演变过程的中的三个典型周期，从而推动基于ECoG的BCI系统的设计和发展。文献[14]提出使用改进S变换进行光谱时间表示来表征脑电活动的方法。使用支持向量机来进行分类，该方法在公共ECoG数据集上进行评估，达到98%的准确率，研究证明该方法在认知任务中的实时BCI系统的潜力。

原始的脑电图(electroencephalography, EEG)/ECoG信号直接应用到MI-BCIs中无法达到很好的效果，研究者们致力于寻找最优的特征提取方法提高MI-BCIs的系统性能。传统的特征提取方法主要包括：时域、频域和空域等。时域的分析一般采用直接提取脑电时序特征的方法，但是分析后的信号掺杂较多的噪声。傅里叶变换、S变换以及功率谱密度是主要的频域的分析方法。传统的时频方法包括短时傅里叶变换、小波变换和希尔伯特黄变换等。单一的特征不能很好地表征EEG/ECoG特征，文献[15]提出一种融合特征的方法，主要使用离散小波变换、排列熵(Common Spatial Pattern, CSP)三种特征融合，结果表明这个融合特征能够有效的提升BCI性能。文献[16]提出一种基于EEG的人员识别的时空密集架构，首先使用卷积神经网络(Convolutional Neural Network, CNN)提取原始EEG的空间特征，然后使用长短期记忆 (Long-Short-Term Memory, LSTM)网络处理时间特征并进行人员识别，实验结果证明所提出的架构在人员识别方面具有很好的鲁棒性。其中CSP是时空域特征提取的代表方法，它可以很好地提取EEG/ECoG的特定信号成分。文献[17]通过方差分析来确定最佳的实验时间段，然后采用CSP算法进行特征提取来实现对健康对照组、轻度抑郁症病例、重度抑郁症病例的EEG三分类。传统的特征提取方法大多是手工完成的，整个过程需要较强的算法技术支撑。然而，目前我们对大脑的探索尚不完善，在特征提取的过程中也容易造成信息的丢失，如何有效提取EEG/ECoG特征是MI-BCIs应用的挑战之一。

随着计算机处理性能的提高，深度学习方法在处理脑电信号方面已成为热点[18]。基于深度学习的CNN、递归神经网络(Recurrent Neural Network, RNN)和生成对抗网络(Generative Adversarial Network, GAN)已经应用到基于EEG的MI-BCIs中。获取EEG数据通常耗时、费力且成本高昂，对训练强大但需要大量数据的深度学习模型提出了实际的挑战，文献[19]提出一种基于循环一致对抗网络(Cycle Generative Adversarial Networks, CycleGAN)替代EEG数据生成的系统，使用EEG2Image将EEG数据转换为脑地形图，使用CycleGAN来学习和生成脑卒中病例的EEG数据。针对传统神经网络在MI-BCIs的分类性能较差的现象，文献[20]将CNN和LSTM相结合，提出一种神经网络特征融合算法，为MI-BCIs的特征提取和分类研究提供新思路。文献[21]提出一种通过数据增强算法来分类的一维卷积神经网络，促进了BCI的发展。与CNN相比，RNN在时序信号建模方面更有效，更适用于EEG/ECoG时序信号。但是在RNN的训练过程中容易出现梯度消失或者梯度爆炸的问题，为了保持模型的有效性，在RNN引入了LSTM单元。文献[22]提出一种基于迁移学习的CNN和LSTM混合深度学习模型，用于对运动想象脑电信号进行分类。文献[23]引入LSTM模型来解码多通道EEG/ECoG，实现MI-BCIs性能的显著提升。为了实现运动想象任务有效的分类，文献[24]采用一维聚合近似来提取LSTM网络的有效信号表示，受经典CSP算法的启发，进一步部署了通道加权技术来提高所提出的分类框架的有效性。

本文提出重叠式加窗式的CSP-LSTM(Window CSP-LSTM，WCSP-LSTM)进行运动想象意图识别，采用WCSP可以很好地描述ECoG的时空域特征，结合LSTM进行深层次特征表征，然后送入全连接(Fully Connected, FC)层进行运动想象意图识别，同时通过脑网络分析癫痫病例在执行MI的运动功能机制，为病例的康复提供一种新的神经调控指标。实验结果表明本文提出的WCSP-LSTM算法在基于ECoG的MI-BCIs系统中具有很好的分类效果，证明了本文算法的有效性。

1 相关工作

通过MI-BCIs将受试者的运动意图转化为命令，同时通过反复MI，刺激脑部受损运动皮层部位，重新激活周围运动神经细胞，重建患者的运动功能[6-8]。BCI是大脑与自然之间的通信媒介[2]。换言之，BCI将大脑生成的信号转换为输出，而不是依赖于周围神经和肌肉，并将使用者的意图直接传输到外部设备[19]。MI-BCIs主要包括三个部分，分别是信号采集、信号处理和应用，如图1所示。脑电信号是BCI系统的基础，电极记录脑电信号的方式有两种，包括侵入式和非侵入式。ECoG和单神经记录属于侵入式。EEG和脑磁图(Magnetoencephalography, MEG)记录[11]属于非侵入式。基于EEG的BCI系统是非侵入式BCI系统的代表之一，也是应用最广泛的BCI系统。基于ECoG的BCI系统是侵入式系统的主要代表之一[26]，虽然需要在大脑皮层植入电极，具有创伤风险，但是由于具备幅值高，信噪比高等优点，近几年受到研究者们的广泛关注。Pradeepkumar等使用LSTM网络对ECoG进行分类，对手势进行解码，所提出的方法达到82.4%的平均分类准确率[25]。

图1 MI-BCIs系统框架

本文构建WCSP-LSTM脑电信号处理算法，应用于基于ECoG的BCI系统进行运动想象任务判别。

2 基于WCSP-LSTM的模型

2.1 模型概述

本文构建WCSP-LSTM模型进行运动想象意图识别，首先对ECoG进行加窗式处理，构建WCSP时空域，送入LSTM进行深层次特征表征；然后，送入FC层进行运动想象任务判别。所提出的算法在国际公开BCI竞赛III数据库I中的ECoG数据集中进行性能评估。

2.2 WCSP模块

首先对癫痫病例的ECoG数据进行预处理，主要包括滤波和时间窗处理两部分。对ECoG数据采用巴特沃斯滤波，由于运动想象的脑电信号波动大多出现在α波段和β波段中，并且要剔除掉高频眼电伪迹的影响，所以选取8 Hz～30 Hz的频段。本文使用LSTM神经网络对舌尖动和左小拇指动两类运动想象分类识别，需要大量的数据进行深层次特征表征。由于所使用的数据集中数据量太少，本文提出了一种时间窗处理方法，针对原始数据进行1 000 ms时间窗处理从而增大数据量。选取0 ms～1 000 ms，500 ms～1 500 ms，1 000 ms～2 000 ms，1 500 ms～2 500 ms，2 000 ms～3 000 ms这五个时间窗对原始数据进行截取，原始的ECoG信号训练集和测试集构成是278×64×3 000和100×64×3 000三维矩阵，其中第一维是实验次数，第二维是通道数，第三维是采样点数，通过时间窗处理之后，训练集和测试集构成是1 390×64×1 000和500×64×1 000，其中第一维是加窗之后的总次数，第二维是通道数，第三维是加窗采样点数。

对预处理之后的ECoG进行特征提取，主要采用WCSP的时空域分析方法。CSP算法的基本原理是利用矩阵的对角化，找到一组最优空间滤波器进行投影，使得两类信号的方差值差异最大化，从而得到具有较高区分度的特征向量[27]。

假设X1和X2分别为两分类想象运动任务下的多通道诱发响应时-空信号矩阵,维数均为N×T,N为脑电通道数，T为每个通道所采集的样本数。为了计算其协方差矩阵，假设N

(1)

式中：S1和S2分别代表两种类型任务。假设两种信号源是相互线性独立的；Sm代表两种类型任务下所共同拥有的源信号，假设S1是由m1个源所构成的，S2是由m2个源所构成，则C1和C2便是由S1和S2相关的m1和m2个共同空间模式组成的。由于每个空间模式都是一个N×1维的向量，现在用该向量来表示单个的源信号所引起的信号在N个导联上的分布权重。CM表示的是与Sm相应的共有的空间模式。CSP算法的目标就是要设计空间滤波器F1和F2得到空间因子W。

首先需要求解协方差矩阵，时空信号矩阵X1和X2归一化的协方差矩阵R1和R2。

(2)

(3)

式中：Ri分别为任务1,2的平均协方差矩阵。

第二步需要构建空间滤波器，首先需要求解正交白化变换求白化特征矩阵P，由于混合空间协方差矩阵R是正定矩阵，将协方差矩阵按照分解定理进行特征分解：

R=UλUT

(4)

式中：U是特征向量矩阵；λ为对应的特征值的对角阵，按特征值按降序排列，白化转换U可得：

(5)

然后构建空间滤波器，将矩阵P作用于C1和C2可得：

S1=PR1PT

S2=PR2PT

(6)

S1、S2具有公共特征向量，且存在两个对角矩阵λ1、λ2和相同的特征向量矩阵B, 对S1、S2进行主分量分解，可得：

S1=Bλ1BT

S2=Bλ2BT

(7)

且两个特征值的对角阵λ1和λ2之和为单位矩阵：

λ1+λ2=I

(8)

由式(8)可知，若λ1中的特征值按照降序排列，则λ2中对应的特征值按升序排列。由于λ1、λ2为S1、S2的对角矩阵，所以对于特征向量矩阵B，当S1取最大的特征值时，S2具有最小的特征值。因此可以利用矩阵B实现两类问题的分类，由此得到投影矩阵W为

W=BTP

(9)

投影矩阵W就是对应的空间滤波器。

最后进行特征提取将训练集的运动想象矩阵XL和XR经过滤波器W滤波可得特征ZL和ZR为

ZR=W×XR

ZL=W×XL

(10)

对于测试数据,其特征向量提取方式为

(11)

将fi与fL和fR进行比较以确定第i次想象为想象左还是想象右。根据CSP特征提取的定义，其中fL和fR的定义为

(12)

本文对癫痫病例的舌尖和左小拇指两类MI任务下进行时空域特征提取，从64通道的ECoG数据里面提取出每一类的空间分布成分，利用矩阵的对角化，找到一组最优空间滤波器进行投影，使得两类的方差值差异最大化，从而得到具有较高区分度的特征向量。

2.3 LSTM-FC模块

将WCSP的时空域特征送入LSTM神经网络进行深层次特征表征，然后利用FC层进行运动意图识别。LSTM模型对其隐藏层结构进行了改造，增加一个可以控制长期状态的细胞状态，如图2所示。遗忘门、输入门和输出门三个门函数可以有效地控制当前长时状态的记忆，解决了长时依赖问题，使得网络可以轻松记忆长时信息。

LSTM的隐藏层中包含一个细胞状态ct和隐藏状态ht，可以定义为

(13)

ht=ot·tanh(ct)

(14)

(15)

式中：ct表示用于更新的候选值[28]，it,ft,ot分别为输入门、遗忘门和输出门的输出。

公式(16)～(18)分别表示的是输入门、遗忘门和输出门，其中输入门控制输入信息是否在隐藏状态下更新，输出门控制在当前时间步存储的隐藏状态信息量，遗忘门控制前一个状态对导出当前状态的贡献。

ft=σ(wf·[ht-1,xt]+bf)

(16)

it=σ(wi·[ht-1,xt]+bi)

(17)

ot=σ(wo·[ht-1,xt]+bo)

(18)

随着时间步长的推移，LSTM可以根据门机制是否闭合来选择是否读入、写进和重置当前细胞状态ct的信息。其中，遗忘门是LSTM中最关键的组成部分之一，可以直接影响LSTM的性能。LSTM的三个门通过不同的参数控制细胞状态存储先前状态信息的强度、更新输入量大小以及输出量的多少[29]。

将LSTM神经网络提取的深层次特征送入FC层进行运动想象任务判别。本文使用的FC层神经网络的前两层隐藏层(h1，h2)神经元的数目为v1=32，v2=16。第三层隐藏层将之前的输出汇集成值z并输入Softmax激活函数得出结果。

本文构建WCSP-LSTM模型用于包含运动想象的ECoG信号的深层次特征表征和运动想象意图识别。首先，对经过巴特沃斯滤波器的ECoG信号进行WCSP时空域特征提取；其次，引入LSTM-FC网络对WCSP特征进行深层次特征表征和运动想象意图识别，其总体流程如图3所示。

图3 WCSP-LSTM系统框架图

3 实验结果与分析

3.1 数据集

本文采用国际公开BCI竞赛III数据库I中的ECoG数据集来评估所提出算法的有效性。采集脑电的通道数目为64，脑电信号的釆样频率为1 kHz。数据集中包括训练集和测试集，储存格式为“实验次数×信道数目×样本数目”。训练集中包括278个实验，数据集结构为278×64×3 000。测试集中包括100个实验，数据集结构为100×64×3 000。本实验中包含舌头和左小手指二类运动想象任务。训练集中每一类运动想象任务的实验次数为139次。数据集是由波恩大学癫痫分院提供，数据来源于病灶性癫痫病例，在病例大脑右半球运动皮层表面放置一个网格状铂电极，尺寸为包括64个用来记录数据的信道，如图4(a)所示。为了本文算法描述的方便性，我们给出信道的位置做了定义，其顺序如图4(b)所示。

图4 电极位置及分布图

实验采集过程中，首先在病例的大脑皮层植入电极并保持一周用来记录数据。数据记录是在一周内不同的二天完成。整个实验过程中，用户面对电脑屏幕，根据要求重复想象伸舌头和左小指的运动。每次想象过程开始时屏幕上出现一个运动想象任务的图像。为了避免视觉激发电位，图像提示1 s后开始采集信号。图5描述一次实验中的脑电数据采集过程。

图5 数据采集过程

3.2 结果分析

首先，基于WCSP-LSTM系统模型对深层次进行可视化；然后，针对WCSP特征、相位锁定值(Phase Locking Value, PLV)+CSP融合特征以及WCSP-LSTM特征进行对比分析并验证算法有效性；最后，利用PLV来构建脑网络对左小拇手指动和舌尖动两类运动想象任务进行网络机制的对比研究。

3.2.1WCSP-LSTM深层次特征可视化

基于WCSP-LSTM系统模型对于经过WCSP的特征之后进入LSTM进行深层次的特征提取，并对深层次特征进行可视化展示，按照训练集和测试集的先后顺序对数据进行处理和可视化，由于数据量过大，对深层次特征通过三幅图展示如图6所示。

3.2.2算法性能

为了验证本文所提出LSTM深层次特征的有效性，本文针对WCSP特征、PLV+CSP融合特征以及WCSP-LSTM特征进行对比分析，分别采用支持向量机(Support Vector Machines，SVM)、随机森林以及梯度提升三种传统分类器与LSTM-FC神经网络进行运动想象任务判别，如表1所示。

表1 WCSP-LSTM特征与传统特征的比较 %

表1显示三种传统分类器对WCSP与PLV+CSP特征进行识别，其中融合特征PLV+CS的识别效果优于WCSP特征。三种传统分类器对两种特征识别中SVM对融合特征PLV+CSP的识别效果最好，准确率能够达到73%，优于其他两种分类器。相比较于传统分类器，包含LSTM深层次特征的模型所得到的分类准确率最高，能达到93.423%，比传统特征的分类准确率差值最高达23.423%。

本文对基于WCSP提取之后的ECoG数据利用LSTM进行深层次特征表征，利用FC网络进行运动想象任务判别，对融合特征PLV+CSP进一步利用LSTM神经网络进行运动想象意图识别，发现WCSP深层次表征的运动想象意图识别效果明显优于融合特征PLV+CSP运动想象意图识别的效果。表2描述WCSP和PLV+CSP进行LSTM深层次表征后，进入FC层进行运动想象意图识别的结果，并且进行了十折的交叉验证。交叉验证包括从1～10次的十折的交叉验证结果。其中WCSP的分类准确率最高为100%，PLV+CSP的分类准确率最高为92.11%，WCSP的分类准确率比PLV+CSP的分类准确率高出7.89%。WCSP的交叉验证平均准确率为93.423%，PLV+CSP的交叉验证平均准确率为83.158%，WCSP的交叉验证平均准确率比PLV+CSP的交叉验证平均准确率高出10.265%。

3.2.3脑网络分析

图7表示对癫痫病例舌尖运动想象和左小拇指运动想象两组邻接矩阵进行t检验，并进行错误发现率校验形成的差异网络图。图7中蓝色线表示癫痫病例在进行舌尖运动想象时比左小拇指运动想象时的连接性强，红色则相反。从图中可以观察到在进行舌尖动运动想象时右侧脑区的各个电极节点之间的连接密度更高。通过图7两类运动想象脑网络差异性可以看出舌尖动比左小拇手指动各个节点之间的连接性更强，连接密度更高。

表2 所提出算法与融合特征的交叉验证准确率对比 %

图7 癫痫病例舌尖运动想象和左小拇指运动想象差异网络图

4 结语

1)本文提出的WCSP-LSTM深层次特征进行对癫痫病例的运动想象意图识别，由于ECoG采集难度较大数据量过少，为扩充数据量，本文提出一种加窗式的CSP特征提取方法，以1 000 ms的时间窗长度进行切割，结合LSTM进行深层次特征表征，通过FC进行任务判别。实验结果表明基于WCSP-LSTM深层次特征进行运动想象识别的效果明显优于传统的机器学习分类，所得到的分类准确率最高能达到93.423%，比传统特征的分类准确率差值最高达23.423%。

2)本文提出的WCSP特征进一步与融合特征PLV+CSP比较，利用LSTM进行深层次的特征提取，通过FC神经网络进行运动想象任务判别，分类准确率最高为100%，交叉验证平均准确率为93.423%，比PLV+CSP的交叉验证平均准确率高出10.265%，充分说明本文提出的WCSP特征可以有效地捕捉MI过程中脑活动的基本信息。

3)本文提出使用PLV对癫痫病例在执行运动想象时的特征进行可视化，发现右脑的连接更加紧密而且枕叶和顶叶之间的连接性更强，可以更好地理解癫痫病例运动意图以及功能障碍的脑网络机制，为临床康复提供更可靠的定量分析方法。

本文所提出的算法侧重于提取ECoG有效的深层次特征来实现精准MI意图识别。在未来的工作中，将更多ECoG的数据用于WCSP-LSTM算法中，进一步提高MI-BCIs的性能。