基于特征融合神经网络的运动想象脑电分类算法
2022-01-24李红利丁满张荣华修春波马欣
李红利,丁满,张荣华,修春波,马欣
1.天津工业大学控制科学与工程学院,天津 300387;2.天津工业大学人工智能学院,天津 300387;3.天津工业大学电子与信息工程学院,天津 300387
前言
脑机接口(Brain-Computer Interfaces,BCI)为大脑和计算机或其他电子设备提供了一种直接交流的通道,给身体运动障碍患者重新与外界交流带来了可能[1]。因此,自1973年BCI技术首次被提出后就受到广泛关注[2]。MI(Motor Imagery,MI)是BCI 技术中一种重要的实验范式,通过想象身体某部位运动来产生相应的脑电信号[3]。通过分析MI 信号,准确分类想象者的运动意图,可以实现对外部设备的控制[4]。研究人员将BCI技术应用于各种领域,如脑控机器人、医学残疾和癫痫的诊断、自动驾驶汽车等[5-7]。因此,改善MI信号的分类性能无论对医学领域还是人工智能领域都有巨大的意义。
从预处理的脑电信号中提取特征以区分不同动作的脑电信号是BCI技术中最重要的部分,即脑电信号的特征提取与分类[8]。研究人员已经证明传统的机器学习方法如公共空间模式(Common Spatial Pattern,CSP)和支持向量机(Support Vector Machine,SVM)在脑电信号分类中具有良好的分类效果[9-12]。但是传统的机器学习方法对噪声敏感,很大程度上依赖人工设计的特征,需要大量的先验知识,因此传统方法具有一定的局限性。另一方面,传统方法对信号的特征提取与分类是分开进行的,这一过程中可能会丢失一部分信息。深度学习在图像处理方面取得的巨大成功使得许多研究人员看到了新的方向。Kumar等[13]和Yang等[14]使用多层感知器(MLP)作为分类器;Lawhern 等[15]提出了一种EEGNet 的卷积神经网络(Convolutional Neural Network,CNN)模型,该模型引入深度卷积和可分离卷积。上述方法都是将最后卷积层的特征图用于分类,忽略了中间层信息。最近有研究人员使用CNN网络的中间层特征来提高分类精度。Lee 等[16]使用了一种基于迁移学习预训练的网络,提取并融合了多层特征,对音频数据进行自动标记并取得了很好的效果;Li 等[17]整合CNN 的多层特征,用于遥感图像的场景分类。这种融合多层特征的方法体现了集成学习的思想。集成学习是指将几种机器学习技术组合成一个预测模型的元算法,以达到减小方差、偏差或改进预测的效果。目前,已有针对脑电MI特征融合的研究报道,但多分类精度依然有待提高。
本文提出了一种基于特征融合神经网络(Fusion-feature Convolutional Neural Network,FFCNN)的MI 脑电多分类算法,并且给出了模型内特征融合(With-in Model Fusion-feature,WMFF)和模型间特征融合(Cross Model Fusion-feature,CMFF)两种不同的特征融合策略。WMFF 方法在文献[15]的基础上改进了EEGNet 网络,提取网络的中间层与最后层特征经全连接层融合;CMFF 方法融合CNN 与长短时记忆(Long Short-Term Memory,LSTM)两个不同的网络,分别提取每一层的特征。结果表明,所提出的FFCNN 方法可有效提高MI 脑电信号分类准确率。
1 数据集与预处理
1.1 数据集
试验数据来源于2008年第四届国际BCI 竞赛Datasets 2a 数据集。包括9 名受试者、25 个通道(22个脑电通道和3 个眼电通道)的数据,采样率为250 Hz。数据集由4个不同的MI任务产生的信号组成,分别是左手、右手、双脚和舌头。每个受试者总共进行两期试验,每期288 次(每个任务72 次)。试验开始时(t=0 s),伴随着简短的警告声,屏幕上出现一个十字;两秒后(t=2 s),箭头形式的指示标(指向左边、右边、下面或上面,对应于4 个想象任务之一)出现并持续4 s,受试者执行所需的MI 任务,直到提示箭头在t=6 s 时从屏幕上消失。短暂休息后,屏幕再次变黑进行下一次MI 试验。试验流程图如图1所示。
图1 试验时序示意图Figure 1 Experimental sequence diagram
1.2 预处理
为了更好的提取信号特征,需要对原始数据进行预处理。研究表明,与MI 有关的频率主要集中在mu 节律(8~13 Hz)和beta 节律(14~30 Hz),故采用8~30 Hz的带通滤波器进行滤波[18]。然后去除3个眼电通道,只保留脑电通道。
对预处理数据使用裁剪训练策略。裁剪窗口长度为3 s,滑动间隔为0.25 s,在每一个epoch 上得到6 组crop。裁剪策略使得在训练时可以使用更多的特征。时间采样点T=250×3,通道C=22,试验次数N=288。经预处理之后的信号Si=[S1i,S2i,S3i···Sji]T,i∈(1,9),j∈(1,22),其中i代表不同的受试者,j表示通道数,Si表示不同受试者的脑电信号,Sji表示通道j的信号。
假设脑电数据集Di:
式(1)中Xi代表数据集,Yi代表标签集,为了便于CNN的输入,我们将Xi按照C×T的矩阵形式排列,使:
公式(2)就是经预处理之后CNN 的网络二维和一维输入。
2 研究方法
将EEGNet 网络作为基线方法。为了证明特征融合神经网络的有效性,将两种融合策略分别与EEGNet和其他方法对比。
2.1 网络结构
WMFF 方法基于EEGNet 的基础改进而来。EEGNet 是一种浅层神经网络,引入了深度卷积和可分离卷积,有效降低了网络参数,适合脑电信号分类[19]。如图2所示,WMFF 模型分为时间卷积层、深度卷积层和可分离卷积层3部分。在时间卷积中,卷积核大小K为输入采样率的一半,Xi经过时间卷积后输出通道数变为F1,包含不同频带的时间特征;用平均池化层(Average Pooling)对高维数据进行降维,减少网络参数防止过拟合;第二部分是深度卷积层(DepthwiseConv2D),深度卷积在空间上对所有通道执行卷积操作,可以提取空间特征。深度卷积的卷积核表示为(C,1),其中C代表输入矩阵Xi的通道数;可分离卷积层(SeparableConv2D)由深度卷积和逐点卷积两个单独的卷积核组成,前者分别作用于每一个通道,后者与所有卷积核连接。使用批标准化技术(Batch Normalization,BN)减小过拟合,加速网络收敛。BN 技术是一种将中间层激活函数标准化的技术,其均值和单位方差为零[20]。
图2 WMFF网络结构可视化Figure 2 With-in model fusion-feature(WMFF)network structure visualization
CMFF 网络融合了CNN 和LSTM 两种不同的模型,分别提取中间层特征,如图3所示。LSTM 是RNN 的一种变体,同时也继承了RNN 的优势,能够精确的对序列数据进行准确分析[21]。记忆单元、遗忘门及输出门的应用,大幅提高了LSTM 处理时序信息的能力[22]。网络内部的运算过程如下:
图3 CMFF网络结构可视化Figure 3 Cross model fusion-feature(CMFF)network structure visualization
其中,O代表输出门;C代表记忆单元,代表更新的记忆单元;h代表网络输出,σ和tanh代表激活函数;ω代表网络权值矩阵,b代表偏置矩阵;不同的下标t、o、f、m、c分别对应时间、输出门、遗忘门、记忆门和记忆单元不同状态下的参数。
为了与LSTM 网络的输入相对应,在CNN 部分的设计中使用了一维卷积和一维可分离卷积。一维卷积多应用于文本信息,LSTM 多用于时间序列信号[23],对脑电信号这种按时序采集的非线性信号是合适的。CMFF的第一部分是逻辑一维卷积,其作用是在时间维度对Xi进行卷积计算,从EEG 数据中提取初级时间特征;第二部分由一维可分离卷积组成,从空间维度对特征图进行空间特征的提取;第三部分由LSTM 组成,对提取的一维数据再次进行时间维度处理。CMFF 同样使用了BN 技术和平均池化,防止网络过拟合。
每一部分的结构由卷积层或LSTM层、BN层、平均池化层和特征层(扁平层)构成,其中特征层用于特征拼接。
2.2 特征融合
特征融合本质上体现了集成学习的思想。在脑电研究中,脑电图数据是一种动态数据,具有信噪比低的特点,因此手工设计的特征往往具有局限性。文献[24]提出将原始信号、能量特征、功率谱特征以及融合特征分别输入到CNN 中,体现了特征融合的思想。鉴于此,本研究将集成学习的思想迁移到神经网络中来,提出了神经网络特征融合的方法,旨在更加广泛的提取信号特征,以达到更精确的分类效果。
卷积层或LSTM 层输出的特征依次经BN 层标准化处理、平均池化层降维处理之后,经扁平层(Flatten)输出为适合数据拼接的一维数据,从而在每个卷积层保留特征,防止数据丢失,该层称为特征层;然后通过一个扁平拼接层将各个特征层连接在一起,输入到全连接层,该层用Softmax 逻辑回归函数分类。WMFF 网络的第一部分输出为时间特征,第二、三部分输出的是空间特征,每一部分的输出特征经特征层处理之后被拼接在特征拼接层;CMFF网络中第一部分输出为时间特征,第二部分输出的是空间特征,第三部分输出的是经LSTM 网络处理的时序特征,3 部分的输出特征被拼接在一起,在全连接层中分类。假设提取的特征为F1、F2、F3,用扁平拼接层连接起来,其矩阵表达式如式(7)所示:
式中Fc就是融合之后的特征。
2.3 网络训练
本研究将原始数据集按5:3:2 的比例划分为训练集、验证集和测试集。训练集和验证集用于调参,测试集用于最后评估模型的性能。将预处理的脑电信号经时间窗口裁剪,整体数据集将扩大6倍。经裁剪策略处理的信号分别用于两个模型训练。
通过测试多种组合的网络参数,得到了效果最好的1组。表1列出了CMFF模型具体的结构和参数设置。其中D表示深度卷积的深度。
表1 CMFF网络结构Table 1 CMFF network structure
为了得到更好的训练结果,两个模型均使用了BN 技术和Dropout 技术防止网络过拟合。BN 层应用在激活函数之前,确保进入激活函数的值分布均匀,传递更加高效[12];Dropout 放在每一步卷积的最后,每次训练随机抛弃一部分神经元防止过拟合和梯度爆炸。用Relu 函数作为激活函数,其表达式如式(8)所示:
为了进一步优化网络,减少训练时间,采用Adam 优化算法,用交叉熵损失函数(Categoricalcrossentropy Loss)来监督网络性能,该损失函数适用于多分类网络[19]。使用网格搜索算法进行超参数的选择。该方法将各个参数可能的取值进行排列组合,列出所有可能的组合结果生成“网格”,然后用于模型训练,选出最佳参数。表2列出了模型超参数的设置。
表2 超参数设置Table 2 Selections of hyperparameters
3 结果与分析
为了验证所提方法的有效性,分别与EEGNet、文献[25]使用的滤波器组共空间模式(Filter Bank Common Spatial Pattern,FBCSP)算法、Schirrmeister等[26]提出的ConvNet 算法进行对比。测试9 个受试者的数据集,用平均正确率和Kappa系数来评价模型的性能。Kappa的计算公式如式(9)所示:
式中,PAcc代表正确率,P0代表随机正确率。
将本研究提出的方法与其他方法比较之后得到图4的结果,可以看出所提两种方法均优于其他方法。其中,CMFF 算法和WMFF 算法的平均正确率分别比EEGNet方法提高了9.5%和3.7%,Kappa系数分别比FBCSP 方法提高了9.1%和0.7%,证明特征融合神经网络算法可以提高MI 脑电信号的分类正确率。表3列出了两种模型在不同受试的正确率和Kappa系数,其中CMFF在受试1上取得最好的结果,正确率和Kappa系数分别达到95.98%和0.946 4。图5则反映了各方法对不同受试者所表现出的适应能力。可以看出,WMFF 在所有受试中变化最平缓,这得益于使用了融合特征,无论是高层特征还是低层特征都被融合在一起,具有更加全面的特征量,因此可以提高网络对于不同受试者的泛化能力,这有助于对跨受试脑电信号的研究。CMFF 策略结合LSTM 网络与CNN 网络各自的优点,不仅可以提取空间特征和时间特征,还增加了网络的泛化能力,因此对大部分受试都有较高的分类性能。CMFF 在受试1 的训练过程如图6所示,可以看出验证集正确率稳步提升,在300 批次时得到最佳曲线。CMFF 的出色表现证明了不同模型不同层之间融合的有效性。
图4 不同方法在Datasets 2a数据集上的平均正确率与Kappa系数Figure 4 Average accuracies and Kappa coefficients of different methods on Datasets 2a
图5 不同方法在Datasets 2a受试间的正确率Figure 5 Accuracies of different methods for the subjects in Datasets 2a
图6 CMFF方法下受试1验证集正确率Figure 6 Accuracy of CMFF for subject 1 in validation set
表3 WMFF和CMFF方法在不同受试的正确率与Kappa系数Table 3 Average accuracies and Kappa coefficients of WMFF and CMFF methods for different subjects
为了进一步分析所提方法对MI脑电信号的分类性能,计算了3 种方法对受试者测试数据的混淆矩阵。受试1 在CMFF、WMFF 和EEGNet 3 种方法下的混淆矩阵如图7所示,混淆矩阵的横轴代表所用方法预测的MI 类别,纵轴代表实际的MI 类别,最右边颜色条的深浅程度代表分类正确率大小,对角线表示各MI类别的正确分类比率,而非对角线表示各MI类别的错误分类比率。可以看出,所提方法对4 类MI任务都有较高的正确率,在右手、舌头和双足的想象任务中均高于EEGNet 方法,其中CMFF 方法在4类任务中正确率最高,分别达到98.7%、93.3%、95.5%和96.7%。EEGNet方法在双足想象任务中的错误分类率为22.0%,CMFF 和WMFF 方法有效降低了双足想象任务的错误分类率。这说明融合特征增加了可被有效识别的类别特征。
图7 受试1在CMFF、WMFF和EEGNet方法下的四分类混淆矩阵Figure 7 Four-category confusion matrixes of CMFF,WMFF and EEGNet for subject 1
4 结论
传统的机器学习技术无法克服人工选择特征易丢失这一缺点,但是深度学习的出现为脑机接口指明了新的方向。本文提出了一种基于神经网络的特征融合脑电分类算法,并且给出了WMFF 和CMFF两种融合策略,分别对不同层的特征进行提取融合。WMFF 和CMFF 方法在Datasets 2a 数据集上的平均正确率分别达到了76.19%和80.46%,比EEGNet 方法提高了3.7%、9.5%,这说明相较于提取单一特征的网络结构,使用融合特征具有一定的优越性。WMFF在不同受试者之间的表现相差不大,为今后工作中研究跨受试的脑电信号分类问题提供了思路。下一步工作将完善网络结构,探索卷积层输出的可视化方法,进一步解释不同层特征对最终分类的影响,选择更适合的特征进行融合,提高分类正确率。同时,自行设计脑电信号采集试验,利用自行采集的数据集测试所提方法的性能。