APP下载

基于多尺度特征提取与挤压激励模型的运动想象分类方法

2020-11-02贾子钰林友芳刘天航杨凯昕张鑫旺

计算机研究与发展 2020年12期
关键词:电信号尺度卷积

贾子钰 林友芳,3 刘天航 杨凯昕 张鑫旺 王 晶,3

1(北京交通大学计算机与信息技术学院 北京 100044)

2(交通数据分析与挖掘北京市重点实验室(北京交通大学) 北京 100044)

3(民航旅客服务智能化应用技术重点实验室(中国民用航空局) 北京 100044)

脑机接口(Brain-computer Interface, BCI) 作为人机混合增强智能的重要应用,可以通过大脑活动来控制外部设备进而建立大脑与外界的联系.在早期的研究中,脑机接口主要应用于中风患者的康复治疗[1],后期应用到了更广泛的领域,例如控制轮椅[2]、文字拼写器[3]、情感识别[4]等领域.脑机接口可以充分利用电生理活动或血液动力学活动等大脑活动来实现大脑和外界的交互[5].其中,测量脑电信号(electroencephalography, EEG)可以直接反应出电生理活动.测量血液动力学活动通常使用功能磁共振和近红外光谱等方法.由于脑电信号较其余生理数据具有高时间分辨率、低成本、高便携性等优势,因此被广泛应用于脑机接口的研究中,在医学的康复治疗中起着至关重要的作用.

脑电信号具有非线性、非平稳和低信噪比等特点,如何进行有效的运动想象信号分类,一直是脑机接口领域的重点研究问题.基于EEG的运动想象是脑机接口的经典范式之一,它是指受试者在大脑中想象肢体执行特定运动任务,而实际肢体处于静止状态.在此过程中产生的脑电信号具有事件相关同步(event-related synchronization, ERS)和事件相关去同步(event-related desynchronization, ERD)现象[6].大多数传统方法主要对脑电信号的空间或时频等特征进行手动提取然后进行运动想象分类,例如利用公共空间模式(common spatial pattern, CSP)[7]、滤波器组公共空间模式(filter bank common spatial pattern, FBCSP)[8]等方法可以提取脑电信号中的空间特征.利用短时傅里叶变换、小波变换等方法可以提取脑电信号中的时频域特征.但是,有效的特征提取往往需要研究人员具备一定的先验知识并进行大量的特征选择.

为了避免手动提取特征,研究者尝试使用深度学习的端到端模型提升运动想象分类任务的准确度. Schirrmeister等人[9]建立了多个不同架构的端到端卷积神经网络(convolutional neural networks, ConvNets)模型对运动想象脑电信号进行分类;Zhao等人[10]改进了ConvNets模型,解决了其需要大量数据来训练的问题并实现了时空特征联合学习.虽然现有的端到端模型取得了较高的准确度,但是这些模型大都同时利用脑电信号的空间信息和时间信息.而在实际BCI系统的应用中,具有较少通道的脑电信号更便于采集,并且能够大幅度降低脑机接口设备的生产与使用成本.但当采集的通道数较少时会影响运动想象的分类效果,现有端到端模型往往难以达到较优的效果.因此,当采集脑电信号的通道数较少(缺乏空间信息)时,对其进行精准分类是一个亟待解决的问题.

为解决上述问题,本文提出了一种基于多尺度特征提取与挤压激励模型的深度模型,该模型包括3个核心模块,分别是多尺度模块、残差模块和挤压激励模块.与现有多尺度模型不同,该模型不依赖于脑电信号的预处理(例如信号滤波),并且更多的卷积尺度能够在较少的脑电通道中充分挖掘脑电信号特征.此外,深度模型的挤压激励模块可以自适应提取对于高精度分类更为重要的特征。基于本文提出的深度神经网络也可以在脑电信号通道数较少的情况下进行运动想象脑电信号分类,这有利于BCI可穿戴智能设备的发展,本文的主要贡献分为3个方面:

1) 基于多尺度卷积结构可以自动提取原始脑电信号中的时域、频域和时频域特征,无需手动提取特征.

2) 基于挤压激励模块自动学习不同特征的重要性程度,提升端到端模型的分类效果.

3) 在公开的BCI竞赛Ⅳ 2a和2b数据集上进行实验,验证本文模型的分类效果优于现有运动想象分类模型.

1 相关工作

现有的大多数方法主要基于脑电信号的空间特征和时频特征进行运动想象分类.基于空间特征的方法主要有CSP及其改进方法.CSP方法基于矩阵对角化构建最优空间滤波器进行投影,进而得到具有较高区分度的特征向量.例如,Zhang等人[11]提出的基于CSP方法的多核极限学习机,该模型使用CSP方法提取空间特征进行运动想象任务的分类.Ang提出了FBCSP[8]方法解决了CSP的效果依赖于选择合适的频段这一问题.针对时频特征的提取,目前主要的方法有快速傅里叶变换、小波变换等方法.如Lu等人[12]提出基于受限玻尔兹曼机(restricted Boltzmann machine, RBM)的深度学习模型使用了快速傅里叶变换提取EEG信号中的时频特征.此外,还有一些研究者提出了基于双谱特征的提取方法[13].

然而,提取脑电信号特征需要掌握大量先验知识. 近些年来,深度学习在计算机视觉、自然语言处理和语音识别方面取得了巨大成就[14].端到端的深度学习框架[15]将多个处理阶段如数据处理、特征提取合并为一个模型,建立了从输入到输出的直接投影,在各种任务中均表现出色.因此,深度学习的出现为建立端到端模型提供了思路,诸多研究者尝试构建端到端的深度学习模型进行运动想象的分类.但是脑电信号具有非线性、非平稳、低信噪比等特性,这些特性成为了构建基于脑电信号端到端模型时的几大难题.在运动想象领域中已经有一些基于端到端模型的研究.Schirrmeister等人[9]利用Conv-Nets适合端到端学习的优势,构建了3种不同架构的ConvNets模型:Deep ConvNets模型、Shallow ConvNets模型、Hybrid ConvNets模型对脑电信号进行分类.Zhao等人[10]提出WaSF ConvNet模型改进了ConvNets模型,同时解决了传统模型难以解释、参数量大等问题,实现了时空联合的特征学习.

但是,上述模型一般使用单一尺度的卷积,这种结构提取的特征是有限的,尽管存在少量多尺度模型进行运动想象分类[16]但仍然依赖于脑电信号的预处理并且这些模型的多尺度跨度较小不能充分提取脑电特征.此外,大多数现有模型的分类结果在一定程度上依赖于脑电信号空间信息的丰富程度.实际上,通道数较少的数据采集更为便利,所以当空间信息不足时,如何进行脑电信号的特征提取与分类是一个重要的问题.因此,我们设计了具有不同卷积核大小的多分支卷积神经网络来捕获不同类型的特征,这些特征相互补充并提高了分类的准确性,与此同时应用挤压激励模块自动学习不同特征的重要性进而实现高精度的分类.

2 符号定义

对运动想象脑电进行采集时,一般通过固定在头部的若干电极获取多通道信号,并且所有电极以相同的采样频率记录大脑产生的信号.每组运动想象脑电信号的采集实验包含若干关键时间节点,例如每次给出运动想象开始提醒的时间节点,以及运动想象开始和结束的时间节点等.研究者采用的运动想象脑电信号一般是从运动想象提醒至结束的时间节点间采集的脑电信号.

运动想象脑电信号分类问题可以定义为:基于端到端深度神经网络学习映射函数F,该函数将原始脑电信号X映射为标签yprediction:

yprediction=F(X),

(1)

其中,F表示映射函数,X是输入的脑电数据,yprediction是模型输出的预测结果.

3 多尺度特征提取与挤压激励神经网络

本文的多尺度特征提取与挤压激励神经网络模型总体框架如图1所示,该模型包括3个核心部分:多尺度卷积模块(Part1)、残差模块(Part2)、挤压激励模块(Part3).其中,Part1基于多尺度卷积核从原始脑电信号中,自动地提取脑电信号的时域、频域和时频特征;Part2基于残差模块进行特征融合,同时引入残差避免了网络层数过多产生的网络退化问题;Part3基于挤压激励模块对融合的特征进行选择,有效地避免了信息冗余并自动学习不同特征的重要性,进而提升运动想象脑电信号的分类效果.

Fig. 1 Overall framework of the multiscale feature extraction and squeeze excitation model图1 多尺度特征提取与挤压激励模型总体架构图

3.1 多尺度卷积模块

在运动想象分类任务中,一个重要的问题是如何提取到丰富的特征进而提高分类准确度,尤其是在空间信息较少的情况下.在之前的研究中大部分模型仅使用单一尺度的卷积核进行卷积操作及特征提取,这种单一尺度的设计在一定程度上限制了模型特征提取和分类的能力.因此,我们设计了一种多尺度卷积结构Part1,该结构基于多尺度卷积自动从原始脑电信号中提取时域、频域以及时频特征.其结构如图2所示:

我们设计的多尺度卷积结构主要根据信号处理领域的相关方法[17],利用大尺度卷积核捕获脑电信号中的频域特征,小尺度卷积核捕获时域特征;3种中等尺度的卷积核捕获时频域特征,从而提取更多更丰富的特征,进而提高分类效果.相比于传统的手动设计特征的方法,该结构可以自动对原始脑电信号进行多尺度的特征提取.具体而言,我们受到Inception结构[18]的启发,将其改进为适合处理脑电信号的Part1结构,该结构采用了多个并行卷积分支对原始数据进行特征提取,包含大尺度1×180卷积核、小尺度1×10卷积核以及其余中等尺度1×45,1×65,1×85卷积核,中等尺度的卷积对于其余尺度的卷积起到了有益的补充作用.同时,与Inception模型类似,Part1结构保留了并行池化层以提高模型的分类准确度,其大小为1×100. Part1结构定义为:

Iconv=[p1,k*xi;p2,k*xi;p3,k*xi;p4,k*xi;p5,k*xi],

(2)

I=[Iconv;Fmaxpooling(xi)],

(3)

其中,Iconv表示5个卷积分支上的输出,xi表示输入的第i个样本,pj,k表示第j个分支上的第k个卷积核,*表示卷积操作,Fmaxpooling(x)表示最大池化层上的输出,[ ]表示特征图拼接操作,I是Part1的输出表示拼接操作得到的矩阵.

3.2 残差模块

Part2是本文模型的残差模块,该模块对提取的特征进行特征融合,与此同时该模块引入残差避免了网络层数过多产生的网络退化问题[19].残差模块的结构如图3所示,该模块由多个一维卷积层和批量归一化(batch normalization, BN)层结合残差连接堆叠形成,其定义为:

U=Fres(I)+I,

(4)

其中,I表示该模块的输入,U表示其输出.残差连接可以将浅层网络学习得到的特征传递给深层网络,从而避免网络退化的发生.

3.3 挤压激励模块

Part3是本文模型的挤压激励模块,可以对融合的特征进行选择,有效地避免了信息冗余,该模块采用SE(squeeze-and-excitation block)结构[20]自动学习不同特征的重要性,进而提升运动想象脑电信号的分类效果.

Part3主要包含3步操作:

第1步通过使用全局平均池化将通道进行压缩(squeeze)操作,其定义为:

(5)

其中,Fsq表示压缩操作,m表示压缩操作形成的压缩向量,U表示输入的特征图(feature map),L是它的大小.

第2步是激励(excitation)操作,其定义为:

S=Fex(m,W),

(6)

其中,Fex表示激励操作,S是该操作的输出可以刻画不同特征的重要程度,W基于比例参数(ratio)进行该操作的调节.

第3步操作是为特征图U分配重要程度:

f=Fscale(U,S)=U·S,

(7)

其中,·表示矩阵相乘运算,Fscale表示分配权重操.

4 实验与结果

4.1 评价指标

本文选择准确度和Kappa值作为评价指标来评估实验结果,准确度(accuracy,acc)的定义为:

(8)

其中,TP表示真阳性,TN真阴性,FP假阳性,FN假阴性.

Kappa值(κ)的定义为:

(9)

(10)

其中,n为样本总数,a1,a2,…,az为每类样本的实际量,而b1,b2,…,bz为模型预测出的每类样本的数量.

4.2 数据集

本文使用了2008年BCI竞赛Ⅳ中2个公开的数据集[21].

1) 数据集1.BCI竞赛Ⅳ 2b数据集包含9名受试者执行运动想象任务(左手和右手动作)的数据,其中受试者都是右利手,采集数据时要求所有受试者坐在椅子上,注视距离眼睛1 m的屏幕.采集的脑电信号包括频率为250 Hz的3个EEG通道(C3,Cz和C4),并使用0.5 Hz~100 Hz带通滤波器和50 Hz的工频陷波器进行滤波.每个受试者进行5组实验,其中前2组实验采用无反馈实验范式采集,每组包含120次运动想象任务,后3组实验采用有反馈实验范式采集,每组包含160次运动想象任务.

数据采集时包含有反馈实验范式和无反馈实验范式,其中有反馈实验范式是第0秒时在屏幕中央出现灰色笑脸(gray smile).在第2秒处,出现短时提示音(beep)提示受试者准备开始.在第3秒时,箭头提示线索(cue)出现,屏幕上箭头的左右朝向将提示受试者想象左手或是右手动作,屏幕上的反馈笑脸(feedback smile)将根据想象朝左侧或是右侧移动.第7.5秒时,屏幕变为空白,运动想象结束.算法将识别的结果反馈给受试者,若识别结果与真实提示的运动类别一致,则屏幕显示笑脸,否则屏幕显示哭脸.

无反馈实验范式是在运动想象任务开始时出现短暂提示音(beep),之后屏幕上显示一个固定的十字(fixation cross),之后在第2秒时屏幕上出现提示线索(cue),第3秒受试者开始运动想象(motor imagery),第6秒结束运动想象进行短暂休息(break).实验使用所有受试者全部5组实验,并提取每次运动想象任务中从提示开始4 s的脑电信号数据.

2) 数据集2.BCI竞赛Ⅳ 2a数据集包含9名受试者执行运动想象任务(左手、右手、舌头和足部动作)的数据.其所采集的脑电信号包括频率为250 Hz的22个EEG通道,并使用0.5 Hz~100 Hz带通滤波器和50 Hz工频陷波器进行滤波.实验中,每个受试者进行2组实验,每组实验包括288次运动想象任务,每种分类任务72次.

该数据集的采集使用无反馈实验范式,所收集的运动想象任务的持续时间与BCI竞赛Ⅳ 2b数据集相同.我们的实验使用所有受试者的全部2组实验,并提取实验中从提示开始4 s脑电信号数据.此外,为了研究在空间信息较少的情况下的分类情况,我们的实验使用与2b数据集相同的3个EEG通道 (C3,Cz和C4)进行实验.

4.3 实验设置

为了评估模型的有效性,在实验中我们采用了5折交叉验证,使用ELU激活函数、Adam优化器,模型学习率恒定为0.0001,dropout=0.8.此外,我们分别在Part1和Part2中的卷积层中使用了L2正则化,正则化参数分别设置为0.002和0.01.同时,在训练过程中使用了早停训练的方式.此外,我们使用了滑动窗口和添加高斯噪声的方法进行数据增强[22],更多的网络参数设置详见表1所示:

Table 1 Network Parameter Settings of the Proposed Model表1 本文模型的网络参数设置

4.4 基准模型

本文模型与6种基准模型进行比对:

1) CSP模型[7].基于矩阵对角化构建最优空间滤波器进行投影,进而得到具有较高区分度的特征向量.

2) FBCSP模型[8].基于多频段带通滤波的CSP方法,采用特征选择算法进行特征的选择,最后使用分类模型进行分类.

3) MKELM模型[11].使用2种不同类型内核(高斯内核和多项式内核)的极限学习机方法,将CSP特征映射到不同的非线性特征空间中.

4) Shallow ConvNets模型和Deep ConvNets模型[9].2个能端到端地提取时域特征和空间特征的浅层和深层卷积模型,该方法模型是使用深度学习进行脑电信号分类的第1次探索.

5) EEGNets模型[23].使用深度卷积和可分离卷积的单一尺度神经网络,该模型参数量较小,在训练数据有限时具有较强的泛化能力和更高的性能.

6) MSFBCNN模型[24].一种由3部分构成(特征提取层、特征简化层、分类层)的深度卷积神经网络.

4.5 与基准模型的结果对比

表2列出了本文模型与先进基准模型在BCI 竞赛Ⅳ 2b数据集上的结果对比.实验表明本文模型优于其余基准模型,其平均准确度是最高的.CSP和FBCSP这2种方法在空间信息较少的情况下无法发挥其提取空间特征的优势,也忽略了脑电信号时域或频域特征等信息的提取,因此并不能达到较高的分类准确度.以受试者S3为例,本文模型比CSP方法提高了20%多的准确度,比FBCSP方法提高了10%以上的准确度.对于端到端模型,尽管EEGNets模型和Shallow ConvNets模型可以进行端到端的脑电信号特征提取,但其进行提取特征时仅采用单一尺度的卷积核并不能充分挖掘脑电信号中蕴含的大量信息,同时存在一定程度上的信息损失从而限制了分类准确度.本文模型基于多尺度卷积的设计,可以自动提取脑电信号的时域、频域以及时频域特征,相比于传统模型增加了特征的丰富程度从而增加了分类效果.因此本文模型在大部分受试者的准确度上优于传统的基准模型,并且具有最高的平均准确度.

Table 2 The Performance Comparison of the State-of-the-Art Models on BCI cCompetition Ⅳ 2b表2 本文模型与基准模型在BCI竞赛Ⅳ 2b数据集的结果对比

图4展示了本文模型在BCI竞赛Ⅳ 2a数据集与现有的先进端到端基准模型(EEGNets,Shallow ConvNets,Deep ConvNets,MSFBCNN)的比较.结果表明在空间信息较少的情况下,对于运动想象分类任务本文模型仍能取得最优的结果,同时也体现了本文模型在不同数据集上的鲁棒性.

Fig. 4 The performance comparison of the state-of-the-art models on BCI competition Ⅳ 2a图4 本文模型与基准模型在BCI竞赛Ⅳ 2a实验结果对比

4.6 讨论多尺度结构中分支数对分类结果的影响

为了验证多尺度结构Part1中每个分支的有效性,我们在BCI竞赛Ⅳ 2b数据集上进行实验,从仅使用一个卷积分支Part1-(1)开始,逐步递增卷积分支的数量,直至与原结构相同,对比结果如图5所示.

Fig. 5 Experiment result with different branch numbers图5 不同分支数的实验结果

由图5可得,分类准确度随着卷积分支的增加而提高,基于全部卷积分支的模型达到了最高的准确度.这说明随着卷积分支的增加,模型提取特征的丰富程度不断增加,这些特征(时域、频域、时频域等特征)起到互相补充的作用,从而提高了分类准确度.

4.7 讨论挤压激励模块对分类结果的影响

Fig. 6 Experimental results before and after the SE block is removed图6 移除挤压激励模块前后的实验结果对比

为了探究挤压激励模块对模型分类结果的影响,我们移除挤压激励模块与本文模型进行比较.如图6所示,移除挤压激励模块后每个受试者的分类准确度出现不同程度的降低.由此说明,挤压激励模块在本文模型的有效性,原始脑电信号经过多尺度卷积模块和残差模块提取到的特征对于分类的重要程度是不同的,基于挤压激励模块可以自动学习不同特征的重要程度,进而提升运动想象任务的分类效果.

4.8 讨论不同通道对分类结果的影响

在脑电信号的提取过程中,往往需要在头部覆盖若干电极,以全面地捕获大脑在进行运动想象时产生的生理信号.通常电极数量越多采集的信息就越全面,但采集成本会随之提高并且设备的便携性也会降低.因为每个通道的信息对分类结果的重要程度是不同的,所以确定出对于分类较为重要的通道,进行有针对性的采集将有助于提高采集设备的便携性,进一步降低生产和使用的成本.

我们基于本次实验使用的所有通道(C3,C4,Cz通道)的脑电信号,进一步探究不同脑电通道对分类结果的影响.由图7可得,单独使用C3通道或C4通道得到的分类效果优于单独使用Cz通道,并且单独使用C4通道的结果又优于C3通道的结果.每个通道对于分类的影响是不同的.此外,由图7可知当基于组合脑电通道进行分类时,其分类结果都优于使用单独的通道得到的结果.其中同时使用C3和C4这2个通道的分类准确度仅与3个通道同时使用时的分类准确度相差2%,这说明在实验中从C3和C4两个通道提取到的信息对运动想象分类起着主要作用,再增加Cz通道对于模型分类准确度的提升相对较小.

Fig. 7 Experiment result with different channels图7 不同通道的实验结果

上述实验表明进行运动想象脑电信号分类时,所有通道对分类准确度都起到了提升作用,但是不同通道的脑电信号对提升分类效果的重要性是不同的.当资源有限的情况下,C3和C4两个通道的组合能够达到较优的分类效果.这些探究结论为脑电信号通道的选择提供了一定的参考标准,将有助于便携式运动想象设备的研发.

5 总 结

本文提出一种基于多尺度特征提取与挤压激励的深度模型进行运动想象脑电信号分类.首先根据信号处理相关理论设计多尺度卷积模块,对原始脑电信号进行时域、频域和时频域特征的自动提取;其次基于残差模块和挤压激励模块进行特征的融合和选择;最后通过全连接层进行脑电信号分类.在2个公开数据集进行的实验结构表明,本文模型的分类效果优于现有基准方法达到了最高的平均分类精度. 此外,本文讨论了多尺度的设计、挤压激励模块和通道的选择对于分类效果的不同影响.在未来,我们将研究轻量级深度神经网络在运动想象分类的应用,进一步提高脑机交互的实时性.

贡献声明:贾子钰进行了该论文的模型设计和编码、论文撰写等工作;林友芳进行了方法的设计与论文的修改;刘天航进行了模型调优和论文修改;杨凯昕和张鑫旺进行课题的前期调研和数据的统计分析及可视化;王晶为参与了论文的修改和讨论.

猜你喜欢

电信号尺度卷积
基于联合聚类分析的单通道腹部心电信号的胎心率提取
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
财产的五大尺度和五重应对
从滤波器理解卷积
基于Code Composer Studio3.3完成对心电信号的去噪
基于傅里叶域卷积表示的目标跟踪算法
基于随机森林的航天器电信号多分类识别方法
宇宙的尺度
9