基于EMD的运动想象脑电特征提取与识别
2015-03-02杨航
杨航
摘要:针对运动想象脑电特征的提取与识别,提出了一种采用经验模态分解(EMD)提取脑电信号能量特征与幅值特征的分类识别方法。首先用时间窗对脑电信号进行细分;然后利用EMD方法对细分后的数据进行分解,取前三阶的固有模态函数分量(IMF),提取能量和平均幅值差作为特征向量;最后,使用支持向量机对左右手运动想象进行分类识别。多次仿真试验数据表明,分类准确度达到88.57%,证明了该方法有效、适用。
关键词:经验模态分解; 特征提取; 运动想象;支持向量机
DOIDOI:10.11907/rjdk.143770
中图分类号:TP301
文献标识码:A 文章编号文章编号:16727800(2015)001004403
0 引言
脑机接口(BrainComputer Interface,BCI)技术是不依赖于脑的正常输出通路(外周神经系统和肌肉组织),即可实现大脑与外界直接通信的一种新的人机交互方式[1]。它能为肢体残疾患者提供与外部通信的手段,在残疾人康复、正常人辅助控制、娱乐等领域有着广泛应用。
特征提取是脑机接口系统中最重要的技术之一,特征提取常用的技术有FFT(fast Fourier transform)、AR(AutoRegressive)、ARR(Adaptive AutoRegressive)、ICA(Independent Component Correlation)、小波变换等。经验模态分解 (Empirical mode decomposition,EMD)方法是Huang等人[23]提出的一种信号处理方法,该方法能根据信号本身的尺度特征对信号进行分解,获得一系列的固有模态函数(Intrinsic Mode Function, IMF)分量,信号的非线性和非平稳特征能在各阶IMF分量中显示出来。将EMD方法应用于脑电信号的特征提取效果较好。
支持向量机(support vector machine,SVM)是在统计学理论基础上提出的一种机器学习方法,它可以避免以往机器学习中存在的欠学习和过学习问题,在处理非线性、小样本以及高维模式识别等方面优势明显[4]。因此,SVM在脑电信号特征分类领域有着广泛的应用。
本文提出了一种采用EMD方法提取运动想象脑电信号中能量特征与幅值特征,然后利用提取的特征对运动脑电信号进行分类识别的方法。该方法对经过时间窗细分后的C3、C4两通道信号进行EMD分解,从前三阶的IMF分量中,提取每阶IMF分量的能量,以及IMF分量之间的平均幅度差作为特征向量,采用支持向量机进行分类识别,识别率达到88.57%。该方法主要通过细化C3、C4通道之间的幅值差异对不同运动想象进行区分,为运动想象脑电的特征提取研究提供了新的思路。
1 实验数据
为了客观评价方法的有效性,本文采用BCI2003竞赛中格拉茨科技大学提供的脑电数据(data set Ⅲ)[5]。实验过程为受试者(性别:女,年龄:25岁)以放松的姿势坐在屏幕前,根据屏幕上随机出现的左右箭头想象左右手运动。该实验包含7组数据,每组数据包括40次实验,共280次实验均在一天内完成,每次实验间隔几分钟。
整个实验过程持续9s,前2s受试者保持安静,在第2s时屏幕出现十字光标,并伴随着提示音开始实验,光标持续时间为1s。在第3s时,屏幕出现一个向左或向右的箭头,同时,受试者根据箭头的方向想象左右手运动,4s~9s为有效数据区间。
实验采用AgCl电极,数据从国际标准的10~20导联系统的C3、Cz和C4三个通道获得,如图1所示。其中,C3、C4电极位于大脑的初级感觉皮层运动功能区,能反映受试者在想象左右手运动时大脑状态变化的有效信息,Cz作为参考电极。EEG信号的采样频率为128Hz,通过0.5~30Hz的带通滤波器滤波。
2 特征向量获取
2.1 EMD方法简介
EMD分解方法处理过程非常简单,其基本思想是:假设任何复杂信号都是由一系列幅度和相位都随时间变化的基本模式分量构成,这种基本模式分量满足两个条件:①它的极点数与零点数必须相等或至多相差1个;②对任一数据点,它的极大值包络与极小值包络的均值为0,即由极大值构成的上包络和极小值构成的下包络关于时间轴局部对称。Huang把这种基本模式分量定义为固有模态函数,即IMF。EMD分解方法就是将多分量信号内部的各阶IMF分量一一筛选出来。设原始信号为s(t),具体步骤如下[67]:
图1 电极位置及实验时序
(1)获取信号s(t)的极大值点集合和极小值点集合。
(2)通过3次样条插值函数分别拟合极大值和极小值点集,得到信号的上下包络,分别为u(t)和v(t),求得包络线的平均曲线:
m11(t)=12[u(t)+v(t)](1)
(3)原始信号去除包络平均值,得到h11(t),即h11(t)=s(t)-m11(t) 。
(4)用h11(t)代替原始信号s(t),重复以上3步k次,直到所得的包络趋近于零为止,此时即可认为h1k(t)是一个IMF分量,记c1=h1k(t),r1(t)=s(t)-c1,s(t)=r1(t)。
(5) 重复以上4步,直到rn小于一个足够小的设定值或者变成一个单调函数,EMD分解过程终止,得到s(t)的分解式如下:
s(t)=∑ni=1ci+r(2)
分解的每阶IMF分量能突出原始信号中不同时间尺度的局部特征,并且是窄带信号,从而使得瞬时频率具有确切的物理意义。对采集的EEG信号进行EMD分解得到各阶IMF分量,然后从中提取相应频段的特征向量。
2.2 EEG特征向量提取
首先选用基于Burg算法的AR模型对去噪后的EEG信号进行功率谱密度估计,通过功率谱密度来判断信号的能量分布范围,以此来决定EMD分解的层数。图2为C3通道、C4通道的EEG信号功率谱密度。从图中可以看出,脑电信号的能量主要分布在8~11Hz和19~22Hz频段,分别对应脑电信号中的mu节律和beta节律。
图2 想象左右手运动的功率谱密度
为了明确各阶IMF对应的频段范围,利用傅里叶变换计算各阶IMF分量的频谱。图3为进行右手运动想象时,C3、C4通道前4阶IMF分量的频谱图。
图3 想象右手C3、C4前4阶IMF分量的幅值谱
从图3可以看出,mu节律(8~11Hz)和beta节律(19~22Hz)段信号主要分布在前3个分量中,IMF4分量中mu节律和beta节律段的信号幅度可忽略不计。此外,前3阶的IMF分量包含了原始信号90%的能量,前3阶的IMF分量能基本代表原始信号中的特征,故选取前3阶IMF分量进行特征提取。
(1)能量特征。通过对比图2,分别试验左右手运动想象时C3、C4通道功率谱密度,可以明显看出,二者在mu/beta节律频段的能量差别较大。因此,利用C3、C4两个通道的能量作为特征值是可行的。
实验过程中,受试者是从第3s开始执行想象任务的,采集的数据有效时间段为4~9s。经过多次实验测试,选取4~8s时间段内的数据进行分类准确度最高。为了进一步提高分类的准确度,利用1s的时间窗将每组数据中的4~8s段信号分成4段,对每一段进行EMD分解,并分别计算前3阶IMF的能量值,计算公式如下:
El=∑ni=1[c(i)]2(3)
其中El是第l个IMF分量的能量,c(i)是该IMF分量中的第i个值,n为该IMF分量的长度。
(2)平均幅度差。对比图3中各阶IMF分量频谱,可以看出,当进行右手运动想象时,相比于其它的IMF分量,C4中的IMF2分量幅值波动十分明显,而对应的C3中的IMF2分量波动不大。因此,可以定义平均幅度差作为一个特征值,计算公式如下:
Fi,j=1n∑nk=1ci(k)-cj(k)(4)
其中ci表示第i个IMF分量,cj表示第j个IMF分量,n为信号的长度。本文选取IMF1、IMF2的平均幅度差和IMF2、IMF3的平均幅度差作为特征向量。
3 支持向量机
本文选取CSVC对特征向量进行分类识别。其原理如下:
(1)设已知训练集T={(x1,y1),…,(xl,yl)}∈(X×Y)l,其中xi是样本输入向量,yi是样本输出向量,xi∈X=Rn ,yi∈Y={-1,1} ,i=1,…,l。
(2)选取合适的核函数K(x,x)和适当的参数C,构造并求解最优化问题:
minα12∑li=1∑lj=1yiyjαiαjK(xi,xj)-∑lj=1αj(5)
s.t.∑li=1yiai=0,0≤αi≤C,i=1,…,l(6)
得到最优解α*=(α*1,…,α*l)T。
(3)选取α* 的一个正分量0<α*j b*=yi-∑li=1yiα*iK(xi,xj)(7) (4)构造决策函数 f(x)=sgn(∑li=1α*iyiK(x,xi)+b*)(8) 在本文中,选取高斯径向基核函数(gaussian radial basis function ,RBF)作为核函数,其表达式为: K(x,xi)=exp(-xi-xj2/σ2)(9) 在选定核函数之后,CSVM还需要确定惩罚参数c和核参数g,其中惩罚参数c能调节分类器的置信范围和经验风险的比例,取折衷值能使其泛化能力最好;核参数g能反映训练样本数据的分布特性,确定局部领域的宽度,较大的g意味着较小的方差。惩罚参数和局部参数在很大程度上决定了CSVM的学习能力和泛化能力[8]。 本文选取粒子群优化算法(particle swarm optimization, PSO)进行参数寻优,得到最佳的惩罚因子c和核参数g,对测试样本进行分类。 4 实验结果分析 本文对BCI2003竞赛中的data set Ⅲ数据集进行特征提取与分类。该数据集包含280组数据,取140组数据作为训练样本,另外140组数据作为测试样本。提取每个通道中的4~8s数据,并用1s的时间窗把该数据分成4小段;对每小段数据进行EMD分解,取前3阶IMF分量进行特征提取。单个通道中,每小段数据包含3个能量特征和2个平均幅度差特征。每个训练样本包括2个通道、4小段数据,共40个特征向量;用训练样本确定的SVM最优惩罚参数和核参数,对140个测试样本进行分类。分类结果如表1所示。 从表1可以看出,基于EMD方法的特征提取能获得较高的识别率。只使用能量作为特征向量的分辨正确率最低,但也达到了85%;单独使用本文定义的平均幅度差作为特征向量的达到了87.85%的正确率;而同时将能量和平均幅度差作为特征向量进行分类,能达到88.57%的正确率,不仅接近于竞赛优胜者的成绩(BCI竞赛中对此数据集识别准确率排名:第一名:89.29%,第二名:86.43%),而且相比其它文献[1,4,9]中的方法正确率都要高。 5 结语 EMD方法与小波变换类似,能对非线性非平稳信号进行分解,突出原始信号中的局部特征。但与小波变换相比,EMD方法是基于自身的时间尺度进行信号分解的,具有自适应性,不需要设置基函数。EMD分解所得的IMF随着尺度的增大频率逐渐降低,有助于突出各脑电分量中的特征。 本文针对不同的运动想象,C3、C4两通道的脑电信号存在一定幅值差异的特征,提出了一种利用EMD提取脑电信号能量特征与幅值特征作为特征向量进行分类的方法。该方法能对C3、C4两通道中脑电信号进行细分比较,通过支持向量机进行分类,获得满意的效果,为研究运动想象脑电的特征提取提供了新的思路。