基于张量降维和逻辑张量回归的运动想象分类
2022-10-10邹童童孔万增
邹童童,孔万增
(杭州电子科技大学计算机学院,浙江 杭州 310018)
0 引 言
运动想象过程中,相关皮层区域被激活,进而引发相应的皮层活动,从中采集到的脑电信号数据记录了皮层活动,有效刻画脑电数据的特征一直是电生理学的研究方向[1]。从提取脑电信号的时频空特征入手,基于平行因子模型和Tucker分解模型获得了一系列特征提取算法。Miwakeichi等[2]借鉴化学计量学对多维数据进行整体分析,运用平行因子分析模型将被试在休息和心算状态下的脑电信号分解成包含时域、频域和空域特征的原子,进行精神状态的研究和分析。在此基础上,Nazarpour等[3]对想象左右手运动的8~13 Hz频段脑电信号的时频空特征提取展开研究,运用平行因子分析模型提取其多线性分解后原子中的空间特征,对运动想象进行分类。Phan等[4]针对多维数据集的特征提取和分类问题展开研究,给出基于Tucker分解模型的张量数据降维和分类的一般框架。文献[5-6]采用张量降维算法提取想象手指动觉运动和模拟阅读时的脑电信号张量特征,取得了比传统向量特征更好的分类准确率。但是,在提取脑电信号的张量特征后,上述研究在分类阶段采用的是向量型分类算法,破坏了张量特征的结构信息和内在相关性。Huang等[7]将脑电信号张量特征结构类比为彩色图像结构,从深度学习方向提出一种基于高阶判别分析和卷积神经网络的运动想象脑电信号分类算法,但忽略了脑电信号处理实时性要求较高、脑电信号具有较多电极通道和较少训练样本等特点,导致算法训练时间较长,分类结果不佳。本文从机器学习方向出发,提出一种基于张量降维和逻辑张量回归的运动想象脑电信号分类算法,采用基于张量模式的学习算法捕捉张量特征的整体信息,避免了小样本问题,提升了张量特征的分类准确率。
1 张量及其基本运算定义
数学和计算机领域中,张量专指多维数组,其常用符号以及基本运算如表1所示。一般情况下,张量是向量模式表示的扩展和补充。矩阵是二阶形式的张量,向量是一阶形式的张量。本文采用小写斜体字母x∈R表示标量,加粗小写斜体字母x∈RI1表示向量,加粗大写斜体字母X∈RI1×I2表示矩阵,带有下划线的大写斜体字母表示张量。
2 基于张量降维和逻辑张量回归的运动想象分类
本文提出的基于张量降维和逻辑张量回归的算法对运动想象脑电信号进行分类的主要流程如图1所示。预处理阶段中,对原始脑电数据Xc×t进行频域滤波,并通过连续小波变换将其变换成张量型脑电数据其中f,c和t分别代表频率维度、电极通道维度和时间维度[8]。特征提取阶段中,首先,针对张量型训练数据使用多线性主成分分析算法求解一组投影矩阵Vf,Vc和Vt,并计算在该组投影矩阵下训练集的低维特征张量然后,运用高阶判别分析算法求解训练集低维特征张量的一组投影矩阵Uf,Uc和Ut,并计算在该组投影矩阵下训练集低维特征张量的判别特征张量接着,对张量型测试数据进行同样的运算,先计算在投影矩阵Vf,Vc和Vt下的低维特征张量再计算低维特征张量在投影矩阵Uf,Uc和Ut下的判别特征张量特征分类阶段中,通过对训练集中的判别特征张量进行训练得到逻辑张量回归模型,并给出测试集中判别特征张量的预测标签。
2.1 基于多线性主成分分析的低维特征张量提取
(1)
一般地,(N+1)阶张量的Tucker-N分解的数学公式为:
(2)
(3)
同样地,因为因子矩阵V(1)需要满足标准正交的性质,所以,式(3)中的因子矩阵V(1)等同于其左边张量矩阵化后进行奇异值分解得到的左奇异矩阵V(1)←U1(1∶Rn,∶)。在此基础之上,基于Tucker-N分解的多线性主成分分析算法通过交替最小二乘的方式对因子矩阵V(n),n=1,2,…,N进行迭代优化,直到满足收敛准则或者达到最大的迭代次数。通常通过计算(N+1)阶张量模-n展开矩阵中主要特征值的个数来确定低维特征张量的维数Rn,n=1,2,…,N。
2.2 基于高阶判别分析的判别特征张量提取
(4)
(5)
从而,得到衡量投影后多维数据类内方差的类内矩阵如下:
(6)
(7)
从而,得到衡量投影后多维数据类间方差的类间矩阵如下:
(8)
最终,具有最佳判别特性的投影矩阵U(n)可以通过如下目标函数来求解,
(9)
式(9)中,因子矩阵U(n)可以通过求解矩阵的前Sn个特征向量得到在此基础之上,高阶判别分析算法通过交替最小二乘的方式对因子矩阵U(n),n=1,2,…,N进行迭代优化,直到满足收敛准则或者达到最大的迭代次数。通常通过参数设置的方式指定判别特征张量的维数Sn,n=1,2,…,N。
2.3 基于逻辑张量回归的特征张量分类
逻辑张量回归(Logistic Tensor Regression,LTR)算法通过结合CP分解和极大似然估计方法将逻辑回归算法推广到多维数据分类中[11]。一般地,对于两类数据集其中是多维数据的类别标签。在假设的条件概率模型下,逻辑张量回归算法利用已知的样本结果反推出最有可能导致这一结果的参数和γ∈R。相应地,采用极大似然估计方法建立的损失函数如下:
(10)
(11)
进而将因子矩阵U(n)的优化问题转换成一个逻辑回归的求解问题。同样地,针对高维数据集时常添加L2范数的正则化项,相应的损失函数如下:
(12)
使用块坐标下降法求解得到式(12)中的因子矩阵U(n)。在此基础之上,逻辑张量回归算法通过交替最小二乘的方式对因子矩阵U(n),n=1,2,…,N进行迭代优化,直到满足收敛准则或者达到最大的迭代次数。
3 实验结果与分析
在MATLAB实验环境中,分别采用本文提出的基于张量降维和逻辑张量回归的算法、基于张量降维和线性判别分析的算法、基于张量降维和逻辑回归的算法对第三届国际脑机接口竞赛数据集Iva中所有被试的运动想象脑电信号进行分类测试,比较3种算法对运动想象脑电信号分类的准确率。
3.1 实验数据集
第三届国际脑机接口竞赛数据集Iva是关于运动想象脑电信号分类的小样本学习数据集,包含5名健康被试(aa,al,av,aw,ay)在4次校准阶段进行右手和脚这2种运动想象类型的脑电数据。数据集中,每个训练集和测试集中都包含等量的想象右手和脚运动的脑电数据,不同被试的训练样本和测试样本的个数如表2所示。
表2 Iva数据集中,不同被试的训练样本和测试样本的个数
样本数据类别aaalavaway训练样本168224845628测试样本11256196224252
3.2 实验参数设置
在预处理阶段,首先,选用8~30 Hz的10阶巴顿沃斯IIR带通滤波器对单个被试的原始脑电数据Xc×t进行频域滤波;其次,采用公共平均参考的方法进行空域滤波;接着,截取出现视觉提示后0~3.5 s内的脑电数据,且只截取运动想象相关脑区内电极通道上的脑电数据;最后,选择中心频率fc=1和带宽fb=2的复Morlet小波对单段脑电数据每个通道上的数据进行小波变换,并通过堆叠截取通道上连续小波变换产生的功率谱密度来构建张量型样本数据
在特征提取阶段,首先,运用多线性主成分分析求解张量型训练数据的低维特征张量低维特征张量的维数Rn,n=1,2,3设置为张量型训练数据串接张量模-n展开矩阵中占特征值总和97%以上时主要特征值的个数;接着,利用高阶判别分析求解训练集低维特征张量的判别特征张量将多维数据投影前后的维数Rn,n=1,2,3和Sn,n=1,2,3设置为一致。
在特征分类阶段,本文提出的基于张量降维和逻辑张量回归的算法采用判别特征张量训练逻辑张量回归模型时,利用L2范数正则化进行特征挑选,通过设置张量秩Q和L2范数正则化项系数λLTR,使得测试数据做验证时取得最佳分类准确率。同样地,基于张量降维和线性判别分析的算法和基于张量降维和逻辑回归的算法采用向量化的判别特征张量训练线性判别分析(Linear Discriminant Analysis,LDA)模型和L2范数正则化的逻辑回归(Logistic Regression,LR)模型时,分别采用Fisher得分和L2范数正则化进行特征挑选,通过设置Fisher得分挑选的特征数量Nnum和L2范数正则化项系数λLR,使得测试数据做验证时取得最佳分类准确率。
3.3 实验与分析
对所有被试(aa,al,av,aw,ay)截取14个电极通道上(C5,C3,C1,Cz,C2,C4,C6,CP5,CP3,CP1,CPz,CP2,CP4,CP6)和30个电极通道上(FC2,FC4,FC6,CFC2,CFC4,CFC6,C2,C4,C6,CCP2,CCP4,CCP6,CP2,CP4,CP6,FC5,FC3,FC1,CFC5,CFC3,CFC1,C5,C3,C1,CCP5,CCP3,CCP1,CP5,CP3,CP1)的脑电数据[12]。分别采用基于张量降维和逻辑张量回归的算法(MPCA+HODA+LTR)、基于张量降维和线性判别分析的算法(MPCA+HODA+LDA)以及基于张量降维和逻辑回归的算法(MPCA+HODA+LR)对2种不同规模的脑电数据进行分类,并对比基于共空间模式和支持向量机的算法(CSP+SVM)、基于滤波器组的共空间模式和支持向量机的算法(FBCSP+SVM)、基于张量判别分析和卷积神经网络的算法(TDA+CNN)在截取所有被试14个电极通道脑电数据上的分类准确率,结果如表3所示。
表3 不同算法的分类准确率 单位:%
算法类别aaalavaway平均值CSP+SVM(14通道)[7]78.7583.9361.7378.5777.7876.12FBCSP+SVM(14通道)[7]75.00100.0063.2791.9651.1976.28TDA+CNN(14通道)[7]88.3998.2166.3394.6482.5486.02MPCA+HODA+LDA(14通道)82.1492.8664.8082.5967.8678.05MPCA+HODA+LDA(30通道)73.2196.4359.6385.7160.3275.06MPCA+HODA+LR(14通道)81.2596.4370.9291.9680.9584.30MPCA+HODA+LR(30通道)82.1494.6271.4391.9682.9484.62MPCA+HODA+LTR(14通道)83.04100.0070.9294.2082.9486.22MPCA+HODA+LTR(30通道)84.82100.0071.4394.2083.3386.77
从表3可以看出,相比于MPCA+HODA+LDA和MPCA+HODA+LR算法,无论通道数量的多少,本文提出的MPCA+HODA+LTR算法的分类准确率最高,因为本文算法采用了张量模式的学习算法,不仅避免了分类阶段张量特征的向量化操作和小样本问题,而且有效利用了张量特征的整体信息。相比于CSP+SVM,FBCSP+SVM,TDA+CNN的经典算法,本文提出的MPCA+HODA+LTR算法在多个被试(al,av,ay)上的分类准确率和平均准确率最高,进一步证明了本文算法的优势。
4 结束语
本文提出一种基于张量降维和逻辑张量回归的运动想象脑电信号分类算法。利用张量特征的结构信息,运用逻辑张量回归算法对运动想象脑电信号张量特征进行分类,避免了处理较多电极通道脑电数据时的小样本问题,提高了运动想象脑电信号的分类准确率。但是,本文提出的算法主要适用于二分类场景,后续针对多分类场景展开研究,进一步提高脑电数据的分类效果。