基于神经网络的运动想象分类研究

2022-08-05林思睿徐澜菲王莹莹邹任玲胡秀枋

软件工程 2022年8期

何爽，黄鑫，林思睿，徐澜菲，王莹莹，邹任玲，李丹，胡秀枋

(上海理工大学健康科学与工程学院，上海 200093)

heshuangedu@163.com;hx2946474935@163.com;1023617140@qq.com;1046758980@qq.com;3294576338@qq.com;zourenling@163.com;lidan0734454454@163.com;huxiufang1965@163.com

1 引言(Introduction)

脑机接口(Brain Computer Interfaces,BCI)技术能实现脑神经与外部设备的信息交互，通过采集大脑的脑电信号进行特征提取和解码，帮助肢体运动障碍患者与外界进行通信并控制外部设备以达到动作康复训练与替代的目的。脑机接口一般分为五个阶段：数据采集、信号处理、特征提取、解码和反馈。运动想象(Motor Imagery，MI)是指人通过一定的图片提示对动作进行想象但没有产生实际的动作，人的大脑的特定区域被激活，并通过解码判断受试者意图。基于脑机接口的运动想象早已与康复相结合：张桃等人使用支持向量机分类，将运动想象与Unity3D相结合设计了一款手功能康复系统，针对脑卒中患者手部功能的康复；徐宝国等人设计了一款基于运动想象的上肢康复机器人，针对脑中风偏瘫患者的康复训练，使用了基于马氏距离的线性判别分类器；任士鑫等人设计了基于运动想象的人体下肢与视觉反馈的闭环脑机接口，运用支持向量机算法提高脑卒中等神经患者在康复过程中的主动性。随着神经网络在计算机视觉、图像处理等领域的广泛应用和产生良好的效果，神经网络受到广泛关注。在神经网络中，通过0—1的概率给出分类准确率。神经网络可以将特征提取与分类相结合，自动提取特征，适应性强，适用于非线性分析。在运动想象分类任务中，使用不同的神经网络有不同的优势和表现。

2 经典的运动想象分类算法(Classic classification algorithm of motor imagery)

经典的运动想象分类算法相对更加成熟，主要包括线性判别分析(Linear Discriminant Analysis,LDA)、支持向量机(Support Vector Machines,SVM)和贝叶斯分类器(Bayes Classifier)等算法，但这些算法往往需要复杂的特征工程，甚至需要大量的人工对特征进行标注，借助使用者的专业知识进行模型输入的选择，自动化程度不高。

2.1 线性判别分析

线性判别分析是运动想象中最常用的分类器之一，是一种经典的线性学习方法，在运动想象任务中被研究者广泛应用。FAZLI等人利用线性判别分析作为分类器验证了没有经过训练的用户造成的性能损失非常有限。邓欣等人利用线性判别分类器进行分类，最终分类正确率可达90.71%。另外，HIGASHI和TANAKA利用线性判别分析进行分类，达到的分类准确率为89.06%。但线性判别分析依赖于特征提取的优良程度，更适合应用于线性信号。

2.2 支持向量机

支持向量机是一种有监督的学习模型，可用于线性、非线性分类问题。刘冲等人利用支持向量机算法对二分类任务进行分类，最大的分类准确率达到了82.86%。虽然支持向量机的准确率较高，但是支持向量机分类器是一种典型的二分类分类器，主要针对二分类，在多分类的运动想象任务中的表现并不是特别好，训练速度相对较慢，对参数以及核函数的选择也很敏感。

2.3 贝叶斯分类器

贝叶斯分类器是利用贝叶斯公式对各种结果输出概率值并取最大值作为该样本的类别。刘华生等人利用贝叶斯分类器结合短时傅里叶变换和平行因子模型对运动想象信号进行分类，最大的分类精度达到了90%。但贝叶斯分类器无法处理特征组合后所产生的变化结果，对输入数据的形式比较敏感。

3 深度学习网络模型(Deep learning network model)

深度学习是一种特定的机器学习方法，由神经网络实现对数据特征的学习，提高分类准确率。深度学习模拟人脑对样本进行学习，具有良好的学习能力和特征提取能力。与经典的分类算法相比，深度学习不仅能自动学习数据的特征并进行分类，实现端对端的学习，减少人工提取特征造成的特征混乱以及信息的丢失，也可以与特征提取方法进行结合，得到更好的分类效果。

3.1 卷积神经网络

LECUN等人在日本科学家福岛邦彦的基础上将反向传播应用到类似于Neocoginitro网络上，实现了第一个卷积神经网络(Convolutional Neural Networks,CNN)，至此CNN开始广泛应用于各个领域。CNN一般由三种不同类型的层组成：卷积层、池化层和全连接层。卷积层是通过卷积核对输入进行局部感知，进而提取特征信息；池化层也称为下采样，其作用是降维，压缩数据的维度，减少过拟合；全连接层起到分类器的作用，得到最终的输出。以KRIZHEVSKY等人在2012 年ImageNet竞赛中提出的AlexNet为例，此网络模型为八层网络，其中五层卷积层和三层全连接层，并提出局部归一化、以ReLU作为激活函数和Dropout及最大池化的应用。其中，ReLU作为激活函数解决了Sigmoid的梯度弥散问题，应用Dropout有效避免了模型的过拟合问题，局部归一化提升了模型的泛化能力，最大池化避免了平均池化的模糊化效果。其他与普通CNN模型一致，通过卷积层不断提取更为复杂的特征，并通过全连接层和最终分类器或回归方程得到最后的输出结果。在AlexNet之后，又相继提出了VGGNet、GoogleNet、ResNet和SENet等CNN模型。简单的CNN模型图如图1所示。

图1 CNN模型Fig.1 CNN model

SHAJIL等人在论文中使用CNN模型和叠加频谱图以及数据增强的数据处理方法，分类的平均准确率都比同一数据集的支持向量机、线性判别分析和AlexNet高。SHALU等人提出一种基于深度卷积神经网络的识别方法，用于右手和右脚的分类，分别使用短时傅里叶变换和连续小波变换转换为时频图并送入网络分类。结果表明，连续小波变换方法比短时傅里叶变换方法取得了更好的结果，该方法获得了99.35%的准确率。MIAO等人提出一种新的空间-频率-时间(SFT)模型，将EEG的能量分布转为3D特征表示并设计新的3D-CNN模型分类，在BCI竞赛III数据集IVA上，该方法对五个被试的平均准确率达到86.6%，比目前最先进的滤波带公共空间模式(FBCSP)方法提高了4.1%；在BCI竞赛III数据集IIIa上，得到91.85%的平均准确率，该方法的性能比最新的词典对学习(DPL)方法高出4.44%。ZHAO等人在论文中提出一种新的分类框架，包括脑电信号的三维表示和3D-CNN与分类策略，该框架达到了最先进的Kappa值水平，在不同被试上表现出良好的性能与鲁棒性。CHEN等人提出基于人脸识别的三元组挖掘方法的TSCNN，从时间特征对运动想象进行分类，并采用了分阶段训练的方法，得到了较好的结果。从以上文献中可知，CNN在运动想象分类任务中的表现相比之前的方法更好，能更好地解决特征提取的问题和通过不断地学习自动调整参数。

CNN多应用于多分类和数据量较大的样本，并将特征提取和分类相结合，具有权值共享等特性。但CNN也有劣势，如数据量较小时影响精度和易过拟合。

3.2 生成对抗网络

GOODFELLOW等人在2014 年提出生成对抗网络(Generative Adversarial Network,GAN)后，对它的研究便如火如荼。GAN是受博弈论中二人零和博弈的启发，即两人之间的利益之和，一方所得即为一方所失，整个结构由生成器G和判别器D组成。目前GAN已经被证明对半监督学习以及监督学习等是有效的。生成器是通过学习输入样本的特征生成具有相同特征的伪样本数据，其作用是使生成的伪样本能够被判别器判断为输入样本；判别器是通过对这两部分样本特征的学习分辨输入样本和伪样本并输出结果。当判别器无法判断数据的真实性时，即认为此时GAN网络已经完全学习了输入样本的特征。GAN简单的模型如图2所示。

图2 GAN模型Fig.2 GAN model

STEPHE等人利用传统CNN和GAN建立分类方法，并在特征提取技术中利用经验模式分解和混合固有模式函数处理非平稳问题，最终准确率为95.29%，高于CNN的89.38%，而且该方法在BCI竞赛Ⅲ的数据集IVA上的平均正确率为62%。也有其他学者提出新的网络模型应用于其他领域,如ZHU等人提出的CycleGAN和ZHAO等人提出的WGAN。GAN是在博弈论的基础上构建的，理论上模型的收敛性和是否存在平衡点是很难判断的，网络容易陷入崩溃。生成模式和判别模式在网络训练时的平衡与同步性会影响GAN的稳定性和生成样本与真实之间的差异。目前GAN已广泛应用于医疗、网络安全等其他领域。

3.3 胶囊网络

SABOUR等人在2011 年的论文中首次引入胶囊网络，并在2017 年的论文中介绍了在MINIST数据集下达到最优性能的胶囊网络框架，其简单的网络模型如图3所示。胶囊网络是由胶囊组成的，而胶囊是一组神经元，每个神经元的结果都代表同一个输入的不同属性。这些属性包括不同的实例化参数，如位置、方向等。初始胶囊层将卷积层从输入中提取的特征转换为向量并通过动态路由规则与全连接层相连。目前HINTON和他的团队已经提出了多种胶囊网络，如矩阵胶囊网络。

图3 胶囊网络结构Fig.3 Capsule network structure

HA等人将胶囊网络应用于运动想象图像的二分类任务中，利用短时傅里叶变换将脑电信号转换为时频图像并提供给胶囊网络，所提出的算法优于先行的CNN和传统的分类器，证明了胶囊网络用于运动想象分类的可行性，分类准确率基本优于现有分类器。胶囊网络现在还在不断发展中，目前对小样本效果明显，但对大规模和内容更复杂的数据集并没有取得非常好的效果。探索应用于大规模数据集的网络结构和减少训练时间也是目前胶囊网络的发展趋势之一。

4 结论(Conclusion)

传统的机器学习算法应用于运动想象领域比较成熟，很多研究都对传统的方法进行改进，如将粒子群算法与支持向量机相结合搜寻更加合适的参数。但是传统的分类算法在自动化处理、算法耗时等方面提升有限。伴随着计算机硬件的更新换代和神经网络模型的不断完善与更新，神经网络在MI-EEG(运动想象-脑电)信号的分类识别中取得了一些成果，与之前相比提高了分类器的性能。针对运动想象数据量小，使用数据增强策略(如GAN等)也是发展趋势之一。更多的研究是通过对神经网络模型的不断完善，进一步开发新的网络模型以适应不同数据样本的分类；可以将多种网络模型进行组合或将单一网络模型中的多种特征进行组合，以多种特征结合的方式来提高分类的准确性。神经网络也可与多种研究方法相结合，例如将在计算机视觉领域得到广泛验证的特征提取和分类方法相结合，增加注意力机制等模块，进一步提高分类的准确性。

目前MI-EEG也存在一些问题：(1)神经网络在提升准确率的同时相对耗时更多，如何在维持准确率的同时提高分类效率，实现在线解码的问题；(2)如何降低个体间的差异性，使算法更加具有普遍性，应用于不同个体；(3)目前分类算法大多是简单肢体运动，如何改进算法使其适用于更复杂的日常肢体运动，满足更多的康复需求；(4)离线训练时，如何解决数据量小和信号非平稳的问题。运动想象可应用于医疗康复领域，实现中风病人或运动能力不足患者的假肢控制和康复训练以及未来日常生活中的辅助功能，因此运动想象解码研究依然面临较多的挑战。