融合注意力的多维特征图卷积运动想象分类

2022-09-15李珍琦贾子钰林友芳

计算机与生活 2022年9期

李珍琦，王晶+，贾子钰，林友芳

1.北京交通大学计算机与信息技术学院，北京 100044

2.北京交通大学交通数据分析与挖掘北京市重点实验室，北京 100044

脑-机接口（brain-computer interface，BCI）是一种被广泛研究的人机交互技术，可以在人类大脑和外部设备之间建立直接连接通路，允许人们仅通过大脑神经活动来与现实世界交流或者操纵外部设备。目前，脑-机接口的研究有很多，比如运动想象（motor imagery，MI）、情绪识别和睡眠分期等，其中运动想象在近几年引起了极大的关注。运动想象是与人体运动有关特异性行动在大脑的再现，但并不伴有实际的身体运动。对不同运动想象大脑神经元活动的正确识别，可以获得大脑指令，进而帮助患有严重运动神经元疾病的患者控制轮椅等外部设备，同时运动想象分类也是进行运动康复训练的重要支撑。

脑-机接口系统包括侵入性和非侵入性两种方法对大脑神经元的活动进行测量，其中脑电波（electroencephalogram，EEG）作为非侵入性方法之一，凭借其安全性、可靠性、舒适性和高便捷性被人们广泛使用。基于脑电信号的运动想象分类研究，核心问题是如何将根据多个电极收集到的脑电信号解码为有效特征，并提高分类的准确性。

对于脑电信号的特征提取，学者们已经做出了许多努力。早期的脑电分类方法直接从波形上提取时间特征，只能用于随时间变化明显的信号。后来学者们将脑电信号从时域转换到频域或者空间域去提取特征，进而分类。但这些方法只考虑了时频或时空特征，没有同时考虑到脑电信号的多维（空间、时间和频谱维度）特征，而且分类效果严重依赖于专家经验。最近很多学者利用深度学习方法来解码脑电信号，如利用二维或三维卷积神经网络（convolutional neural network，CNN）自动提取脑电信号不同维度的特征。但是，脑电电极分布并非天然的欧式空间，不适合用标准卷积去提取特征。而且由于脑电的特性，各维度上的关联强度会随着不同实验而变化。因此，如何表示脑电的多维信息以及捕获各维度上动态关联强度仍是当前的挑战。

为解决上述挑战，本文提出了一种融合注意力的多维特征图卷积网络（attention based multi-dimensional feature graph convolutional network，AMFGCN）来进行运动想象分类。本文的主要贡献概述如下：

（1）提出一种适用于脑电信号的图结构，能够准确表示脑电电极分布的非欧空间并充分考虑电极间的空间相关性。

（2）提出时-空、频-空的双分支框架，同时提取脑电信号在时域、频域和空间域三个维度上的特征信息。

（3）设计出AMFGCN 模型，首次结合注意力机制和图卷积去自适应地捕获脑电信号在各维度上的动态关联强度并有效地提取脑电特征。

（4）在四个公开脑机接口数据集上进行了实验，证明本文提出的模型优于其他现有运动想象分类方法。

1 相关工作

1.1 运动想象分类

针对基于脑电信号的运动想象分类问题，大量学者在不懈努力下提出了许多优秀的分类算法。

传统的运动想象脑电信号识别方法通常是基于人工提取特征的方法，大致分为以下两种：一类是空间滤波的方法，比如运动想象领域中最流行的共空间模式（common spatial pattern，CSP），该方法从多导脑电数据中提取每一类空间分布的分量并对其分类。后来，Ang等人提出了滤波器组共空间模式（filter bank common spatial pattern，FBCSP），该方法在CSP的基础上增加了一种特征选择算法，选择可区分的频带对和相应CSP 特征。另一类是基于时频域转换进行脑电分类的方法，例如小波变换和短时傅里叶变换等。但是，这些方法依赖专家经验，运动想象分类的准确性受到很大的限制。

如今，深度学习算法凭借自动提取特征的优势，在图像和自然语言处理等领域取得了巨大的成功。为了解决人工提取特征的限制，学者们将深度学习算法同样应用到了运动想象分类中。Schirrmeister等人提出了一种浅层的卷积网络，直接从原始脑电信号中自动提取特征。Zhao 等人提出具有三个不同卷积核大小的多分支三维卷积模型，从脑电信号的三维表示中提取特征。Wu 等人提出一种并行多尺度滤波器组的卷积神经网络去提取脑电特征。但是，大多数方法都只考虑了脑电信号的时间和空间特征。而且脑电的电极分布并非标准的网格结构，普通的卷积无法充分捕获电极之间的空间相关性。

由于脑电的电极分布并非欧式空间，学者们逐渐利用图卷积神经网络（graph convolutional network，GCN）来对运动想象进行分类。Li等人提出一种端到端的时空图卷积神经网络，同时捕获脑电信号的时空特征来识别不同的运动想象。Lun 等人通过结合电极的功能拓扑关系，提出一种基于GCN 的深度学习框架，提高对运动想象脑电信号的解码性能。Sun 等人提出一种自适应时空图卷积网络，可以同时充分利用脑电信号时域中的特征和空间域中的通道相关性。现阶段利用图卷积在运动想象分类问题上的研究还不是很多，以上这些模型虽然都取得了分类性能上的提升，但对于脑电信号在时间、频率和空间多个维度中的信息表示和建模还有待完善。

1.2 图卷积神经网络

图是由若干节点以及连接两点的线所构成的，通常用来描述某些事物之间的某种特定关系。考虑到图的邻居节点并不是固定的，不能用传统上固定大小可学习的卷积核去提取图节点特征。因此，学者们提出了图卷积的概念，可以在图上进行卷积操作。最常用的构建方式有两种：空间域和谱域。在空间域上构建图卷积就是把卷积核直接应用到图上的节点及其邻域。但是由于每个顶点的邻域不同，需要针对每个顶点去处理，计算成本很高，复杂度很大。在谱域上，通过图拉普拉斯矩阵变换到谱域，再利用切比雪夫多项式的阶截断近似求解，实现图结构数据上的卷积操作，计算成本较低。因此，本文使用谱图卷积来提取图节点特征。

2 融合注意力的多维特征图卷积网络

本文提出了一种新型的AMFGCN 模型，对运动想象所产生的脑电信号进行解码与识别。AMFGCN整体框架如图1 所示，原始脑电信号基于图结构被转换成时-空图表示和频-空图表示后，分别输入到由注意力机制、图卷积、时间卷积、全局特征聚合和短路连接组成的网络中，两个分支的输出经过特征融合后进行分类。

图1 AMFGCN 模型框架图Fig.1 Architecture of AMFGCN

模型整体包括五部分，分别为数据转换及其图表示、基于注意力机制的空间图卷积模块、基于注意力机制的时间/频谱卷积模块、全局特征聚合模块和多维特征融合模块，接下来分别进行详细介绍。

2.1 数据转换及其图表示

由于脑电信号的电极节点位置并非标准的欧式空间，为了准确表示这一特性，本文根据电极的自然空间分布构建出一个图。再将脑电信号的时域和频域信息映射到图中，具体转换过程如图2 所示。

图2 脑电信号的转换过程Fig.2 Conversion process of EEG signals

本文根据电极节点在大脑上的自然空间分布构建出一个适用于脑电信号的图，构建过程如图3 所示。图由节点和边构成，记为=(,)，其中是脑电电极的节点集，是边集。考虑到每个电极节点的电压值受其周围电压值的影响较大，因此本文假设每个节点有上、下、左、右、左上、右上、左下、右下共8个自然相邻的节点，同时假设每个节点与其自身相连。定义边集为={NN|(,)∈}，其中是自然相邻节点的集合。对于时域上的多导脑电信号，每一时间片可以构成一个无向图，全部的时间就形成了时-空图表示x，用来描述时间在空间上的信息。

图3 图的构建过程Fig.3 Construction process of graph

2.2 基于注意力机制的空间图卷积

为了自适应地捕获空间域中脑电节点之间的动态关联强度，本文设计出一个基于注意力机制的空间图卷积模块，其包含两部分：空间注意力机制和空间图卷积。

一般来说，不同的运动想象任务会触发大脑不同区域的神经元活动。即使是进行同一任务，不同区域的激活程度也会因人而异。因此，大脑节点之间的关联强度是动态变化的。受到自注意力机制的启发，本文设计出一种空间注意力机制去自适应捕获这种动态关联强度，具体计算过程如下：

由于时-空分支和频-空分支结构完全相同，这里以时-空分支为例进行描述。模块的输入为x∈R，为通道数，模块根据x自适应地计算得到a∈R：

通常情况下，使用Softmax 归一化函数对a进行归一化。然而，Softmax 虽然能够保证不同电极之间是可分的，但无法达到区域内紧凑和区域间分离的效果。因此，本文提出对a进行L2 归一化计算空间注意力矩阵，L2 归一化可以令特征向量区域内尽可能紧凑，区域间尽可能分离，能够更好地提升模型性能。空间注意力矩阵a′∈R定义为：

为了减少计算成本，本文采用谱图卷积在经过空间注意力机制调节后的图结构数据上进行卷积操作，提取脑电信号的空间特征，具体过程如下：

根据构建的图，计算邻接矩阵A∈R：

式中，′∈R是切比雪夫系数向量，切比雪夫多项式的递归定义为T()=2xT()-T()，()=1，()=。

式中，表示激活函数，⊗表示对应元素相乘。

2.3 基于注意力机制的时间/频谱卷积

为了提取脑电时域和频域上的特征并自适应地捕获脑电时间与时间之间、频谱与频谱之间的动态关联强度，本文设计出基于注意力机制的时间/频谱卷积模块，包括时间/频谱注意力机制和卷积。

脑电信号是随着时间变化的多条时间序列，它在不同时刻的电压值会存在一定的相互影响与依赖。同样，相邻频率之间的频率谱密度也会相互影响与依赖。因此，本文设计出一种时间/频谱注意力机制去自适应捕获这种动态变化的关联性。本文的时间注意力和频谱注意力分别作用于两个分支，但结构相同。因此，本文仍旧以时-空分支为例进行描述，具体计算过程如下：

其次，对a进行L2 归一化得到时间注意力矩阵a′∈R：

经过时间/频谱注意力机制的调整后，本文选择用二维的标准卷积去分别学习时间依赖性以及频谱依赖性。尽管深度神经网络具有良好的学习表示能力，但对于脑电分析而言，并不是网络越深效果越好。因此，一层的卷积已经能够很好地捕捉到每一节点上的时间及频谱特征。本文中，时间/频谱卷积的具体结构如表1 所示。

表1 时间/频谱卷积结构Table 1 Convolution structure of temporal/spectral

式中，和分别是时间卷积学习到的权重和偏差。

2.4 全局特征聚合

为了全局地考虑所有节点之间的特征信息以及所有时间/频谱之间的特征信息，本文设计出一个全局特征聚合模块，通过两个卷积层分别聚合空间全局特征和时/频全局特征。而且，卷积层间的非线性函数ReLU 还可以令模型学习到更复杂的函数，进而增加模型复杂度。

式中，和分别是全局空间聚合的权重和偏差。

式中，和分别是全局时间聚合的权重和偏差。全局特征聚合模块的结构设置如表2 所示。

表2 全局特征聚合的结构Table 2 Structure of global feature aggregation

2.5 多维特征融合

式中，W和W是学习参数，反映了两个分支对运动想象分类的不同影响程度。

3 实验结果与分析

3.1 数据集与数据预处理

本文中使用的4 个公开脑机接口数据集分别为：BCI Competition IV 数据集2a（http://www.bbci.de/competition/iv）、BCI Competition III 数据集3a（http://www.bbci.de/competition/iii）、大型脑电数据集HaLT（https://www.nature.com/articles/sdata2018211）和AHUMIEEG 数据集（http://iiphci.ahu.edu.cn/toeeg）。

BCI Competition IV 数据集2a（BCICIV-2a）：该数据集包含9 位受试者做不同运动想象任务的脑电信号，分别是想象左手、右手、脚以及舌头运动的4 类运动想象任务。使用22 个电极和250 Hz 的采样频率来记录脑电信号。每个人在不同的日期共进行了两组实验。每组实验包含288 次运动想象，平均每类运动想象进行72 次。

BCI Competition III数据集3a（BCICIII-3a）：该数据集包含3 位受试者，其中第一位受试者进行了360次运动想象，其他人为240 次。运动想象任务有4类，分别为左手、右手、脚和舌头。脑电信号的收集使用了60 个脑电电极，并以250 Hz 的采样频率进行记录。

HaLT 数据集：考虑到BCI 竞赛的时间都相对较早，本文还选择了一个于2018 年发布的大型公共脑电信号数据集。HaLT 数据集是“用于脑机接口脑电图的大型脑电图运动想象数据集”中的子数据集。它包含12 位受试者，运动想象任务有6 类，分别是左手、右手、左腿、右腿、舌头和静止。以200 Hz 的采样率和19 个脑电电极记录脑电信号。数据集中共包含29 次实验，每次实验中大约有900 次运动想象，包括不同的想象任务。

AHU-MIEEG 数据集：该数据集为安徽大学公开的运动想象脑电信号数据集，本文选择了其中的10位受试者进行实验。数据为Neuroscan 放大器采集的脑电信号，电极个数为26，采样频率为250 Hz，运动想象任务有3 类，分别是左手、右手和脚。每位受试者在不同的日期进行实验，每次实验大约包含75次运动想象，平均每类运动想象进行25 次。

在深度学习领域，训练数据量对于高分类精度至关重要。由于运动想象实验耗时且复杂，无法获得大量脑电信号，于是，本文使用数据增强从原始脑电信号中生成更多的训练数据。在BCICIV-2a 和BCICIII-3a 数据集中，每个运动想象任务包含3 s 的脑电信号数据，本文选择了一种在脑电信号中常用的数据增强方法——滑动窗口。设置窗口大小为2 s，滑动步幅为0.32 s，将脑电数据增强为原来的4 倍。在HaLT 数据集中，每个运动想象任务只包含1 s的脑电信号数据，考虑到任务的持续时间太短，本文采用增加白噪声的方法对其进行数据增强。

3.2 实验设置

本文中，将每个受试者的所有组实验数据组合在一起，并使用5 折交叉验证的方式来验证提出模型的有效性，最后取结果的平均值。模型在训练过程中采用Adam 优化器算法最小化交叉熵损失函数，进行模型优化，学习率设置为0.001。批大小设置为64，即每次选择64 个样本进行模型优化。图表示中，时间长度和频率长度全都设置为100，切比雪夫多项式中的设为3。

本文的实验部分全部使用Python 语言编写实现，其中模型部分采用了TensorFlow 和Keras 框架，模型的训练和测试都是在GPU服务器上运行的。表3给出了实验中所使用软硬件环境的详细说明。

表3 实验环境Table 3 Experimental environment

3.3 基准方法

为了验证AMFGCN 在运动想象分类任务上的优越性，本文选取运动想象分类研究中一些优秀的传统方法和深度学习方法作为基准方法与AMFGCN进行比较，基准方法描述如下：

FBCSP（filter bank common spatial pattern）：一种空间滤波方法，从多通道脑电信号中提取每种类型的空间分布分量，然后用线性判别分析对其进行分类。

Shallow ConvNet：一种浅层卷积网络，利用两个卷积层分别作为时间卷积和空间滤波器，提取原始脑电信号的特征。

EEGNet：一种紧凑的卷积神经网络，它使用深度和可分离卷积来构建脑电分类模型。

Multi-branch-3D：一种具有三个不同卷积核大小的多分支三维卷积模型，从脑电信号的三维表示中提取时空特征。

MSFBCNN（multiscale filter bank convolutional neural network）：一种并行多尺度滤波器组卷积神经网络，从脑电中提取时间和空间特征。

CNN-LSTM：一种基于FBCSP、CNN 和长短期记忆（long short-term memory，LSTM）的混合深度神经网络，去解码运动想象的脑电信号。

本文采用运动想象分类中常用的准确率（accuracy，Acc）和Kappa系数作为模型的评价指标。其中，准确率为运动想象被正确分类的比例，即正确分类的样本数和总样本数的比值；Kappa 系数的具体计算公式如下：

3.4 实验结果与分析

为了验证AMFGCN 在运动想象分类方法中的优势，将其在4 个数据集上与基准方法进行了比较。本文对所有基准方法应用相同的数据预处理和5 折交叉验证。表4、表5、表6、表7分别显示了在BCICIV-2a、BCICIII-3a、HaLT 和AHU-MIEEG 数据集中不同方法的分类准确率和Kappa 系数。由于本文是基于特定受试者的运动想象分类研究，计算了每一个人的分类准确率和Kappa 系数，以及每个数据集中所有人的平均值。

表4 不同方法在数据集BCICIV-2a 中的分类性能比较Table 4 Performance comparison of different methods on BCICIV-2a dataset

表5 不同方法在数据集BCICIII-3a 中的分类性能比较Table 5 Performance comparison of different methods on BCICIII-3a dataset

表6 不同方法在数据集HaLT 中的分类性能比较Table 6 Performance comparison of different methods on HaLT dataset

表7 不同方法在数据集AHU-MIEEG 中的分类性能比较Table 7 Performance comparison of different methods on AHU-MIEEG dataset

从表中可以看到，FBCSP 作为一种基于空间滤波的传统脑电分类方法仅仅考虑了空间信息，忽略了时间和频率信息中的辨别性特征，因此分类结果较差。而Shallow ConvNet、EEGNet和MSFBCNN 等方法通过设计不同类型的2D 卷积从脑电中提取时间和空间特征；Multi-branch-3D 利用大小不同的3D 卷积核来同时提取时空特征；CNN-LSTM 结合了FBCSP、CNN 和LSTM 等传统与深度方法去提取时空特征。以上这些方法考虑到了脑电信号时间和空间两个维度的特征，因此分类性能要优于FBCSP。

本文提出的AMFGCN 与所有基准方法相比，在4 个数据集上的平均准确率和平均Kappa系数都具有最佳性能。这是因为AMFGCN 基于适合脑电信号的图表示同时提取了时-频-空特征，获得了更准确、更全面的特征信息。而且AMFGCN 还利用了注意力机制去自适应地捕获脑电信号在不同维度上的动态关联强度，令模型具有更强的鲁棒性。在单个人的实验结果中，EEGNet 在数据集HaLT 中受试者6 上取得了最佳的分类效果，CNN-LSTM 在数据集AHUMIEEG 中受试者S4 上表现最好。这可能是因为运动想象产生的脑电信号个体差异较大，EEGNet 的深度和可分离卷积以及CNN-LSTM 的混合网络分别更好地捕捉到了这两位受试者的特征信息。相比之下，AMFGCN 虽然没能捕捉到最适合这两位受试者的脑电特征，但是也取得了相当不错的分类结果。而且从整体来看，AMFGCN 在其他受试者上均获得了最佳的分类性能。因此，AMFGCN 能够提升绝大多数受试者的运动想象分类性能，且能保证每个数据集中的平均分类结果是最优的。

为了进一步研究AMFGCN 中不同模块的作用，本文设计了AMFGCN 的5 个变体，这些变体之间的差异描述如下：

（1）时-空图卷积：此模型仅具有AMFGCN 的时-空分支，分支中只包括空间图卷积和时间卷积。

（2）频-空图卷积：此模型仅具有AMFGCN 的频-空分支，分支中只包括空间图卷积和频谱卷积。

（3）双分支：此模型同时包括AMFGCN 的时-空分支、频-空分支和最后两个分支的特征融合。

（4）+全局特征聚合：此模型在变体3（双分支）的基础上，增加了全局特征聚合模块。

（5）+注意力机制：此模型在变体4 的基础上，增加了注意力机制，即空间注意力和时间/频谱注意力。

图4 展示了模型的5 个变体在数据集BCICIV-2a、BCICIII-3a、HaLT 和AHU-MIEEG 中所有人平均分类准确率的对比。从中可以看出，如果提取脑电的时-频-空三个维度的特征比单独提取时空特征或者频空特征能够提供更多、更丰富的辨别性特征，进而获得更好的分类性能；而且，本文设计的全局特征聚合模块和注意力机制都能不同程度地提高模型对不同运动想象的分类准确性。由此可以证明，本文提出的AMFGCN 模型中每一模块都是有效的，都能提升运动想象分类性能。

图4 模型不同变体的实验结果Fig.4 Experimental results of different model variants

4 结束语

针对运动想象分类问题，本文提出一种新型的融合注意力的多维特征图卷积网络AMFGCN。该模型基于一种适合脑电信号的图结构作为输入，能够准确表示脑电电极分布的非欧空间并充分考虑电极间的空间相关性；利用双分支框架从原始脑电信号转换成的时-空图表示和频-空图表示中同时提取时-频-空多维度特征信息；并设计出注意力机制和全局特征聚合模块，与图卷积结合去自适应地捕获脑电信号在各维度上的动态关联强度和有效特征。在4个公开脑机接口数据集上进行的实验表明，AMFGCN比其他基准方法在运动想象分类任务上取得了一定程度的提升。此外，AMFGCN 模型是脑电信号分类的通用框架，适用于情感识别、睡眠分期等基于脑电进行研究的领域，且该模型具有在现实生活中运动想象康复医疗领域应用的潜力。

虽然本文算法显示出了独特的优势，但是依然存在一些问题需要进一步研究。比如，当前的研究是针对每一位受试者的，如何提出普适性更高的算法去进行跨受试者研究，需要更深一步的探讨与分析。