APP下载

运动想象脑电多视角深度森林解码算法

2022-10-09郑龙鑫苗敏敏徐宝国胡文军

中国医学物理学杂志 2022年9期
关键词:级联决策树类别

郑龙鑫,苗敏敏,2,徐宝国,胡文军,2

1.湖州师范学院信息工程学院,浙江湖州 313000;2.浙江省现代农业资源智慧管理与应用研究重点实验室,浙江湖州 313000;3.东南大学仪器科学与工程学院,江苏南京 210096

前言

脑机接口(Brain Computer Interface,BCI)系统不依赖于外围神经和肌肉组织,通过分析大脑神经活动识别人体运动意图控制外部设备,提供一种新的人机交互通道[1-3]。在神经损伤患者运动康复及生活辅助[4]、人脑状态监测[5]等众多领域有重要应用。基于头皮脑电(Electroencephalogram,EEG)的运动想象BCI可根据受试者运动意图控制外部辅助运动或康复训练设备[6-7],持续刺激患者受损的运动感知反馈回路和初级运动皮层,并借助大脑的可塑性恢复脑区功能,在帮助截瘫及中风患者恢复基本自主能力方面具有重要的现实意义[8]。

EEG 信号通过脑脊液、头骨、软组织和头皮层层传导,空间分辨率和频率范围受限,信噪比低,具有显著的非线性非平稳特性,造成EEG 特征难以学习。共空间模式(Common Spatial Pattern,CSP)常用于提取EEG 信号中区分度较高的特征向量[9]。然而,CSP对带通滤波的频段选择非常敏感。滤波器组共空间模式(Filter Band Common Spatial Pattern, FBCSP)[10]将一个宽频带划分为多个较小的子频段,然后使用互信息筛选子频段的CSP 特征。稀疏滤波器组共空间模式(Sparse Filter Band Common Spatial Pattern,SFBCSP)[11]同样将一个宽频带划分为多个较小的子频段,使用稀疏回归模型提取重要的CSP 特征。在提取出CSP 特征后再使用支持向量机(Support Vector Machine, SVM)、随机森林和线性判别分析(Linear Discriminant Analysis,LDA)等分类器对特征进行分类。传统的特征工程算法通常需要人工设计,严重依赖领域知识,并且特征工程和特征分类通常具有不同的目标函数[12],容易造成信息丢失。深度神经网络采用层次结构对信息进行分层处理,可充分挖掘EEG 和运动想象语义间的复杂关系,从而实现自动特征工程。卷积神经网络(Convolutional Neural Network,CNN)目前广泛应用于运动想象BCI领域中。文献[13]采用导联投射方法获取运动想象EEG 空间和时序表示,随后通过混合尺度卷积模块学习抽象特征。文献[14]首先采用小波核进行第1层的时频转换,然后通过第2个卷积层进行空间滤波处理。文献[15]提出一种新的基于电极位置的EEG三维表示用于进行多分支CNN模型训练。文献[16]提出一种融合时空特征的深度CNN 进行运动想象EEG分类。

尽管深度神经网络在运动想象EEG 解码中取得较好结果,但仍存在以下问题:深度神经网络具有大量超参数,并且其优良性能建立在精细的参数调整上;当训练数据量不足时,难以提取到具有表征性的特征并容易出现过拟合现象;现有深度神经网络的复杂层次结构及大量参数容易造成模型可解释性缺失并逐步“黑箱”化。考虑到深度神经网络的3 个重要成功因素,即逐层处理、模型内特征变换和足够的模型复杂度,文献[17]提出了深度森林模型。不同于神经网络通过反向传播更新可微非线性模块参数,深度森林是一种基于不可导组件的深度学习方法,本质上是一种新的决策树集成模型,使用堆叠结构逐层进行表征学习,挖掘深层次的抽象特征表达。相较于深度神经网络,深度森林模型超参数较少,不需要根据反向传播算法进行表示学习,同时其性能对于超参数设置具有较好的鲁棒性。此外,深度森林模型的结构无需预先设置,其模型复杂度由训练数据规模自适应确定,因此该模型适用于不同规模的数据集,目前在推荐系统、癌症疾病诊断、故障诊断等方面取得了与深度神经网络相当的效果[18],但在运动想象EEG解码方面的研究及应用相对较少。

深度森林是由多粒度扫描模块和级联森林结构组成的一种典型集成学习模型,增加输入特征多样性及互补性是提升集成分类器性能的关键手段。多视角学习技术利用互补原则或共识原则,被广泛应用于EEG 信号的癫痫检测中[19]。考虑到运动想象EEG 具有显著的空间-频率-时间域特性,本文首先通过子频带滤波及时间窗口划分对原始信号进行细粒度分析和局部能量特征生成,并对特征进行稀疏选择保留重要特征;同时,为了进一步提升时序感知和表示学习能力,对上述EEG 时频能量特征矩阵按时间轴进行扫描得到先验类别知识;随后,将浅层能量特征和扫描所得的先验类别特征进行组合构造出多视角特征集;最后,使用级联森林的逐层特征变换挖掘深层次的抽象特征用于分类识别。根据BCI 竞赛数据集和实际采集的运动想象EEG 数据集对本文所提出的多视角深度森林(Multi View Deep Forest,MVDF)进行测试,通过与相关的深度神经网络方法对比,验证本文方法的有效性。

1 数据集与预处理

实验数据包含第Ⅱ届BCI 竞赛数据集Ⅲ和第Ⅳ届BCI 竞赛数据集2b 以及1 个自行采集的数据集,3个数据集的详细描述见表1。

表1 实验数据集组成和描述Table 1 Composition and description of experiment datasets

第Ⅱ届BCI 竞赛数据集Ⅲ记录了1 位25 岁女性受试者左右手运动想象EEG 信号,采集分为7 个阶段,每个阶段进行40 次试验,共计280 次试验。每次试验共持续9 s,实验开始的前2 s 为休息时间,2~3 s屏幕出现“+”号提示,3~9 s受试者根据屏幕上的箭头指向进行运动想象。第Ⅳ届BCI竞赛数据集2b 采集自9名右利手、视觉良好的受试者。EEG 信号采样频率为250 Hz,经过0.5~100.0 Hz 的带通滤波处理和50 Hz 的陷波滤波处理。该数据集的训练数据集合中共包含3 个阶段,其中前两个阶段无反馈,后一个阶段包含反馈。在无反馈阶段,每次试验均以“+”号和声学提示开始,在第3 秒时随机显示持续1.25 s 向左或右的箭头,4~7 s 间受试者根据指示进行运动想象。每个阶段均采集左右手运动想象EEG 样本120个(左、右手各60 个),两个阶段共包含240 个样本。在有反馈阶段,试验开始时出现灰色笑脸,在3.0~7.5 s,受试者需根据箭头指示进行左右手运动想象以完成指定的任务。本文使用上述3 个阶段内的EEG 数据进行算法性能评估,样本总量为400。

本文进一步选用Neuroscan 公司生产的SynAmps Ⅱ型EEG 采集系统并根据国际标准10/20放置电极,采集左右手运动想象EEG。EEG 采样频率为1 000 Hz,经过0.5~200.0 Hz的带通滤波处理,为了降低计算开销,将原始EEG 降采样至100 Hz。该数据集共包含5名被试者,每一名被试者在同一天内共进行4 个阶段的运动想象实验,每个阶段包含左、右手运动想象任务各20 个,因此每一名被试者的样本总量为160。在每一次试验中,前4 s 为休息时间,4~5 s 为提示准备时间,5~9 s 内被试者根据视觉指示完成运动想象任务。

2 研究方法

深度森林是一种决策树森林的集成模型,包含多粒度扫描模块和级联森林两部分[17],通过多粒度扫描模块增强特征的多样性,并利用级联森林增加模型的复杂度[20]。

2.1 扫描模块

图1 所示为二分类场景下的扫描模块示意图。假设输入样本的特征尺寸为5×7,使用滑动窗口扫描原始特征,每一次扫描提取的特征被称为1 个示例,示例具有与原始特征一样的类别标签。滑动窗口的大小设为1×7,采用无重叠窗口的移动方式,每次向下移动1 个单位,则得到5 个示例。假设训练数据集中共有N个样本,经过上述扫描操作共得到N×5 个示例。将所得的所有示例用于随机森林(Random Forest, RF)及完全随机森林(Complete Random Forest,CRF)模型的训练。训练完毕后,针对单个输入样本,RF 及CRF均会生成5 个二分类概率向量,最终拼接为尺寸为20×1的特征向量。

图1 扫描结构(二分类场景)Figure 1 Scanning structure(two classification scenarios)

2.2 级联森林

级联森林的结构如图2 所示。中间层接受上一层的输出特征,并将处理后的结果和原始特征拼接继续输出至下一层。为了增强特征的多样性,每一层都包含相同数量的RF 和CRF,两者的差异在于决策树的分枝策略。RF 随机选择d个特征(d是输入特征的维数)并选择基尼不纯度下降最大的特征进行分枝,而CRF 则随机选择任意一个特征属性进行分枝。级联森林中每个森林是多棵决策树的集合,并且每棵决策树会生长到每个叶子结点只包含相同类别的示例或不超过指定数量的示例。

图2 级联森林Figure 2 Cascade forest

给定一个示例,则它所在叶子节点中可能包含同一类别或不同类别的训练样本。计算该示例所在叶子节点中不同类别样本的占比,然后平均同一个森林中所有决策树的类分布概率,最终得到所在森林的类别分布估计[21]。每个森林都使用k折交叉验证降低过拟合的风险,最后输出的类向量是k次实验的均值。当级联森林拓展新层级时,会使用验证集评估整个级联森林的分类效果。如果当前模型效果没有显著提升,则会停止生长[17]。因此,级联森林的层级是自适应的,可适应不同规模的数据集。

2.3 运动想象EEG空时频特征生成

运动想象BCI系统具有明显对侧效应的事件相关去同步(Event-Related Desynchronization,ERD)和事件相关同步(Event-Related Synchronization,ERS)现象,表现为EEG信号节律成分的短暂振幅衰减和增强。现有研究表明,ERD/ERS现象通常出现在初级运动皮层,且考虑到具备高实用性的BCI系统需采用少量电极[22],使用C3和C4导联的信号生成空时频特征。选择固定时间窗口和滑动步长对EEG数据进行时序切分。然后,针对单一电极导联特定时间窗口内的EEG 信号进行子频带滤波,在4~40 Hz宽频段内,设置子频带宽度为4 Hz,滑动步长为2 Hz,共得到17个重叠的子频带。针对单一电极导联特定时间窗口内的任一子频带,分别计算其EEG能量特征,流程如图3所示。

图3 特征生成流程图Figure 3 Flowchart of feature generation

其中,X为EEG 信号。最后,将C3 和C4 空间电极导联处不同子频带内的能量特征进行横向拼接,并按时间轴进行纵向扩展,得到最终的特征矩阵。

2.4 MVDF

基于生成的原始空时频特征矩阵,本文提出一种融合浅层能量特征和先验类别特征的多视角特征学习方法,进一步利用深度级联森林进行逐层特征变换挖掘深层次的抽象特征进行分类识别,具体模型如图4所示。

图4 多视角深度森林模型结构图Figure 4 Structure of multi view deep forest model

原始的空时频特征矩阵中包含多个子频带及时间窗口内的能量特征,考虑到ERD/ERS 现象通常出现在局部的子频带及时间段内,因此原始特征矩阵中的特征元素在重要性方面存在较大差异,并且包含较多的冗余特征。基于以上分析,针对浅层的局部空时频能量特征,本文利用LASSO 模型进行属性重要性度量及特征选择。LASSO 模型使用l1正则化约束模型的复杂度,具体如公式(2)所示:

其中,β为回归系数,参数φ决定回归系数被压缩的程度,通过上式可将较小的回归系数压缩至0并删除系数为0的冗余特征。

使用扫描模块进行特征转化,获得样本的先验类别特征。本文根据尺寸为1×34 的窗口获取示例,在时间维度上按照步长为l 的设置进行滑动,利用所得示例训练RF 和CRF 并生成类别概率特征。最后,将扫描模块输出的类别概率特征和经过选择后的浅层空时频能量特征进行拼接,输入到级联森林。实际分类应用中包含训练和测试两个过程,表2是本文模型的训练和测试详细过程。

表2 MVDF模型的训练及测试过程Table 2 Training and testing processes of multi view deep forest model

本文的MVRF 模型中的扫描模块包含1个RF和CRF,2 个森林都由树深为4 的30 棵决策树组成。针对级联森林部分,每一层由2 个RF 和2 个CRF 组成,每个森林包含深度为4 的50 棵决策树。对于一个二分类任务,每一个森林会输出一个二维的类别概率向量,4 个森林所生成的4 个类别概率向量会与原始特征拼接输入到下一层,并对最后一层输出结果进行求均值及最大值操作得到最终的分类预测标签。

2.5 模型可解释性

可解释性是评价人工智能模型性能的重要指标。MVRF模型是一种决策树森林集成算法,本文采用决策树模型可视化及特征重要性评价等分析手段研究模型可解释性。CART 决策树选择基尼不纯度下降最大的特征进行分枝,单一节点的基尼不纯度计算公式为:

其中,D为此节点处的样本集合,Ck为集合D中属于第k类的样本子集,K为类别总数,|· |为取得集合内样本个数的操作。假设样本集合D根据特征属性A切分为子集Dl和Dr,切分之后的基尼不纯度计算公式为:

在单一节点上遍历所有特征,选择使得Gini(D) - Gini(D|A)最大的特征,即为该节点的最优分裂特征。假设节点D根据特征A分枝,则节点D的基尼不纯度下降为ΔΦ(D),计算公式为:

其中,N为总样本数,|D|为节点D的样本数,|Dl|和|Dr|分别为节点D分枝后左子树和右子树的样本数。设决策树T中按照特征A进行分枝的节点集合为V,特征A在决策树T上的基尼不纯度减少总和为GD(T,A),则特征A在RF 上的重要性评价指标GI(A)即为特征A在所有决策树上基尼不纯度减少量的总和[23],GD(T,A)和GI(A)的计算公式分别为:

公式(7)中Q为RF所包含的决策树的集合。

3 结果与分析

3.1 第Ⅱ届BCI竞赛数据集Ⅲ结果分析

针对该数据集,考虑到ERD/ERS 现象的触发具有一定的滞后性并持续较短时间[8],本文选取指示标志出现后的1.0~3.5 s数据段进行分析,设置时间窗口为0.5 s、步长为0.5 s 进行时序扫描,通过子频带滤波及空时频能量特征提取生成尺寸为5×34的原始特征矩阵,LASSO 回归正则化系数φ设置为0.08,使用140 个样本的训练集进行MVDF 模型训练,并使用140个样本的测试集进行分类识别准确率计算。

为了有效评估MVDF 算法的性能,针对性地选取应用于该数据集几种代表性的CSP 方法、深度学习算法以及竞赛优胜者进行比较。对比算法包括CSP、FBCSP 和SFBCSP,文献[24]中的CNN、堆叠自编码器(Stacked Auto Encoder, SAE)和CNN-SAE,第Ⅱ届BCI 竞赛第1 名以及文献[25]中的卷积深度信念网络(Convolutional Deep Belief Network, CDBN)。CSP方法中将C3、Cz 和C4 导联的原始信号进行4~40 Hz的带通滤波处理然后提取CSP 特征进行分类,FBCSP方法使用与本文相同的子频段提取C3、Cz 和C4 导联的CSP 特征并挑选互信息最高的16 个特征进行分类,SFBCSP 方法中同样使用与本文相同的子频段提取C3、Cz 和C4 导联特征,然后使用正则化系数φ为0.01的LASSO 模型提取特征进行分类。可以看到,MVDF算法的分类准确率达到91.4%,高于传统的CSP、FBCSP 和SFBCSP 方法,并且高于CNN(89.3%)、SAE(60%)、CNN-SAE(90%)及CDBN(88.2%)等4 种深度神经网络算法以及第Ⅱ届BCI 竞赛第1 名(89.3%),验证了本文算法的有效性。

本文进一步根据该数据集进行模型可解释性分析,具体根据扫描模块中的RF 模型进行空频特征重要性评估。RF使用有放回抽样,任意样本被选中t次的概率服从λ= 1的泊松分布,计算公式为:

其中,t为一次实验内样本被抽中的次数,1-(1/e) ≈0.632 为1 次实验内样本被抽中的平均发生率。根据上式,任一样本至少被选中1次的概率为1-(1/e) ≈0.632。因此,在对随机森林的基分类器决策树进行训练时,约有36.8%的原始样本未被使用。

图5 是RF 某棵决策树的可视化结果,实验中RF的输入示例数为700(5×140),140为训练样本数,5为时间窗口数,图中决策树的训练使用了434个不重复示例,约38%的示例未被使用。图中的samples 代表该节点包含的不重复的示例数,gini代表该节点的基尼不纯度,value是该节点对应类别的示例数,class为节点对应的类别标签。从图中可以观察到,该决策树的根节点利用C3 电极导联的8~12 Hz 频段内的能量特征作为分枝特征。根节点的左子树使用的分枝特征为C4 电极导联的10~14 Hz 频段内的能量特征,对应的阈值为-7.63,该节点包含235 个不重复示例,类别1和2对应的示例数(含重复)分别为119和252,根据多数投票规则,该节点对应的类别为2。针对C4电极导联的10~14 Hz 频段内的能量这一特征,根据式(5)、式(6)可计算出它在该决策树中的特征重要性为0.073。进一步根据式(5)~式(7)对C3 和C4 电极导联的17 个子频段内的能量特征计算其在RF 中的特征重要性,图6 所示为重要性排名前20 的特征。从图中可以看到,C3 和C4 导联处的8~12 Hz 和10~14 Hz频段内的能量特征重要性较高,而8~14 Hz主要覆盖了与左右手运动想象任务紧密相关的运动感知μ节律[5,8],一方面说明模型能自适应地选择重要特征,另一方面也表明模型的参数具有良好的神经生理学解释。

图5 决策树可视化图Figure 5 Visualization of decision tree

图6 特征重要性分布图Figure 6 Distribution of feature importance

3.2 第Ⅳ届BCI竞赛数据集2b结果分析

针对该数据集,采用每名被试者的10×10折交叉验证的平均分类准确率评估算法性能。选取C3 和C4 导联处3.5~7.0 s 内的信号作为实验数据,按照时间间隔1 s、步长0.5 s 划分得到6 个时间段进行空时频能量特征提取,并进行零均值规范化处理生成尺寸为6×34 的原始特征矩阵,LASSO 回归正则化系数设置为0.01。使用两种单视角特征对比,验证多视角特征的有效性,分别为:(1)先验类别特征+级联森林;(2)浅层能量特征+级联森林。此外,对比算法还包括3.1节相同的CSP、FBCSP和SFBCSP方法,CNN和SAE 两种典型的深度神经网络算法,具体比较结果如表3 所示。从表3 中可以观察到,MVDF 算法在4 名被试者上取得了最优的分类识别结果,相较与先验类别及浅层能量等单视角特征,平均分类准确率分别提升了1.2%和0.4%,说明多视角特征能增加特征多样性并提高分类准确率。此外,相较于CNN 和SAE 这两种典型的深度神经网络模型,MVDF 的平均分类准确率分别提升了0.4%和17.5%。因此,相比于单一的深度神经网络模型,本文算法能取得持平甚至更优的分类效果。

表3 不同被试者和不同方法下的准确率(%)Table 3 Accuracy rates of different methods for different subjects(%)

3.3 实际采集数据集结果分析

针对该数据集,同样采用每名被试者的10×10折交叉验证的平均分类准确率评估算法性能。选取C3和C4 导联处5.5~9.0 s 内的信号作为实验数据,按照时间间隔1 s、步长0.5 s 划分得到6 个时间段进行空时频能量特征提取,并进行零均值规范化处理,生成尺寸为6×34 的原始特征矩阵,LASSO 回归正则化系数φ设置为0.01。对比算法同样包括了与3.1 节相同的CSP、FBCSP和SFBCSP方法,先验类别特征+级联森林、浅层能量特征+级联森林、CNN 和SAE,具体比较结果如表4 所示。从表4 中可以看到,MVDF 算法相较与先验类别及浅层能量等单视角特征,平均分类准确率分别提升了1.3%和0.3%,说明使用具有互补性的多视角特征能有效增强分类性能。此外,相较于CNN 和SAE 两种典型的深度神经网络模型,MVDF 的平均分类准确率分别提升了4%和14.5%,在该数据集上所提算法优势较为明显。除了分类准确率,模型的计算开销是评估模型性能的另外一个重要指标,基于该数据集的一次验证过程进行了程序耗时统计。MVDF 算法主要包含3个计算单元,即原始特征矩阵扫描(0.094 s)、原始特征矩阵LASSO选择(0.002 s)和级联森林训练(0.880 s),级联森林训练所占的时间最长,3 部分的总耗时仅为0.976 s,因此MVDF算法适用于实时计算。

表4 不同被试者和方法下的准确率(%)(实际采集数据集)Table 4 Accuracy rates of different methods for different subjects(%)(pratical dataset)

4 结论

本文提出的MVDF运动想象EEG解码算法,通过融合多示例先验类别知识和重要的空时频浅层能量特征构建EEG多视角特征集,并采用深度级联森林进行逐层变换挖掘深层次的抽象特征进行分类,为运动想象EEG信号识别提供了一个新方向。多个数据集的实验结果表明,多视角特征能有效增强表示学习能力,相较于几种典型的CSP、FBCSP和SFBCSP方法以及深度神经网络算法,MVDF能取得持平甚至更优的分类效果且计算效率更高、可解释性更强。

猜你喜欢

级联决策树类别
基于MARC理论计算设计回收铀分离级联
实现级联形状回归方法对视线追踪
一起去图书馆吧
简述一种基于C4.5的随机决策树集成分类算法设计
酶级联反应放大策略用于灵敏检测酸性磷酸酶
简析基于概率预测的网络数学模型建构
决策树学习的剪枝方法
决策树在施工项目管理中的应用
选相纸 打照片
一种新型的级联型多电平逆变器研究