基于深度学习的EEG 数据分析技术综述
2024-05-25钟博王鹏飞王乙乔王晓玲
钟博,王鹏飞,王乙乔,王晓玲
(华东师范大学 计算机科学与技术学院,上海 200062)
脑电数据是由在大脑放置的测量电极所记录到的电生理信号,反映大脑神经元的离子电流产生的电压波动,常作为观测大脑内部自发电生理活动的研究媒介.根据电极放置形式的不同,脑电数据可以分为非侵入式与侵入式2 种类型.其中,头皮脑电(electroencephalography,EEG)是典型的非侵入式脑电数据,通过参照不同的坐标体系,在头皮表面的固定位置放置干电极或湿电极,同步记录颅内深层信号在头皮的表现.EEG 数据作为重要的时序信号,为深入理解脑功能、改善疾病诊断提供了关键的技术支持.基于深度学习的EEG 数据分析在推动脑机接口技术(brain-computer interface,BCI)、个性化医疗和脑机智能发展方面具有关键作用.在实际中,非侵入式的头皮脑电数据具有无创、易获取的优点,因此拥有大量的相关研究及公开的数据集资源.本文将集中于介绍基于深度学习的EEG 数据相关分析工作,对其进行梳理与总结.
对于EEG 相关的概念和工作,已有许多综述研究给出了全面的梳理.Hosseinu 等[1]介绍了机器学习在EEG 信号处理中的应用,包括传统的支持向量机、K-近邻算法、朴素贝叶斯等方法的应用,但没有兼顾到大量取得更优性能的深度学习算法的讨论.Jiang 等[2]从去除EEG 信号的伪影和解决EEG 模型泛化性的角度进行讨论,使得该篇综述在技术细节方面更加细致,然而对于初入门的研究人员来说,这种细致的梳理可能不利于他们从完整的流程视角去了解EEG 数据分析过程中需要考虑的挑战.与之形成对比的是,Zhang 等[3]从更全面的视角介绍了脑机接口(brain-computer interface,BCI)信号的由来及应用,以及卷积神经网络(convolutional neural networks,CNN)、循环神经网络(recurrent neural network,RNN)、生成对抗网络(generative adversarial network,GAN)等主流深度学习算法与脑电任务场景的结合形式.Zhang等[3]的工作没有显式地遵循EEG 信号分析所涉及的闭环工作流程进行文献梳理,而是将重点放在了不同BCI 信号种类的划分及深度学习算法类别的划分上.
与以往研究不同,本文侧重于研究深度学习算法中EEG 数据分析的闭环分析流程.具体而言,本文分别对EEG 数据进行介绍,从深度学习在脑电数据的预处理、特征提取及模型泛化3 个关键阶段的应用进行展开,包括各阶段所存在的难点与挑战以及深度学习算法在各阶段提供的解决方案和成效.对于每个关键阶段,对相关工作进行细分,比如将EEG 数据预处理细分为去噪和生成,在生成部分进一步细化为数据增强和信号转换.
1 EEG 数据分析
1.1 EEG 简介
EEG 作为电生理信号记录数据,能够反映颅内神经元产生的电生理活动.通常,在采集EEG信号时,记录电极的放置会遵循约定好的数量和准则,以保证实验结果的可复现性与可比较性.常见的电极放置准则包括10-20 国际标准导联系统、10-05 国际标准导联系统、BioSemi 系列等.以常用的10-20 国际标准导联系统为例,该系统的基本假设如下:头皮位置与其底层大脑结构之间存在一致的相关性[4].标准的10-20 系统总共包含19 颗记录电极,每颗电极作为一个逻辑通道,记录相应位置的EEG 信号数据.
EEG 数据优良的特性促使科研人员从EEG的理论研究延伸出多样的应用场景,如疲劳检测、癫痫预警、情感识别等.基于不同任务与科学实验,诞生了丰富的EEG 公开数据集,包括睡眠EEG 数据集Sleep-EDF[5]、动作想象数据集PhysioNet[6]、情感识别数据集SEED IV[7]、DEAP[8]等,进一步吸引了大量研究工作的更迭与创新.
1.2 EEG 分析难点与挑战
如图1 所示的工作流程,EEG 数据分析需要面临数据获取、预处理、特征提取、模型泛化、智能设备应用几个阶段.数据获取涉及不同脑电记录设备的设计与选择,智能设备应用涉及智能应用的设计与开发,尚不在本文的研究范围之内.本文着手于深度学习在EEG 数据预处理、特征提取、模型泛化3 大环节展开讨论,分析其中存在的难点与挑战.
图1 EEG 闭环分析流程Fig.1 Closed-loop EEG analysis process
1.2.1 预处理 EEG 预处理阶段旨在消除信号中包含的干扰信号成分,即是“伪影”.信号中的伪影可能来自于环境噪声、操作误差或受试者本身的其他电生理信号等.它们往往在数据采集阶段被一并记录到原始数据中,对下游数据分析工作产生负面影响,降低了分析结果的准确率.根据产生方式,伪影可以被划分为外部伪影和内部伪影.外部伪影通常指外界不稳定的测量环境中产生的噪声和测量误差.内部伪影包括多种来自受试者自身其他电生理信号的干扰.常见的内部伪影包括眼动信号(electro-oculography,EOG)、肌电信号(electromyography,EMG)、心电信号(electrocardiogram,ECG)等.这些电生理信号往往以一种或多种干扰同时出现,与真实的EEG 信号相混合,它们的分布频段与EEG 接近,难以通过固定频段的滤波进行去除,增大了消除这些干扰信号的难度.
除了伪影干扰之外,在深度学习研究背景下,预处理阶段还需要考虑数据分布不均衡的问题.由于EEG 记录过程可能存在电极缺失,会导致所得数据在空间分布上的不均衡.另外,由于数量和位置固定,EEG 电极无法采集到大脑任意方位的信号,只能通过固定的采集点来收集电极周围神经元发出的电信号的聚合信号,导致了其低空间分辨率的劣势.针对EEG 数据集的增强技术用以缓解特定场景下数据集分布不平衡带来的负面影响.
1.2.2 特征提取 EEG 特征提取旨在计算出更好的表征或提取出与下游任务最相关的成分,以提高模型的分类准确率或回归精度.基于信号本身的特性,针对EEG 特征需要从时域、频域、空间域或联合特征的角度进行考量.
作为一种时序信号,EEG 记录到的大脑局部节律振幅随时间的波动反映了潜在神经元皮层网络的可变功能状态[9],因此需要从时域的角度考虑EEG 波形如何随着时间的推移而变化或波动.为了更好地剥离EEG 信号中不同的频率成分以便更细致地分析,常会利用傅里叶变换或小波变换算法将信号从时域变换至频域进行考虑.如表1所示,EEG 信号的频率波动范围一般集中在每秒1~30 次,可被划分为不同波段.如何利用EEG 中各波段的特性来指导下游任务分析,或挖掘不同波段间和未发现的波段间所具有的复杂特性是值得不断探索的.
表1 EEG 频段特征Tab.1 Characteristics of EEG frequency bands
从空间角度来看,位于头皮不同位置的EEG 电极所记录到的颅内电生理活动存在显著的差异,如δ 波常见于大脑颞叶和顶叶,γ 波通常位于体感皮层.根据不同区域所关联的独特功能,已有学者将大脑划分为不同的脑功能区.常见的脑功能区划分方式包括默认模式网络(default mode network,DMN)、突显网络(salience network,SN)、注意网络(attention network,AN)等.通过计算在不同功能区所记录到的信号之间的统计相关性,可以判定其是否具有功能性关联(functional connectivity,FC)[10].在不同的BCI 任务中,特定大脑区域会产生特有的活跃现象.
随着人们对BCI 应用需求的日益渐长及脑电数据本身的复杂特性,仅从某一个单独域建模信号特征往往无法满足对实验准确度的需求.如何更好地结合时域、频域、空间特征以及与下游任务相关联的特定领域知识进行联合建模分析,以达到不同特征间的互补,进而在预期结果的表现上得到质的提升是复杂而有价值的挑战.
1.2.3 模型泛化 由于EEG 数据集的构成通常涉及不同的受试者、不同采集设备、不同测试任务等因素的影响,导致不同源数据或同源数据内部的显著差异.对于基于数据驱动的研究方式,这一情况带来的负面影响主要体现在通过训练集优化所得的模型无法很好地适应现实场景下的多源、多分布的真实EEG 数据,导致大多数基于EEG 的BCI 模型在实际运用中的效果无法达到在实验室中的测试精度.如何利用先进的深度学习算法从先验角度设计更合理的模型架构,或通过在线优化模型参数的方式对未知的样本进行适应,从而跨越实验数据与真实应用场景下样本分布间的鸿沟,成为摆在研究者们面前的一大难点.
2 基于深度学习的EEG 预处理
2.1 EEG 去噪
EEG 数据采集过程中伴随着肌肉运动、电干扰和电极松动等不确定因素带来的噪声干扰,这些噪声使信号分类和神经系统疾病诊断成为瓶颈[2].EEG 数据去噪已成为生物医学数据处理领域的重要研究课题.Salis 等[11]对经验模态分解(empirical mode decomposition,EMD)、离散小波变换(discrete wavelet transform,DWT)和卡尔曼滤波(Kalman filtering,KF)进行比较研究,从脑电图中去除不同振幅的EOG 伪影,但利用这些传统方法无法充分捕捉EEG 中的复杂特征.如表2 所示,深度神经网络可以捕捉EEG 中神经振荡的特征,消除来自生物伪影的波动,如Zhang 等[12]构造干净EEG 和带有EOG 和EMG 伪影的数据集,使用基于深度网络的EEGdenoiseNet,通过有监督的方式进行端到端的训练,对EOG 和EMG 伪影进行去噪.Brophy 等[13]基于GAN,生成器从有噪声的EEG 训练数据中进行采样去噪,并将其与相应的干净EEG 信号输入鉴别器中进行比较.由于EEG信号的幅度没有固定的范围,传统的图像滤波方法可能无法直接应用于EEG 信号去噪,因此An 等[14]引入样本熵和基于能量阈值的数据归一化方法,将图像恢复的思想应用于脑电信号去噪.
表2 基于深度学习的EEG 信号去噪方法Tab.2 EEG signal denoising method based on deep learning
EEG 信号容易受到不同伪影的影响,这对后续的信号分析和神经系统疾病的诊断造成了干扰,因此去噪是重要的研究方向.虽然现有的深度学习技术在处理EEG 信号中的常见伪影方面表现出一定的竞争力,但随着脑机接口技术的发展,未来可能会面临更加复杂和多样化的伪影情况.例如对可穿戴设备采集得到的连续、低信噪比的EEG 信号进行快速去噪是具有挑战性但值得探索的方向.在未来的研究中,可以考虑从以下几个方面来提高深度学习技术在处理复杂伪影方面的能力.1)数据集的多样性:构建更加多样化和真实的EEG 数据集,包括各种类型的伪影,例如同时包含EOG 伪影、EMG 伪影、ECG 伪影等,以便深度学习模型可以在更加复杂和真实的场景中进行训练和验证.2)实时性的考虑:针对BCI 应用中对实时性要求高的场景,可以研究如何在短时间内进行快速去噪,例如引入在线学习和增量学习技术.
2.2 EEG 数据生成
数据生成的第一个应用场景为数据增强.在实际研究中,由于EEG 数据采集的设备成本、时间成本及操作中不可避免的数据缺失等问题,能够被研究者利用的数据往往较少,不足以支撑足够有说服力的研究.为了提升数据量及数据质量,如表3 所示,近年来基于深度网络模型的EEG 数据生成工作不断涌现.
表3 基于深度学习的EEG 信号生成方法Tab.3 EEG signal generating method based on deep learning
Hartmann 等[19]面对EEG 数据增强及恢复已损坏的数据段需求,针对WGAN-GP 训练不稳定、梯度消失这一缺陷进行改进,利用额外的可变伸缩系数来动态调节WGAN-GP 中的梯度惩罚项,使得判别器的梯度惩罚权重可以根据当前分布间的差距大小改变,稳定了模型训练过程,生成更高质量的信号.针对EEG 数据增强这一应用场景,Corley 等[20]采用生成对抗网络对EEG 进行逐通道生成.在临床上,高空间分辨率的大脑活动记录通常包含更多的认知活动信息,但记录更高的空间分辨率需要更多的通道,意味着更高的设备成本.通过使用WGAN,可以从低分辨率的记录中生成高空间分辨率EEG 数据.
脑电生成的另一应用场景为信号转换,即使用一种模态的脑电信号生成另一种模态的脑电信号.比如由无创、低空间分辨率、噪声较多的头皮脑电数据生成侵入式、高空间分辨率、噪声较少的颅内脑电(stereoelectroencephalogram,SEEG)数据,使得转换后模态的脑电信号包含更多的潜在大脑活动信息,有助于医学诊疗任务.Antoniades 等[22]提出基于自编码器(auto-encoder,AE)改进的深度学习模型,将EEG 信号作为输入,最小化输出与真实SEEG 信号间的交叉熵损失,实现由EEG 到SEEG 信号的生成.Hu 等[23]将EEG到SEEG 这一转换任务分为两大步骤.针对头皮脑电电极与颅内立体脑电电极之间映射关系的建立,提出两阶段的匹配策略,即同时考虑2 种电极所记录到的信号间的相似性及2 颗电极间的物理距离,确定最合适的一对一电极匹配关系.使用幅度谱和瞬时频率谱来表征信号,提出谱相关注意力模块和加权预测模块.前者能够保证生成的SEEG 信号与输入的EEG 信号之间具有关联性,后者主要针对生成信号中的毛刺现象这一问题进行解决,有效应对了潜在的模式崩塌.
在研究资源匮乏的环境中使用深度学习技术进行EEG 数据增强,能够进一步辅助数据驱动模型的下游开发.但针对医学工作,研究者更加关心脑电信号间的模态转化,如上述的EEG 到SEEG 的转换,如何考虑多对一,甚至是多对多的转换映射,需要更加精细的建模技术和更多脑电领域知识的辅助.
3 基于深度学习的EEG 特征提取
3.1 EEG 时域特征提取
基于1.2.2 节的几种EEG 信号特征角度,本节介绍如何使用深度学习算法进行建模EEG 信号的特征,提升下游分类或回归任务的准确性.EEG 作为时序信号,具有时序数据共有的特性,即当前时间步的状态与历史时间步存在关联.为了捕捉这种时序数据特有的特性,如表4 所示,Tsiouris 等[24]采用长短时记忆网络(long short-term memory,LSTM)对EEG 进行建模,实现癫痫发作的预测.El-Fiqi 等[25]提出基于门控机制的自编码器结构——门控层自编码器(GLAE),以学习EEG 序列内部不同变量间的内在关联,能够较好地应对EEG 变量缺失或被污染的情形.
表4 基于深度学习的EEG 时域特征提取方法Tab.4 Temporal feature extraction in EEG analysis based on deep learning
除了使用基于序列特性而设计的LSTM 或RNN 等序列模型之外,部分研究者选择采用CNN 对EEG 的局部不变的时间特性进行建模.由于2-D 的CNN 卷积核具有提取二维特征的能力,采用CNN 结构的研究工作往往侧重于将EEG 的时序特征结合其空间或频域特征一同考虑,通过联合建模2 种甚至多种特征的方式获取更好的模型性能.Al-Marridi 等[26]设计基于CNN 的自编码器结构,利用CNN 的下采样操作对输入的多条EEG 序列进行压缩,以获得维度更低、信息量比例更大的信号表示.Jiao 等[27]使用CNN 捕捉多通道EEG 序列中与图像认知有关的隐向量特征,使其更接近于对应图像所处的隐向量空间,从而在分类阶段,利用EEG 表征弥补了认知域和视觉域之间的差距,对不同视觉刺激诱发的EEG 记录进行分类.在视觉刺激生成阶段,利用视觉引导的脑电图表征来提高生成的性能.利用改进的GAN 模型,提高真实刺激的视觉表征与生成实例之间的一致性,从而提高生成图像的主观和客观质量,实现了从EEG 图像认知特征生成对应视觉图像的功能.Yao 等[28]从通道独立和频域特征图像2 个角度展开研究,使用基于不同维度的CNN 卷积核构成的自编码器,从2 种角度分别对EEG 的时频、空间特征进行建模.
考虑到EEG 信号本质上可以建模为高度动态、非线性的时间序列数据,如表4 所示,上述工作引入基于深度学习的时序处理模型来捕获EEG 的时序特征和电极与电极之间的内在关联特征,辅助下游任务.大部分工作都是将输入的EEG 信号预处理为长度相等的序列,且假设EEG 信号片段之间是相互独立的,这样不仅会破坏信号之间的连续性,也在一定程度上降低了模型的实用性.
3.2 EEG 频域特征提取
在获取EEG 信号的频域特征方面,传统工作往往通过时频变换算法将原始信号变换至频域进行研究,常用的变换包括傅里叶变换、小波变换.基于这种频域表征,可以提取功率谱密度(power spectral density,PSD).基于某一频段的功率谱特征,可以计算出差分熵(differential entropy,DE)特征.除此之外,滤波器组共空间模式(filter-bank common spatial pattern,FBCSP)、双线性判别成分分析(bilinear discriminant component analysis,BDCA)算法也被用于提取脑电信号中不同频率的成分.
如表5 所示,基于脑电固有的频段特征,Yu等[30-31]将原始信号分解至δ、θ、α 等子波段,在子波段依次提取特征后再进行融合.Yu 等[30]提出新的分类框架,将不同波段特征向量进行拼接,输入卷积神经网络,能够客观识别强直性冷痛状态.Prasanth 等[31]在癫痫检测任务上,采用CNN架构,将原始 EEG 和频率子波段作为输入特征,对不同的输入特征组合进行性能评估.
表5 基于深度学习的EEG 频域特征提取方法Tab.5 Frequency feature extraction in EEG analysis based on deep learning
在频域分解与子波段选择的角度,Shen 等[32-34]进行了进一步的创新.Shen 等[32]提出多尺度波段集成学习方法,实现基于EEG 信号的情绪识别.Miao 等[33]提出基于EEG 的情绪识别框架,能够为每个受试者自适应地挑选最优波段,在每个波段,分别应用相同的3 维深度残差网络架构提取特征,将不同波段的输出进行融合,输入softmax层得到最终的分类结果.Yao 等[34]将短期EEG 信号转化为图像,依次提取θ、α、β 3 种波段,计算这些波段平方绝对值的和,得到64×3 的矩阵.将每个波段视为RGB 中的一个通道,利用等距方位投影方法将64×3 的矩阵转换为32×32×3 的图像格式,然后使用基于CNN 的自编码器进行特征提取.
Lawhern 等[36-37]采用卷积核,直接提取频率特征.Lawhern 等[36]提出的EEGNet 将不同尺寸的CNN 卷积核看作是不同规格的信号滤波器,CNN 网络沿着时间轴的卷积操作是从原始信号中提取不同频率成分的过程.EEGNet 通过采用适应原始信号采样频率的卷积核尺寸来构建卷积神经网络.假设模型输入为尺寸为(C,T)的多通道信号数据,其中C 为通道数,T 为序列长度.Lawhern等[36]采用尺寸为(1,64)的2-D 卷积核,旨在捕获原始信号中频率≥2 Hz 的信号成分.通过尺寸为(C,1)的深度卷积核,让模型可以学习到各个频段内不同通道之间的关联.为了清晰地分离所得特征图内部以及相互之间的关联性,采用尺寸为(1,16)的2-D 卷积操作,然后是尺寸为(1,1)的逐点卷积操作.通过结合这两种不同尺寸的卷积操作,模型能够独立地提取各个通道、各个频段中最主要的特征,并通过逐点卷积对它们进行融合,完成最终的特征提取任务.Zhao 等[37]提出结合小波变换和空间滤波的卷积网络,端到端地解码EEG 信号.
采用频域特征的另一优势是能够消除相位偏移对时域特征的影响,尤其是考虑在EEG 信号上建立图表示时,基于频域表征建立的图比基于时域信号建立的图更具有鲁棒性.比如,Wang 等[38]为EEG 的频域表征建立图表示,构建复杂网络(complex network).
使用深度学习技术进行频域特征提取,能够避免手工设计特征的环节,自动从原始信号中学习到与任务有关的频域表示,近年来在癫痫发作检测、情绪识别下游任务上展现了良好的性能与应用前景.目前的方法在频域分解角度在一定程度上依赖于与任务有关的先验知识;这些模型往往针对特定任务,在其他任务上的泛化性有待验证;由于深度学习模型的黑盒性质,这些方法在可解释性上存在不足.未来可以进一步考虑提升模型的泛化性,提取出更加通用、可解释的频域表示.
3.3 EEG 空间特征提取
考虑到EEG 电极物理位置带来的影响,如表6所示,从空间角度捕捉不同电极之间存在的信号传播关系,能够更好地从全局角度建模多通道EEG 信号的特性.
给定原始的多通道EEG 信号矩阵 X∈RC×T.为了建立多通道间的关联,Zhang 等[39]采用黎曼网络架构,利用满秩矩阵 W1对 X 进行双线性插值通过对 X1进行特征值分解,可得由特征向量组成的矩阵 U1及其对应的特征值组成的对角矩阵 Λ1.使用预设阈值组成的对角矩阵 ζ替代 Λ1中较小的特征值,可得从而保证了所得矩阵的正定性质.为了将所得流形映射至更为平坦的空间,以便经典的欧式空间计算得以应用,Zhang 等[39]对特征值进行对数运算后,将其作为空间特征提取的最终形式并输出.
大脑结构可以根据功能性关联,划分为不同的脑功能区.利用这一医学依据作为切入点,Fang 等[40]提出区域注意力卷积神经网络,将功能区的概念融入模型设计中,以更好地完成运动意图识别的任务.
处理含有空间特性的数据,更直观的做法是将EEG 电极物理位置关系建模为图结构.EEG 电极的空间布局符合图结点的构建,每颗电极所记录到的信号或由信号中所提取的特征可以作为每个结点所拥有的属性.利用图卷积网络(graph convolutional network,GCN)在图结构上提取特征的优势,可以捕捉到这种非欧式空间结构上的信息流动.基于这一建模思路,许多研究工作将重点放在如何为这些结点构建“边”的关系以及如何为结点赋予具有任务相关含义的属性研究上.
Zhong 等[41]基于不同脑区活动间的关联性随物理距离呈现平方反比变化的假设,定义EEG 通道间的图结构,设无向无环图的邻接矩阵为A∈RC×C,定义结点边权重为其中 dij为第 i 和 j个E 通道间的物理距离.通过控制非负超参 δ的取值,筛去了20%关联性较小的边.对于情感识别任务,Schmidt 等[42-43]的研究表明,左、右半脑神经元的非对称性活动能够提供丰富的识别信息.为了建模这一先验知识,研究者通过修改邻接矩阵对应边的权重,对由经验性实验结果选定的分布于左、右半脑侧向的电极对之间搭建全局连通路径 Aij=Aij-1,其中 i j表示选定的电极对.采用每个通道所记录的EEG 片段的差分熵作为结点的属性,利用简单图卷积网络完成对定义的图结构的特征提取.
通过预设方式构建的图结构往往是静态的.静态图结构不依赖于输入信号的变化,而是依赖于先验知识的正确性,因此受制于静态结构的不变性.为了适应可能来自不同受试者、不同会话情形的EEG 片段,Song 等[44,46]考虑动态地构建图结构.Song 等[44]提出实例适应性图连接算法,通过可优化的参数矩阵学习EEG 的空间关联及频域特征关联,实现动态建立邻接矩阵的目标.
结合文献[43,44] 的优点,Li 等[46]通过分析EEG 在时域、频域及空间3 种角度的特点,针对情感识别任务,采用静态及动态2 种构图方式.采用皮尔森相关系数,计算不同EEG 通道记录所得信号间的时序相关性,作为建立结点边的依据.根据人为设定的阈值,筛选出与情感识别任务最相关的若干条边,构建静态的功能性脑连接图.
EEG 中的空间信息通常可以反映更完整的大脑状态,如表6 所示,现有的研究将来自时域、频域和大脑功能连接的EEG 信息进行融合,在下游任务尤其是情绪识别上取得了很好的效果.基于数据驱动学习到的脑功能连接拓扑结构在一定程度上能够反映功能性大脑连接与认知缺陷疾病的多种心理生理障碍有关,未来可以进一步辅助疾病的治疗,如辅助抑郁症的诊断.已有的生物学实验表明,大脑信号的不稳定是大脑区域连接的变化所导致的,这种神经脆弱性导致癫痫发病.基于脆弱性理论和线性动力系统,利用生成模型动态模拟癫痫发作间期每个电极通道如何影响其他电极,通过得出的每个电极的神经脆弱性,辅助癫痫的诊断和指导患者的手术治疗[47],值得未来进一步挖掘.EEG 数据并非仅仅局限于时频和空间域,其中蕴含了许多个性化信息和生物信息,如何将这些信息融入深度学习模型中,是未来可以思考的.
4 基于深度学习的EEG 模型泛化
EEG 数据是由大脑产生的电信号采集得来的,它具有高度的个体差异性和时空特异性.相较于传统的手动特征提取和机器学习方法,基于深度学习的EEG 处理模型可以在充足的训练数据下获得良好的效果,减少人工分析的成本.由于深度学习模型依赖于数据的驱动,过度依赖训练数据容易导致过拟合问题,降低模型的泛化性能.如表7 所示,近年来,许多研究采用域自适应技术,降低不同受试者、不同设备、多视图和多模态等因素对EEG 数据的影响,使得模型能够更好地捕捉EEG 的共性特征,提高泛化性能.本节按照性能泛化的不同训练目标,对近年来的相关工作进行梳理.
表7 基于深度学习的EEG 模型泛化方法Tab.7 Deep learning based EEG model generalization methods
对于跨受试者,Kostas 等[48]认为不同个体之间的EEG 数据存在一定的差异性.受Bert[49]的启发,Kostas 等[48]使用自监督训练目标来学习原始EEG 信号的表示,从而有效利用大量未标记的EEG 数据.
针对睡眠分类任务,为了学习与个体无关的睡眠特征,Jia 等[50]将域泛化方法与时空图卷积网络集成到统一的框架中.依赖于单任务学习,可能导致过拟合,学习到的特征缺乏泛化性.受到多任务学习的启发,可以结合不同的自监督任务来提高模型的泛化能力以及模型对噪声标签的处理能力.为了提高模型的泛化能力,利用EEG数据特性来提高表征学习的质量,解决噪声标签带来的问题.Li 等[51]采用基于图的多任务自监督模型GMSS.通过空间拼图任务,研究不同脑区的空间功能连接;采用频率拼图任务,捕获对下游任务较重要的频带,通过对比学习,提高同一EEG片段的不同增强数据之间的一致性.
使用相互影响的多个视图来建模有效的表示具有挑战性.Kumar 等[52]提出多视图自监督学习方法mulEEG 用于EEG 表征学习,联合训练时间视图编码器和频谱视图编码器,该方法有效利用多视角之间的互补信息来学习更好的表征,提出diverse loss 促进多视角信息互补.
基于耳部的EEG 睡眠监测在舒适性和便携性方面具有明显的优势,但Mikkelsen 等[53]的工作表明,基于耳朵EEG 的睡眠分级的性能不如基于头皮EEG 的睡眠分级.为了解决头皮EEG 和基于耳朵E E G 的睡眠分级之间的性能差距,Anandakumar 等[54]采用跨模态知识提取的蒸馏策略,迫使模型学习到的耳朵EEG 特征表示与头皮EEG 特征表示尽量相似,以提高基于耳朵EEG 的睡眠分级的性能.
针对数据集间动力学的巨大差异、语义信息的不同、不规则的采样、系统因素(不同设备或受试者)等,Zhang 等[55]提出时频一致性策略.具体来说,假设 xi为信号序列,F 为满足TF-C 的模型,则经过F 后,基于时间的信号特征表示和基于频率的信号特征表示以及 xi局部增强后得到的表示,在高维特征空间中应该彼此接近.
通过各种域自适应、自监督和迁移学习技术,可以将在源域EEG 数据集上训练的模型转移到目标域的分析工作中.当处理更复杂的脑电信号数据,如更具有个体特性的SEEG 数据时,域之间的数据结构和动态时间结构不同,导致时间和频率表示中的特征有偏移,因此可转移性变得更具有挑战性.源域和目标域中的EEG 数据可能具有截然不同的标签分布,这使得模型泛化很难缓解标签偏移并识别仅存在于目标域的信号类别.
5 基于深度学习的EEG 分析研究挑战与未来
尽管目前基于深度学习的EEG 数据分析已经有非常丰富的研究工作,但是存在许多挑战.
1)数据人工采集与标注困难.与计算机视觉、自然语言处理领域相比,EEG 数据采集的难度更大,需要专业人士使用专业工具进行收集,还要考虑采集过程中的一系列隐私和伦理问题.有标注的EEG 数据集更稀缺,导致大模型的训练样本不够,限制了大规模通用脑电模型的发展.
2)模型的通用性.虽然许多工作都在讨论解决EEG 分析的深度模型的泛化性,引入迁移学习、知识蒸馏、预训练等前沿技术,但缺少客观上的领域一致性标准,无法实现模型的通用性,尤其是在一些非常规领域的分析中.
3)模型的可解释性.相比于下游任务上的表现性能,医学研究者更加关注大脑工作原理的挖掘与验证,而现有的深度学习模型在一定程度上都可以视为黑盒模型,即仅能完成对目标任务的判断,无法辅助医学研究者进行大脑动态活动的分析.
综上所述,基于深度学习的EEG 分析的未来方向主要包括以下3 个方面.
1)迁移学习和预训练.利用迁移学习技术和预训练模型,基于现有的已标注EEG 数据集或在类似任务上训练的模型,通过转移源域上的知识,可以减少对大量人工标注的需求.将预训练模型微调或自适应到特定的EEG 任务,可以提高数据标注和数据分析的效率.
2)融入多模态数据.脑电信号数据并非仅局限于EEG,还有如SEEG、功能性磁共振成像(functional magnetic resonance imaging,fMRI)多种模态的数据都可以融合到模型中,从而优化模型的性能,提高模型的泛化性.脑电数据的产生伴随着视觉刺激、听觉刺激、嗅觉刺激等多个方面,引入这些多模态信息,能够更好地捕获大脑在不同刺激下的反应模式,提高模型的通用性.
3)结合神经科学领域知识.神经学理论对基于深度学习的EEG 模型设计具有很强的启发性和指导性.比如脑功能区域划分、神经脆弱性理论,可以引入这些领域知识对模型进行辅助及解释.
6 结 语
本文按照EEG 数据分析的闭环分析流程,梳理了深度学习在EEG 数据的预处理、特征提取和模型泛化方面的工作,讨论每个阶段的研究挑战和未来发展方向,提供指导性意见,供未来的研究人员参考.
尽管基于深度学习的EEG 数据分析取得了显著的进展,但存在一些挑战和未来的研究方向.深度学习方法需要大量的标注数据进行训练,EEG 数据的标注通常是耗时且费力的任务.如何有效利用有限的标注数据,提高模型的性能和泛化能力是重要问题.深度学习模型在解释性方面仍存在困难,很难解释模型的决策过程和特征提取过程,这极大限制了深度学习在临床实践和科学研究中的应用.此外,数据隐私和安全性是深度学习在EEG 数据分析技术中需要考虑的重要问题.