基于深度学习的多通道脑电信号睡眠分期方法
2022-08-03张金辉郑宇博罗莹莹邹冰央妮李蕾
张金辉,郑宇博,罗莹莹,邹冰,央妮,李蕾
1. 解放军总医院服务保障中心 装备保障室,北京 100853;2. 北京邮电大学 人工智能学院,北京 100876
引言
睡眠是人类非常重要的生理活动,睡眠质量与人类身体健康直接相关[1]。根据美国睡眠医学会(American Academy of Sleep Medicine,AASM)分类标准,将人的睡眠划分为W、N1、N2、N3 和快速眼动期(Rapid Eyes Movement,REM)这5 个阶段,不同的睡眠阶段中脑电信号(Electroencephalogram,EEG)呈现出不同的节律[2-3]。通常选用大脑中心部(C 区)、枕部(O 区)、前额部(FP 区)采集的脑电信号来判断睡眠阶段。但基于脑电信号进行人工睡眠分期需要丰富的经验且极其耗时。借助人工智能技术进行睡眠分期有助于提升效率,近年来已成为人工智能算法的研究热点。
传统的睡眠特征主要有时域、频域、标准差、中位数等,因此实现睡眠分期主要有两种思路:一种是基于特征提取的分期方法,设计算法从原始数据提取特征,再通过特定的分类器进行分类,如Phan 等[4]从多通道信号中提取时频分布特征;Chen 等[5]基于多模态数据融合,特征融合实现睡眠分期。以上方法在其数据集上均达到了约81%的准确率,但由于需要具备专业的先验知识进行特征提取,模型可迁移性较差,且非端到端的学习受主观的影响较大。另一种是基于深度学习进行睡眠分期[6],如Supratak 等[7]基于单通道EEG 信号提出了一种深度学习模式,并命名为DeepSleepNet,其主要采用卷积神经网络(Convolutional Neural Networks,CNN)提取特征,长短期记忆网络(Long Short Term,LSTM)进行序列的学习,相较于人工提取特征方法的准确率提升了3%;Dong 等[8]提出了循环神经网络+LSTM 的混合网络;Eldele 等[9]利用多头注意力机制捕获分支卷积后的特征之间的时间依赖关系;马家睿等[10]通过隐马尔科夫模型状态转移规则优化提高使用CNN 网络的睡眠分期的准确率;Sun 等[11]基于多模态生理信号进行睡眠分期研究。虽然基于深度学习的方法不需要设计算法提取特征,也不需要依赖专业知识,且应用前景广阔,然而,这些深度学习方法采用的数据集多为单通道或双通道数据,易使研究人员设计神经网络模型时忽略了多通道EEG 之间的空间关联性,缺乏对多通道EEG 数据的有效利用。
本研究基于深度学习方法,提出基于注意力的多通道EEG 融合睡眠分期方法(Attention Based Multi-Channel EEG Sleep Net,AMCSleepNet),通过多分支卷积网络提取EEG 的时频特征。与单通道模型不同,AMCSleepNet 关注睡眠EEG 样本的多通道的结构,通过压缩聚合(Squeeze and Excitation,SE)模块[12]融合不同通道的时频特征,该方法结合Transformer 思想来替换LSTM 方案,通过多头注意力挖掘特征的时间前后相关性,减少了模型训练时间,相较于单通道模型和多通道深度卷积模型,可提升临床数据的利用率和睡眠分期的准确率。
1 AMCSleepNet的整体架构与提取方法
AMCSleepNet 的整体架构如图1 所示,主要分为特征提取模块、特征融合模块、Transformer 编码器和分类模块4 个部分。提取过程如下:① 特征提取模块中的多分支卷积网络采用不同尺度的卷积,对EEG 各通道分别提取时频域特征;② 特征融合模块通过SE 和残差层(Residual Layer)将不同通道的特征进行融合和选择;③ 利用Transformer 编码器,捕捉特征的时间前后关系;④ 在分类模块中,全连接网络和softmax 层将特征转换为概率向量,得到最终的睡眠分期结果。特征提取和特征融合模块的具体操作如下。
1.1 时频特征提取
不同睡眠阶段采集的EEG 信号能量集中在不同的频率范围。研究表明,小尺度的卷积核能捕捉一定的时域特征,大尺度的卷积核能捕捉频域的特征,并且卷积核越大,对应的特征频率越低;卷积核越小,对应的特征频率越高。因此,模型第一部分是输入的EEG 通道,分支卷积网络的结构如图1 所示。两个分支均有3 个卷积层,且第一层卷积核大小不同。由于EEG 数据的采样率为100 Hz,长度为50 个采样点的小尺度卷积核对应0.5 s 的样本数据,因此可以捕捉2 Hz 正弦信号的整个周期。同样,长度为400采样点的大尺度卷积核对应4 s 的样本数据,可以捕捉到0.25 Hz 正弦信号的完整周期。以此提取EEG 信号不同频率范围的特征,其后两层卷积用以提取更多特征信息。使用Dropout 层和最大值池化防止过拟合。每一个卷积层计算后均进行批量归一化,并通过高斯误差线性单位(Gaussian Error Linear Units,GELU)激活函数[13]进行非线性运算。GELU 是非初等函数的激活函数,为提升神经网络的训练速度,根据公式(1)近似为初等函数,式中变量x为经过每一个批量归一化层得到的中间特征如图1 所示。
图1 基于注意力的多通道EEG融合睡眠分期方法AMCSleepNet的整体架构
1.2 特征融合网络
由于特征提取模块已经得到来自不同通道的EEG 时频特征,因此AMCSleepNet 的特征融合网络主要解决各通道的特征融合问题,其结构如图1 所示。特征融合模块主要有压缩、聚合、重构3 部分。设输入特征融合网络的特征为FC×N×d,C为通道数,N,d为每个分支卷积网络输出特征的数量和特征的长度。采用卷积和全局平均值池化方法,将输入的多通道特征矩阵压缩成一维向量s={s1,s2,…sN}。然后利用两个全连接层和sigmoid 函数将s转换为权重eN×d。最后通过F和e点积重新构造多通道的特征矩阵F’N×d,作为下一模块的输入。
1.3 Transformer编码网络
Transformer 编码器是Transformer 模型中的重要组成部分,包括多头注意力、求和与归一化层、前馈网络与残差连接,其结构如图1 所示。该编码器能够有效捕捉特征的时间相关信息,被广泛应用于机器翻译[14]、自然语言处理[15]、计算机视觉[16-18]等领域。
在编码器中,多头注意力网络是第一个单元,其结构如图2 所示。设输入的特征为X={x1,…xN}N×d,X在d维度上被分为h个子空间,对应h个头部。根据公式(2)[14],对每个子空间Xi,分别乘以WQ、Wk和WV,得到图2 中的Qi、Ki和Vi。其中,将注意力矩阵转化为标准正态分布,softman( )用于计算Vi的权重。将各个子空间的注意力拼接,得到多头注意力MA,如公式(3)所示。
图2 Transformer编码器的多头注意力结构
采用求和与归一化层以残差连接的方式,将网络的输入与多头注意力网络的输出相加,避免深层网络的梯度消失。在前馈网络中,使用两层线性全连接和线性整流函数(Linear Rectification Function,RELU)进一步深化模型。
2 结果
2.1 数据获取与预处理
本研究使用的睡眠EEG 数据来自2021 全国智能睡眠科学大赛提供的6 名受试者的睡眠数据。其中包含3 名儿童睡眠数据和3 名成人睡眠数据,共6237 个样本。每个样本包含30 s 的多通道EEG 信号。取儿童样本和成人样本共有的4 个EEG 通道:F3-M2、F4-M1、C3-M2、C4-M1,并下采样至100 Hz。睡眠分期结果由专家按照AASM 标准进行标注,并作为标签来评估模型。受试者样本数量分布如表1 所示。
表1 受试者睡眠样本分布
2.2 对比方案
单通道模型性能突出的AttnSleepNet 利用并行CNN 架构提取单通道EEG 信号的特征,并利用因果卷积和时间前后文编码来捕捉时间相关性[9]。EEGNet[19]利用深度卷积和可分离卷积提取EEG 特征,从而能对多通道EEG 信号进行分析。由于缺少多通道睡眠分期模型作为对比方案,本研究将EEGNet 特征提取模块的卷积核进行调整,改造成适用于多通道的睡眠分期模型EEGNet-Sleep[20]。
采用留一法开展实验:选取1 名受试者整晚的睡眠(0:00—8:00)数据作为测试集,其他受试者的睡眠数据作为训练集。对于多通道模型,将多个EEG 通道共同输入网络进行训练,计算其准确率、训练时间、内存消耗等性能指标,根据这些性能指标选择神经网络超参数。选择自适应矩估计(Adaptive Momentum Estimation,Adam)作为优化器,学习率设置为5e-5,每次训练的batch size 大小设置为256,训练500 轮。以准确率作为性能评估的标准,如公式(4)所示。
其中,TP为正确预测类别的个数,FN为预测错误的个数,i∈{W,N1,N2,N3,REM}。
单通道模型无法处理多通道数据,而多通道模型能够向下兼容,因此首先将AMCSleepNet 的通道数设为1,在数据集的每个EEG 通道分别训练网络并进行对比,不同通道睡眠分期准确率如图3 所示。由图3 可知,AMCSleepNet 在各个通道上相较于AttnSleepNet 均有提升,且在F4-M1 通道上的提升最明显,睡眠分期准确率平均提升6.30%,在SA0 上相较于AttnSleepNet 提升了12.51%,结果表明AMCSleepNet 模型在单通道数据上已经具有更好的睡眠分期效果,能够捕捉到不同通道的信息。
图3 AttnSleepNet与AMCSleepNet不同通道的睡眠分期准确率对比
为验证AMCSleepNet 与多通道EEG 数据结合是否能提升睡眠分期效果,采用留一法,将其与EEGNetSleep 在多通道数据集上分别进行训练和测试,并与两种单通道最佳结果进行对比。AttnSleepNet 的最优通道是C3-M2,AMCSleepNet 的最优通道是F4-M1,具体结果如表2 所示。AMCSleepNet对各期的分类准确率如表3所示。由表2可知,AMCSleepNet 相比于单通道方法和EEGNetSleep 方法在整体性能上有所提升。对比AttnSleepNet 的最优单通道模型提升了5.69%,对比EEGNetSleep 模型提升了11.06%。结果表明,利用多通道EEG 数据,能够提升睡眠分期的平均准确率。由表3 可知,AMCSleepNet 对于W 期的分类效果最优,而对N1 期的分类效果最差,结合原始数据表1 分析,N1 期的样本数过少,使模型对其分析存在明显的不足。
表2 模型在不同受试者上的睡眠分期准确率(%)
表3 多通道AMCSleepNet针对不同睡眠期的准确率(%)
综合以上实验结果可知,受试者SC1 的睡眠分期效果最好,几种模型均能达到较高的分期准确率,因此以受试者SC1 为例,对比了真实标签、AttnSleepNet 最优通道和AMCSleepNet 多通道的结果,结果如图4 所示,图中局部区域比对可知,AMCSleepNet 在N3 期的分类效果较好,与表3 中结果一致,而AttnSleepNet 在该状态的分类效果不佳。整体来看,AMCSleepNet 多通道的分类结果与专家标注的结果一致性更高。
图4 受试者SC1睡眠分期结果对比
3 讨论
本研究提出的AMCSleepNet 与单通道方法AttnSleepNet[9]相比,利用并行的多个分支对EEG 数据的每个通道进行特征提取,提升了临床数据的利用率。在注意力机制的帮助下,模型关注多通道的特征结构,通过SE 方法自适应的学习不同通道的注意力权重,从而有效地融合不同通道的时频特征。在多通道特征融合之后AMCSleepNet 采用Transformer 来替换前人研究中采用的LSTM方案[7],其中多头注意力挖掘特征的时间前后相关性,关注特征序列中更有区分性的特征,同时减少了模型训练时间。在实验过程中,参考以往研究[8],采用了LOSO 的训练策略,训练数据和测试数据来自不同受试者,由此体现模型跨受试者的分类能力。从实验结果来看,相较于单通道模型和多通道深度卷积模型,AMCSleepNet 提升了睡眠分期的准确率。由于受试者之间的个体差异对模型的泛化能力要求较高,且不同睡眠时期的样本量差异也会对准确率产生影响,未来的研究应进一步关注个体差异与类别均衡,探究跨个体的迁移学习方法和不同数据量对模型的影响。
4 结论
本研究针对多通道睡眠分期问题,提出了基于深度学习的多通道脑电信号睡眠分期方法AMCSleepNet,该方法利用多分支卷积网络提取不同通道的脑电信号的时频域特征,使用压缩聚合网络和残差网络进行特征融合,通过Transformer 编码挖掘融合特征的时间相关性。在2021 全国智能睡眠科学大赛提供的6 名受试者睡眠样本上,采用留一法进行交叉训练和测试,与基于注意力的单通道深度神经网络模型AttnSleep 相比,本研究提出的方法在各个通道的分类准确率平均提升了5.69%。利用多通道数据,与基于深度卷积的多ssss 通道模型EEGNet-Sleep 相比,分类准确率提升了11.06%。表明本研究的模型对单通道或多通道数据均有更好的分类能力。临床睡眠期间采集的多通道EEG 数据相比于单通道数据具有更多睡眠状态信息,从而提升了睡眠分期的准确率,具有潜在的应用价值。