多模态融合网络的睡眠分期研究

2023-01-14陈玲玲毕晓君

智能系统学报 2022年6期

陈玲玲，毕晓君

（1.哈尔滨工程大学信息与通信工程学院，黑龙江哈尔滨 150001;2.中央民族大学信息工程学院，北京 100081）

睡眠分期是睡眠监测领域的一项基础研究，通过对睡眠时期进行划分，可以帮助医学专家更好地认识睡眠结构，并为失眠、嗜睡等相关睡眠疾病的诊断与治疗提供依据。AASM 标准[1]指出，睡眠可分为清醒期（wake,W）、非快速动眼期（non-rapid eye movements,NREM）和快速动眼期（rapid eye movements,REM）。NREM 又被细分为N1、N2、N3 期[2]。而睡眠多导图（polysomnogram，PSG）被称为睡眠分期的“黄金标准”，其包含睡眠过程中脑电(electroencephalogram,EEG)、眼电(electrooculogram,EOG)、肌电(electromyography，EMG)等信号的记录。通过综合分析睡眠多导图中的各模态信息，能实现睡眠阶段的划分[1]，但耗费了睡眠专家大量时间和精力，因此睡眠多导图的分期任务成为了热点问题[3]。

通过非线性时域、频域分析等操作可实现睡眠PSG 特征的提取[4]，利用支持向量机等技术进行分类，但易出现错分，且模型泛化能力不高[5]。近年来深度学习在图像领域取得突破性进展，结合深度学习利用睡眠PSG 进行睡眠分期研究逐渐成为研究的热点。一些在图像领域取得显著效果的模型如VGG[6]、ResNet[7]、膨胀卷积[8]、深度可分离卷积[9]等都被应用到睡眠分期中，取得了较好的效果。但是，由于输入模态的多样性与差异性，如何实现多模态信息的有机融合成为亟待解决的问题。目前睡眠分期领域最常用的模态融合方法分别是从数据[10-14]和特征[15]两个角度进行融合。Phan 等[10]从数据融合的角度，将PSG经短时傅里叶变换为含EEG、EOG 信息的多通道时频图，然后利用2 维卷积神经网络提取时不变特征。除此之外，小波变化[11]、希尔伯特变换[12]等方法也被应用到了睡眠分期中。这种方法虽然综合考虑了多模态的信息，但是转换为时频图时会丢失关键的时域信息[13]。随后，从特征角度进行融合的方法成为主流，其中代表性的有Duan等[15]利用卷积神经网络提取各个模态的时不变特征，利用多模态联合网络实现睡眠分期。

虽然从特征角度进行模态融合的实验效果优于从数据角度融合，但是没有充分考虑各模态在不同时期的差异性，而主要依据了EEG 特征，例如在REM 期会出现明显的眼球运动，EOG 信号更为重要。

本文针对睡眠PSG 中各模态特征存在差异性导致的特征融合不充分的问题，主要进行了如下工作：

1）设计了一种基于通道注意力机制的睡眠PSG 的不变提取特征网络，根据各通道特征的重要性对模态特征进行重标定，得到睡眠多导图的时不变特征；

2）设计了一种基于自适应门控机制的多模态门控模块，对各模态特征及时不变特征按照重要性程度进行加权融合；

3）利用睡眠分期最常用的Sleep-EDF 数据集的多导图数据设计20 折交叉验证实验，通过与对比算法比较，证明了算法具有一定的有效性和先进性。

1 模型框架

基于通道注意力机制和多模态门控机制的睡眠分期模型如图1 所示，首先利用各模态特征提取网络分别提取不同模态的高维特征，并利用通道注意力机制对在通道维度上拼接的各模态高维特征进行重标定，得到睡眠多导图的时不变特征，然后设计多模态门控模块实现不同模态特征的融合，得到能充分表征各模态信息的融合特征，最后，将其输入到时序特征提取网络中，提取信号的时序特征。下面将详细介绍本文所设计的模型框架。

图1 基于多模态融合的睡眠分期网络结构Fig.1 Network structure of sleep staging based on multimodal fusion

1.1 时不变特征提取网络

针对PSG 中各模态信号中含有噪声的问题，本文首先利用残差收缩网络设计各个模态的特征提取网络，然后利用通道注意力机制学习不同模态特征间的相关性，进而得到睡眠多导图的时不变特征，本文采用的时不变特征提取网络如图2所示。

图2 时不变特征提取网络Fig.2 Architecture of time-invariant feature extraction

首先利用各模态特征提取网络分别提取不同模态的高维特征，分别将每个模态信息输入到卷积尺度为30，步长为6 的1 维卷积提取原始信号的低维特征。然后利用2 个并行的最大池化层实现下采样，提取不同尺度的关键信息。

利用残差收缩网络去除融合特征的冗余信息[16]，残差收缩网络结构如图3 所示，进而得到每个模态信息的高维抽象特征。

图3 残差收缩网络Fig.3 Residual shrinkage network

由图3 可知，残差收缩网络由ResNet 网络(residual neural network)、阈值学习网络和软阈值化函数组成。利用ResNet 学习抽象特征表示，然后通过阈值学习网络学习反映信息重要程度的阈值，其中阈值学习网络的表达式为

式中 α表示由全连接层和Sigmoid 函数得到的权值。通过阈值学习网络可以确保 τ是一个很小的正实数。然后利用软阈值化函数将特征中不重要的信息置为0，其中软阈值化函数是小波降噪算法中的核心步骤，其表达式为

通过软阈值化函数的引入，可以有效地增强有效的信息，抑制冗余的信息，进而消除信号中噪声的影响，得到高效的各模态抽象特征表示。

将各模态的抽象特征在通道维度上进行拼接，如式（3）所示，得到初步融合特征。

式中：ZF,ZP,ZO,ZM∈Rl×C，代表各个模态特征，l为特征图的尺度，C为输出滤波器的个数；Z代表拼接特征，Z∈Rl×nC，n代表模态的个数。

随后利用通道注意力机制学习不同通道特征间的相关性。本文利用SE-ResNeXt 模块[17]根据不同通道特征重要程度对特征进行整合。其中，SE-ResNeXt 由ResNeXt 和SENet (squeeze and excitation network)两部分组成，如图4 所示。残差网络通过增加模型深度和宽度来提高特征提取的质量，但会造成模型参数量增加、计算开销增加的问题，ResNet 在此基础上引入了基数的超参数，即卷积支路的个数。通过增加基数，在不增加网络参数量的前提下有效提高了模型的特征提取能力。

图4 SE-ResNeXt 结构Fig.4 Architecture of SE-ResNeXt

SENet 通过自适应获得各个通道特征的重要程度，对输出特征进行重标定，进而提升有用的通道特征，抑制重要程度低的特征。图中l为特征图尺度，c为通道数，ratio 为特征维度缩放比。SENet 分别经过压缩和激励变换，建模各通道特征的重要权重，最后各通道特征逐点相乘的操作将归一化的权重加权到输入特征中，得到含通道重要程度的特征向量。式（4）～（6）分别给出了压缩、激励、加权的公式。

式中：W1和W2分别代表两个全连接层的权重；δ代表ReLu 函数；σ代表Sigmoid 函数；Fsq、Fex、Fscale分别代表压缩、激励和尺度变换的效果。

1.2 多模态门控模块

多模态学习中模态融合对模型性能有很大的影响，为了充分发挥不同模态间的差异性[18]，本文模拟人工判读以关键信号为主，其他信号为辅的判读模式，引入了多模态门控模块，建模各个模态特征对于睡眠分期任务的重要程度，通过自适应门控机制[19]对不同模态特征按照重要程度进行加权，根据不同模态特征的组合自适应地找到更适合睡眠分期任务的特征表示。设计的多模态门控模块如图5 所示。图中Zv为睡眠多导图的时不变特征，ZF、ZP、ZO、ZM分别为各模态高维抽象特征表示。

图5 多模态门控模块Fig.5 Multimodal gating module

将睡眠多导图的时不变特征分别首先经过全局平均池化层得到全局信息，然后经过两层全连接层和Sigmoid 函数增加特征的非线性，通过式（7）～（10）分别学习各个模态特征的权重，然后通过式（11）得到输出特征的最优组合，寻找对于输出贡献度最大的各个模态的特征组合，进而得到更丰富的融合特征表示。

1.3 时序特征提取网络

睡眠PSG 是一种时序信号，相邻样本间具有时序相关性。在对t时刻的样本进行分期时，可以利用t-1 和t+1 时刻的特征或分期结果辅助进行t时刻样本阶段的分类。

本文利用双向长短时记忆网络(bi-directional long short-term memory,Bi-LSTM)[20]设计时序特征提取网络。与长短时记忆网络只能学习序列前向传播规律不同的是Bi-LSTM 分别由一个前向传播和一个反向传播的LSTM 组成，保证了时序特征提取网络既可以学习前向传播规律，还可以学习序列的反向传播规律。最后将Bi-LSTM 学习到的时序特征与多模态特征进行融合得到睡眠PSG 的时序特征，得到的时序特征表达式为

2 实验结果及分析

为了验证本文创新工作的有效性和先进性，进行了3 个方面的实验：1）分别利用PSG 中不同的模态组合设置相关实验，进而验证本文利用多模态信号进行睡眠分期的有效性，并且得到最优的模态组合；2）设计不同初步融合方式的对比实验，验证本文采用SE-ResNeXt 进行特征重标定的有效性；3）将本文提出的MSN 算法与4 种先进的方法进行对比，验证本文算法的先进性。

2.1 数据集

利用Sleep-EDF 数据集[21]设计相关的实验共包括39 个完整夜晚的PSG 记录。每个PSG 包含个两模态的EEG，分别是Fpz-Cz 和Pz-Cz，一个模态的EOG 和一个模态的EMG[22]。每个样本都已由睡眠专家标记为W、N1、N2、N3、N4、REM，根据AASM 标准将N3 和N4 合并为N3。最后，W、N1、N2、N3、REM 各个类别的样本量分别为7 927、2 804、17 799、5 703、7 717，共41 950 个样本。

2.2 实验条件

本文所有实验均是在64 位的Ubuntu16.04 系统中进行，采用的深度学习框架为tensorflow 1.14.0，在训练过程中利用GeForce RTX 980Ti 显卡进行加速，并且采用python3.5 编程语言完成代码的编写。

优化过程中采用Adam 函数，学习率设为0.001，序列学习过程中batch size 为25，子序列长度为10，ResNeXt 中的基数设置为8，ratio 设置为4。利用丢失率为0.5 dropout 层来防止过拟合。进行20折交叉验证，按19∶1 划分训练集和验证集。

2.3 评价指标

采用分数（macro-averagingF1-score,）、整体准确率（overall-accuracy,ACC）作为评价指标，具体公式为

式中：N代表样本总数；C代表类别总数；代表类别i的F1分数，即

2.4 多模态信息有效性验证

由于EEG 是睡眠分期的主要判读依据，在验证利用多模态信息有效性时选择在EEG 的基础上加入不同模态的数据，验证不同模态数据对睡眠分期的影响。得到的结果如表1 所示,表中1 代表两个模态的EEG 组合，2 代表两个模态EEG 加EOG 的组合，3 代表两个模态EEG 加EOG 加EMG 的组合。

表1 多模态信息有效性验证Table 1 Verification of the multimodal information %

从表1 中可以看出，仅用两模态EEG 进行睡眠研究时平均准确率为86.1%，为80.3%，但是当加入眼电信号后平均准确率达到了87.3%，相较于仅利用脑电信号提高了1.4%，达到了81.4%，提高了1.4%。并且由于快速眼动是REM 期的典型特征，在加入眼电信号后，REM 期的F1有了较大的提升，提升了2.0%，同时对于W 期、N1 期、N2期也有了一定的提升，说明眼电的加入可以有效地丰富信息特征，增强模型对于睡眠各阶段的识别能力。在脑电、眼电信号的基础上加入肌电后，平均准确率达到了87.6%，与利用脑电和眼电相比提升了0.3%，达到了82%，提升了0.7%，说明肌电信号的加入进一步丰富了信息特征，可以让网络模型学习到更丰富的分期特征，特别是肌肉运动明显的时期如W 和N1 期的识别精度有了明显的提升，其中W 期的F1提升了1.3%，N1 期的F1提升了2.8%，说明肌电信号的加入有效地增大了W、N1 期与其他类别的阶段差异性，进而提高了网络模型的分期性能。综上证明了同时利用EEG、EOG、EMG 可以得到更好的睡眠分期结果。

2.5 特征融合方式验证实验

本文将各模态特征在通道维度上进行拼接，然后利用通道注意力机制对拼接特征进行重标定的方式实现各模态的初步融合，为了进一步验证该方法的有效性，分别与逐点相加、通道拼接的特征融合方式进行对比，表2 分别给出了不同融合方式得到的分期结果。从表2 中可以看出，采用各通道特征逐点相加进行特征融合的整体准确率为86.4%，为80.4%，但是将特征融合的方式变为在通道维度上拼接后，准确率提高了0.5%，提高了1.1%，证明利用在通道维度上拼接的方式能够更好地利用不同特征之间的差异性，进而得到更充分的初步融合特征。随后加入通道注意力机制后准确率提高了0.9%，提高了0.8%，并且各个类别的F1都有了一定的提高，进而证明了本文采用SE-ResNeXt 对特征按照通道重要性权重进行重标定，能够让特征融合得更充分，进而验证了本文采用通道维度拼接和SE-ResNeXt 对特征进行初步融合的有效性。

表2 特征融合方式有效性验证Table 2 Verification of modal fusion %

2.6 算法先进性验证

为了验证本文算法的先进性与目前4 种先进的算法进行对比，表3 给出了对比结果。

表3 算法先进性验证Table 3 Verification of algorithm advancement %

从表3 中可以看出，本文提出的模型的平均准确率为87.6%，为82.0%，均高于目前先进的对比算法，并且除N1 期外，各个类别的F1分数均取得了最优的水平，证明本文算法能够充分学习不同睡眠阶段的特征，取得了优异的睡眠分期性能，进而证明了本文算法的先进性。

采用混淆矩阵对本文提出的算法进行可视化操作。图6 给出了本文算法利用两个模态EEG、一个模态EOG 和一个模态EMG 达到的最好分类效果时的混淆矩阵。图中每一行代表实际标签为该类别的样本数，每一列代表预测为该类别的样本数，并且颜色越深代表预测为该类别的样本数越多。从混淆矩阵中可以看出，本文利用所提出的多模态融合的方法进行睡眠分期研究，大多数样本都能被正确分类，并且主要的错分出现在相邻阶段的样本中，这主要是因为转换阶段的样本特征中存在一定的中和，甚至睡眠专家也无法对转换期的样本进行正确分类，导致模型学到的转换期特征边界较模糊，进而造成了错分主要出现在相邻阶段转换期的样本。由于睡眠本身的特征，N1 期存在时间短于其他时期，样本量较小，所以N1 期的F1低于其他类别。

图6 混淆矩阵Fig.6 Confusion matrix

3 结束语

本文为了充分利用睡眠PSG 中各模态信息，利用通道注意力机制和多模态门控机制设计了基于多模态融合的睡眠分期模型。首先利用残差收缩网络设计各模态特征提取网络提取各个模态的高维特征，并将各个模态的高维特征在通道维度上进行融合得到初步融合特征，然后利用SE-Res-NeXt 根据各通道信息的重要性程度对特征进行重标定，得到睡眠多导图的时不变特征。然后输入到多模态门控模块中，利用全连接层和非线性函数，学习各个模态信息的重要性程度，结合乘法门对各模态特征进行加权，进而找到能充分表示各模态信息的最优组合。随后，利用Bi-LSTM提取相邻样本间的时序相关性。本文利用Sleep-EDF 中的Fpz-Cz、Pz-Oz、EOG、EMG 模态信息进行了二十折交叉验证实验，并通过与目前先进的4 种对比算法进行比较，本文提出的算法无论是整体准确率还是均高于对比算法，进而证明了本文算法的有效性和先进性。