APP下载

多模态融合的特征提取方法在SA检测中的应用

2022-10-18郭大林

计算机与现代化 2022年10期
关键词:电信号编码器准确率

杨 娟,滕 飞,郭大林

(1.西南交通大学唐山研究生院,河北 唐山 063000; 2.西南交通大学计算机与人工智能学院,四川 成都 611756)

0 引 言

SA作为一种常见的全身性睡眠疾病,主要特征为睡眠过程中口鼻呼吸气流消失或明显减弱(较基线幅度下降≥90%),持续时间≥10 s[1]。SA是影响睡眠质量的重要因素,会使患者出现白天嗜睡、记忆力下降、反应迟钝等症状,严重者还会引发糖尿病、心脑血管疾病,甚至引起猝死。目前睡眠呼吸暂停通常会使用多导睡眠图(Polysomnography, PSG)[2]来进行筛查,且对于成人与儿童均适用。然而这种诊断方法不仅需要患者佩戴大量的电极来进行睡眠信号的捕捉,对监测环境有远离电磁干扰、隔音等严格要求,还伴随着高昂的费用和复杂的检测过程,大量患者得不到及时的诊断和治疗,给健康带来了很大的危害。因此,研究一种舒适便捷的SA检测方法具有重要意义。

1 相关工作

近年来,许多研究学者尝试基于单导联信号进行SA自动检测,如利用血氧饱和度[3-4]、鼾声信号[5-7]、呼吸信号或心电信号(Electrocardiogram, ECG)。

心电信号作为SA检测中常用的信号,主要是由于从其中衍生的RR间期信号(RR Interval, RRI)在呼吸暂停时会有周期性的变化。Song等[8]通过从心电信号中提取EDR信号和RR间期信号的时域、频域特征,利用SVM结合隐马尔可夫模型进行SA检测,识别率为86.2%。Wang等[9]提取RRI序列和R峰值序列中的多个特征,利用MLP实现分类,在SA片段检测和个体SA诊断中准确率分别为87.3%和97.1%。高群霞等[10]构建了一个包含4个卷积层、4个池化层、2个全连接层和1个分类层的一维CNN网络模型,通过模型自身的结构实现特征自动提取与分类,在片段SA检测上的准确率、灵敏度和特异度分别是88%、85.1%和89.9%。覃恒基等[11]利用栈式稀疏自编码器从RR间期序列中进行特征提取,采用隐马尔可夫模型引入片段之间的时间依赖性,再分别结合SVM和人工神经网络组成决策融合分类器,其片段识别率、敏感性和特异性分别为84.7%、88.9%和82.1%。

呼吸信号因为能直接反应睡眠时呼吸情况的特性,也经常被用于SA检测。呼吸信号可以从口鼻、胸部和腹部3个不同的部位获取,在检测SA的研究中,可以结合多个部位获取的呼吸信号进行检测,也可以从口鼻或胸部获取的单一呼吸信号检测。吕兴凤等[12]利用腹部呼吸信号,通过希尔伯特-黄变换(Hilbert-Huang Transform, HHT)提取16个频域相关特征,再结合呼吸信号振幅的均值等27个时域特征,采用最佳优先的完全搜索方法进行特征选择,使用RF算法进行SA检测,其准确性、敏感性和特异性分别是95%、94.4%和96%,尽管该方法的准确率较高,但方法过于繁杂,依赖于专家的先验知识,可扩展性较差。Haidar等[13]利用卷积神经网络将腹部呼吸信号、胸部呼吸信号和鼻气流信号,自动学习特征并进行分类,达到了83.5%的检测准确率。Gutiérrez-Tobal等[14]通过提取光谱特征和非线性特征,利用AdaBoost-CART集成方法,在SA检测精度上达到了86.5%。

尽管以往的SA检测方法已经取得了很好的分类效果,但仍然存在一些不足:首先从单导联信号中提取特征来检测睡眠呼吸暂停综合症的准确度相对较低,在实际使用中存在识别效果不够理想且泛化性能不佳的情况,大大增加了误诊概率。其次,基于传统机器学习方法进行SA检测时常依赖于专家的先验知识,同时整个检测过程自动化程度低,大量工作用于特征工程上导致效率不高。深度学习模型在进行SA检测时,需要大量地训练有标签的样本,目前心电信号和呼吸信号样本的标注需要专业的医生进行,在数据量十分大的情况下,数据标注的难度较大。

针对以上问题,本文提出一种基于时序卷积网络(TCN)和堆叠稀疏降噪自编码器(Stacked Sparse Denoismg Auto-Encoder, SSDAEs)的多模态融合模型,再结合随机森林算法进行SA检测。由于自编码器以自监督的方式,从大量无标签的数据中自动学习到数据的有效特征,更加接近人类大脑思维方式,通过前向预训练和反向微调使其具有很好的特征自学习能力和泛化能力[15],可大大提高特征提取的效率,同时将不同特征空间的心电信号特征和呼吸信号特征进行融合,结合随机森林算法提高SA的识别效果,具有更好的鲁棒性。

2 SA检测总体框架

2.1 SA检测总体流程

基于TCN-SSDAEs-RF的多模态融合SA检测流程如图1所示。对于心电信号和呼吸信号2种不同的睡眠生理信号,经过TCN-SSDAEs模型,分别对其进行时间维度特征和深层次特征的提取,然后将这2种不同空间的特征经过小型神经网络进行融合,再结合RF算法进行分类,最终识别结果以出现呼吸暂停(Apnea, A)或呼吸正常(Normal, N)2类标识输出。

2.2 SA检测的特征提取

2.2.1 时序卷积网络(TCN)

作为收集到的原始数据,无论是心电信号还是呼吸信号,都具有典型的时间序列特性。在以往经验中,循环神经网络(RNN)通常都是解决序列问题的最佳选择。吴张倩等[16]研究成果表明,作为CNN家族中的一个成员,时序卷积网络TCN[17]在各种领域的测试数据上,都得到了比传统循环神经网络更为准确的结果,成为新的序列数据分析方面的佼佼者。

TCN网络以CNN为基础,引入了适合处理序列问题的因果卷积,它首次是在WaveNet[18]提出的,结构如图2所示。在TCN中使用了一维全卷积网络结构的因果卷积将常规的二维卷积神经网络转化至一维时序数据的应用上[19],因此可以处理同为一维时序数据的心电信号和呼吸信号。在因果卷积中当前节点的输出仅与上一层当前节点的输入、之前的输入有关,可以反映出心电信号和呼吸信号当前时刻的特征与过去时刻特征之间的依赖。然而因果卷积如果需要追溯更多之前节点的心电和呼吸信息,那么太多的卷积层数可能会引起训练困难、梯度爆炸等问题。TCN采用膨胀卷积和残差模块来解决该问题,膨胀卷积结构如图3所示,通过构建更深层的网络,提取更多的历史心电和呼吸信息也不必担心梯度消失和梯度爆炸的发生。

2.2.2 堆叠稀疏降噪自编码器(SSDAEs)

自编码器(Auto-Encoder, AE)[20]由编码器和解码器2部分组成,其主要思想是让输出层复现输入层的数据。其结构如图4所示。

如果只是用单层AE对心电信号和呼吸信号进行重构,提取的特征非常有限,堆叠自编码器(SAEs)可以通过增加隐藏层的数量方式,逐层训练,从心电和呼吸信号数据中提取出深层次特征。然而当模型运用较大的隐藏层神经元时,可能会产生过拟合的情况。堆叠稀疏自编码器(SSAEs)通过引入稀疏惩罚项来对隐含层进行稀疏性约束,提升自编码器的性能,在不影响特征提取效果的基础上,加快了模型的收敛,非常适用于心电和呼吸信号这种高维信号。

另一方面,心电信号和呼吸信号本身都较微弱,在采集过程中会不可避免地受到外界和人体动作影响而含有噪声,例如工频干扰、基线漂移、电极噪声和肌电干扰等[21],传统方法在特征提取之前都需要对信号数据做一定的降噪处理,从而减少噪声对SA检测精度的影响,本文使用降噪自编码器来达到这一目的。降噪自编码器(Denoismg Auto-Encoder, DAE)在AE的基础上,将含有噪声的数据作为编码器的输入,自动编码器必须学习去除这种噪声而获得真正的没有被噪声污染过的输入,使编码器学习到的特征表达具备较强的鲁棒性,从而增强模型的抗干扰能力,增加噪声鲁棒性约束。

DAE算法的噪声处理主要有2类:一种是在数据中加入一定比例的噪声,例如高斯白噪声;另一种则是让原始数据部分丢失,即按一定的概率随机将输入的数据置为0。

DAE的网络结构模型如图5所示,原始信号x通过添加噪声后得到新的输入x1,然后使用编码函数f对新的输入x1进行特征提取,h为编码得到的特征;再利用解码函数g将h重构为输出y。则堆叠稀疏降噪自编码器的损失函数表示为:

(1)

2.2.3 基于TCN-SSDAEs的特征提取

通过对TCN与SSDAEs的介绍,本文首先对采集到的心电信号和呼吸信号加入高斯噪声,形成干扰信号。为了不破坏信号的时序特征,先将干扰信号分别经过TCN网络来提取心电信号和呼吸信号的时序上的特征,然后利用堆叠稀疏降噪自编码器进行信号高维特征的自适应提取,同时采用适应性矩阵估计(Adam)对其权重进行调优,直到网络达到预期效果,高层隐藏层输出心电信号与呼吸信号高度抽象的低维特征,在这个过程中实现了降噪与降维。TCN-SSDAEs模型特征提取流程如图6所示。

2.3 SA检测的特征融合

心电信号和呼吸信号作为不同的生理信号,在同时输入TCN-SSDAEs模型时,提取出的心电信号特征和呼吸信号特征并不处于同一个特征空间。因此,本文将2种特征信号进行融合,提高SA的检测效果。

在得到TCN-SSDAEs模型提取到的维度为1×9呼吸信号特征和3×3心电信号特征后,使用小型神经网络进行特征间的映射融合,该过程如图7所示。输入呼吸信号的特征,经过第1个全连接层映射并进行变换,特征维度变为3×3,拼接心电信号的特征得到维度为3×6的向量。该向量经过3×3×3的卷积层,得到融合后的特征进行一维拼接,经过第2个全连接层和Softmax激活函数后返回最终融合后的特征。

3 实验设计与分析

3.1 实验方法

3.1.1 数据集

本文的实验数据来源于Physionet的Apnea数据库[22],每条数据的采样时长在7 h~10 h不等,采样频率是100 Hz,专家对60 s片段内是否发生了睡眠呼吸暂停进行了标注,N代表正常睡眠,A代表在此60 s内发生了睡眠呼吸暂停。尽管该数据库是一个权威的以心电信号进行SA检测的数据库,但其中有8条数据(a01~a04,b01,c01~c03)还包含了采集到的呼吸信号,分别是胸部呼吸信号(Resp C),腹部呼吸信号(Resp A)和口鼻气流信号(Resp N)。本文选用这8条数据作为数据源,共包含4953个片段,将呼吸信号和心电信号分割成60 s长度的片段,与标注相对应。

3.1.2 实验参数与评价指标

本文实验采用的高斯噪声信噪比为6 dB, batch_size为64,最大训练轮数epoch为100。当输入为呼吸信号时,TCN网络的输入通道数num_inputs为3,此时呼吸信号包括口鼻流呼吸信号、胸部呼吸信号和腹部呼吸信号,当输入为心电信号时,其值为1,卷积核尺寸kernel_size为2, drop_out比率为0.2。Adam优化器的学习率为0.001,权重衰减系数为0.0001。SSDAEs的参数如表1所示。

表1 SSDAEs参数设置

本文使用准确率、敏感性、特异性、F1分数等指标对实验结果进行评估。

1)准确率Accuracy(Acc)。

(2)

2)敏感性Sensitivity (Sen)。

(3)

3)特异性Specificity(Spe)。

(4)

4)F1分值(F1-score)。

(5)

其中,TP、TN、FP和FN分别代表“真阳性”、“真阴性”、“假阳性”和“假阴性”。

3.2 实验结果与分析

3.2.1 3组输入对比实验

为了验证多模态融合的有效性,分别测试了当输入是心电信号、呼吸信号、心电信号和呼吸信号3种情况时,模型在SA片段检测上的效果。采用随机森林作为分类算法,实验结果如表2所示。其中当模型的输入为单导联信号时,不需要对特征进行融合。

表2 3组不同输入情况时的SA检测效果对比

由表2可知,当输入3种不同的信号时,模型的准确率在85.6%~91.5%之间,表明该模型能够较好地从输入信号中提取特征并进行SA检测。当输入为心电信号时,SA片段检测的准确率为85.6%,特异性为86.3%,敏感性为81.1%;当输入为呼吸信号时,识别准确率为87.3%,特异性为89.7%,敏感性为85.7%;当输入为心电信号和呼吸信号时,准确率达到91.5%,特异性为90.8%,敏感性为88.9%。当输入为心电信号和呼吸信号时,模型的准确率、敏感性及特异性均高于单导联信号的输入。相较于其他2种输入信号,在输入为心电信号时特异性较低,这是因为心电信号的调节因素不仅仅是呼吸事件,心血管问题的存在也会对心电图产生较大的影响。其他2种输入信号的特异性相差不大,表明多模态融合的效果是有效的。

图8展示在心电信号、呼吸信号、心电和呼吸信号3种不同的输入情况下,不同的ROC(Receiver Operating Characteristic, ROC)曲线。该曲线与坐标轴形成的面积越大,代表该模型的分类能力越强。由3种不同情况下的ROC曲线也可知,当输入为多模态信号时,分类效果是最好的。

3.2.2 不同分类算法结果对比

在SA的检测中,选择不同的分类器往往也会给片段识别的结果带来很大的差异。RF作为集成学习中的一种典型方法,是由许多决策树分类模型组成的组合分类模型。其基本思想是,每次从训练样本中随机选取部分特征来构建独立的决策树,然后重复这个过程,且保证每次都是等概率地抽取特征,直到构建了足够多且相互独立的树,分类结果由这些树通过特定的规则共同决定[23]。因此本文选择支持向量机(Support Vector Machines, SVM)[24]、K邻近算法(K-Nearest Neighbor, KNN)、AdaBoost、RF[25]来进行对比试验,选用的分类器参数如下:SVM算法使用高斯径向基作为核函数;KNN算法中k取5,距离度量选择欧氏距离;AdaBoost中使用CART决策树作为基分类器,迭代次数为10;RF算法中树的深度不限制。不同的分类算法在SA检测上得到的效果如表3所示。可以看到,当分类器选用随机森林时,模型在各个评价指标上的表现均最好。

表3 不同分类算法结果对比

3.2.3 与近年相关研究对比

为了进一步验证本文模型的有效性,与近年进行呼吸暂停检测的研究进行对比,在使用同一种数据源的情况下,本文所提模型与近年较好研究的结果对比如表4所示。

表4 本文与其他研究在SA检测效果的对比

根据表4可以看出,在使用同一数据库的情况下,其他相关方法的SA检测准确率在83.4%~87.3%之间,本文的准确率和特异性较其他方法都有一定的提升,说明本文提出的TCN-SSDAEs模型能够很好地提取特征,进行睡眠呼吸暂停的检测。

4 结束语

针对SA自动检测中传统的机器学习方法提取特征步骤繁琐、效率低下和现有模型多以单通道信号来提取特征,存在识别效果不够理想、性能不佳的问题,本文将时序卷积网络和堆叠稀疏降噪自编码器应用在SA检测上,从时序特性和高维特性2个方面进行特征的提取,当输入多通道信号时进行不同空间特征的融合,然后结合随机森林算法构建SA检测模型。实验结果表明,本文提出的模型在多模态融合和网络构建方面都是有效的,且相较于其他研究准确率更高,模型鲁棒性更强。下一步工作将使用更多不平衡数据集进行研究,进一步提高模型的泛化能力和实际应用价值。

猜你喜欢

电信号编码器准确率
融合CNN和Transformer编码器的变声语音鉴别与还原
基于联合聚类分析的单通道腹部心电信号的胎心率提取
设定多圈绝对值编码器当前圈数的方法
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
转炉系统常用编码器选型及调试
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
舞台机械技术与设备系列谈(二)
——编码器
趋肤效应在交流电信号的影响的研究