基于希尔伯特黄变换和深度卷积神经网络的房颤检测
2022-02-24郭一楠邵慧杰巩敦卫李海泉
郭一楠 邵慧杰 巩敦卫 李海泉 陈 丽
(中国矿业大学人工智能研究院智慧医疗研究中心 徐州 221116)
(中国矿业大学信息与控制工程学院 徐州 221116)
(徐州医科大学第二附属医院呼吸与危重医学科 徐州 221006)
1 引言
房颤是一种常见的心律失常,其发病率会在超过60岁以后每10年就增长1倍[1]。房颤会导致中风、心力衰竭和其他心血管疾病的发病率增加[2]。房颤会导致女性全因死亡率增加2倍,男性增加1.5倍[3]。因此,房颤的早期检测对患者尽早获得治疗至关重要。
心电(ElectroCardioGram, ECG)是一种方便快速且非侵入式的检测方法,已经广泛应用于临床。12导联的ECG是当前识别房颤的金标准[4]。大体上,ECG可以分为P波、Q波、R波、S波、T波和U波。不规则的R-R间期和由P波转化成的F波可以有效识别房颤[5]。然而,常规的12导联ECG在医院中只能记录短时的ECG信号,不一样的身体状况导致该ECG信号不能完全真实地反映患者在医院外的心律失常,导致漏检[6]。近年来,随着单导联ECG可穿戴设备的快速发展,长时、低成本、实时的心电信号已能在医院外及时获取。由此,迫切需要设计基于单导联ECG信号的房颤检测方法,为患者提供更加及时、准确的病程指导。
针对ECG房颤检测,研究人员通常基于人工提取的特征来进行识别。Ebrahimzadeh等人[7]采用心律变异性的线性、非线性和时频特征进行房颤检测,分别取得了98.21%, 95.55%, 100%的准确率、特异性和灵敏性。Mohebbi等人[8]采用2个单谱特征、6个双谱特征和4个非线性特征,取得了96.3%,93.1%的房颤检测灵敏性和特异性。基于人工提取特征的房颤检测虽然取得较好的检测性能,但是计算相对费时,且特征选择依赖大量的人类经验。此外,可穿戴设备采集的心电信号会被电磁场和运动伪迹干扰,直接影响人工提取的特征,导致显著的检测误差。人与人之间的身体状况差异,也使人工提取的特征往往不具有普适性。
相比于传统的房颤检测方法,基于卷积神经网络(Convolutional Neural Network, CNN)的检测方法具有更强的特征提取能力,并已经广泛应用于信号分类中。Acharya等人[9]通过CNN自动地区分两秒心电信号的类型,并取得了92.5%, 98.09%, 93.13%的准确率、灵敏性和特异性。蒋芳芳等人[10]在不同长度的心电片段和不同深度的CNN中寻找最佳组合,显著提高了识别准确率。为进一步提升CNN的表达能力,Petmezas等人[11]将CNN和长短期记忆神经网络(Long Short-Term Memory, LSTM)构成的混合网络,结合焦点损失函数处理心电数据的不平衡问题,将灵敏性和特异性提升到97.87%和99.29%。杨萍等人[12]、顾佳艳等人[13]先后提出集成CNN-LSTM网络和由残差网络、双向LSTM与多头注意力层构成的混合网络,用于实时房颤检测。Fan等人[14]则利用具有不同卷积核的两路CNN提取不同尺寸特征,取得了98.13%, 93.77%和98.77%的准确率、灵敏性和特异性。
在设计不同模型结构的同时,研究人员还引入时频分析,通过丰富原始信号的信息来改善房颤检测算法的性能。Lai等人[5]将RR序列和F波频谱相结合作为CNN的输入,显著提高了检测准确性能。Xia等人[15]则采用短时傅里叶变换(Short-Time Fourier Transform, STFT )和标准小波变换(Wavelet Transform, WT)将1维的心电信号转换为2维的时频信号。Ma等人[16]引入改进的频率切片WT,结合人工提取特征来训练CNN和支持向量机混合模型,提高模型的泛化能力和鲁棒性。杨淑莹等人[17]利用小波分解和1维谷歌网络(GoogLeNet),缓解了计算效率低、收敛困难和模型退化的问题。然而,在设计模型架构和引入时频分析时,现有的房颤检测算法仍然存在以下不足:
(1) 传统的时频分析方法通常基于积分变换,如STFT或WT等。这类时频分析方法容易产生频谱泄漏,无法很好地刻画局部细节。
(2) 对1维信号进行时频转换,虽然可以丰富其特征,但是也会形成高维度特征空间,需要采用更加复杂的神经网络模型提取其特征,从而容易产生梯度消失,导致训练过程难以收敛。
基于以上原因,本文结合希尔伯特黄变换(Hilbert-Huang Transform, HHT)[18]和深度卷积神经网络(Deep Convolutional Neural Network, DCNN),构建了一种新型房颤检测模型。HHT将1维的时域心电信号转换为2维的时频矩阵。传统的基于积分变换时频分析方法(如STFT和WT)会受到时间分辨率和频率分辨率的限制,容易导致伪影产生。与之不同,HHT能获得瞬时频率和幅度,获得的时频矩阵更加精细且不会发生频谱泄漏。因此,HHT可以更有效地描述ECG的局部细节。基于此,引入 DenseNet[19]卷积神经网络来处理高精细度的时频矩阵,可以有效缓解梯度消失、进行特征复用,并且所提算法在未被使用的验证集上经过了检验。
2 结合希尔伯特黄变换和深度卷积神经网络的房颤检测
2.1 希尔伯特黄变换
存在房颤的心电信号中,F波可能存在不同的振幅、形态和频率[20]。此外,在运动伪迹的影响下,心电信号的基线也会随时间发生改变[21]。因此,心电信号可以看作一类非平稳时间序列。采用传统的频域分析方法处理心电信号时,难以提取到该类信号的有效特征。而HHT结合了经验模态分解(Empirical Mode Decomposition, EMD)和希尔伯特变换(Hilbert Transform, HT),可以计算瞬时频率和幅度,适合处理心电信号这一类非平稳时间序列。因此,本文采用HHT将只包含时域信息的原始ECG信号转换为包含时域和频域对应关系的时频图。首先,采用EMD将多模态心电信号分解为若干个单一模态的信号;其次,通过HT计算出每个模态的瞬时频率和幅度;最后,综合所有模态信息,获得心电信号的时频图。
2.1.1 经验模态分解
原始信号x(t)通过EMD可以得到若干个本征模态函数(Intrinsic Mode Function, IMF),每个IMF必须满足两个限制:(1)极值点和零点的数量之差不超过1;(2)在任意时刻点,局部最大值的包络线和局部最小值的包络线之间的均值为0。对原始信号x(t)的EMD计算过程如表1所示。
表1 EMD算法步骤
EMD分解的结果为
其中,N表示可以从原始信号分解出来的IMF数量,IMFi(t)代表了第i个IMF,r(t)为无法被继续分解的残余分量。
2.1.2 希尔伯特变换
在经过EMD分解后,HT被用来对每一个IMF计算瞬时频率和幅度。记HT的脉冲响应为
2.2 深度卷积神经网络
本文利用DenseNet来处理具有高精度的时频图。DenseNet由大量的稠密块组成。在稠密块中,每层网络都会和其他层之间通过前馈方式连接,如图1所示。DenseNet通过不同层之间的跳连接可以缓解梯度消失并使网络设计更深。另一个方面,DenseNet将不同通道的特征连接起来实现特征复用。这两个方面可以让DenseNet获得强大的特征提取能力。本文采用的DenseNet结构如表2所示。
图1 稠密块结构
表2 DenseNet结构
3 实验结果与分析
本文分别采用了MIT-BIH房颤数据集(MITBIH Atrial Fibrillation DataBase, AFDB)[22,23]和2017 PhysioNet Challenge 房颤数据集来验证提出方法的有效性。其中,AFDB数据集包括23个长时的ECG,大多数ECG来自阵发性房颤患者。每个ECG包含两通道且以250 Hz的采样率采集。在本文中,只采用标记为房颤和窦性心律的第一导联ECG,并将ECG以每1250个采样点进行分割。2017 PhysioNet Challenge数据集总共包含8528个30~60 s长度的ECG片段,其中包括5154个窦性节律、771个房颤、2557个其他节律以及46个噪声片段。每段ECG的采样频率均为300 Hz。本文仅使用窦性节律和房颤的ECG,并将ECG以1250个采样点进行分割。数据集的具体构成如表3和表4所示,图2展示了窦性节律和房颤的ECG片段。
图2 ECG片段
表3 AFDB数据集
表4 2017 PhysioNet Challenge数据集
为合理评价模型性能,本文采用准确率(ACCuracy, ACC)、灵敏性(SEnsitivity, SE)和特异性(SPecificity, SP)3个性能指标。记真正例为TP(True Positive)、假正例为FP(False Positive)、假反例为FN(False Negative)和真反例为TN(True Negative),上述3个性能指标定义为
面向两类数据集,分别采用STFT,WT和HHT,将1维心电信号转换为时频图,如图3所示。可见,相比于STFT和WT,本文所采用HHT生成的100×1250 2维时频矩阵具有更清晰的局部细节,不会产生由频谱泄露导致的伪影。分别基于上述3种时频分析方法和传统1维(1 Dimensional,1-D)心电,采用DenseNet对两类数据集获得的识别准确率,如图4所示。显然,所提方法可以获得最好的房颤识别性能,这是因为通过HHT时频转换能够更清晰地反映局部特征。
图3 不同变换方法的时频图
图4 3种时频分析和1维心电在验证集上的准确率曲线
可穿戴设备采集的ECG信号可能会受到电磁和运动伪迹的干扰。如图5(a)所示,当人体运动后,ECG信号幅度会在短时间发生剧烈变化,在人体恢复静止时,ECG会慢慢地回复到正常状态。在此期间,ECG信号的方差、均值等手动提取特征会严重失真。此外,如图5(b)所示,电磁干扰会导致ECG信号出现细小的毛刺,影响到信号熵的计算。本文在AFDB数据集上分别选取了53段受运动伪迹影响和279段受电磁干扰影响的ECG片段作为数据集,单独进行实验来验证模型的鲁棒性,实验结果见表5和表6。对比算法包括随机森林、支持向量机和Adaboost,它们都采用模糊熵、样本熵、符号序列熵、基本尺度熵,以及RR间期的均值和方差作为特征,实施模型训练。当心电信号存在运动伪迹和电磁干扰时,与传统基于手动提取特征的方法相比,本文所提方法在准确率上提升了15.14%和3.94%,特异性提高了23.08%和4.58%,灵敏性改善了7.41%和3.18%。结果表明,基于深度学习算法的房颤检测在信号出现异常时更具有鲁棒性。
表5 运动伪迹时模型鲁棒性验证(%)
表6 电磁干扰时模型鲁棒性验证(%)
图5 受干扰的ECG片段
为了验证DenseNet对时频图的处理能力,引入常用的VGG[24]和ResNet[25]进行对比。VGG,Res-Net和DenseNet分别在两个数据集上的准确率如图6所示。可见DenseNet的正确率曲线大体高于另外两种。在AFDB数据集上,最佳模型是经过76次迭代的DenseNet,取得了99.2%的准确率、98.57%的灵敏性和99.47%的特异性。在2017 PhysioNet Challenge数据集上,最佳模型是迭代了98次的DenseNet,取得了97.32%的准确率、81.75%的灵敏性和99.64%的特异性。
为避免过拟合,模型在测试集上检验真实性能并和其他算法进行比较。表7对比了所提方法和其他常用算法的识别性能。可见,本文所提方法在AFDB和2017 PhysioNet Challenge 数据集都具有最佳的识别准确性、特异性和次优的灵敏性。在对比算法中,Xia等人[15]和Ebrahimzadeh等人[7]分别采用WT生成的时频图和手动提取的心律变异性特征,对房颤加以检测;其他方法均基于1维心电信号,采用神经网络实现房颤识别。而本文将HHT和DenseNet相结合,取得了最好的综合识别性能。特别是,本文采用的HHT和Xia等人[15]采用的WT通过时频分析丰富了原始信号,有效提高了识别正确率。而Ebrahimzadeh等人[7]手动提取特征,从而使识别正确率受限。此外,Jin等人[27]采用ResNet缓解梯度消失,实现房颤检测,取得了相对较好的正确率。相比而言,DenseNet不仅可以缓解梯度消失,还可以更有效地利用特征,并且图6所示实验结果表明DenseNet性能优于ResNet。综上所述,本文所提方法具有最优的综合性能。虽然所提方法通过HHT的时频图提供更加精细的信号信息,但是也导致模型训练时需要较大的算力。
图6 VGG, ResNet和DenseNet在验证集上的准确率曲线
表7 不同算法的性能比较(%)
4 结束语
本文采用HHT将1维ECG信号转换为2维时频矩阵,进而采用DenseNet实现房颤识别,从而深入挖掘原始信号中的时间和频率信息。通过在两类数据集上的实验对比可见,所提方法在房颤检测中具有最好的识别性能,具有一定的临床应用潜力。然而,相比而言,所提方法需要相对较大的算力。为进一步提高所提时频分析方法的性能,DenseNet网络的最优结构搜索将是我们未来的研究工作。