基于希尔伯特黄变换和深度卷积神经网络的房颤检测

2022-02-24郭一楠邵慧杰巩敦卫李海泉

电子与信息学报 2022年1期

关键词：灵敏性时频电信号

郭一楠邵慧杰巩敦卫李海泉陈丽

(中国矿业大学人工智能研究院智慧医疗研究中心徐州 221116)

(中国矿业大学信息与控制工程学院徐州 221116)

(徐州医科大学第二附属医院呼吸与危重医学科徐州 221006)

1 引言

房颤是一种常见的心律失常，其发病率会在超过60岁以后每10年就增长1倍[1]。房颤会导致中风、心力衰竭和其他心血管疾病的发病率增加[2]。房颤会导致女性全因死亡率增加2倍，男性增加1.5倍[3]。因此，房颤的早期检测对患者尽早获得治疗至关重要。

心电(ElectroCardioGram， ECG)是一种方便快速且非侵入式的检测方法，已经广泛应用于临床。12导联的ECG是当前识别房颤的金标准[4]。大体上，ECG可以分为P波、Q波、R波、S波、T波和U波。不规则的R-R间期和由P波转化成的F波可以有效识别房颤[5]。然而，常规的12导联ECG在医院中只能记录短时的ECG信号，不一样的身体状况导致该ECG信号不能完全真实地反映患者在医院外的心律失常，导致漏检[6]。近年来，随着单导联ECG可穿戴设备的快速发展，长时、低成本、实时的心电信号已能在医院外及时获取。由此，迫切需要设计基于单导联ECG信号的房颤检测方法，为患者提供更加及时、准确的病程指导。

针对ECG房颤检测，研究人员通常基于人工提取的特征来进行识别。Ebrahimzadeh等人[7]采用心律变异性的线性、非线性和时频特征进行房颤检测，分别取得了98.21%， 95.55%， 100%的准确率、特异性和灵敏性。Mohebbi等人[8]采用2个单谱特征、6个双谱特征和4个非线性特征，取得了96.3%，93.1%的房颤检测灵敏性和特异性。基于人工提取特征的房颤检测虽然取得较好的检测性能，但是计算相对费时，且特征选择依赖大量的人类经验。此外，可穿戴设备采集的心电信号会被电磁场和运动伪迹干扰，直接影响人工提取的特征，导致显著的检测误差。人与人之间的身体状况差异，也使人工提取的特征往往不具有普适性。

相比于传统的房颤检测方法，基于卷积神经网络(Convolutional Neural Network， CNN)的检测方法具有更强的特征提取能力，并已经广泛应用于信号分类中。Acharya等人[9]通过CNN自动地区分两秒心电信号的类型，并取得了92.5%， 98.09%， 93.13%的准确率、灵敏性和特异性。蒋芳芳等人[10]在不同长度的心电片段和不同深度的CNN中寻找最佳组合，显著提高了识别准确率。为进一步提升CNN的表达能力，Petmezas等人[11]将CNN和长短期记忆神经网络(Long Short-Term Memory， LSTM)构成的混合网络，结合焦点损失函数处理心电数据的不平衡问题，将灵敏性和特异性提升到97.87%和99.29%。杨萍等人[12]、顾佳艳等人[13]先后提出集成CNN-LSTM网络和由残差网络、双向LSTM与多头注意力层构成的混合网络，用于实时房颤检测。Fan等人[14]则利用具有不同卷积核的两路CNN提取不同尺寸特征，取得了98.13%， 93.77%和98.77%的准确率、灵敏性和特异性。

在设计不同模型结构的同时，研究人员还引入时频分析，通过丰富原始信号的信息来改善房颤检测算法的性能。Lai等人[5]将RR序列和F波频谱相结合作为CNN的输入，显著提高了检测准确性能。Xia等人[15]则采用短时傅里叶变换(Short-Time Fourier Transform， STFT )和标准小波变换(Wavelet Transform， WT)将1维的心电信号转换为2维的时频信号。Ma等人[16]引入改进的频率切片WT，结合人工提取特征来训练CNN和支持向量机混合模型，提高模型的泛化能力和鲁棒性。杨淑莹等人[17]利用小波分解和1维谷歌网络(GoogLeNet)，缓解了计算效率低、收敛困难和模型退化的问题。然而，在设计模型架构和引入时频分析时，现有的房颤检测算法仍然存在以下不足：

(1) 传统的时频分析方法通常基于积分变换，如STFT或WT等。这类时频分析方法容易产生频谱泄漏，无法很好地刻画局部细节。

(2) 对1维信号进行时频转换，虽然可以丰富其特征，但是也会形成高维度特征空间，需要采用更加复杂的神经网络模型提取其特征，从而容易产生梯度消失，导致训练过程难以收敛。

基于以上原因，本文结合希尔伯特黄变换(Hilbert-Huang Transform， HHT)[18]和深度卷积神经网络(Deep Convolutional Neural Network， DCNN)，构建了一种新型房颤检测模型。HHT将1维的时域心电信号转换为2维的时频矩阵。传统的基于积分变换时频分析方法(如STFT和WT)会受到时间分辨率和频率分辨率的限制，容易导致伪影产生。与之不同，HHT能获得瞬时频率和幅度，获得的时频矩阵更加精细且不会发生频谱泄漏。因此，HHT可以更有效地描述ECG的局部细节。基于此，引入 DenseNet[19]卷积神经网络来处理高精细度的时频矩阵，可以有效缓解梯度消失、进行特征复用，并且所提算法在未被使用的验证集上经过了检验。

2 结合希尔伯特黄变换和深度卷积神经网络的房颤检测

2.1 希尔伯特黄变换

存在房颤的心电信号中，F波可能存在不同的振幅、形态和频率[20]。此外，在运动伪迹的影响下，心电信号的基线也会随时间发生改变[21]。因此，心电信号可以看作一类非平稳时间序列。采用传统的频域分析方法处理心电信号时，难以提取到该类信号的有效特征。而HHT结合了经验模态分解(Empirical Mode Decomposition， EMD)和希尔伯特变换(Hilbert Transform， HT)，可以计算瞬时频率和幅度，适合处理心电信号这一类非平稳时间序列。因此，本文采用HHT将只包含时域信息的原始ECG信号转换为包含时域和频域对应关系的时频图。首先，采用EMD将多模态心电信号分解为若干个单一模态的信号；其次，通过HT计算出每个模态的瞬时频率和幅度；最后，综合所有模态信息，获得心电信号的时频图。

2.1.1 经验模态分解

原始信号x(t)通过EMD可以得到若干个本征模态函数(Intrinsic Mode Function， IMF)，每个IMF必须满足两个限制：(1)极值点和零点的数量之差不超过1；(2)在任意时刻点，局部最大值的包络线和局部最小值的包络线之间的均值为0。对原始信号x(t)的EMD计算过程如表1所示。

表1 EMD算法步骤

EMD分解的结果为

其中，N表示可以从原始信号分解出来的IMF数量，IMFi(t)代表了第i个IMF，r(t)为无法被继续分解的残余分量。

2.1.2 希尔伯特变换

在经过EMD分解后，HT被用来对每一个IMF计算瞬时频率和幅度。记HT的脉冲响应为

2.2 深度卷积神经网络

本文利用DenseNet来处理具有高精度的时频图。DenseNet由大量的稠密块组成。在稠密块中，每层网络都会和其他层之间通过前馈方式连接，如图1所示。DenseNet通过不同层之间的跳连接可以缓解梯度消失并使网络设计更深。另一个方面，DenseNet将不同通道的特征连接起来实现特征复用。这两个方面可以让DenseNet获得强大的特征提取能力。本文采用的DenseNet结构如表2所示。

图1 稠密块结构

表2 DenseNet结构

3 实验结果与分析

本文分别采用了MIT-BIH房颤数据集(MITBIH Atrial Fibrillation DataBase， AFDB)[22，23]和2017 PhysioNet Challenge 房颤数据集来验证提出方法的有效性。其中，AFDB数据集包括23个长时的ECG，大多数ECG来自阵发性房颤患者。每个ECG包含两通道且以250 Hz的采样率采集。在本文中，只采用标记为房颤和窦性心律的第一导联ECG，并将ECG以每1250个采样点进行分割。2017 PhysioNet Challenge数据集总共包含8528个30～60 s长度的ECG片段，其中包括5154个窦性节律、771个房颤、2557个其他节律以及46个噪声片段。每段ECG的采样频率均为300 Hz。本文仅使用窦性节律和房颤的ECG，并将ECG以1250个采样点进行分割。数据集的具体构成如表3和表4所示，图2展示了窦性节律和房颤的ECG片段。

图2 ECG片段

表3 AFDB数据集

表4 2017 PhysioNet Challenge数据集

为合理评价模型性能，本文采用准确率(ACCuracy， ACC)、灵敏性(SEnsitivity， SE)和特异性(SPecificity， SP)3个性能指标。记真正例为TP(True Positive)、假正例为FP(False Positive)、假反例为FN(False Negative)和真反例为TN(True Negative)，上述3个性能指标定义为

面向两类数据集，分别采用STFT，WT和HHT，将1维心电信号转换为时频图，如图3所示。可见，相比于STFT和WT，本文所采用HHT生成的100×1250 2维时频矩阵具有更清晰的局部细节，不会产生由频谱泄露导致的伪影。分别基于上述3种时频分析方法和传统1维(1 Dimensional，1-D)心电，采用DenseNet对两类数据集获得的识别准确率，如图4所示。显然，所提方法可以获得最好的房颤识别性能，这是因为通过HHT时频转换能够更清晰地反映局部特征。

图3 不同变换方法的时频图

图4 3种时频分析和1维心电在验证集上的准确率曲线

可穿戴设备采集的ECG信号可能会受到电磁和运动伪迹的干扰。如图5(a)所示，当人体运动后，ECG信号幅度会在短时间发生剧烈变化，在人体恢复静止时，ECG会慢慢地回复到正常状态。在此期间，ECG信号的方差、均值等手动提取特征会严重失真。此外，如图5(b)所示，电磁干扰会导致ECG信号出现细小的毛刺，影响到信号熵的计算。本文在AFDB数据集上分别选取了53段受运动伪迹影响和279段受电磁干扰影响的ECG片段作为数据集，单独进行实验来验证模型的鲁棒性，实验结果见表5和表6。对比算法包括随机森林、支持向量机和Adaboost，它们都采用模糊熵、样本熵、符号序列熵、基本尺度熵，以及RR间期的均值和方差作为特征，实施模型训练。当心电信号存在运动伪迹和电磁干扰时，与传统基于手动提取特征的方法相比，本文所提方法在准确率上提升了15.14%和3.94%，特异性提高了23.08%和4.58%，灵敏性改善了7.41%和3.18%。结果表明，基于深度学习算法的房颤检测在信号出现异常时更具有鲁棒性。

表5 运动伪迹时模型鲁棒性验证(%)

表6 电磁干扰时模型鲁棒性验证(%)

图5 受干扰的ECG片段

为了验证DenseNet对时频图的处理能力，引入常用的VGG[24]和ResNet[25]进行对比。VGG，Res-Net和DenseNet分别在两个数据集上的准确率如图6所示。可见DenseNet的正确率曲线大体高于另外两种。在AFDB数据集上，最佳模型是经过76次迭代的DenseNet，取得了99.2%的准确率、98.57%的灵敏性和99.47%的特异性。在2017 PhysioNet Challenge数据集上，最佳模型是迭代了98次的DenseNet，取得了97.32%的准确率、81.75%的灵敏性和99.64%的特异性。

为避免过拟合，模型在测试集上检验真实性能并和其他算法进行比较。表7对比了所提方法和其他常用算法的识别性能。可见，本文所提方法在AFDB和2017 PhysioNet Challenge 数据集都具有最佳的识别准确性、特异性和次优的灵敏性。在对比算法中，Xia等人[15]和Ebrahimzadeh等人[7]分别采用WT生成的时频图和手动提取的心律变异性特征，对房颤加以检测；其他方法均基于1维心电信号，采用神经网络实现房颤识别。而本文将HHT和DenseNet相结合，取得了最好的综合识别性能。特别是，本文采用的HHT和Xia等人[15]采用的WT通过时频分析丰富了原始信号，有效提高了识别正确率。而Ebrahimzadeh等人[7]手动提取特征，从而使识别正确率受限。此外，Jin等人[27]采用ResNet缓解梯度消失，实现房颤检测，取得了相对较好的正确率。相比而言，DenseNet不仅可以缓解梯度消失，还可以更有效地利用特征，并且图6所示实验结果表明DenseNet性能优于ResNet。综上所述，本文所提方法具有最优的综合性能。虽然所提方法通过HHT的时频图提供更加精细的信号信息，但是也导致模型训练时需要较大的算力。

图6 VGG， ResNet和DenseNet在验证集上的准确率曲线

表7 不同算法的性能比较(%)

4 结束语

本文采用HHT将1维ECG信号转换为2维时频矩阵，进而采用DenseNet实现房颤识别，从而深入挖掘原始信号中的时间和频率信息。通过在两类数据集上的实验对比可见，所提方法在房颤检测中具有最好的识别性能，具有一定的临床应用潜力。然而，相比而言，所提方法需要相对较大的算力。为进一步提高所提时频分析方法的性能，DenseNet网络的最优结构搜索将是我们未来的研究工作。