APP下载

基于多分辨率卷积网络的房颤起始点定位*

2024-03-09李茜王星尧高鸿祥赵莉娜李建清刘澄玉

生物医学工程研究 2024年1期
关键词:低分辨率解码器分支

李茜,王星尧,高鸿祥,赵莉娜,李建清,刘澄玉

(东南大学 仪器科学与工程学院,数字医学工程全国重点实验室,南京 210096)

0 引言

房颤(atrial fibrillation,AF)是一种常见的心律失常疾病,其全球患病率约为1%~2%,且逐年递增[1]。在临床诊断中,由于AF多呈现非特异性症状或无明显症状,导致其常被误诊为其他疾病,如呼吸困难、头晕、心悸等,仅有约33%的AF患者能及时入院接受规范治疗[2]。AF本身虽无致命风险,但其可导致中风、认知障碍等影响患者生命安全的严重并发症[3]。值得注意的是,超过一半的AF患者的实际患病类型为阵发性AF(paroxysmal AF,PAF),且25%以上的PAF患者可能进一步演变为持续性或永久性AF[4-5]。因此,相比其他AF 类型,PAF的早期筛查,对AF手术选择、药物干预以及临床并发症的诊断和治疗具有重要价值。然而,多数PAF患者发作时仅表现为间歇性心跳不规则,且持续时间较短,甚至有些患者在发作期间无明显症状,使患者难以及时察觉,为有效监测和诊断PAF带来挑战[7]。

心电图(electrocardiogram,ECG)具有严格的形态分布和伪周期节律特性,是临床用于诊断患者生理健康状况的重要参考指标[8]。临床PAF诊断往往依赖于对ECG形态特征(P波消失,以不规则的f波代之)和节律特征(RR间期绝对不齐)的分析[3]。针对形态特征,传统AF分类方法采用P波缺失检测[9]、f波检测[10]等判别ECG形态的变化情况。而对于节律特征,传统AF分类方法则运用了RR间期序列分析[11-12]、庞加莱图[13]、距离熵[14]、心率变异性分析[15]、Normalized Fuzzy Entropy[16]等方法进行分析。这些方法巧妙地将P波的形态特征和RR间期的节律特征与AF分类结合,与已知的临床知识高度契合。然而,上述方法多数仅对其中某一特征进行提取和分析,当其他心律失常疾病或噪声导致ECG信号出现类似形态或节律特征时,会导致AF误诊。如心房扑动会导致ECG呈现类似RR间期绝对不齐的症状,当仅分析ECG节律特征时,会出现假阳性。

近年来,随着穿戴式ECG监测设备的普及,基于深度学习的卷积神经网络(convolutional neural network,CNN)、长短期记忆递归神经网络(long short-term memory,LSTM)、残差网络(residual networks,ResNet)等方法已经取代传统AF分类方法[1,17-18],成为AF分类的首选。这些方法能自动提取ECG中的多分辨率特征,并将其用于AF分析,提高了分析效率。具体而言,ECG的低分辨率特征含有高级语义信息,常用于分析全局节律特征,如RR间期、QT间期;而ECG的高分辨率特征含有低级语义信息,常用于分析局部形态特征,如QRS波形、P波波形[19]。尽管上述方法在某些数据库上被证明有效,但其通常采用渐进学习的方式,即从高分辨率逐步降采样到低分辨率。虽然可以获得更抽象高级的语义信息,但同时也伴随着对部分高分辨率特征的损失,无法充分利用高、低分辨率特征,且在决策过程中缺乏对上下文和语义信息的整合和综合分析。此外,其将AF分类看作粗粒度问题,即只关注AF与非AF分类,忽略了对PAF的检测及定位。

虽然目前PAF定位取得了一些进展,但仍需通过将2导联ECG输入多个网络组合(LSTM + U-Net、LSTM + Sequence Labeling)才能获得较优的定位结果。此外,当ECG包含的心拍少于5个时,其所含信息不足以用于临床诊断,如心率计算和PAF分析[21]。基于此,有研究额外引入了QRS波定位模型,以去除小于5个AF心拍的假阳性PAF片段。然而,同时使用多个模型限制了其实用性。

针对以上问题,本研究提出了一种基于CNN的多分辨率ECG理解框架(multi resolution-ECG,MR-ECG),该框架由多分辨率编码器、PAF定位解码器和QRS波定位解码器组成。编码器在保留高分辨率特征的基础上,不断生成新的低分辨率特征分支,并通过在并行的多分辨率特征分支之间反复交换信息,实现高、低分辨率特征的融合,使高分辨率分支最终用于辨别ECG的P波形态特征,而低分辨率分支用于辨别RR间期的节律特征。两个定位解码器利用编码器输出的多分辨率特征,同步输出PAF和QRS波的定位序列。此外,QRS波定位结果被用于消除小于5个心拍的假阳性PAF片段,经过后处理的PAF定位结果被进一步用于AF分类。

1 方法

1.1 数据增强

深度学习在训练时会固定网络结构和参数,输入信号维度需要一致。为实现该目标,本研究使用滑动窗口遍历ECG,将其切割为长度固定的一维ECG片段。为获得包含有效信息的最小窗口尺寸,本研究对不同窗口大小(8、12、20、30 s)进行测试,并最终选择12 s的窗口大小。同时,为保证ECG的连续性,本研究在切割ECG时保留了4 s的重叠时长,以捕捉相邻片段中可能存在的连续特征变化。

由于数据库各类型分布不均可能导致模型在训练中偏向于常见类别,影响其对少数类别的学习,进而影响模型性能。因此,本研究对切割后的12 s ECG片段进行了数据增强处理,见图1。通过将正常ECG中部分心拍替换为随机长度(3~10 s)的AF片段,实现对PAF数据的补充。通过数据增强使用于训练的ECG被扩充到总计37 235个12 s片段,且PAF、持续性AF和非AF信号分布均衡。

图1 PAF数据增强示意图

此外,考虑到运动伪影会对模型性能产生负面影响,而在使用模型进行定位任务时,此类干扰无法在预处理阶段被传统滤波器滤除,本研究通过在12 s ECG片段上叠加高斯噪声、肌肉伪影和电极运动伪影,以模拟和构造接近真实的动态ECG,增强模型对穿戴式ECG的鲁棒性[22]。

1.2 基于CNN的多分辨率ECG理解框架

多分辨率处理技术在计算机视觉领域已得到广泛研究。其中,U-Net[23]利用跳跃连接在不同分辨率特征层级间传递信息,可有效捕获图像的局部特征和全局特征;HRNet[24]通过保持高分辨率特征,在计算机视觉任务上表现出卓越性能。然而,这些模型主要是为图像处理等多维度的方阵信号设计。相比之下,单导联ECG信号在使用此类模型获得多分辨率特征时,由于维度较少而存在极大挑战。为了应对该挑战,本研究提出了一种基于CNN的多分辨率ECG理解框架(MR-ECG),见图2。

图2 多分辨率ECG理解框架

多分辨率编码器经过5个训练阶段,每个阶段由模块化构件组成。分支生成模块将滤波器分成两个分支,一半用于保持当前分辨率特征,另一半生成新的低分辨率特征。卷积模块对中间特征进一步处理。分支融合模块采用步进卷积和插值操作,整合不同分辨率的特征。QRS波定位解码器将多分辨率特征按通道维度整合到高分辨率分支,并通过注意力机制增强通道间特征交互,进行QRS波定位。PAF定位解码器将多分辨率特征按通道维度整合到低分辨率分支,并通过注意力机制增强通道间特征交互,进行PAF定位。

1.2.1多分辨率编码器 由图2可知,多分辨率编码器包含1个预处理阶段和4个相似的训练阶段,每个阶段由多个关键模块化组件构成。为保留高分辨率特征,同时捕获低分辨率特征,除了第一个训练阶段,其他训练阶段通过分支生成模块,生成新的低分辨率特征,并引入相应的低分辨率特征处理分支。分支融合模块通过相互整合训练分支,在所有分支中保持局部形态特征和全局节律特征。

本研究中,长度为12 s、采样率为200 Hz的输入ECG片段表示为x∈L×1。其中x表示输入ECG片段,L为片段长度(初始为2 400),1为导联数。为适应从各设备上采集的ECG,确保与不同类型ECG的兼容性,编码器第一阶段首先使用一个通道统一模块。该模块利用CNN将输入ECG片段x∈2 400×1投影到16维的高维空间,获得初步中间特征z′∈2 400×16。随后该中间特征被输入到一系列卷积模块中进行特征变换处理。卷积模块的维度与输入特征相匹配,不改变输入特征的维度。通道统一层和卷积模块组成“阶段1”,第一阶段仅输出一个中间特征z0∈2 400×16。

在第二阶段中,网络通过分支生成模块分为两个处理分支。第一分支维护原始的高分辨率中间特征z0∈2 400×16。第二分支通过跨步卷积对z0∈2 400×16进行抽样,从而获得高维特征。抽样操作降低了各特征通道中的分辨率,并使通道数翻倍。具体而言,在第二阶段中,新的低分辨率特征长度减少至原来的二分之一(1 200),而通道数翻倍,从16增加到32,得到z1∈1 200×32。随后,应用与第一阶段相同的一系列卷积模块对各分辨率分支进行特征变换,卷积模块维度分别与各输入分支的特征维度相匹配。接着使用分支融合模块整合各分支特征,实现不同分辨率特征的有效融合,以增强模型的语义理解能力。分支生成模块、卷积模块、分支融合模块组成“阶段2”。

“阶段3”、“阶段4”、“阶段5”重复“阶段2”中的操作流程,分别获得新的分辨率特征z2∈600×64、z3∈300×128、z4∈150×256以及各自对应的处理分支。

通过5个训练阶段,并行处理模型在捕获低分辨率高级语义的同时,以高分辨率保留了细粒度的特征细节。该方式使得模型能够更细致地捕捉和理解ECG中不同层次的特征,适用于在高、低分辨率上均存在关键特征变化的PAF诊断。

1.2.2PAF定位解码器 本研究中,PAF定位任务被看作帧级别的AF二进制分类任务,旨在从连续的ECG序列中识别和定位AF心拍。每一帧的长度被设定为长750 ms,因此,输入12 s的ECG片段可以表示为T=150个的帧序列。真实和预测PAF二进制标签序列分别表示为y∈150×1和图2中,PAF定位解码器利用注意力模块增强对关键PAF事件语义信息的关注。该模块通过动态调整特征图的通道权重,突出对分类和定位任务更为关键的特征,从而提升模型性能和泛化能力。

PAF定位解码器的数学表示为:

zPAF=[D(z0),D(z1),D(z2),D(z3),z4]

(1)

(2)

(3)

其中[·]表示通道维度拼接,D(·)表示降采样,z0∈2 400×16,z1∈1 200×32,z2∈600×64,z3∈300×128,z4∈150×256。SE(·)表示注意力模块,⊗表示按对位元素相乘。GAP(·)表示全局平均池化,ωPAF和bPAF为PAF定位解码器中全连接层的参数,Sigmoid(·)表示激活函数。

1.2.3QRS波定位解码器 QRS波定位任务涉及从连续的ECG序列中识别QRS波的范围和定位R波的坐标,类似于计算机视觉中的目标检测任务。为实现高精度的分割,本研究将低分辨率特征插值到最高分辨率特征中。为平衡模型性能和计算资源之间的关系,提高模型的QRS波定位性能,本研究对QRS波定位任务使用知识蒸馏,基于现有的高精度QRS波定位方法[19]为模型提供QRS波范围的先验二进制标签序列QRS∈2 400×1作为训练时的真实标签序列。

QRS波定位解码器的数学表示为:

zQRS=[z0,U(z1),U(z2),U(z3),U(z4)]

(4)

(5)

(6)

1.2.4信号预处理和后处理 (1)预处理:输入多分辨率编码器的12 s ECG片段均被重采样为200 Hz,以保证输入片段包含相同的采样点数(2 400)。中值滤波器和0.1~45 Hz带通滤波器[25]被用于初步滤除基线漂移和工频噪声等干扰。

(2)后处理:两个解码器的最终输出由Sigmoid激活函数决定,输出值在范围[0,1]内,近似为事件发生的概率。

对于QRS波定位任务,概率结果超过0.5的点被判定位于QRS波群中。R波坐标被定义为每段阳性标签的中点。当两个R波坐标的间隔小于25个采样点时,本研究认为存在假阳性,并以这两个坐标的中点代替原有的两个坐标[21]。

对于PAF定位任务,当某一帧对应的概率结果超过阈值0.5时,该帧被判定存在AF。由于临床AF的诊断依赖于对P 波状态和 RR 间期序列的分析,需要从ECG中获取足够的信息[21],因此将预测PAF长度不足5个连续心拍的片段认为是假阳性并舍弃。模型同步得到的R波坐标被用于计算心拍。AF标签阳性标记范围的两个端点被用作PAF事件的起始点和终止点。

MR-ECG的参数均通过二元交叉熵损失函数(binary cross-entropy,BCE)进行训练。其损失函数表示为:

(7)

2 实验结果

2.1 实验数据

实验采用五折交叉验证法在CPSC 2021-Train数据库[26]上进行训练,划分出来的验证集用于超参数调优和模型选择,数据采样率为200 Hz。为避免模型过拟合,两个临床含噪ECG数据库TEST_I和TEST_II[26]仅用于模型性能评估和鲁棒性测试,数据采样率为200 Hz。数据属性见表1。

表1 PAF数据库概要

2.2 实验设置

实验使用TensorFlow框架,在NVIDIA RTX 3070Ti GPU上进行训练和测试。通过验证集验证不同超参数组合的性能,得到最优的超参数组合。实验中各模型的超参数设置一致:输入的批大小为100,优化器学习率为0.001。为防止模型过拟合,采用早停策略,当模型连续20次验证性能未提高时,停止训练。

2.3 实验评价指标

在实验中,根据已有的AF分类、PAF定位和QRS波定位分别选择了以下评价指标参数:

(1)采用真阳性(true positive,TP)、假阳性(false positive,FP)、假阴性(false negative,FN)、准确度(accuracy,acc)、敏感性(sensitivity,Sen)、阳性预测值(positive predictive value,PPV)和F1分数用于评估分类任务性能。本研究中的AF分类和QRS定位任务可分别看作ECG全局和局部的二分类任务。AF分类使用Acc和F1分数进行评估,其中持续性AF和PAF被认为是阳性,而非AF被认为是阴性。QRS定位任务使用TP、FP、FN、PPV、Sen和F1分数进行评估。Acc越高表示模型分类越准确,F1越高表示模型分类越稳健。

(8)

(9)

(10)

(11)

其中,TP为事件(QRS检测、AF分类)正确预测数;FP为假阳性数;FN为事件漏检数。

(2)交并比(intersection over union,IoU)。PAF定位任务在本研究中被看作帧级别的AF分类任务,不同于Acc和F1分数,IoU被用于评估ECG信号中每一帧的分类准确度,进而评估模型的PAF定位性能。由于ECG为非AF类型时,根据传统IoU定义计算会导致分母为0,本研究对IoU进行了特定类别的计算考虑,分别计算AF信号和Non-AF信号的IoU。IoU越高,表示模型正确定位的覆盖范围越多。

(12)

其中,TPF为被正确标记为AF的AF帧数;TNF为被正确标记为非AF的非AF帧数;FPF为被错误标记为AF的非AF帧数;FNF为被错误标记为非AF的AF帧数。

(3)PAF定位分数(PAF-Score)[22]。Acc和F1未评估针对PAF、持续性AF和非AF的三分类任务性能,而IoU只考虑预测和真实PAF二进制标签序列的一致性,当ECG信号中有多段不连续的AF片段时,IoU变化不大,无法体现PAF定位准确度。基于以上问题,本研究使用PAF-Score评估PAF定位性能。

图3 Ue计算示例

第二部分Ur通过一个分数矩阵计算三分类任务的准确度,分类得分见图4。例如,当一个PAF信号被分类为非AF信号时,Ur得分为-1。

图4 Ur分数矩阵

PAF-Score计算如下:

(13)

其中,N为数据库中的ECG信号数量。PAF-Score的分数与ECG数据库中的PAF信号占比以及PAF信号中的PAF时间数量有关,所以,PAF-Score仅适用于在相同数据库上比较不同的模型性能。根据计算规则,PAF-Score的下界阈值为-2,无明确的上界阈值。

2.3 实验结果

表2为MR-ECG及现有的PAF定位模型在TEST_I和TEST_II临床含噪ECG数据库上的PAF定位和AF分类结果。PAF定位结果使用IoU和PAF-Score评估,AF分类结果使用Acc、Rec、Pre和F1分数评估。可见,MR-ECG在两个数据库上实现了最高的IoU和PAF-Score,PAF定位性能优于传统ResNet网络和Wen等[20]提出的4个方法。相比传统ResNet网络,IoU分别增长了1.67%和3.96%,PAF-Score分别增长了0.031 1和0.237 2。这说明MR-ECG通过横向连接并行处理分辨率的多个分支,能够保留更多的PAF特征,使得方法在PAF定位任务上取得更好的效果。而MR-ECG仅通过一个模型定位就实现了优于LSTM+U-Net和LSTM+SeqLab方法的PAF定位性能,证明了MR-ECG在模型结构上的优越性,也进一步表明了提升对局部和全局信息的感知,可以提升PAF的定位性能。

表2 PAF定位、AF分类结果和QRS波定位结果对比表

此外,由表2可知,MR-ECG在AF分类任务上的性能也优于其他几种方法,在两个数据库上的F1分数分别达到了86.73%和89.98%,比传统ResNet网络提升了2.53%和0.52%;相比Wen等[20]所提方法中的最高F1分数分别提升了4.5%和1.98%,间接证实了MR-ECG可捕捉到更有效的PAF特征表征。

表2为MR-ECG与其他QRS波定位方法在TEST_I和TEST_II两个数据库上的结果。可见,MR-ECG的各项指标表现良好,Sen分别达到了99.66%和99.27%,PPV分别达到了99.65%和99.32%,超过传统的QRS波定位方法,并与现有的领先方法持平。在两个数据库上,MR-ECG的F1分数仅比现有的领先方法低0.08%和0.05%,这表明本研究方法可实现较高精度的QRS波定位,进而为PAF定位序列后处理提供有效且准确的参考信息。总体而言,本研究方法在PAF定位、AF分类和QRS波定位任务上具有较高的准确性和稳定性。

4 结束语

本研究提出了基于CNN的多分辨率ECG理解框架,实现了PAF和QRS波的准确定位,以及AF的可靠分类。为防止模型过拟合,本研究仅在CPSC 2021-Train上训练模型,并严格在TEST_I和TEST_II上进行测试和分析。实验结果显示,IoU、PAF-Score、F1在TEST_I数据库上分别为93.68%、1.818 2、86.73%,在TEST_II数据库上分别为79.28%、3.487 0和89.98%,表明该算法在PAF定位和AF分类方面具有较高的准确性和稳定性。此外,针对QRS波定位性能的实验结果显示,两个数据库上的F1分数分别为99.65%和99.29%,超过多数QRS波定位方法,与现有的领先方法持平。然而,本项工作也存在一些局限性,实验发现本研究方法仍存在被噪声干扰导致的误判现象,未来需要尝试更多方法,以进一步提升算法对噪声干扰的鲁棒性。此外,本研究将进一步研究模型的可解释性,以帮助用户更清楚地了解人工智能如何作出决策。

猜你喜欢

低分辨率解码器分支
红外热成像中低分辨率行人小目标检测方法
基于偏移学习的低分辨率人体姿态估计
科学解码器(一)
科学解码器(二)
科学解码器(三)
线圣AudioQuest 发布第三代Dragonfly Cobalt蓝蜻蜓解码器
巧分支与枝
树木的低分辨率三维模型资源创建实践
一类拟齐次多项式中心的极限环分支
基于插值和多帧重建的图像超分辨分析