APP下载

基于MMD心电域适应学习的分类模型

2023-02-17韩昕哲尚莉伽张宏坡毛晓波王汉章

计算机应用与软件 2023年1期
关键词:心电房颤准确率

韩昕哲 尚莉伽 张宏坡 毛晓波 刘 超 王汉章 逯 鹏,5*

1(郑州大学电气工程学院 河南 郑州 450001) 2(互联网医疗与健康服务河南省协同创新中心 河南 郑州 450001) 3(北京市东城区中小学卫生保健所 北京 100007) 4(数学工程与先进计算国家重点实验室 河南 郑州 450001) 5(中医药智能科学与工程技术研究中心 河南 郑州 450001)

0 引 言

心电图(Electrocardiogram,ECG)是进行心血管疾病诊断的重要工具。基于计算机辅助分析的ECG自动分类技术具有可靠的临床应用价值[1]。传统的ECG分类方法依赖手工选取特征[2]。深度学习利用大量心电数据训练,自动学习特征,是当前实现ECG自动分类的主要技术途径[3]。

训练一个性能优异的深度学习模型需要大量标注的ECG数据和计算能力[4]。训练出的神经网络模型是对当前心电数据的拟合;若数据分布发生改变,必须根据任务调整模型,否则会出现分类准确率严重下降情况,即领域自适应问题[5]。研究表明,域适应问题是影响ECG分类模型大规模应用的关键之一[6]。Yao等[7]的研究发现基于美国心电数据集训练的分类模型不适用于中国心电数据集。Kachuee等[8]通过微调网络将心律不齐的分类模型应用于心肌梗塞的分类任务。Salem等[9]将DenseNet作为预训练模型,把划分后的每个心拍转换为二维特征图,通过使用大量二维特征图微调DenseNet实现分类。上述文献使用的微调方法需要目标数据有大量的标注,当目标数据缺少标注时则不再适用。

本文构建了一个域适应分类网络。首先通过双向门控循环单元(Bidirection Gated Recurrent Unit,BiGRU)分别从源数据和目标数据自动抽取特征,然后将其映射至再生希尔伯特空间内,最后利用源数据的标注来学习公共空间的特征表示,实现ECG分类的无监督域适应。

1 域适应网络模型

1.1 问题定义

有标注的源心电数据表示为XS=[x1,x2,…,xM],心电类别空间CS=[C1,C2,…,CI],其中:M表示源数据的样本总量;I表示类别数。无标注的目标心电数据XT=[x1,x2,…,xN],其中N表示目标数据的样本总量。假设源数据和目标数据的类别空间相同,即CS与CT一样,网络模型的实现目标是使用源域的标注数据来解决目标域的分类任务。

1.2 门控循环单元

门控循环单元(Gated Recurrent Unit,GRU)将长短期记忆网络[10]的遗忘门、输入门和输出门简化为更新门和重置门,保留LSTM功能的同时,减少了参数数量,从而大幅提升了训练速度[11]。门控循环单元具体结构如图1所示。更新门用于控制tn-1时刻的状态信息对tn时刻状态的影响程度,更新门的值越大说明tn-1时刻对tn时刻影响越大。重置门用于控制tn-1时刻的状态信息的忽略程度,重置门的值越小说明忽略得越多。

图1 GRU结构

更新门状态zt和重置门状态rt的计算方式为:

zt=σ(Wz·[ht-1,xt])

(1)

rt=σ(Wr·[ht-1,xt])

(2)

st=tanh(Ws·[rt×ht-1,xt])

(3)

ht=(1-zt)×ht-1+zt×st

(4)

式中:st表示t时刻的候选激活状态;ht表示t时刻的激活状态;xt表示t时刻的输入;σ代表非线性函数;Wz、Wr、Ws分别表示相应的权重矩阵。

ECG在时间上有上下文关联性[12],单向GRU网络只能获取输入数据的上文信息,因此本文使用双向门控循环单元网络利用同一通道的上下文信息。模型结构如图2所示。

图2 BiGRU结构

可以看出,BiGRU是由两层单向的GRU组成,当前的输出由前向信息和反向信息共同决定。

1.3 MMD-Net模型结构

本文提出的域适应网络模型MMD-Net由1层BiGRU、1个适应层、2个全连接层和1个输出层组成,模型整体结构如图3所示。适应层在BiGRU和Dense1之间,作用是将BiGRU提取的ECG特征投影至公共空间,并使用MMD计算源域和目标域数据的特征距离。

图3 模型总体结构

1.4 损失函数设计

本文使用的域适应损失函数为两部分,如式(5)所示。

(5)

(6)

式中:N为类别数;XL经过Softmax函数处理,转化成对应属于每个标签的概率值,再计算交叉熵。

(7)

式中:φ()是非线性映射函数;H表示映射到的再生希尔伯特空间。

式(8)-式(11)为通过恒等变换并使用核函数计算MMD的过程。

首先将式(7)经过平方运算后展开,再开方的等价变换运算得到:

(8)

(9)

MMD-Net采用线性核函数和高斯核函数[14],分别是:

k1(x,x′)=xTx′

(10)

(11)

2 实验与结果分析

2.1 数据集

实验使用的ECG数据集MIT-BIH心房颤动数据集(MIT-BIH Atrial Fibrillation Database,AFDB)[15]和中国心血管疾病数据库(Chinese Cardiovascular Disease Database,CCDD)[16]。

AFDB包含23组二导联数据,采样率250 Hz,包含四种节律:291个心房颤动,14个心房扑动,12个房室交界性心律,288个其他心律。

CCDD是标准12导联临床数据集。数据集中存在记录对应多个疾病字典码的情况。本文使用的均为有且只有一个疾病字典码的记录,将筛选出的记录降采样为250 Hz,保证数据的一致性。

实验中,把数据划分为5 s的ECG片段,获取的数据集情况如表1所示。实验数据分为房颤和非房颤两种类型,其中非房颤类型包含房扑、房室交界和其他。为保证二分类的数据平衡性,随机从AFDB和CCDD分别抽取50 000和12 000个样本,并按照8 ∶2的比例划分训练集与测试集。

表1 数据标签及样本数量

经过划分的心电片段如图4和图5所示,可以看出,AFDB和CCDD的房颤数据之间存在明显的形态学差异。

图4 AFDB的房颤样本

2.2 评估指标

模型评估采用准确率Acc(Accuracy)、精确度P(Precision)、召回率R(Recall)和F1分数(F1Score)。计算公式分别为:

(12)

(13)

(14)

(15)

式中:TP(True Positive)表示将房颤类型数据预测为房颤的样本数;TN(True Negative)表示将非房颤数据预测为非房颤的样本数;FP(False Positive)表示将非房颤数据预测为房颤的样本数;FN(False Negative)表示将房颤数据预测为非房颤的样本数;Acc表示总体模型的整体分类准确率;R表示房颤被分对的比例,衡量了模型对房颤的识别能力;P表示被分为房颤的样本中实际为房颤的比例;F1为P和R的调和平均。

2.3 结果分析

2.3.1实验结果

实验过程中CCDD和AFDB交替作为源数据和目标数据,分别记作CCDD→AFDB和AFDB→CCDD。首先使用源数据训练得到模型,即预训练模型;然后使用目标数据测试集测试得到在预训练模型上的表现,记作基准组;然后分别采用线性核和高斯核的MMD-Net域适应学习实验,分别记作线性核组和高斯核组。实验相关参数如表2所示。

表2 实验参数设置

表3是CCDD→AFDB的实验结果,图6是模型准确率随适应因子的变化情况。基准组分类准确率为0.628 4。相较于使用高斯核函数,MMD-Net在使用线性核函数时各项评价指标更高。适应因子λ=0.2测试准确率最高,F1分数提高5.21。使用高斯核函数时。图6显示在CCDD→AFDB实验中,适应层采用线性核函数和高斯核函数平均准确率为75.98%和70.70%。

表3 CCDD→AFDB的实验结果

图6 CCDD→AFDB实验中不同核函数的测试准确率

表4是AFDB→CCDD的实验结果,图7是模型的测试准确率随适应因子λ的变化情况。本组实验中,使用高斯核函数对模型的提升效果更好。图7显示适应层采用线性核函数和高斯核函数的平均准确率分别为56.26%和85.24%。

表4 AFDB→CCDD的实验结果

图7 AFDB→CCDD实验中不同核函数的测试准确率

以上基于AFDB和CCDD的双向域适应实验结果表明,二者数据类别空间上一致,但在数学分布上存在差异。本文的MMD-Net通过域适应学习,平均准确率分别达到了73.34%和70.75%,其中适应因子取值在0.2~0.5内得到的准确率更高。这说明本文的模型可以通过最小化源域与目标域的差异,使得模型学习源域和目标域的共同表示,有效提高了模型在目标域的分类准确率。

2.3.2可视化分析

为更加直观地显示MMD-Net的分类性能,选取表4中的高斯核组对模型进行可视化展现[17],分别如图8-图10所示。房颤和非房颤样本分别为带有0和1的方块。图8显示了AFDB测试集在其训练集上训练出来的模型的分类结果,表明预训练模型对源数据具有很好的分类性能。图9是预训练模型在目标数据测试集上的表现,对目标数据无法准确划分。图10是MMD-Net分类的可视化结果,表明适应层的加入显著改善了模型在目标数据的分类性能。

图8 预训练模型分类结果的可视化

图9 预训练模型在目标数据分类结果的可视化

图10 MMD-Net在目标数据分类结果的可视化

3 结 语

针对心电信号分类中的域适应问题,本文提出基于MMD心电域适应学习的分类模型MMD-Net。将源数据和目标数据输入BiGRU中学习特征,通过适应层将各自特征映射至公共的再生希尔伯特空间内,使用MMD度量特征空间内的分布差异,并利用源数据的标签信息实现对目标数据的域适应学习。在CCDD和AFDB上的双向域适应实验结果表明,本文方法能有效提高目标域分类准确率,提升模型泛化性能。后续工作将考虑使用多核MMD进一步提升应用价值。

猜你喜欢

心电房颤准确率
心电向量图诊断高血压病左心室异常的临床应用
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
基于非接触式电极的心电监测系统
穿戴式心电:发展历程、核心技术与未来挑战
更正启事
高速公路车牌识别标识站准确率验证法
预防房颤有九“招”
阵发性房颤应怎样治疗