APP下载

基于卷积神经网络的ECG 心律失常分类研究

2024-05-06杨风健李小琪李洪亮

电子设计工程 2024年9期
关键词:样本数心电电信号

杨风健,李小琪,李洪亮

(1.东新大学计算机学系,韩国罗州58245;2.吉林医药学院生物医学工程学院,吉林 吉林 132013)

根据2020 年发布的《中国心血管健康和疾病》报告显示,心血管疾病(Cardio Vascular Disease,CVD)死亡率占所有疾病致死率首位[1]。心律失常是临床常见而又极具危险性的心血管疾病[2],在心律失常的诊断中,传统的心律失常诊断方式依靠医生根据专业经验进行判断,不仅费时费力,而且易增加漏诊与误诊的概率。卷积神经网络(Convolutional Neural Network,CNN)是一种深度前馈神经网络[3],具有权重共享和局部连接等特性,在心电图(Electrocardiogram,ECG)分类识别方面具有较大的优势[4]。

文献[5]提出了一种基于卷积神经网络的十二导联心电图衍生方法,能够减少导联数量,并证明了该方法优于传统算法,适用性较强。文献[6]提出了一个通过构建CNN 模型提取特征,只采用第一导联的心电数据,识别Physionet 数据库中心电信号的五类心拍。文献[7]采用CNN 模型进行心电图的正、异常2 分类,准确率大于90%,分类较为简单,且准确率尚有提升空间。

该研究旨在利用卷积神经网络实现心电信号自动五分类,为降低数据复杂度,利于在穿戴设备上实现,采用单导联心电信号作为数据源,利用小波变换去除掉心电信号中的噪声,根据R 波峰位置对心电信号进行心拍分割,设计并优化CNN 模型进行心律失常分类识别,提高了分类准确率。

1 心电信号预处理

ECG 信号是一种微弱的生物电信号,易受工频干扰[8]、基线漂移[9]和肌电干扰[10]三种噪声干扰,该文采用小波分解与重构对ECG 信号进行去噪及基线漂移抑制。以心电记录203 为例,如图1 所示。取前1 500 个采样数据,对原始信号进行8 级小波分解,去除1 级、2 级、3 级和8 级信号成分,将剩余成分重构成新的ECG 信号,实现较好的滤波效果,同时保留了ECG 信号原有特征。

图1 信号203预处理对比

2 基于一维CNN的心电信号分类

该文通过Python 和TensorFlow2 构建一维CNN模型,使用Keras 人工神经网络库对模型进行训练和测试。心电数据来源于美国麻省理工学院提供的MIT-BIH 心律失常数据库,数据由48 条心电记录组成,每条记录时长为30 min,采样频率为360 Hz,该研究仅采用MLII 导联[11-12]的心电信号作为实验数据。共分为正常心拍(N)、房性早搏(A)、心室的心室异常(V)、左束支传导阻滞(L)、起搏心拍(P)五类。

2.1 CNN模型构建

图2 所示为一个心跳周期的波形图,由于MITBIH 数据库中的心电数据为连续采样数据,为了获得更大的数据样本,需要首先对心电数据进行切分,而进行数据切分首先需要进行R 波峰的识别,文中QRS 复合波中R 波峰位置是由差分运算结合自适应阈值法融合检测确定的,差分阈值法[13]结构原理简单、容易实现,计算处理速度快,适用于运算复杂度低的使用场合。

图2 心跳周期示意图

在R 波峰位置确定后,以R 波峰位置为基准,向前取100 个采样点,向后取200 个采样点构成一个完整的心拍样本,每个心拍样本定义为:

式中,Rpeak(k)表示心电信号的数字采样值,表示第k个R波峰值。

按照上述方法可将心电信号拆分出92 192 个心拍样本,CNN 模型采用9 个网络层级结构,包括4 层卷积层、3 层池化层、2 层全连接层,CNN 模型结构如图3 所示。

图3 CNN模型结构

设计CNN 模型各层参数设置如表1 所示。

表1 CNN模型每层的参数设置

该文使用Relu 函数作为卷积层的激活函数,当输入信号小于0 时,非线性激活层会舍去信号特征,从而减小网络参数间的依赖性,避免模型产生过拟合问题。针对多分类模型,输出层的激活函数采用softmax 多分类器[14],该分类器会自动选取最大概率作为CNN 分类结果的输出。

2.2 模型优化策略

在模型训练过程中,采用类别交叉熵损失函数(Categorical Cross Entropy,CSE)[15]来训练CNN 网络模型,多分类的交叉熵损失函数计算如式(2)所示:

式中,N为心拍样本总数;M为心律失常类别的数量,该研究分为五类,故M=5,yic为符号函数,当第i个心拍样本真实类别属于c时,其值为1,否则为0;Pic代表第i个心拍样本心律失常类别属于c的预测概率。

经过多次实验对比进行模型调参,在表2 所示参数值时模型分类效果达到最佳。

表2 CNN模型主要参数设置

3 CNN模型心律失常分类结果

3.1 评价模型指标

该文采用整体准确率(Overall Accuracy,OA)、正预测率(Positive Prediction Value,PPV)和灵敏性(Sensibility,SE)三种指标对实验结果进行评估,计算方法如式(3)-(5)所示:

式中,TP 为正确分类的阳性样本数;TN 为正确分类的阴性样本数;FP 为实际为阴性误分类成阳性的样本数;FN 为实际为阳性误分类成阴性的样本数。

整体准确率(OA)为正确分类的样本占所有样本数的比例;正预测率(PPV)为正确分类的阳性样本被正确预测的概率;灵敏性(SE)为正确的阳性样本被正确分类的比例。灵敏性越高,心律失常疾病检出正确率越高;整体准确率越高,说明模型分类性能也越好。

3.2 实验结果

该研究将数据集按7∶3 比例随机划分训练集和测试集,故训练集心拍样本量为64 535,测试集心拍样本量为27 657,每次训练完成后就验证一次。将训练集放入CNN 模型上训练,并根据验证集在其模型上的分类效果来评估模型的性能。验证集和训练集的准确率和损失值如图4-5 所示。

图4 模型在训练集与验证集的准确率结果

图4 中accuracy 为训练集的准确率,val_accuracy为验证集的准确率;图5 中loss 为训练集的损失值,val_loss 为验证集的损失值。

图5 模型在训练集与验证集的损失值结果

通过混淆矩阵可直观了解预测的分类和真实的类别在模型上的表现,构建一维CNN 模型下的五分类混淆矩阵如图6 所示。

图6 CNN模型下的五分类混淆矩阵

水平方向代表预测的分类,竖直方向代表真实的分类,矩阵中的数值代表心拍样本,0、1、2、3、4 分别代表心律失常的NAVLP 五分类。因此,对角线为正确分类的心拍样本数。其中,N 类(正常心拍)正确分类样本数有21 400,被错误分类有56 个样本;A类(房性早搏)正确分类样本数有476,被错误分类有109 个样本;V 类(心室的心室异常)正确分类样本数有2 021,被错误分类有81 个样本;L 类(左束支传导阻滞)正确分类样本数有1 998,被错误分类有3个样本;P 类(起搏心拍)正确分类样本数有1 510,被错误分类有3 个样本。对于测试集错误分类样本数最低是L 类和P 类均为3 个样本,最高是A 类为109 个样本。

4 结果分析与讨论

从图4-5 可看出验证集的准确率几乎都高于训练集,模型没有出现过拟合现象,训练集和验证集的误差均很小,反映了模型分类精度高且稳定。根据图6 所示的混淆矩阵,按照评价指标公式计算一维卷积神经网络(CNN)模型分类结果的各项指标,如表3 所示。

表3 CNN模型分类结果的各项指标

由表3 数据可知,该文提出的一维卷积神经网络(CNN)分类模型实现心律失常五分类的整体准确率达99%以上,从正预测率(PPV)来看,模型对N、V、L、P 类的正预测均达99%以上,而模型对A 类的正预测率为93.3%,说明心拍如果被错误分类,则被误诊为该类的可能性更高。再从灵敏性角度来看,模型对N、V、L、P 类的灵敏性均达97%以上,而灵敏性最低的是A 类,为81.3%。综上所述,模型对于N、V、L、P 四类从正预测率和灵敏性的角度上均有较好的分类效果,对于A 类的分类效果较差,是因为MIT-BIH 数据库关于A 类样本数较少,模型训练次数不足,能学习到的特征相对有限。

该文实验结果与其他文献进行比较,结果如表4所示,可见在准确率方面有提升,而且CNN 模型结构复杂度可以接受,利用ST 公司新推出的人工智能工具包STM32Cube.AI,可进一步将该算法移植到STM32 微控制器上,实现便携式或者穿戴式心律失常分类检测,实时监测人体健康状况。

表4 该文与其他文献模型分类效果比较

5 结论

在前人研究的基础上,构建了9 层网络结构的一维卷积神经网络模型,采用公共数据库中的心电数据进行训练与测试,实现心律失常的五分类识别,模型最终整体准确率达99%以上,取得很好的分类效果。

该文的创新点在于使用单导联的心电数据和相对简洁的模型和数据运算,实现较高的心律失常分类准确率,最终目标是在穿戴式设备上予以实现,进而达到实时监测人体健康状态的目的。但是,穿戴式的心电信号来源于实时的穿戴设备检测,其实际信号质量与MIT-BIH 数据库将存在差别。同时,模型的泛化能力仍有较大提升空间,将在以后研究中继续加以改进和完善。

猜你喜欢

样本数心电电信号
勘 误 声 明
基于联合聚类分析的单通道腹部心电信号的胎心率提取
心电向量图诊断高血压病左心室异常的临床应用
基于非接触式电极的心电监测系统
穿戴式心电:发展历程、核心技术与未来挑战
基于Code Composer Studio3.3完成对心电信号的去噪
更正启事
基于随机森林的航天器电信号多分类识别方法
三时间间隔圆锥补偿姿态更新算法性能分析
田间鉴定杂交棉品种纯度的适宜时期和样本数