APP下载

基于一维卷积神经网络的心电信号质量分类

2022-04-28曹剑剑蔡文杰

智能计算机与应用 2022年4期
关键词:心电电信号卷积

曹剑剑,蔡文杰

(上海理工大学 健康科学与工程学院,上海 200093)

0 引 言

心电图(Electrocardiogram,ECG)是记录心脏活动产生电信号变化得到的曲线,常用于辅助临床医生对患者的心脏健康状况进行评估,如心血管疾病诊断、心律失常识别、睡眠呼吸暂停检测。然而ECG是一种低幅值的微弱信号,无论是在产生或传输过程中都极易受到各种噪声的污染,包括基线漂移、工频干扰、肌电干扰和高斯白噪声等,心电信号质量降低直接影响了诊断的准确性。另一方面,随着互联网技术的快速发展,基于可穿戴设备的生理信号监测方案逐渐成为发展趋势,但如何避免保存大量低质量的心电信号实现设备存储空间的高效利用仍是一个值得关注的问题。因此,在对心电信号自动分析之前,根据临床需要对心电信号进行质量评估,剔除临床中不可接受的信号片段是非常有必要的。

传统心电质量评估方法主要基于形态学特征或者基于机器学习。文献[4-5]依据心电主要波形的特征,分别从设置信号质量判断准则和多特征组合的方式上在PhysioNet/CinC Chanllenge 2011(PICC 2011)比赛中获得了91.6%和85.7%的分类准确度。结合K近邻和随机森林,Kalkstein等人实现了93%的准确度。寇明春利用小波变换的频率分解特性对心电信号进行小波变换,提取了信号在不同频段下的能量特征,最终实现了95.4%的分类准确度。王帅等人通过时域、频域以及非线性域提取的12个特征构建特征矩阵,利用支持向量机(SVM)分类器在真实采集的数据集上实现了整体92.3%的分类准确度。朱超等人分别对提取的内外层指标、时频域指标进行融合,采用区间估计的方法得到判断信号质量的阈值,实现了96.24%的准确度。Shahriari等人采用模板匹配的方法对测试样本与聚类得到的标准心电图像样本进行比对,得到了93.1%的准确率。另外,基于多个信号质量指数(sSQI、kSQI、bSQI、rSQI和pSQI)作为特征设计的分类器也具有较好的分类性能。尽管上述研究在比赛或各自的数据集上具有不错的效果,但是大多没有在其他数据集上进行测试,因此算法的泛化性仍未得到充分验证。而且,无论是基于规则形态学或机器学习的方法,都无法避免手动提取特征的复杂性。

近年来,卷积神经网络逐渐应用于心电信号的各类领域,并且取得了很好的成果。相比于传统形态学或机器学习的方法,基于卷积神经网络的深度学习技术克服了手动提取特征的缺陷,模型通过训练可自动学习到有效的特征,并且取得了更好的效果。同样,已有部分研究将卷积神经网络应用于心电信号质量评估且实现了较高的准确率。张海斌等人利用3层卷积神经网络,重新手动标注PICC 2011数据集后训练模型,其准确率为0.944,敏感性为0.964,特异性为0.924;利用类似的方法,Zhou等人在PICC 2011上达到的准确率为0.943,敏感性为0.913,特异性为0.955。Alvaro等人利用连续小波变换(CWT)将心电记录转化为图像,然后基于Alexnet网络进行迁移学习,在PhysioNet/CinC Chanllenge2017(PCDB)数据集上得到的准确率为0.912,特异性为0.903。可以看到,这些文献数据集来源单一,测试用的数据多是基于单个数据库,数据源单一的一个困扰就是心拍类型并不丰富,应该包含足够多种类的心律,算法的泛化性仍没有得到充分的验证。针对这些问题,本研究基于一维卷积神经网络(1DCNN),提出了心电信号质量的二分类方法,并在多个不同数据集上对算法进行有效性验证。

1 数据集与模型

1.1 数据集

结合目前心电信号质量评估研究现状,本文选取以下几个数据集分析:PCDB、MIT-BIH心律不齐数据库(MITDB)和噪声压力测试数据库(NSTDB)。PCDB包含8 528个单导联心电记录,采样频率为300 Hz,每条记录平均持续时间为25 s。依据注释将记录分为4类:正常窦性节律、房颤、其他节律、嘈杂。前三类常作为可接受信号,第四类作为不可接受信号。MITDB包括48个持续半小时的双导联心电记录,涵盖不同类型的心律失常,采样频率为360 Hz,是一个被广泛认可的心电数据集。NSTDB包含心电信号中常见的3种噪声:基线漂移(bw)、工频干扰(em)和肌电干扰(ma),每条噪声记录含有2个导联,采样率为360 Hz,该数据集被广泛用作噪声源合成含噪声心电信号。另外,为增加测试集的多样性,选取了与上海依云医疗科技有限公司合作开发的手握式心电采集仪采集的部分数据(USSTDB)用于实验(见图1),其中采集对象来自18~23岁的在校本科生,遵循自愿参与原则且已签约知悉书,采样率为250 Hz。

图1 手握式心电采集设备Fig.1 Hand held ECG acquisition equipment

1.2 一维卷积神经网络模型

本文使用包含4层卷积层的1D-CNN对心电信号片段实现质量分类,模型结构如图2所示。

图2 模型结构Fig.2 The structure of the model

输入层用于接收模型的输入并输送到第一个卷积层。为减少计算代价便于模型的快速收敛,首先需要对输入心电信号样本统一化,包括样本长度、采样率和幅值范围。本次实验优选目前最常用的一种方法,设定模型的数据输入长度为10 s。由于实验数据来源于多个数据库,不同数据库的心电数据存在采样率以及单位量纲差异,故对心电样本进行重采样至360 Hz并实施Z-score标准化处理。

接下来,输入数据依次不同的卷积层进行卷积运算。更准确地说,每个卷积层通过滤波器与输入数据进行卷积得到信号的不同特征。而池化层作用在于聚合不同位置的输入特征,减少每个卷积层提取的冗余特征数量,避免过拟合,提高模型学习效率。常见的池化操作包括平均池化()或最大池化()。最后,数据特征经过实现心电质量二分类:1表示不可接受,0表示可接受。

2 实验

2.1 建立数据集

根据贾红红建议,本文选取MITDB、NSTDB两个数据集构建训练集。首先定义MITDB原始数据为临床可接受信号y,为适应神经网络输入层,选取II导联,对数据进行10 s一段划分。为获得临床不可接受心电信号数据,在处理每一段可接受信号时,分别随机截取长度为10 s的噪声信号、和,并根据公式(1)合成目标心电信号片段y

其中,下标的数字分别代表信号对应的信噪比水平。这里,为生成指定信噪比的混合噪声心电信号,应首先调整噪声信号的能量。根据信噪比计算公式(2),当合成指定db混合心电信号时,相应的噪声能量大小应该调整为原来的倍,见式(3):

其中,()为干净心电信号,()表示噪声。对于给定输入信噪比,系数计算公式具体如下:

在此基础上,使用了一种自动算法来评估MITDB数据集的标签真实性,当3种模型评估得到的标签与数据真实标签一致时,则默认该标签为真。接着,一位临床医生对标签做随机抽样检查,当发生不一致时,剔除该段心电数据;若一致,则保留。最后得到本次实验训练集。图3是构建训练集的一个示例,从上往下分别代表可接收信号与不可接受信号。

图3 MITDB训练集示例Fig.3 Example of MITDB training set

为验证模型是否具有泛化性,模型将在公开测试集一(MITDB)、公开测试集二(PCDB)和私有测试集(USSTDB)分别进行实验:

(1)为验证模型泛化性,按照记录名称从MITDB随机挑选6个记录构建测试集,构建方法与训练集一致。

(2)选取PCDB的第四类嘈杂信号作为不可接受样本,从另外3个类型数据库中随机挑选同等数量的心电信号作为可接受样本。

(3)从USSTDB中人工挑选出部分心电数据(可接受:不可接受=1:1)作为测试集,该部分心电质量标签全部由临床专家人工标注完成。得到数据集分布情况如图4所示。

图4 实验数据分布图Fig.4 Experimental data distribution

2.2 实验配置与评估指标

模型采用Adam优化器,二元交叉熵作为损失函数,为256,设置为80。为防止过拟合,在全连接层使用系数为0.5的Dropout,模型为Tensorflow框架,硬件环境为NVIDIA GeForce GTX 1060 6 GB。

本次实验中,采用准确率()、灵敏性()和特异性()作为模型表现的评价指标。研究推得数学定义公式如下:

其中,、、和分别表示将不可接受预测为不可接受样本数、将可接受预测为可接受样本数、将不可接受预测为可接受的样本数和将可接受预测为不可接受的样本数。

2.3 结果与分析

使用训练好的模型对3个测试集数据分别进行分类,结果见表1。其中,在MITDB测试集上表现最好,其准确率、灵敏性和特异性值分别为98.3%、99.0%和97.5%。尽管MITDB测试集是根据心电记录名称随机抽取得到,但从数据结构上该测试集与训练集仍有很多相似之处,因此平均指标只比MITDB低了1.63个百分点的PCDB测试集结果能够反映出算法较强的泛化能力,其准确率、灵敏性和特异性分别为96.6%、97.5%、和95.8%。算法表现最差的测试集是USSTDB,可以看到模型的特异性值比较低,仅为90.8%,USSTDB测试集的混淆矩阵如图5所示。从图5中可知,模型错误识别为不可接受心电信号样本数为12,这可能是USSTDB中的可接受样本数据普遍要比训练集信噪比低不少,因此下一步在制作数据集时将考虑添加更多不同程度的噪声,丰富数据集。

图5 USSTDB测试集:混淆矩阵Fig.5 USSTDB:Confusion matrix

表1 模型在3个测试集上的分类结果Tab.1 Classification results on three test datasets %

最后,研究选取3个测试集的平均值作为模型的最终结果,并对比了一些具有代表性的心电信号质量评估算法,见表2。Xia等人针对不可接受信号的常见特征如导联脱落、信号交叉和不规则节拍等,提出正则矩阵的方法根据信号的多项特征实现质量分类,但该方法对质量可接受的识别率较低(80.9%)。张海滨等人重新标注了PICC2011 set-a数据集,研究利用一个现成的3层卷积神经网络实现了准确率为94.4%、灵敏性为96.4%和特异性为92.4%的较好效果。本文方法在多个指标上基本上优于上述2种方法,而且本文采取了多个数据集,保持泛化能力的同时也具有较高的精度。类似地,Clifford等人通过量化不同通道下的谱能量分布、高阶矩等84个特征,并将其提交给支持向量机(SVM),在PICC 2011上训练得到的准确率为96.5%、灵敏性为95.8%和特异性为97.2%。可以看到,尽管特异性比Clifford等人的研究要低2.5%,但是整体上本文研发的算法仍具有优势。

表2 与其他文献对比Tab.2 Comparison with other literatures

3 结束语

本文提出了基于一维卷积神经网络的心电信号质量评估二分类方法。采用MITDB和NSTDB构建训练集,将数据输入到4层卷积神经网络训练,采用2个公开数据集与1个私有测试集进行实验,实验结果充分验证了算法的有效性,算法的平均准确率为96.5%、平均灵敏性为98.1%和平均特异性为94.7%,该算法对于心电信号的预处理具有一定的参考意义。但仍存在一些问题,这也是下一阶段需要优化的方向:

(1)存在训练集单一问题,考虑扩充私有数据集样本量、跨数据集训练。

(2)存在训练集2类信号噪声程度不够连贯的问题,考虑加入更多不同程度的噪声,丰富数据集。

猜你喜欢

心电电信号卷积
基于融合模糊聚类算法的异常心电多频段弱信号快速捕捉方法
基于全卷积神经网络的猪背膘厚快速准确测定
基于图像处理与卷积神经网络的零件识别
基于单片机的心电信号采集系统设计
基于深度卷积网络与空洞卷积融合的人群计数
卡片式智能心电采集仪
神经元电生理模型的构建及分析
“声名大噪”的跑步神器?
机电工程中存在问题之我见
卷积神经网络概述