APP下载

基于CNN+LSTM 的改进心音分类模型研究

2022-01-25刘伟伟桑胜波张宏鹏

电子设计工程 2022年2期
关键词:心音谱分析二阶

刘伟伟,桑胜波,张宏鹏

(1.太原理工大学信息与计算机学院,山西晋中 030600;2.中国人民解放军总医院第一医学中心心血管外科,北京 100000)

心脑血管疾病已成为导致死亡的主要原因之一,并经常导致其他病症的发生,如中风、高血压、心力衰竭和心律失常等[1-2],而心音包含着大量的心脏生理病理信息,如何更好地构建心音分类模型,对于心脏疾病的预防和前期诊断具有重要作用[3],目前深度学习在心音分类算法方面研究广泛[4],常见的处理步骤包括以下几步:心音分割、特征提取、模型搭建与训练[5],但研究思路各有不同,有采用端到端模型完成特征自提取和分类过程的[6],也有手动提取特征后将其作为输入,传送到搭建好的分类器,还有一些则在特征提取中仅某一部分使用深度学习模型来进行局部学习。这些模型各有千秋,但如何提高模型分类性能全依靠个人经验。该文预处理步骤中做了适当修改,提出了一种具有更高分类精确度的模型,为后续模型的进一步改进提供了方向。

前人在处理心脏音频时,将一维时序的心脏音频通过时频域转化的方法映射到二维图像进行处理,然后利用典型的CNN 模型处理得到的时频图及其各种变形,但在这一过程中,对于一维的音频序列,认为其丢失了一部分时间序列信息,为了进一步验证该想法的正确性,文中研究了前人的多种CNN深度模型,最终发现CNN 模型在准确率达到93%附近时遇到瓶颈,一方面是由于数据集样本较少导致无法使用规模参数更大的模型,另一部方面也是由于CNN 模型可能忽略了一部分时间序列信息,为此文中尝试从第二点出发,将CNN 模型与LSTM 模型相结合,提出一种改进的心音分类模型,另外,该研究也在处理流程中以及特征提取阶段做了一些优化与改进。

1 数据集和实验环境

1.1 数据集及预处理

模型训练使用的数据集源于2016 年挑战赛,样本按照正常、异常、不确定分为3 类,该文实验中均采用周期为4 s 的心音,并剔除掉部分背景嘈杂的正常心音,对异常心音进行分割,最终使训练样本数据集保持正负比例平衡,其中正常数据数量为2 326,异常数据数量为1 357。

1.2 实验环境

文中所有的实验均在Google 的Colab 开发平台进行,显卡是NVIDIA 的TeslaT4,深度学习开发框架为tensorflow2.3。

1.3 模型评价指标

使用准确率(Accuracy)、敏感度(Sensitive)、特异性(Specificity)来衡量模型效果。

2 处理步骤优化

传统的处理步骤有心音去噪、分割、特征提取、模型分类[7],但在比较前人模型时无论使用何种结构的模型,最终的分类度都会遇到瓶颈,故而该研究在前期处理流程中做了适当优化,经过多处探究[8],该文在前期处理流程中的优化点有如下两部分:1)分割步骤结束后增加了一步归一化处理;2)特征提取阶段使用二阶谱分析法。

2.1 归一化处理

归一化处理步骤如图1 所示,分割处理完成后采用分割模型[9]预估所处理的心音周期,将各段音频压缩后与相应的周期对齐,此处选择固定的心音基周期为0.8 s,然后根据分割模型所判断的音频周期,利用式(1)进行处理,其中,f代表压缩的倍数,这样就将心音归一化到同一尺度下进行判别。

图1 归一化处理步骤图

2.2 二阶谱分析提取特征

相较之前的研究,该文既没有使用传统的音频特征MFCC 等作为输入[10],又没有采用模型自提取的方式提取特征,前者是基于前期采用其他模型分析进行实验时,CNN 模型存在一个分类的上限,这与模型的性能无关,是特征提取层面丢失了一部分信息;后者主要考虑到在特征提取阶段,使用的样本数量较少,模型容易过拟合,使得模型在实际中表现不佳,综合以上两点首先对音频采用了二阶谱分析法,二阶谱分析提取出的特征明显优于短时傅里叶变换、小波变换等低阶特征提取方法的结果,二阶谱分析可以很好地抑制信号中的相位关系,检测与量化非高斯信号的相位耦合[11],具体如式(2)、(3)所示:

对一段心音用二阶谱分析后得到了一个二维矩阵,为了方便观察,根据该矩阵分别绘制了其等高线图和热力图,如图2 所示,可以看出不同类别的心音信号的二阶谱图差异较大,从而也验证了这是一种行之有效的特征提取方法。

图2 二阶谱分析等高线图和热力图

3 模型探究

3.1 初始基模型探究

研究初步确定了CNN+LSTM 的实验模型,但两者如何进行搭建需要进一步研究,初步确定了图3中的几种模型结构。

图3 预采用模型

经测试,图3 中模型②表现最佳,模型①相较模型②,最终效果差别不大,为了更好地组织其他结构,选择模型②,模型③和模型④的计算量过大,模型⑤性能表现不佳,所以后续模型在模型②的基础上进行优化和改进。

3.2 模型参数优化

为了进一步提高模型性能,针对可能影响模型性能的主要参数做了如下两个实验:CNN 卷积核大小和层数对模型性能的影响实验,LSTM 不同结构对模型的影响实验,结果如图4、5 所示。

图4 CNN卷积核大小和层数对模型的影响

该实验是选择3.1 中最好的基准模型②进行的,动态调整卷积核大小以及卷积层数,最终得出卷积层数越多,也即选择的卷积核大小相对较小的情况下,模型表现并非与上述因素成正相关,卷积层数超过3 层时,模型性能迅速提升,当卷积层数为4~7 层时,即卷积核大小在[2~4,3~6]范围内,模型整体性能较优,之前的研究指出,卷积核越大,感受野越大,能看到的图片信息越多,获取到的特征也越多。但该模型中的时频图谱本身已经是提取出的特征图,较小的卷积核就可以有很大的感受野,所以上述实验中提出的卷积核大小适合该研究中的模型。

另外改变了LSTM 模型中的结构,看其是否对模型表现有一定影响,图5 中的1、2、3、4、5、6 分别代表LSTM 模型中的单层单向、单层双向、双层单向、双层双向、三层单向、三层双向,可以看出LSTM 模型为单层单向和单层双向时模型整体效果最好,而随着模型层数的增多,模型的准确率反而波动更大且略有下降,主要是这种情况下模型训练参数大幅提升,而训练数据量则相对短缺,模型极易过拟合。

图5 LSTM不同结构对模型的影响

从中也可看出LSTM 模型本身作为序列模型对序列心音信号的不可或缺性,LSTM 是完全以序列的角度搭建的模型,心音在时间段前后的依赖性可以被模型很好地捕捉到,而CNN 模型最大的特点是权值共享,局部连接[12],这对于典型的图片领域非常有效,在此处,二维时频图是通过一维的音频序列转化生成的,并非典型的图片形式,之所以模型依旧能呈现一定的效果是因为在转化过程中一些边缘特征反而被凸显了出来,对于CNN浅层的特征图可以很敏锐地捕捉到这些信息,但同时也丢失了部分位置信息,而这一点恰好是LSTM模型所擅长的[13],故而在同等的前提条件下表现更好,这也为后续的研究提供了支撑,即模型的结构设计以及改进需要与所研究的对象结合起来考虑,适合研究对象的模型能够取得更好的表现结果。

4 C-LNN模型

4.1 模型结构与参数介绍

模型结构如图6 所示,使用自提取特征作为特征输入,然后采用一层LSTM 结构提取心音特征的时序信息,后接了一层Attention 机制[9],使模型能够更多关注S1、S2 以及S3、S4 处的心音信息,之后连接了5 层卷积层对特征图做数据量压缩,最后连接4 层全连接层作为分类器,所有层中的激活函数均采用ReLU 函数,优化器选择Adam 函数,在卷积层后适当增加了部分最大池化层和Dropout 正则化。

图6 模型结构

4.2 实验结果

训练结果如图7 所示,训练中的数据迭代了100次,在接近50 次时模型已经逐渐达到最优性能,最终模型的准确率在95%~96%附近摆动。

图7 训练结果

4.3 模型对比

与文献[9]和文献[10]中的模型作对比,实验结果如表1 所示,可以明显得出,该研究所采用的CNN+LSTM 结合的分类模型表现好于CNN 和LSTM 模型至少5%以上。

表1 实验结果

该模型充分结合了CNN 模型能有效提取图像的空间特性[12]和LSTM 模型可以提取时间特性的优点,保留了音频序列的时间维度特征。

4.4 实际测试结果

为了进一步验证模型的效果,同中国人民解放军总医院合作采集了800 人的心音数据,其中正常心音400 例,异常心音400 例,采用十倍交叉验证,得到模型的表现结果如图8 所示。结果使用混淆矩阵表示,实际结果为正常心音的预测准确率是96%,实际结果为异常心音的预测准确率是94%,样本总体准确率达到95%。可以看出与之前训练结果中的95.3%接近,也验证了该模型在实际使用中的平稳性。

图8 实际测试结果

5 结论

实验方案的优化点集中在以下3 点:1)在前期处理流程中,在心音分割这一步后增加了归一化处理,使不同心音周期的信号更方便地集中在同一尺度下进行比较;2)在特征提取阶段,使用了二阶谱分析方法进行处理,相较于前人的低阶谱分析,保留了音频中的更多信息;3)在模型构建阶段,该文结合了CNN 模型能有效提取图像的空间特性[14]和LSTM 模型可以提取时间特性的优点,充分保留音频序列的时间维度特征。该模型的性能相较前文的研究有了大幅度提升,准确率达到95.3%,在实际测试中也表现出了良好的可用性。但仍需进行进一步研究,有以下两点:1)进一步提高模型的性能;2)对模型表现为什么优秀作更多解释[15-18],提高模型的置信度。

猜你喜欢

心音谱分析二阶
纳谱分析技术(苏州)有限公司
一类二阶迭代泛函微分方程的周期解
一类二阶中立随机偏微分方程的吸引集和拟不变集
二阶线性微分方程的解法
基于双阈值的心音快速分段算法及其应用研究
一类二阶中立随机偏微分方程的吸引集和拟不变集
双声道心音能量熵比的提取与识别研究
基于香农熵的心音信号检测方法研究
Cr12MoV冷作模具钢渗铬层界面能谱分析
Rotenberg模型中一类迁移算子的谱分析