APP下载

基于混合感知机网络的心音信号分类

2023-02-08王子祥刘焕德余蓝蓝梁苗苗

物联网技术 2023年1期
关键词:双谱心音分块

王子祥,刘焕德,余蓝蓝,梁苗苗,李 俊

(江西理工大学,江西 赣州 341000)

0 引 言

心脏病是全球致命疾病之首,尤其潜伏在大量中老年人群体中,而心音信号在心血管疾病检测、临床诊断等方面具有重要支撑作用。随着社会人口老龄化的不断加剧以及人们生活压力的不断增加,中老年人身体状况的日常化实时监控显得尤为重要。心电图(ECG)信号的自动分类与实时监控可为潜在心脏病患者提供智能监控和及时提醒服务,同时缓解人力医疗资源不足等问题[1]。传统依靠人工分析形态复杂的ECG信号非常耗时且存在较多的误判现象,而基于机器学习的自动化ECG信号分析为心音日常化实时监控提供了可能和极大便利,也促使心音自动分类成为当下国内外研究热点[2]。

心音信号分析不仅与时间变化有关,还与其频率和相位等信息差异有极大相关性。因此,短时傅里叶变换(Short-Time Fourier Transform, STFT)、离散小波变换(Discrete Wavelet Transform, DWT)、梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient, MFCC)、双谱(Bispectrum)等方法被广泛用于时频域转换以及特征提取[3]。此外,逻辑回归(Logistic Regression, LR)、高斯混合模型(Gaussian Mixture Model, GMM)[4]、支持向量机(Support Vector Machine,SVM)[5]、人工神经网络(Artificial Neural Network, ANN)[6]等分类器被用于时频数据分类。随着大数据时代的到来,深度学习算法基于其对自然环境下复杂数据分析的优越表现,在计算机视觉、语音识别等领域中取得突破性进展。深度学习架构由多层非线性运算单元组成,通过由浅及深的逐层特征重组的方式,从大量输入数据中学习其潜在的浅层纹理到深层高阶语义结构等全方位信息。相较于传统模式识别领域的机器学习方法,深度学习模型无需人工对特定应用进行相关特征设计,而是可自适应学习数据特征,是复杂数据特征表示的极佳算法。随着医疗数据数字化的不断推进,以及对医疗数据采集的不断重视与完善,深度学习在医学领域的潜力也随之凸显。例如,Yıldırım等人[7]构建了一维卷积神经网络(1D Convolutional Neural Network, 1D-CNN)进行长时段(10 s)ECG信号分类,该模型未对数据做任何时频转换处理,而是直接以原始时序信号作为输入进行分类识别。为了构建更适合的时序信号网络模型,Tan等人[8]引入长短时记忆(Long Short-Term Memory, LSTM)网络进行心音信号分类,同时考虑到LSTM计算时效性,在网络前端先使用1D-CNN对切片数据进行重组降维处理。考虑到频率与相位信息对信号识别的重要性,Alqudah等人[9]分别从频谱表示和分类模型构建两方面探讨各方法对心音信号分类的影响,包括STFT、双谱、MFCC等时频变换方法以及AOCT-NET、Mobile-Net、Squeeze-Net和 Shuffle-Net卷积网络结构。实验证明,相对而言双谱能够更好地进行信号表示,而Mobile-Net在判别性特征学习与分类中更占优势。

传统卷积神经网络通过卷积核的局部权值共享,拥有自动提取数据局部信息的能力,但是全局信息获取能力较差。从心音数据的双谱特征图分析看出,心音信号除了存在一定的局部显著性特点,全局分布特性对心音分类依然至关重要。全连接感知具有全局感知能力,但对局部变化敏感,且因为不能参数共享而导致参数量急剧增加。Tolstikhin等人[10]提出的纯多层感知机方法同时实现了局部感知与不同区域间的信息交互。基于此,本文提出了基于混合感知机网络模型的心音分类方法。该方法通过双谱图划分,分别对各划分块交错进行块内感知与块间感知,实现局部特征提取与各区域间的关联交互,提升心音信号识别能力,并实现轻量化与实时性效果。

1 研究方法

本文针对心音信号的双谱图呈现出的显著局部差异,构建了基于混合感知机的网络模型进行ECG心音信号分类。完整流程如图1所示。

图1 心音信号分类流程

1.1 信号预处理

心音采集过程中存在来自设备以及不可避免的外部环境干扰,导致获取的信号存在大量噪声,因此在特征提取前需要先对数据进行预处理。本文通过巴特沃斯带通滤波器消除原始信号中存在的基线漂移以及高频噪声干扰。同时,为了消除信号冗余、降低模型的计算量,进一步根据奈奎斯特采样定律,将所有音频信号下采样到1 kHz。此外,深度模型的参数优化依赖于大量训练样本的支撑,而心音数据采集与标注困难,样本量极度有限。为了增加训练数据,本文以2.5 s为单位对较长的音频进行切割,并以带有50%的重叠步长切割音频,生成尽可能多的训练样本。

1.2 信号时频转换

Alqudah等人[3]通过大量实验验证,ECG心音信号的频谱表示能够为信号识别提供重要信息,其中高阶谱分析方法相对于STFT、DWT等低阶方法在特征表达中更占优势。随着高阶谱阶数的增加,方法的计算量也会急剧增加。因此,双谱法成为使用最为广泛的高阶谱方法之一,它能够刻画信号在频率上的偏度,量化非平稳医学信号的非线性交互,对非高斯、非线性系统的分析更贴近实际。因此,本文采用双谱分析法进行信号的时频转换。设{x(n)}为三阶零均值平稳随机信号,其三阶累积量定义为:

其中,E(·)表示均值计算,当t1=t2=0时,三阶累积量C3,x(0, 0)表示信号的斜度。双谱定义为三阶累积量C3,x(t1,t2)的二维傅里叶变换,即:

图2展示了每类心音信号的双谱图。结果显示,针对不同的病源数据,双谱图呈现出显著的响应差异,包括局部结构差异以及全局分布差异。

图2 各类心音信号的双谱图

1.3 混合感知机网络

通过分析双谱图分布结构,本文提出了基于混合感知机的局部与全局双向感知网络模型,通过CM与TM交替实现局部感知与区域间交互感知,旨在同时关注双谱图的局部与全局分布信息,提取更有判别能力的音频特征进行音信分类。图3给出了模型的整体结构。

图3 混合感知机网络模型总体架构

首先对分辨率为(H,W)大小的双谱图I∈RH×W以非重叠的方式划分为相同大小的图像块,模型以所有划分块为输入,通过全连接层参数共享将每个划分块投影到设定的C维度空间,定义为xi∈RC(i=1, 2,...,S),其中每个划分块的大小为(P,P),则划分图像块的总个数S=HW/P2。最后,以X=[X1T;X2T;...;xST]∈RS×C为混合感知模块的输入,进行局部与全局感知。混合感知层由块间位置感知TM和块内局部感知CM两个模块组成,每模块由两层全连接层与非线性映射组成,具体如图4所示。

图4 混合感知模块示意图

在TM感知模块,首先对输入数据X进行逐行归一化处理,然后将归一化的X以批量大小为C的S维输入数据逐个送入MLP层,以权重共享的方式实现分块间所有对应特征的信息交互。其中,MLP中间层设置更少的神经元个数以降低全连接层产生的参数量,且采用GELU[11]作为激活函数以增强模型泛化能力。最后,建立TM模块输入与MLP层输出特征之间的跳层连接,以增加浅层信息流通的同时,提升深层模型的优化能力。TM模块的具体表达式为:

其中:W1、W2为两个全连接层的共享参数;Norm(·)表示向量归一化处理。

CM感知模块以TM模块输出T∈RS×C为输入,将T以批量大小为S的C维输入数据逐个送入相似结构的MLP层,并同样通过权重共享实现各分块内的局部信息交互与重组。CM模块的具体表达式为:

特征的分层表征与重组可极大提升模型的高阶信息感知能力。因此,本文通过多个混合感知层实现判别性特征提取。最后,通过全局均值池化与全连接层投影实现心音信号的类别预测。这里采用交叉熵函数作为目标监督,通过梯度反向传播进行模型参数优化。

2 实验分析

为了验证混合感知模型的心音分类效率,本节从参数分析和与现有深度模型的性能对比两方面进行了实验。其中,模型参数分析包括图像块划分大小P2和混合感知模块个数N。

2.1 实验数据与运行环境

本文实验数据来源于文献[12]提供的公开数据集,该数据集主要包含正常与不正常两类心音信号,其中不正常数据主要包含主动脉瓣狭窄(AS)、二尖瓣狭窄(MS)、二尖瓣反流(MR)、二尖瓣脱垂(MVP)四类异常心音信号。每类样本包含200条音频数据,共计1 000条,具体见表1所列。为了增加深度模型的训练样本量,本文所有实验均以1.1节给出的切割方式产生的数据为样本,以各样本的双谱图作为模型输入。所有实验利用80%的样本进行模型训练,用其余20%的样本进行测试。所有实验都是在一台配备Intel core i7-7700HQ CPU和NVIDIA GeForce GTX 1050Ti显卡的机器上进行,且均在Keras平台上实现。所有实验统计为运行10次后的均值结果。

表1 实验数据明细

2.2 模型参数分析

图像块划分大小P2会直接影响模型的局部信息感知能力。因此,本文分析了不同划分块大小对分类精度的影响,结果见表2所列,其中P2=256意味着没有对输入双谱图进行划分,即混合感知部分实质为全连接操作,而P2=4表示每邻域4个像素点为一个块(token)。结果显示不分块情况下的MLP对双谱图的局部感知能力有限,所以最终的分类精度出现明显的劣势,而4分块的混合感知条件下模型的性能显著提升。实验结果显示,并非更细化的分块对模型性能有进一步提升,其原因主要在于双谱图局部相似性,导致模型易陷入混乱的分块间位置关系学习。值得注意的是,当分块高度细化时,此时的混合感知更接近于下采样下的全局MLP,此全局感知下模型性能出现了明显的回升,但依然不及4分块下的混合MLP感知。因此,本文随后的实验均设置P2=128。

表2 图像分块大小P2对分类精度影响分析

此外,随着混合感知模块堆叠数量的增加,深度模型理论上具有更强的高阶信息感知能力。然而,面对训练数据的不足、数据多样性有限,以及深度网络的反向传播模型优化局限性,更多的感知模块并不能使模型具有更高的分类精度。表3的实验结果也进一步说明了这一点。同时,随着模块数量的增多,模型的优化参数及运算负担会不断增大,极易造成模型过拟合且限制移动端应用需求。因此,本文随后的实验中均设置混合感知模块的数量N=5。

表3 混合感知模块个数N对分类精度影响分析

2.3 实验结果对比分析

为了进一步验证本文所提混合感知模型在心音信号分类任务上的整体性能,本节选取了三个轻量级深度网络模型进行心音信号分类性能对比,包括含有三个ShuffleNet 基本单元的ShuffleNetV2模型、采取复合缩放结构的EfficientNet模型以及包含倒残差结构的MobileNetV2,并分别从分类精度、参数量、FLOPs三个指标进行模型性能对比,所有实验结果见表4所列。结果显示,本文方法的分类精度仅比ShuffleNetV2略低约1.4%,但远高于EfficientNet和MobileNetV2深度模型。同样地,由于本文方法包含多个全连接层,因此与ShuffleNetV2模型相比包含较高的参数量,但显著低于EfficientNet模型参数量。值得关注的是,本文方法在FLOPs指标上具有显著的优势,运算复杂度不到ShuffleNet模型的5%。综上所述,本文所提方法在达到基本相同的分类精度的同时,在运算效率上占据着显著优势。

表4 与不同深度网络模型的对比分析

3 结 语

针对不同病变下心音数据双谱图所呈现出的频谱空间分布差异,本文从分块内局部感知与分块间区域感知两个角度,构建混合感知机网络模型用于心音信号特征学习与分类。其中块内通道感知模块用于捕捉心音信号双谱图局部细节,而块间感知模块旨在实现分块间信息交互,并捕捉模块间的整体位置分布。多个混合感知层的特征组合与抽象,有效提升了模型对双谱图结构信息的深层感知能力。通过实验验证,本文所提方法在心音识别精度上与运算效率上均具有一定的优势。

猜你喜欢

双谱心音分块
分块矩阵在线性代数中的应用
基于双阈值的心音快速分段算法及其应用研究
双谱图在语音分析中的应用
双声道心音能量熵比的提取与识别研究
基于双谱特征融合的通信辐射源识别算法
反三角分块矩阵Drazin逆新的表示
基于自适应中值滤波的分块压缩感知人脸识别
基于多分辨率半边的分块LOD模型无缝表达
基于小波包域双谱的风力机振动信号监测方法研究
二维心音图特征提取与识别方法的研究