APP下载

几种循环神经网络和时频掩码在心肺音分离中的应用

2020-03-20陈骏霖张财宝

自动化与信息工程 2020年1期
关键词:心音掩码时频

陈骏霖 张财宝

(广东工业大学,广东 广州 51006)

0 引言

有效分离心音和肺音信号在心肺系统的监测和诊断中非常重要。分离的心音可用于患者心脏跳动状态的实时诊断,如第一和第二心音分割研究和睡眠参数评估[1];分离的肺音可用于患者手术麻醉的呼吸监测[2]。但心音和肺音在60 Hz~320 Hz频带存在相互干扰,传统的带通滤波[3]无法将它们完全分离。

为解决这一问题,国内外学者提出了许多方法,其中基于非负矩阵分解(Non-negative matrix factorization, NMF)模型和基于长短时记忆(long short time memory, LSTM)网络的心肺音分离方法取得了较好的分离效果。2015年,Shah等人提出基于短时傅里叶变换(short time Fourier transform, STFT)时频谱和NMF的心肺音分离方法[4]。该方法借助NMF捕捉准周期心肺音频谱成分,并依据心肺音的频域分布差异,对这些频谱成分进行聚类。其分离性能显著优于基于先验知识的带通滤波方法。2017年,Canadas等人改进了Shah等人的方法,先对混合信号的STFT时频谱进行 NMF;然后联合频谱基函数和时域激活向量进行聚类[5]。该方法同时利用了心肺音成分的时、频分布差异,增强心肺音分离的性能。2019年,朱俊霖等人提出了基于标签约束NMF的心肺音分离方法,将参考信号以标签形式加入到混合信号时频谱的NMF中,增强了心肺音分离效果[6]。但NMF属于线性矩阵分解模型,无法挖掘心肺音时频谱的非线性时序信息。同年,雷志彬等人提出了基于STFT和LSTM的心肺音分离网络,利用心音或肺音时频谱非线性特征空间中潜在的时序相关性,获得了当前最优的心肺音分离性能[7]。

然而,基于STFT和LSTM的心肺音分离网络选用的LSTM模型存在结构复杂、参数较多、收敛速度慢、无法挖掘时频谱时序上下文关系等问题。为此,本文将门控循环单元(gated recurrent unit, GRU)[8]、双向 LSTM(bidirectional LSTM, BiLSTM)和双向GRU(bidirectional GRU, BiGRU)3种循环神经网络变体应用于心肺音分离。

心音和肺音幅度谱的估计,一般以估计心音和肺音的时频掩码作为中间步骤。常见时频掩码有理想二值掩码(ideal binary mask, IBM)[9]和理想比例掩码(ideal ratio mask, IRM)[10]等。利用心音或肺音时频掩码,结合心肺音混合信号的相位谱,通过逆变换方法即可重构心音或肺音信号的时域波形。常用的时频掩码没有考虑源信号的相位信息。但最近的一些研究表明,在时频掩码中加入相位信息有利于提高目标信号的感知质量和可懂度,如理想相位敏感掩码(ideal phase sensitive mask, IPSM)[11]。

本文将LSTM,GRU,BiLSTM,BiGRU 4种循环神经网络应用于心肺音分离,同时分别与2种时频掩码组合进行仿真,比较不同模型和不同时频掩码的心肺音分离性能。

1 心肺音混合模型

本文采用的心肺音混合模型为

式中,x(m)为离散时间的心肺音混合信号;m= 1,2,...,M表示时间采样点;xπ(m)表示源信号,π∈ {c,r},c和r分别表示心音和肺音;η表示高斯白噪声。

为简单起见,在心肺音混合模型式(1)中,假设心肺音信号和噪声信号线性混叠[12]。

电子听诊器作为采集心肺音信号的常用医疗仪器,采集的信号通常存在高斯白噪声。去除噪声的传统方法有小波变换[13]、经验模态分解(empirical mode decomposition, EMD)[14]等。本文只关注无噪环境下心肺音混合信号的分离,因此心肺音混合信号只含有心音和肺音,可用以下数学模型表示:

2 基于循环神经网络的心肺音分离模型

本文提出的基于循环神经网络的心肺音分离模型如图1所示。该分离模型的输入为心肺音混合信号的时频谱,一般通过短时傅里叶变换时频分解得到,能够反映心肺音混合信号特征的时域和频域变化关系。将心肺音混合信号的时频谱输入循环神经网络(GRU/BiLSTM/BiGRU),得到心音和肺音时频掩码;心音和肺音时频掩码与心肺音混合信号的时频谱进行点乘,得到估计的心音和肺音时频谱;估计的心音时频谱和肺音时频谱分别与标签的心音时频谱和肺音时频谱进行均方误差再求和,其结果作为心肺音分离模型的代价函数值。

2.1 GRU神经网络

2014年Cho等人提出了GRU[8],其结构如图2所示。GRU模型使每个循环单元能够自适应性地捕获不同时间尺度的特征信息。GRU与LSTM一样拥有可调节单元内部信息流的门控单元,但没有独立的记忆单元。

图2 GRU结构[15]

第t个时刻第j个GRU的当前激活状态用第t−1个时刻的先前激活状态和候选激活状态之间的线性插值来表示:

当前状态和计算更新后的状态之间进行线性求和的过程类似于LSTM。候选激活状态的计算方式

类似于传统的循环神经网络单元。

式中,tr为一组重置门;⊙为逐个元素进行相乘。

2.2 BiLSTM神经网络

BiLSTM在标准RNN的基础上,通过前向状态和后向状态来捕获长期依赖关系,其结构如图3所示。

图3 BiLSTM结构[16]

对于每个时刻,BiLSTM不仅考虑先前时刻的信息,还考虑未来时刻的信息。前向LSTM的隐含状态通过先前状态和输入来表示:

式中,xt表示信息的输入;表示先前状态;表分别表示输入门、忘记门、输出门和调制门;表示一种新的记忆细胞向量,其候选项可以添加到前向状态中;W和b分别表示权重和偏置。示隐含状态;

反向LSTM的运算过程与前向相同。

2.3 BiGRU神经网络

BiGRU由相反传输方向的2个隐藏层连接到同一输出层,以便输出层从过去和未来的状态中获取特征信息,这样BiGRU能够从2个不同的数据方向学习信息,可更准确预测。BiGRU将标准GRU单元分为前向状态和反向状态,其结构如图4所示。

图4 BiGRU结构[17]

由图4可以看出,BiGRU第t个时刻的隐含层状态不仅取决于该时刻的输入xt和前向状态(正方向)的隐含层状态输出,而且还取决于后向状态(反方向)的隐含层状态输出。

2.4 时频掩码

本文采用IBM和IPSM 2种时频掩码作为心肺音分离模型的目标掩码。

IBM是语音分离的主要计算目标,该掩码假设每个时频单元只有一个源信号占主导地位。针对每个时频单元,如果目标(target)时频谱大于噪声(noise)时频谱,则将相应的掩码值设置为1,否则设置为0。IBM定义为

IPSM 考虑了源信号与输入混合信号之间的相位差异,相较于其他掩码,在语音分离领域有更好的分离效果,其定义为

式中,xθ为心肺音混合信号的相位;θπ为源信号π的相位。

2.5 代价函数

基于循环神经网络的心肺音分离模型的代价函数为

式中,Ω表示模型所有可训练的参数;B=T×F×2为心音和肺音信号时频点的总数;c和r分别为心音和肺音;为模型估计的心音或肺音的时频掩码;X为心肺音混合信号的时频谱;Xπ为标签心音或肺音的时频谱。

3 实验和结果分析

3.1 实验设置

从公开数据集[18-25]中选出干净的心音和肺音信号构建仿真数据集。其中,心音信号共102条采自47个被试者;肺音信号共57条采自36个被试者;采集时长为2 s~70 s,采样率为4 kHz或44.1 kHz。为便于分析,首先将采样率统一降至2 kHz;然后将心音和肺音信号都切割成长度为10 s的片段(不足10 s的信号补零),共获得心音信号121段,肺音信号62段;最后按照1:1的心肺音能量比合成听诊信号,并通过分离得到的心音和肺音信号的信噪比(signalto-noise ratio, SNR)来评估心肺音分离性能。

式中,sP为信号能量;nP为噪声能量。SNR越高,表示心肺音分离性能越好。

由于数据集规模较小,以三重交叉验证的平均SNR来度量不同方法的心肺音分离性能。三重交叉验证的数据构成如下:

1) 先将干净的心音信号和肺音信号分别划分为3组,用{H1,H2,H3}和{L1,L2,L3} 表示,不同组的心/肺音数据采自不同的被试者;

2) 第一重交叉验证将H1和L1合成听诊信号作为验证集,将{H2∪H3}和{L2∪L3} 合成听诊信号作为训练集;

3) 同样,第二重和第三重交叉验证将对应下标的心音信号和肺音信号合成听诊信号作为验证集,将其余的心音信号和肺音信号合成听诊信号作为训练集。

各重交叉验证的训练集和验证集规模如表1所示。

表1 交叉验证的训练集和验证集规模

3.2 实验结果和分析

时频掩码为IBM时,4种循环神经网络的心肺音分离性能比较如表2所示。由表2可以看出,相比于LSTM,GRU和BiLSTM,BiGRU分离的心音信噪比分别提高了1.44 dB,0.58 dB和0.27 dB;分离的肺音信噪比分别提高了1.47 dB,0.47 dB和0.17 dB。表明在时频掩码为IBM时,BiGRU具有更优的心肺音分离性能。

表2 实验结果对比

时频掩码为IPSM时,4种循环神经网络的心肺音分离性能比较如表3所示。由表3可以看出,相比于LSTM,GRU和BiLSTM,BiGRU分离的心音信噪比分别提高了1.73 dB,0.52 dB和0.2 dB;分离的肺音信噪比分别提高了1.53 dB,0.57 dB和0.28 dB。表明在时频掩码为IPSM时,BiGRU具有更优的心肺音分离性能。

表3 实验结果对比

对比表2和表3可以看出:选用IPSM作为时频掩码的分离性能比IBM更好。IBM假设每一个时频单元只有一个信号主导,即要么是心音主导,要么是肺音主导,此假设与实际不一定符合。而IPSM没有受该假设的约束,且考虑了混合心肺音时频相位与心音和肺音时频相位的差异信息,表现更优的分离性能。综上所述,基于BiGRU和IPSM的心肺音分离方法取得最优的心肺音分离效果。

4 结语

本文将4种循环神经网络和2种时频掩码应用于心肺音分离,进行组合仿真并比较心肺音分离性能。实验结果表明:基于BiGRU和IPSM的心肺音分离方法取得最优的心肺音分离效果。

猜你喜欢

心音掩码时频
AES高阶掩码方案抗功耗攻击
旁路功耗分析中不同平台的差异化研究*
高聚焦时频分析算法研究
什么是IPv6的前缀长度
基于稀疏时频分解的空中目标微动特征分析
基于双阈值的心音快速分段算法及其应用研究
双声道心音能量熵比的提取与识别研究
基于香农熵的心音信号检测方法研究
走过春天
《计算机网络技术》的几个重点课题的教学分析