APP下载

基于小波分解和Mel频率的儿童咳嗽干湿性自动分类

2018-09-26俞一奇徐文龙刘晓芳

计算机应用与软件 2018年9期
关键词:湿性波包小波

俞一奇 徐文龙 刘晓芳 张 宁

1(中国计量大学信息工程学院 浙江 杭州 310018)2(丽水市人民医院 浙江 丽水 323000)

0 引 言

咳嗽是由气管或支气管受物理、化学或异物刺激所引起,具有清除呼吸道异物以保护呼吸系统的作用[1]。儿童患有呼吸道疾病后,咳嗽作为最明显的症状之一,可以间接反映出所患疾病的种类。咳嗽按性质可分为湿性咳嗽和干性咳嗽两类。湿咳时会有痰,常见于慢性支气管炎、肺炎和肺脓肿等;干咳时无痰或只有少量痰,常见于气管炎、慢性喉炎或因气管内含有异物等[2]。由于干湿性咳嗽分类在临床上的重要作用,但儿童一般难以描述自身咳嗽表现,因此儿童咳嗽的干湿性自动分类就显得尤为重要。

咳嗽音是咳嗽过程中产生的声音信号,其包含了咳嗽过程时的诸多信息。通过对咳嗽音的自动分析从而判断出咳嗽类型将能提高诊断的有效性和及时性,也是计算机辅助诊断在医疗领域新应用。目前关于咳嗽音的干湿性分类研究,通常采用梅尔频率倒谱系数MFCC(Mel frequency cepstrum coefficient)作为特征向量。李文等[3]使用MFCC和动态时间规整的方法实现对咳嗽音的干湿性自动分类;Swarnkar V[4]将MFCC、过零率及峰度系数作为特征向量,并结合Logistics回归模型实现儿科患者咳嗽音的干湿性分类。

MFCC特征量[5]根据人耳的听觉特性设计了一组低频区域分布密集、高频区域分布稀疏的滤波器组来提取信息。但发生湿性咳嗽的过程中呼吸道内存在大量痰液,痰液加剧气流震荡使得中、高频成分分量增加,因此MFCC未能充分反映干湿性咳嗽在中高频段的差异。

两类咳嗽音信号在频域上的差异可体现为对应能量分布的差异,通过小波包变换[6-7]可以得到各频率段对应的能量系数。但小波包变换只能对频率进行线性均分,忽略了咳嗽音信号低频段能量高、高频段能量低的特点,得到的各频段能量过于分散,难以观察到中高频段上细微差异。

于是本文根据MFCC和小波包变换各自的特点,对提取的各频段小波能量系数作Mel频率刻度的非线性调整,拉伸低频段能量、压缩高频段能量,达到弱化低频特征、强化高频特征的目的,从而使该特征向量能更有效地反映两类咳嗽音信号间的差异。

1 小波包能量提取

1.1 小波包变换原理

对于一个平方可积信号f(t),其连续小波变换为:

(1)

(2)

式中:a为伸缩因子,以产生多分辨率特性;b为平移因子。φa,b(t)是由母小波φ(t)经伸缩和平移产生的一系列小波基函数。

在离散小波变换中,令参数a=2-j,b=k2-j,其中j,k∈Z,则离散小波基函数为:

ψ2-j,k2-j(t)=2j/2ψ(2jt-k)

(3)

对应于离散小波基函数ψ2-j,k2-j(t)的离散小波变换为:

(4)

将Mallat小波快速算法[8]推广到小波包分解,可得到以下小波包快速分解和重构算法。

节点(j+1,p)处的小波包系数为:

(5)

(6)

(7)

1.2 小波包分解

从采集到的咳嗽音数据集(数据来源及采集方法见3.1节)中选取典型的干、湿性咳嗽音作短时傅里叶变换(STFT),得到的语谱图[9]如图1所示。

图1 咳嗽音时域波形及语谱对比图

从图中可知,咳嗽音的频带主要分布100~4 000 Hz范围内,且湿性咳嗽音在2 000 Hz以上的频带能量要明显高于干性咳嗽音,这与引言中的分析相互印证。由于之后要将各频段能量作Mel频率刻度的非线性伸缩,因此需要对咳嗽音信号作尽可能细致的频率划分。将最小频带宽度(频率分辨率)设为50~70 Hz,得到约60~80个频带,于是采用6层小波包按图2小波包分解树对信号进行分解。

图2 6层小波包分解树

第一层分解,原信号频率范围为0~4 000 Hz,分解后得到第一层低频部分(1,0)和高频部分(1,1),对应的频率范围分别为0~2 000 Hz和2 000~4 000 Hz。

第二层分解,对第一层低频部分(1,0)进一步分解,得到相应的低频部分(2,0)和高频部分(2,1),对第一层高频部分(1,1)也同样进行分解,得到相应的低频部分(2,3)和高频部分(2,2)。四个节点(2,0)、(2,1)、(2,2)、(2,3)对应的频率范围分别为0~1 000 Hz、1 000~2 000 Hz、3 000~4 000 Hz、2 000~3 000 Hz。

照此分解,在第6层分解完后共获得64个节点,每个节点的频带宽度为62.5 Hz。64个节点对应的频率范围按从小到大排序后分别用d1,d2,…,d64表示。

1.3 小波系数能量提取

通过小波包分解实现了对咳嗽音信号的频率均分,但得到的小波系数维数较高,无法直观地反映各频段的构成。而小波能量系数[10-11]可作为原始信号在不同频段的特征,且各频段的能量占比可以清楚地反映原始信号的各频率成分分量组成。小波能量系数可表示为:

(8)

图3 干湿性咳嗽音6层小波包能量分解对比图

从图中可以看出,无论是干性咳嗽音还是湿性咳嗽音,其低频部分能量都占绝大部分比重,且随着频段的上升能量系数呈递减趋势,但是两类咳嗽音信号之间的能量差异并不明显。根据图1观察到的结果,干性咳嗽音和湿性咳嗽音在中高频段(2 000 Hz左右)会有较为明显的能量分布差异,这些频段可以称为有效频段。由于低频段能量占比较大,使得有效频段能量被低频能量湮没,差异并不明显。

2 基于Mel频率刻度的非线性伸缩

2.1 Mel频率

Mel频率[12]描绘的是人耳听觉系统对声音频率的敏感度,即人耳听觉对低频声音敏感而对高频声音不敏感。当声音频率在1 000 Hz以下时,人耳听到的频率与实际频率呈线性相关;而当声音频率超过1 000 Hz时,人耳听到的频率与实际频率呈对数关系,因此Mel频率与实际频率的关系为:

(9)

2.2 频段的非线性伸缩

在Mel频率刻度下,将整个频域范围[0,4 000 Hz]均分为16个频段,上限Mel频率为2 146 Hz,Mel频率间隔为134.1 Hz,转换为线性频率后各频段对应的频率范围见表1所示。

表1 各频段对应的频率范围和小波频段

根据表1各小波频段对应关系将图3中的64个小波能量系数作叠加运算,得到Mel频率下16个频段的小波能量分布图,见图4(a)所示。同时对图3中的64个小波能量系数作4个一组的叠加运算,得到线性频率下16个频段的小波能量分布图,见图4(b)所示。

图4 两种频率伸缩方式对比图

对比图4(a)、(b)图可以发现,通过Mel频率刻度的非线性伸缩后,原本两类咳嗽音信号中占比都较高的低频段能量得到了削弱,降低了两类信号间相同特点对识别的干扰;同时强化了两类咳嗽音信号中高频段的能量分布差异,加大了不同特点在识别过程中的积极影响,从而提高识别效果。

3 实验方法和结果

3.1 数据来源

本文实验数据样本来自医院儿科病房,采用索尼ICD-PX440录音笔进行双声道采样,采样频率为8 000 Hz,录音文件保存为16位的MP3格式。为保护患儿隐私,采样过程前已征得其监护人同意,采样完成后将其姓名略去,以编号代替。实验共选取50名患儿,年龄分布为出生6个月至8岁,平均年龄5岁,主要患有肺炎、支气管炎、哮喘等呼吸道疾病。其中以湿性咳嗽为主的患者有31例,男19例,女12例;以干性咳嗽为主的患者有19例,男11例,女8例。数据采集中将录音笔放置在距头部约40~70 cm的床头边上,进行一整夜连续采集,事后对录音进行人工裁剪,从每一段录音中截取10个清晰的单个咳嗽音信号,共计500个,并在专业医师指导下将所有咳嗽音信号分成干性咳嗽音信号数据集和湿性咳嗽音信号数据集,各284个和216个。

3.2 特征提取过程

基于Mel刻度变换的小波能量特征提取过程如图5所示。

图5 Mel刻度变换的小波能量特征提取流程

(1) 对咳嗽音信号进行加窗分帧,帧长为20 ms,窗函数选取汉明窗,相邻帧之间取一半帧长重叠,以减少信息丢失。

(2) 采用db3小波对每帧信号进行6层小波包分解,得到64个小波包系数d1,d2,…,d64。

(3) 将小波包系数d1,d2,…,d64转化为对应能量系数ed1,ed2,…,ed64。

(4) 根据表1对64个频段的小波能量系数作Mel频率刻度的非线性伸缩,得到每帧16维的Mel刻度小波能量特征。

3.3 分类模型

隐马尔可夫模型HMM(Hidden Markov Model)[13]在咳嗽音等非平稳信号识别过程中表现出优秀的动态序列建模能力,本文采用HMM作为干湿性咳嗽音的分类模型,识别步骤如下:

(1) 为干、湿性咳嗽信号各定义一个HMM,记为H={h1,h2},HMM中含有3个自左向右的隐含状态,每个状态包含3个高斯元函数。

(2) HMM参数初始化。设初始概率π的第一个元素为1,其余为0;设转移矩阵A本状态保持概率和下一状态转移概率均为0.5;采用C均值[14]方法初始化输出概率矩阵B,得到各高斯元函数的均值、方差和权重系数。

(3) 从干、湿性咳嗽音信号数据集中各取150、100个咳嗽音作为训练样本,采用Baum-Welch算法[15]分别训练hi(i=1,2),得到最佳模型ui,其中迭代次数设为50。

(4) 用训练好的模型ui(i=1,2)进行分类。采用Viterbi算法[16]对预测向量O计算Pr(O|ui)(i=1,2),若Pr(O|uj)=max(Pr(O,ui),i=1,2)),则预测向量O属于hj类。

3.4 结果比较

将数据集中除训练样本外的咳嗽音作为测试样本,得到的分类结果如表2所示。由表可知,湿性咳嗽分类的准确率要略高于干性咳嗽分类的准确率,这可能是因为在咳嗽音采集的过程中偶尔存在中高频的环境噪声,例如病房中的监护仪等医学仪器,导致原本是干性咳嗽音的信号增加了部分中高频成分分量而被误分类成湿性咳嗽音信号。

表2 有、无使用方差分析的特征提取分类结果对比表

为验证小波能量系数经Mel频率刻度变换后的有效性,本文又做了采用线性频率刻度的16维小波能量和16维MFCC为特征向量的对比实验,分类模型同样为HMM,对比结果见表2。可以看出经过Mel频率刻度变换后的小波能量特征具有更好的识别结果,识别准确率相较于其他两者分别提升了10%、5.6%。

MFCC为了获取语音信号中更为丰富的低频信息,选择在低频段放置更多的滤波器,从而忽略了咳嗽音中更有效的高频信息,因此该特征在人耳较易分辨的语音识别中能起到明显效果,但在人耳难以辨别的咳嗽音类型识别过程中却未见得最为理想。线性频率刻度下的小波能量特征仅是对各频段的能量进行分解,也未充分考虑到两类咳嗽音信号间的差异,因此识别效果一般。而对各频段小波能量施加Mel频率刻度变换后,使原本存在于干湿性咳嗽音信号间的中高频差异变得更为明显,从而提高干性咳嗽音和湿性咳嗽音间的区分能力。

4 结 语

通过对小波能量进行Mel频率刻度的非线性伸缩再使用HMM分类,得到了一种新的咳嗽音干湿性分类方法。实验结果表明该方法实现了较高的分类准确率,提高该方法分类结果准确性的原因在于对不同频段的小波能量系数进行了重新调整,通过使两类咳嗽音信号间具有相同特点的低频能量得到弱化、具有不同特点的高频能量得到强化,从而提升结果的准确性。而Mel频率刻度具有一定的声学原理和基础,在实践中也得到了广泛的运用和认可。相比于其他咳嗽音特征提取方法,本文提出的方法使两类咳嗽音差异性更加明显,获得的特征向量维度低使得分类模型识别速度更快。但是此方法依赖于中高频段的小波能量差异,若采集环境中包含了过多该频段的其他噪声则会对分类模型造成干扰,从而降低最终结果的准确性,因此下一步的研究重点将会是如何去除该频段的环境噪声但不损失有效的咳嗽音信息。

猜你喜欢

湿性波包小波
哀牢山自然保护区楚雄州辖区中山湿性常绿阔叶林物种多样性比较
构造Daubechies小波的一些注记
基于支持向量机和小波包变换的EOG信号睡眠分期
湿性愈合法在慢性伤口愈合护理中的运用分析
玻璃体内注射康柏西普与雷珠单抗治疗湿性黄斑变性的效果及安全性比较
基于动态阈值函数的改进小波包遥测信号去噪方法
基于Haar小波的非线性随机Ito- Volterra积分方程的数值解
雷珠单抗联合和血明目片治疗老年性黄斑变性(湿性)的临床研究
基于MATLAB的小波降噪研究
基于小波包的锅炉炉管声波信号自适应压缩感知