基于帧间PCA特征降维的咳嗽识别
2016-02-23朱春媚
朱春媚,黎 萍
(1.电子科技大学中山学院 机电工程学院,广东 中山 528403;2.华南理工大学 自动化科学与工程学院,广东 广州 510641)
基于帧间PCA特征降维的咳嗽识别
朱春媚1,2,黎 萍1
(1.电子科技大学中山学院 机电工程学院,广东 中山 528403;2.华南理工大学 自动化科学与工程学院,广东 广州 510641)
咳嗽是呼吸系统疾病常见的症状,咳嗽的自动监测在临床上具有重要的辅助诊断意义。作为便携式咳嗽监测仪的软件算法,咳嗽识别具有小样本、粗分类和运算速度要求高的特点,这使得特征降维在咳嗽识别中具有重要意义。咳嗽识别一般采用39维的Mel倒谱系数作为特征量,特征维数不高导致帧内特征降维效果不显著。针对这个问题,文中对咳嗽的声学特点进行分析,在得出咳嗽特征集中体现在爆发相的结论基础上,提出了一种基于主元分析法(PCA)的帧间特征降维方法。采用主元分析得到映射矩阵和主元个数后,以每6帧为一组进行分组降维,然后组合降维后的特征作为总特征,将咳嗽识别的特征数量降维至原来的23.9%。采用隐马尔可夫模型作为分类器,多组录音样本的咳嗽识别实验结果表明,该降维方法能在改善识别准确率的同时,有效减少算法的运行时间、提高咳嗽识别的效率。
咳嗽监测;咳嗽识别;主元分析法;特征降维
0 引 言
咳嗽是呼吸系统疾病常见的症状,咳嗽的自动监测在临床上具有重要的辅助诊断意义。目前已有多种类型的便携式咳嗽监测仪,能有效实现对咳嗽的长时间记录[1-5]。作为便携式咳嗽监测仪的软件算法,咳嗽识别的主要目标是实现长时间监测结果中咳嗽的自动识别和分类,以帮助医生进行快速、准确的诊断。咳嗽识别的应用要求和分类特点使得特征降维对咳嗽识别具有重要的意义,主要体现在:
(1)便携式咳嗽监测仪需对咳嗽进行连续、长时间(一般为24小时)的监测,并对包含几万个声音样本的监测结果进行分析,所以对其配套的咳嗽识别算法的运行速度要求较高。特征降维有利于提高算法的运行速度。
(2)目前咳嗽还没有公共的大型数据库,而且符合一定呼吸疾病类型的咳嗽样本采集范围较小,与语音识别相比属于小样本的情况,特征数量过多容易出现过拟合现象,不利于提高识别率。
(3)咳嗽识别一般只需要区分咳嗽与非咳嗽,与语音识别相比分类要求低。传统的语音识别特征用于咳嗽识别存在冗余,存在降维的空间。
目前关于咳嗽特征降维的研究不多,文献[6]利用中位频率和频谱能量过滤无语音片段,有效压缩了需要处理的数据量,但不属于特征降维;文献[7]采用信息论准则对咳嗽识别中由Mel倒谱系数(MFCC)、响度、谱质心、谱变化等组成的220维混合参数降维至50维,属于帧内特征降维。对于咳嗽识别系统广泛使用的线性预测系数(LPC)、MFCC等特征,由于帧内降维的空间不大,直接进行帧内降维难以获得好的效果。
针对这个问题,文中结合咳嗽的声学特点,提出了一种基于主元分析法(PCA)的帧间特征降维方法,并采用隐马尔可夫模型(HMM)实现咳嗽识别。
1 数据来源
实验样本来自医院病房,使用DELL原装机的声卡信号采集设备进行单声道采样,采样频率为8 000 Hz,每个录音保存为16位数字量化的WAV文件。选取不同性别、年龄和呼吸感染情况的病人进行连续、长时间的日常录音。人工分割成单个咳嗽信号作为咳嗽样本,并随机截取时长为0.2~3 s的非咳嗽信号作为非咳嗽样本。
2 方法实现
PCA是一种通过降维技术把多个变量化为少数几个主成分(即综合变量)的统计分析方法[8]。文中采用PCA来实现帧间特征降维。由于处理对象是时间长度不确定的声音信号,帧间特征降维需要解决的主要问题是信号帧数不同导致的特征维数不同。文中根据咳嗽的声学特点采用分组的方法来实现。
2.1 咳嗽的声学特点
研究发现,一个完整的咳嗽时域波形由爆发相(第一声)、平稳过渡期和第二声三相组成,如图1所示。
其中第二声是可选的,有的咳嗽没有第二声[9]。
图1 一个典型咳嗽的时域波形图
咳嗽特征集中体现在爆发相(第一声),其持续时间一般在60 ms以内[9]。按帧长240(30 ms),帧移80(10 ms)分帧时,对应信号的前6帧。因此,主元分析时,每个咳嗽信号可以取最具咳嗽特征的前6帧作为样本;得到映射矩阵后,把每个输入信号的原始特征按每6帧分组,则每组的特征维数与映射矩阵对应,然后分组进行降维。
由于第二声咳嗽可选,而平稳过渡期没有包含很多的特征信息,分组若出现小于6帧的维数,可以直接舍弃。
2.2 咳嗽特征PCA分析
文中采用12阶MFCC参数和对数能量,并求其一阶差分和二阶差分,得到共39维参数作为一帧咳嗽信号的原始特征参数。
得到39维的MFCC参数之后,对咳嗽样本的前6帧进行主元分析,步骤如下:
(1)构造原始的特征数据矩阵A。
(1)
其中:n是每个样本前6帧的特征总数,文中采用39维MFCC作为一帧信号的特征参数,则前6帧的特征总数为234维,即n=234;m是咳嗽样本数;xij是第i(i∈{1,2,…,m})个样本的第j(j∈{1,2,…,234})维特征。
(2)对A进行标准化,得到矩阵B:
(2)
(3)
(4)
(3)计算协方差矩阵BTB,得到n*n的方阵。
(4)计算BTB的特征值λ和特征向量P,满足
PTBTBP=Λ
(5)
(6)
其中,λ1,λ2,…,λn按从大到小排序,对应的特征向量P即为降维的映射矩阵。
(5)计算累计贡献率:
(7)
一般取累计贡献率达85%~95%时,对应的L即为主元个数。
文中采用m=536个咳嗽样本,得到原始数据矩阵A为536*234的矩阵,按以上步骤计算得到特征值及其累计贡献率,如图2所示。
图2 主元分析得到的特征值及其累计贡献率
为了尽可能保留原有的特征信息,文中取累计贡献率达到95%,得到的主元个数L=56。
因此可见,通常用于咳嗽识别的MFCC特征存在大量的冗余。
2.3 分组特征降维
主元分析得到映射矩阵和主元个数后,每个输入信号的特征以每6帧为一组进行分组降维,然后组合各组降维后的特征作为总特征。
记第i组的原始特征参数为:
Fi=[ai1,ai2,…,ain]
(8)
其中,n=234。
(9)
其中:pij为主元分析映射矩阵P的第i行第j列元素;L=56。
降维后每组的特征维数等于主元个数,即56维。把降维后的各组特征参数按分帧顺序组合在一起,得到最终特征为F=[F1,F2,…,FK]T。
其中,K为分组的组数。
分组特征降维流程如图3所示。
图3 咳嗽特征降维流程图
3 实 验
3.1 识别模型
咳嗽识别采用含3个隐含状态的自左向右HMM来实现,每个状态为包含3个高斯元的混合模型。采用K-均值的方法初始化高斯混合模型参数,训练过程采用Baum-Welch[10]算法,识别采用Viterbi算法[10],HMM训练的迭代次数为40。
3.2 实验样本
HMM训练样本分别取150个咳嗽和150个非咳嗽信号。其中,非咳嗽样本包含了各种类似咳嗽的信号,如清嗓声、笑声、说话声、呼噜声和撞击性声音。咳嗽样本包含了不同类型的咳嗽,如轻度咳嗽和重度咳嗽,有痰咳嗽和无痰咳嗽,无噪声环境下的咳嗽和有噪声环境下的咳嗽。
咳嗽识别时,测试样本选取4组来自不同性别、年龄和呼吸感染情况的病人的录音,每个录音中的所有咳嗽和从该录音中随机截取的160个非咳嗽信号作为一组测试样本,共4组测试样本。每组测试样本中人工分割得到的咳嗽信号分别为231个,78个,201个和126个。
3.3 实验结果
降维前每组MFCC的维数为234维,降维后为56维,是原始特征数量的23.9%。降维前后算法的识别结果如表1所示。由于降维减少了特征冗余和过拟合现象,相当于扩大了HMM的训练样本集,从而改善了HMM的识别效果。降维后4组样本的平均识别率为92.61%,相对降维前提高了2.34%。
表1 咳嗽识别率对比
在Windows XP系统下,采用Matlab 2012开发软件,降维前后算法的运行时间如表2所示。降维后HMM的训练时间由原来的770 s降至96 s,相对下降了87.53%;4组样本的平均识别时间由降维前的27.32 s降至7.66 s,相对下降了71.96%。
表2 算法运行时间对比 s
可见,特征量的大幅度降维使得HMM所需的训练时间和识别时间都明显减小,这对于包含高达几万个声音样本的长时间咳嗽监测结果的分析来说,将极大提高其咳嗽识别的效率。
4 结束语
咳嗽识别的应用要求和分类特点使得咳嗽特征降维具有重要的意义。文中针对帧内特征降维效果不佳的问题,结合咳嗽的声学特点,提出一种基于主元分析法的帧间特征降维方法。该方法采用分组降维的方式,把每组234维的特征降至56维,特征数量为原始数据的23.9%,并采用隐马尔可夫模型为分类器实现了咳嗽的自动识别。实验结果表明,与现有的直接采用传统的MFCC作为特征的咳嗽识别方法,如文献[11-14]相比,文中方法能在提高识别率的同时,大大减少分类模型训练和识别的计算量,有效减少了算法的运行时间、提高了咳嗽识别效率,对于连续、长时间的咳嗽监测结果的自动分析具有实用价值。
文中的降维映射矩阵和主元个数是对咳嗽样本进行主元分析得到的,因此咳嗽样本的选取对降维效果有直接的影响,样本的性质与待识别的咳嗽相近则降维后的识别效果较好。后续研究中将探讨如何更加合理地选择咳嗽样本的类型、数量以及减少噪声的影响。
[1] McGuiness K,Kelsall A,Lowe J,et al.Automated cough detection:a novel approach[J].American Journal of Respiratory and Critical Care Medicine,2007,175:381-381.
[2] Vizel E,Yigla M,Goryacheyv Y,et al.Validation of an ambulatory cough detection and counting application using voluntary cough under different conditions[J].Cough,2010,6(1):1-3.
[3] Barry S J,Dane A D,Morice A H,et al.The automatic recognition and counting of cough[J].Cough,2006,2(1):8-9.
[4] Matos S,Birring S S,Pavord I D,et al.An automated system for 24-h monitoring of cough frequency:the leicester cough monitor[J].IEEE Transactions on Biomedical Engineering,2007,54(8):1472-1479.
[5] Wilhelm F H,Toth W T,Sackner M A.The lifeshirt an advanced system for ambulatory measurement of respiratory and cardiac function[J].Behavior Modification,2003,27(5):671-691.
[6] Barton A,Gaydecki P,Holt K,et al.Data reduction for cough studies using distribution of audio frequency content[J].Cough,2012,8(1):8-12.
[7] Drugman T,Urbain J,Bauwens N,et al.Audio and contact microphones for cough detection[C]//Proc of 13th annual conference of the international speech communication association.Oregon:ISCA,2012.
[8] Mackiewicz A, Ratajczak W. Principal components analysis (PCA)[J].Computers and Geosciences,1993,19:303-342.
[9] Korpáš J, Sadloňová J,Vrabec M.能性Analysis of the cough sound:an overview[J].Pulmonary Pharmacology,1996,9(5):261-268.
[10] Rabiner L.A tutorial on hidden Markov models and selected applications in speech recognition[J].Proceedings of the IEEE,1989,77(2):257-286.
[11] Hollier C A,Harmer A R,Maxwell L J,et al.Validation of respiratory inductive plethysmography (LifeShirt) in obesity hypoventilation syndrome[J].Respiratory Physiology & Neurobiology,2014,194(1):15-22.
[12] 石 锐,王 博,何庆华.基于高斯混合模型的咳嗽音检测方法[J].计算机工程与应用,2011,47(32):151-154.
[13] Swarnkar V,Abeyratne U R,Amrulloh Y,et al.Neural network based algorithm for automatic identification of cough sounds[C]//Proc of 35th annual international conference of the IEEE on engineering in medicine and biology society.Osaka,Japan:IEEE,2013:1764-1767.
[14] Drugman T.Using mutual information in supervised temporal event detection:application to cough detection[J].Biomedical Signal Processing and Control,2014,10(1):50-57.
Cough Recognition Based on Inter-frame PCA Feature Dimension Reduction
ZHU Chun-mei1,2,LI Ping1
(1.Mechanical and Electrical Engineering College,Zhongshan Institute of University of Electronic Science and Technology,Zhongshan 528403,China;2.College of Automation Science and Engineering,South China University of Technology,Guangzhou 510641,China)
Cough is a common symptom of respiratory diseases and automatic cough monitoring has important significance in clinical diagnosis.As a software algorithm of portable devices used in computer-aided diagnosis,cough recognition has the characteristics of small sample,rough classification and requirement for high computing speed,which makes feature dimension reduction necessary.Cough recognition commonly adopts 39-dimention MFCC as feature which results to the poor performance of dimension reduction within frame.To dress this problem,acoustic characteristics of cough is analyzed.Based on the finding that feature of cough is mainly reflected in explosive phase,a method of inter-frame feature dimension reduction based on Principal Component Analysis (PCA) is proposed.This method reduces dimension in each group of six frames,and combines each group of reduced feature as the general feature,in which only 23.9% of the original features are adopted.Automatic recognitions of cough using hidden Markov model are carried out,and the results of various groups of samples show that this method can both improve the recognition rate and reduce the running time of the recognition algorithm to increase the recognition efficiency.
cough monitoring;cough recognition;PCA;feature dimension reduction
2015-06-30
2015-09-30
时间:2016-02-18
广东省高等学校学科与专业建设专项资金(2013LYM0103);中山市科技计划项目(2014A2FC383)
朱春媚(1981-),女,在职博士研究生,讲师,研究方向为生物医学信号处理、智能控制。
http://www.cnki.net/kcms/detail/61.1450.TP.20160218.1636.080.html
TP391.42
A
1673-629X(2016)03-0040-04
10.3969/j.issn.1673-629X.2016.03.010