APP下载

基于Hilbert-Huang变换提取语音信号共振峰方法研究

2019-10-31李国一张正帅

智能城市 2019年20期
关键词:声道端点共振

李国一 张正帅

(山东省地震局,山东 济南 250014)

关键字:Hilbert-Huang变换;经验模态分解;共振峰

发音时,把声道看作谐振腔,气流通过声道,共振峰就是该腔体的谐振频率[1-2]。通常,共振峰定义为声道脉冲响应的衰减正弦分量,在经典的语音信号模型中,共振峰等效为声道传输函数的复数极点对[3]。语音信号的共振峰参数是语音技术应用领域的重要声学特征参数之一[4],共振峰反映了声道的响应,所以,准确有效的共振峰提取算法对语音信号的分析、合成、编码有着重要的意义。

传统的共振峰提取算法主要有离散傅立叶变换法(DFT),带通滤波器组法,倒谱法,线性预测编码法(LPC)等[5]。近些年来,也出现许多提取语音共振峰的新算法,如基于逆滤波器的共振峰提取方法[6],将语音信号分解为调制成分并采用频域线性预测算法的共振峰估计方法[7],这些提取方法都是建立在发声系统呈线性和语音信号短时平稳的假设基础上的。由于在发声过程中声门激励与声道相应之间存在相互耦合的作用而呈现非线性的特性,对传统的线性共振峰提取方法的准确性产生影响[8-9]。另外,这些提取方法中参数的设定具有一定的主观经验性,造成人为的不确定性和数据的不稳定性[4]。希尔伯特-黄变换(Hilbert-Huang Transform,HHT)是Huang N E提出的一种新的非平稳、非线性信号分析方法,本文基于HHT的自适应带通滤波特性,有效地利用信号本身决定固有模态函数的中心频率和带宽的特点,将该方法应用到语音信号共振峰提取中去。

1 希尔伯特-黄变换原理

HHT被认为是近年来对以傅立叶变换为基础的线性和稳态谱分析的一个重大突破,该方法是自适应性的,既能对线性稳态信号进行分析,又能对非线性非稳态信号进行分析[10]。HHT包括经验模态分解(Empirical Mode Decomposition,EMD)和希尔伯特变换(Hilbert Transformation,HT)两部分。经验模态分解方法假设各种复杂的信号都是由一些不同的固有模态函数组成,任何两个模态之间是相互独立的,每一个模态可以是线性的,非线性和非平稳的,其局部极值点和过零点的数目相同,在相邻的两个零交叉点之间只有一个极值点。根据这一假设,EMD分解可以将信号自适应分解成一簇本征模式函数(Intrinsic Mode Function,IFM)[11],然后将每个IMF与它的Hilbert变换构成一个复解析函数,并由此导出作为时域信号的瞬时幅值和瞬时频率。

HHT变换步骤为:

在EMD分解中,每个IMF需要多次“筛选”过程,而每一次筛选过程,需要根据上、下包络计算出信号的局部平均值。上(下)包络是由信号的局部极大(小)值通过样条插值得到的。但信号的端点不可能同时处于极大值或极小值,因此,上、下包络在数据序列两端会发散,且这种发散会随着运算的进行而逐渐向内,从而使得整个数据序列受到影响。EMD分解存在的端点效应,目前有端点镜像方法、多项式拟合法、极值延拓法、平行延拓法等进行改善[12],本文为了提高分解精度,更好地用于共振峰的提取,采用次端点镜像延拓法抑制其边缘效应[13]。

2 基于HHT的语音信号共振峰提取算法

经验模态分解相当于将语音信号通过一个窄带自适应滤波器,经过多次分解得到一系列从高频到低频,且不等带宽的IMF分量,这些分量表示一些均值为零的窄带调频调幅信号,这正好与AM-FM模型所定义的单个共振峰输出信号相吻合,能够很好地表征共振峰的时变特性。

共振峰提取之前要对语音信号进行三部分预处理,第一是对语音信号进行预加重。在语音信号处理之前通常通过插入一个一阶高通滤波器进行预加重[14],用来对语音信号提升高频分量,同时降低基频对共振峰检测的干扰。第二是对共振峰预先进行分离,通过对已加重的语音信号进行傅立叶谱计算,粗略估算出共振峰频率,以共振峰频率作为FIR带通滤波器的中心频率进行数字滤波,滤波器带宽以共振峰频率的最大变化范围和充分抑制邻近共振峰分量为原则[4]。第三是对语音信号分帧,进行端点检测的预处理。综合来说,基于HHT提取语音信号共振峰的算法流程如图1所示。主要分为5个步骤:

第一,对语音信号进行预加重和共振峰预分离计算,预加重。第二,分帧、端点检测等预处理。第三,对每个共振峰设计FIR滤波器,进行数字滤波。第四,根据能量最大原则,确定含有共振峰的某阶IMF分量,求其固有模态函数的瞬时频率和瞬时幅值。第五,提取含有共振峰的固有模态函数,并求共振峰频率。

图1 基于HHT提取语音信号共振峰的算法流程

3 仿真实验与结果分析

3.1 合成语音数据的共振峰提取

通过AM-FM模型合成一段数据提取其共振峰,来验证上述方法的正确性。合成信号的3个共振峰分别为f1=600 Hz,f2=1 400 Hz,f3=1 700 Hz,带宽分别为df1=30 Hz,df2=100 Hz,df3=200 Hz,合成信号的表达式为:

HHT算法提取合成信号共振峰结果如图2所示。从图2中可以直观地分辨出合成信号之前设定的三个共振峰的频率,验证了该方法的准确性。

图2 HHT算法提取合成信号共振峰结果

3.2 实际语音信号的共振峰提取

作为传统共振峰提取方法,LPC法能够有效地消除或减弱信号激励分量对声道的影响,但是随着对音信号的深入研究,声门与声道之间的耦合存在非线性特性,所以LPC法可能无法真实准确地反映共振峰频率的变化[4],本实验对采用LPC法提取的共振峰频率与采用HHT法提取的共振峰频率进行比较,说明HHT方法具有的优越性。本实验实际语音信号选取元音[a][i][u]三个音标的连续信号进行分析,信号采样率为8 kHz,帧长200点,帧移80点,音标[a]存在三个共振峰,分别为800、1 200和3 000 Hz,音标[i]存在三个共振峰,分别为300、2 300和3 000 Hz,音标[u]存在三个共振峰,分别为350、650和2 200 Hz。LPC法在语谱图上标出共振峰频率如图3所示,HHT法在语谱图叠加共振峰频率如图4所示。

图3 LPC法在语谱图上标出共振峰频率

图4 HHT法在语谱图叠加共振峰频率

为了衡量基于HHT方法提取的共振峰频率的好坏,并与LPC方法进行对比,两种方法分别与理论上[a][i][u]音标的理论均值相比,求得绝对误差比的均值Δf和绝对误差比的标准差sf进行衡量。如表1所示。

表1 两种方法提取共振峰的绝对误差比的均值Δf与标准差sf

通过对实际语音信号进行共振峰提取,并且得到了其误差比的情况。绝对误差比的均值反映了共振峰的频率与正确结果的偏差,值越小表明越接近正确结果[14];从表1可以看出,HHT法的绝对误差比的均值明显小于LPC法,说明了结果的准确性。而绝对误差比的标准差反映的则是实际计算结果与正确结果的偏差分布情况,其值越小,表明实际结果与正确结果之间的偏差分布更均匀,实际计算的结果越可靠[15],从表1中也可以明显地看出HHT方法好于LPC方法,证明了该方法的稳定性。

4 结语

本文中所使用的基于HHT方法提取语音信号共振峰算法是针对语音信号的非平稳、非线性特征所提出来的,在研究过程中可以得到以下结论:

(1)算法中经验模态分解相当于将语音信号通过一个窄带自适应滤波器,实现信号中的频率成分分离,并计算出各分量的瞬时频率和瞬时幅值,以便追踪共振峰的频率变化。

(2)基于HHT方法实现语音信号共振峰频率的提取与经典的LPC方法相比,两者得出的结果总体上是一致的,说明了该方法的正确性。另外,通过对两种方法的绝对误差比的均值与标准差进行计算,说明该方法在保证准确性的情况下,具有更高的稳定性。

(3)HHT方法在进行提取共振峰的过程中,不需要对信号进行分帧处理,使得在时间分辨率上,HHT方法要更好一些。

HHT是一种新兴的信号处理方法,在理论和应用上都存在许多问题,还需要逐步完善。比如,在进行EMD分解过程中,算法复杂度比较高,影响了语音信号检测的速度,限制了对信号的实时处理。另外,EMD分解得到的本征模式函数调幅部分在对计算瞬时频率存在较大的影响等。

猜你喜欢

声道端点共振
9.7.8声道、造价250余万 James极品影院赏析
7.1声道定制影院+KTV案例 顺德华侨城
ZJP56型组合绳锯组锯机超谐共振分析
例谈求解“端点取等”不等式恒成立问题的方法
为发烧需求打造的11声道后级 Orisun(傲力声)OA-S11
不等式求解过程中端点的确定
实现从7.2到11.2声道的飞跃 Onkyo(安桥)TX-RZ830
选硬人打硬仗——紫阳县党建与脱贫同频共振
凝心聚力 互促共进 实现机关党建与文明单位创建合拍共振
基丁能虽匹配延拓法LMD端点效应处理