APP下载

基于FT和HHT的语音能量轮郭特征提取

2014-07-12刘翠张歆奕

关键词:轮廓语音聚类

刘翠,张歆奕

(五邑大学 信息工程学院,广东 江门 529020)

基于FT和HHT的语音能量轮郭特征提取

刘翠,张歆奕

(五邑大学 信息工程学院,广东 江门 529020)

使用FT和HHT分别对男女语音的能量轮廓特征进行提取,并通过聚类性能分析判别两种方法提取的语音能量轮郭特征的有效性. Matlab仿真结果表明,不管是男生分类、女生分类还是男女分类,用HHT提取的语音特征的聚类效果都比FT的效果好,能较好体现不同语音信号的个性信息,有助于提高识别率.

语言识别;傅里叶变换;希尔伯特-黄变换;能量轮廓

语音信号的特征提取是语音信号处理的前提和基础,只有将语音信号表示成反映其本质特征的参数,才有可能利用这些参数进行高效的语音通信,才能建立用于语音合成的语音库,也才可能建立用于识别的模板或知识库[1],因此有效的语音信号特征提取具有很重要的意义. 能量轮廓是表示语音信号特征的重要参数,一般用短时平均能量法来提取[2],也可以通过用傅里叶变换(Fourier Transform,FT)来求得语音信号的能量轮廓特征,但是用FT的形式来表达信号略显抽象,且FT只能处理平稳信号. 希尔伯特-黄变换(Hilbert-Huang Transform,HHT)是一种适用于非线性、非平稳信号的处理方法,在工程信号处理等领域取得了很好的效果[3]. 本文将用HHT来提取语音信号的能量轮廓,并与常规的FT提取方法进行对比.

1 FT与HHT的比较

频率是描述和分析信号的重要物理量,FT和HHT都可以从频域来分析信号. 传统的FT得到的是一种按频率分布的全局的能量谱图,由于它在各数据领域广泛运用,使人们对谱的认识几乎等同于FT. FT理论的创立,一方面使频率成为表征信号的最重要的特征,在信号分析中得到了广泛的应用;另一方面,FT用无穷个不同周期的正弦或余弦基函数叠加来逼近信号,就是将一个信号的时域表示形式映射到一个频域表示形式[4]. 因为FT是分析线性系统和平稳信号稳态特性的工具,它是基于短时平稳的假设下,用稳态分析方法处理非平稳信号的一种方法. 所以用FT来处理语音信号,先将语音信号看成短时平稳信号,如果将原始数据用FT展开,可表达成如下公式:

HHT是由黄锷等人提出来的新的非平稳非线性信号分析方法,它主要有两个部分:经验模型分解(Empirical Mode Decomposition,EMD)和希尔伯特(Hilbert)谱分析. 经验模型分解是以局部时间尺度为基础,它适用于非线性非平稳过程,具有自适应带通滤波特性,任何信号都可以被分解为有限个固有模式函数(Intrinsic Mode Functions,IMF)的线性叠加. Hilbert谱分析是对每个IMF进行Hilbert变换,变换后的解析信号可以表示为:

其中ai(t)表示第i个IMF的幅度值(瞬时幅度),ωi(t)表示第i个IMF的瞬时频率.

根据HHT原理,首先将语音信号进行EMD分解,得到n个IMF分量c1,c2,…,cn和剩余项rn(t);再将分解后的每个IMF分量进行Hilbert变换,得到时频属性的Hilbert幅度谱Hi(ω,t);对Hi(ω,t)在时域上积分,得到频域的能量分布. 即有限个点将整个时域划分为若干个小区间t1,t2,…,tN,tN+1,对任意0<k<N+1,找到在整个时域范围内瞬时频率落在第k个小区间的点,把幅度加起来,即:

其中Ωk=(tk+tk+1)为第k个区间的频率代表值. 由此可得hi(Ωk)即是IMF边际谱,对所有IMF边际谱求和[6],可得语音信号的总边际谱h(Ω):

从频率意义上讲,用HHT求得的边际谱表征了整组数据每个频率点的累积幅值分布,而FT求得的Fourier频谱指某一点频率上的幅值,表示整个信号里有一个含有此频率的三角函数成分. 对比式(1)和(2),可以明显地看出,用HHT的形式来表达信号比FT表达更一般化. 在处理信号的作用上,HHT能处理非平稳信号,自适应地将其分解为若干特征时间尺度不同的单一信号,能准确反映信号的实际频率成分,得出的瞬时频率具有明确的物理意义,而FT只能处理平稳信号[7].

2 能量轮廓特征的提取和特征对比

2.1 基于FT的能量特征提取算法

短时FT处理前都要进行加窗处理,具体算法步骤如下:

步骤1 对加载的语音信号加矩形窗分帧,帧长512,帧叠100;

步骤2 对其进行FT得到频谱x(f),然后求其绝对值求平方得其能量谱;

步骤3 将频率f取对数,划分为14个子频带,各子频带的带宽间隔BW=log2(j)-log2(i)恒等于1,其中j>i,i,j均属于频率f;

步骤4 分别计算每个子频带的能量Ei,得到14维的特征矢量SE1.

本文选取实验室录制的2男2女共120个语音样本(每人30个样本)的样本集A,得到如图1和图2所示的语音能量特征参数轮廓图.

图1 FT提取男生1和男生2语音能量的特征参数轮廓

图2 FT提取女生1和女生2语音能量的特征参数轮廓

2.2 基于HHT的能量特征提取算法

根据HHT原理的介绍,可以知道边际谱能较好地体现语音信号能量变化信息,因此在语音信号的边际谱的基础上提取几个特征. 具体的算法步骤如下:

步骤1 对语音信号进行HHT,得到H(ω,t);

步骤2 求出信号的总边际谱h(ω),其中ω用对数坐标;

步骤3 将ω划分为14个子频带,各子频带的带宽BW在ω对数域呈等差值为1的等差递减;

步骤4 分别计算每个子频带的能量Ei,得到14维的特征矢量SE2.

选取与FT法中同样的样本集A,进行上述步骤的处理后,得到如图3-4所示的语音能量特征参数轮廓.

图4 HHT提取女生1和女生2语音能量的特征参数轮廓

3 聚类性能分析法

在模式识别中,类别的可分性不仅取决于类间距离,还取决于类内距离. 设两个语音信号的特征矢量为x,y,其中,x1=(x1,x2,…,xn)′,y=(y1,y2,…,yn)′,n为特征维数,x和y的距离记为d(x,y).算式如下:

聚类的目的是使Sm趋向最小,Smt趋向最大,定义聚类性能参数J如下[8]:

分别用FT和HHT提取的特色进行了3组实验,实验结果如表1所示,对于样本集A,用FT得到能量轮廓特征参数进行聚类性分析的结果为:男生1(30个语音样本)与男生2(30个语音样本)的聚类性能参数J1为0.4694,女生1与女生2的聚类性能参数J2为0.5051,两个男生(60个语音样本)与两个女生(60个语音样本)的聚类性能参数J3为0.3545. 用HHT得到能量轮廓特征参数进行聚类性分析的结果为:男生1(30个语音样本)与男生2(30个语音样本)的聚类性能参数J1为0.2987,女生1与女生2的聚类性能参数J2为0.3266,两个男生(60个语音样本)与两个女生(60个语音样本)的聚类性能参数J3为0.2431.

对比图1~4,可以粗略看出FT提取不同人的能量特征轮廓区别性不是很大,说明类间区分能量不强,而HHT提取的能量特征轮廓在不同人时区别较大,同一个人的不同样本的能量轮廓差别较小;从表1的实验数据可知,HHT提取的语音特征的聚类性能参数J都比FT法的要小,说明HHT法的聚类效果更好,识别率更高,因此HHT提取的能量轮廓特征能较好地体现不同说话人语音信号的个性信息,可以作为识别中的一个重要特征.

表1 FT和HHT聚类性能对比

4 结论

本文通过FT和HHT原理上的比较,以及用两种方法提取的特征进行聚类性分析得出:HHT提取的特征聚类效果较好,且HHT不必对信号分帧,保留了信号的动态信息,是语音信号处理的又一有力方法. 此外,自适应的特点,以及频率随时间快速变化的动态信息能够提取更多有用信息,说明HHT从频域的角度也能很好处理信号,只是在处理信号的时间上略有不足,达不到FT的速度.本文是对Hilbert幅度谱Hi(ω,t)在时域上积分,得到在频域上的能量分布,未来可以对Hilbert幅度谱Hi(ω,t)在频域上积分,得到其在时域上的能量分布,这些问题还有待于进一步的研究.

[1] LEE C M, NARAYANAN S S. Toward detecting emotions in spoken dialogs [J]. IEEE Transactions on Speech and Audio Processing, 2005, 13(1): 230-235.

[2] 张雪英. 数字语音处理及MATLAB仿真[M]. 北京:电子工业出版社,2010.

[3] 谢珊,曾以成,蒋阳波. 希尔伯特边际谱在语音情感识别中的应用[J]. 声学技术,2009, 28(2): 148-152.

[4] 张荣强,马晓红. 说话人识别中特征提取的方法研究[D]. 大连:大连理工大学,2005.

[5] 方杰,李英. 语音特征值提取方法的研究[D]. 无锡:江南大学,2006.

[6] 谢珊. 基于HHT的语音情感识别研究[D]. 湘潭:湘潭大学,2008.

[7] 李凌,曾以成,雷雄国. EMD在说话人辨认中的应用[J]. 湘潭大学学报:自然科学版,2006, 28(3): 108-111.

[8] 王小佳. 基于特征选择的语音情感识别研究[D]. 镇江:江苏大学,2007.

[责任编辑:韦 韬]

Energy Contour Features Extraction Based on Fourier Transform and Hilbert- Huang Transform

LIU Cui, ZHANG Xin-yi
(School of Information Engineering, Wuyi University, Jiangmen 529020, China)

The energy contour features of men’s and women’s voice are extracted using the Hilbert-Huang Transform and the Fourier Transform respectively, the effectiveness of the characteristics of the two methods of extraction is determined through the clustering performance analysis. Matlab simulation results show that the clustering effect of the voice features extracted by HHT is better than that by FT. Voice features extracted by HHT can better reflect the personality information of different speakers and can improve recognition rates.

vice recognition; Fourier Transform; Hilbert-Huang Transform; energy contour

TN912.34

A

1006-7302(2014)01-0045-05

2013-09-13

刘翠(1988—),女,河南信阳人,在读硕士生,研究方向为语音识别;张歆奕,副教授,博士,通信作者,研究方向为语音信号处理.

猜你喜欢

轮廓语音聚类
OPENCV轮廓识别研究与实践
基于实时轮廓误差估算的数控系统轮廓控制
基于K-means聚类的车-地无线通信场强研究
魔力语音
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
对方正在输入……
高速公路主动发光轮廓标应用方案设计探讨
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现