基于LPC的语音信号特征参数提取算法研究
2015-10-26李亚文
李亚文
(商洛学院电子信息与电气工程学院,陕西商洛726000)
基于LPC的语音信号特征参数提取算法研究
李亚文
(商洛学院电子信息与电气工程学院,陕西商洛726000)
提出了一种基于LPC的语音信号特征参数提取的算法思想,对原始的语音信号进行线性预测建模,估计预算模型参数,提取LPC系数,分析LPC倒谱并计算预测误差。实验结果表明,该算法能较好的提取语音信号的特征参数,且预测重构的语音信号误差较小,易于建模的实现,为语音信号处理提供了一种特征参数提取的方法。
LPC;系统函数;预测误差;倒谱系数
LPC(linear predictive coding)又称线性预测编码,随着计算技术和语音通信技术的不断发展,促使人们对语音信号处理技术的发展寄予更高的期望,而线性预测编码模型是低速高质量语音编码最常用的一种方法。LPC技术起源于1966年,日本的电话电报公司的S.Saito和F.Itakura描述了一种自动音素识别的方法[1],第一次使用了针对语音编码的最大似然估计实现。70年代中期,Potter等提出了“visible speech”的概念,指出了语谱图对语音信号有很强的描述能力,在语音编码中可以分析其语音帧的语谱图,1969年Itakura与Saito提出了partial correlation的概念,May Glen Culler建议进行短时谱语音压缩;1976年,在美国声学协会年会上,B.S.Atal展示了第一个LPC语音编码器[2],会议还通过ARPANET在Culler-Harrison、ISI、SRI与LL之间以3 500位/秒的速度实现语音编码[2-3];1978年,BBN的Vishwanath etal.开发了第一个变速LPC算法。我国的线性预测编码技术起步较晚,1980年流行的Spell教育玩具中对语音编码采用P=10阶的预测器进行线性预测编码[3],目前,线性预测模型算法是一种最有效的语音处理技术[4],尤其是对于低速传输的语音通信中,能提取非常精确的语音帧参数,因此可以实现高质量的语音通信,备受青睐,得到了广泛的应用。
1 LPC的基本原理
离散线性时间系统输出的样本可以用其输入样本值和过去的输出样本值的线性组合,即线性预测值来逼近。为了使得预测的均方值最小满足最佳预测,一般常用自相关法和协方差法对矢量系数预测,能确定唯一对应的预测器系数[5]。确定离散系统的零极点模型,它有两种特例:全极点模型,又称自回归模型,这时预测器只根据输出过去的样本进行预测;全零点模型,又称滑动平均模型,这时预测器只根据输入样本进行预测。由于全极点模型最易计算,且在语音信号特征提取时不考虑鼻音和部分擦音时,声道的传输函数是一个全极点函数[6],因此应用较多。
为了保证最佳线性预测,预测均方误差较小,对原始的语音信号s(n)进行模型参数估计,建立线性时不变因果稳定系统的全极点系统模型H(z),预测器根据输出过去的样本值进行预测当前样本值,LPC分析的P阶线性预测就是利用P个取样值来线性表示当前的取样值S(n),若设过去P个取样值为{S(n-1),S(n-2),…,S(n-p)},则可以利用其加权之和表示预测信号Sn(n):
其中式(1)中加权系数αk也称为预测系数[7],则预测误差可以表示为:
要使预测最佳,则要使短时平均预测误差[7]最小有:
最小的ε可表示为:
为了提高线性预测的准确度,使得均方误差较小,此时的预测模型为最佳的形式,提取的LPC预测系数误差也就较小,重构的语音信号质量较高。
2 基于LPC的语音信号特征提取
2.1 算法思想
语音信号进行线性预测的基本算法思想是:将模拟的语音信号经过取样、量化和编码后转化为数字语音信号,以提高其抗干扰特性,而线性预测是在取样中将模拟信号在时间上离散化用过去时间上的若干抽样值去近似线性组合表示当前的抽样值,为了使重构的语音信号与原始的语音信号的预测均方误差达到最小,从而能较好的提取特征参数,需要预测估计LPC系数,而每组LPC系数[8]能描述该帧语音特征的矢量,可以得到若干个帧语音信号的特征矢量参数,是进行语音信号预测重构的必要条件。
得到
2.2 实现流程
本文实验中加载了一段原始的语音信号fmt.wav,在matlab中编程实现LPC系数的计算,通过建立正则方程分析LPC倒谱并计算预测误差,最后在预测重构语音信号,具体的语音信号特征提取实现流程如图1所示。
图1 语音信号特征提取实现流程图
3 实验结果与分析
实验中加载了一段原始的语音信号fmt.wav,在matlab中编程读入原始语音信号并分析语谱图如图2所示。为了较好的预测语音信号,选取较高的预测阶数N=50,对原始的语音信号进行线性预测编码,并计算预测误差,如图3所示为原始语音信号的预测时域波形和预测误差波形;在matlab中编程使用最佳线性预测的算法思想进行LPC参数提取,分析原始语音信号的特征参数,计算短时谱和LPC谱,如图4所示为时域的短时谱和LPC谱;为了使语音信号在声道中传输的系统函数H(z)为最小相移函数,可使用LPC倒谱分析并进行线性预测,因此在重构预测语音信号时误差较小,图5显示了原始的语音信号的LPC倒谱和预测误差的倒谱。
图2 原始语音信号波形和语谱图
图3 原始语音预测波形和预测误差
图4 短时谱和LPC谱
图5 语音信号LPC倒谱和预测误差倒谱
最后通过计算的LPC系数预测原始语音信号,如图6所示为N=50阶的LPC计算过程,应用LPC系数重构预测原始的语音信号,如图7所示为原始的语音信号和预测的语音信号语谱图的对比。
图6 LPC系数的计算
图7 原始语音语谱图和预测语音语谱图
4 结语
本文提出了基于LPC算法思想的语音信号特征参数提取,在语音信号处理中为了提高其抗干扰能力和传输中的保密性,要对其进行抽样、量化和编码。抽样的过程就是用过去若干个取样值的线性组合来逼近原始的抽样值,使得重构的语音信号与原始的语音信号的预测均方误差达到最小,从而能较好的提取特征参数。本文在matlab中提取N=50阶预测的LPC系数,并重构和预测原始的语音信号,通过实验仿真对比发现原始的语音信号语谱图和预测的语音信号的语谱图很近似,实验结果表明,该算法思想对于语音信号的预测误差较小,可行性较强,值得推广,为以后语音信号处理和语音通信技术的发展提供了理论基础。
[1]付强,易克初.语音信号的Bark子波变换及其在语音识别中的应用[J].电子学报,2000,28(10):102-105.
[2]王京辉.语音信号处理技术研究[D].济南:山东大学,2008:5-8.
[3]何彬.基于语音识别和语音合成的汉语语音转换技术研究[D].昆明:云南大学,2013:21-25.
[4]杨立东,王晶,谢湘,等.基于张量分解模型的语音信号特征提取方法[J].北京理工大学学报,2013,33(11):1171-1175.
[5]李亚文.基于离散变换域的语音合成算法研究[J].商洛学院学报,2013,27(6):49-52.
[6]季云云,杨震.基于自相关观测的语音信号压缩感知[J].信号处理,2011,27(2):207-214..
[7]张震,王化清.语音信号特征提取中Mel倒谱系MFCC的改进算法[J].计算机工程与应用,2008,44(22):54-58.
[8]张君昌,李艳艳.基于小波变换的鲁棒性语音特征提取新方法[J].计算机仿真,2010,27(8):355-358.
[9]张子锋,胡建中.基于短时傅里叶变换的滚珠丝杠副丝杠滚道故障定位研究[J].机电工程,2015,32(4):484-487.
[10]王安娜,王勤万,刘俊芳,等.改进的语音特征提取方法及其应用[J].计算机工程,2008,34(5):196-200.
[11]王民,李弼程,屈丹.基于最小方差无失真响应谱的语音特征提取[J].信息工程大学学报,2008,9(3):334-338.
(责任编辑:李堆淑)
A LPC-based New Algorithm Research of Extracting Feature Parameters of Speech Signal
LI Ya-wen
(College of Electronic Information and Electrical Engineering,Shangluo University,Shangluo726000,Shaanxi)
An algorithm idea of linear predictive coding in speech feature coefficients extraction is proposed,with linear prediction modeling with the original speech signal,estimation of budget model parameters,extraction of linear predictive coding coefficient,analysis of linear predictive coding cepstrum and calculating of the predictive error.The experiment result snows that the proposed algorithm is invisible and maneuverable to extract the feature parameters,and precision of the reconstruction speech signal with the less prediction error,a new method of extracting the feature parameters is proposed for speech signal processing.
linear predictive coding;system function;prediction error;cepstrum coefficient
TN912.3
A
1674-0033(2015)04-0025-04
10.13440/j.slxy.1674-0033.2015.04.007
2015-05-13
商洛学院科研基金项目(14SKY001)
李亚文,女,陕西华县人,硕士,讲师