APP下载

基于LPCC参数的语音识别系统

2012-09-26王彪

电子设计工程 2012年7期
关键词:特征参数语音模板

王彪

(宝鸡文理学院 数学系,陕西 宝鸡 721013)

语音识别(speech recognition)是机器通过识别和理解过程把人类的语音信号转变为相应的文本或命令的技术。其根本目的是研究出一种具有听觉功能的机器,这种机器能直接接受人的语音,理解人的意图,并做出相应的反映[1]。

随着计算机和语音处理技术的发展,语音识别技术已成为目前世界上最热门的技术之一。它以语音为研究对象,涉及多个学科,目前发展已经相当成熟。但它仍然面临很多问题,严重制约其发展。不过,随着语音识别技术的不断发展,相信问题将会逐渐得到解决,从而反过来也会促使语音识别技术不断完善,使其在我们的日常生活中发挥越来越重要的作用。例如:语音拨号系统、信息网络查询系统、旅游业及服务业的各种查询系统、车用导航系统、家用电器遥控系统、语音订票系统等等,这些领域都离不开语音识别技术。

为了能够达到识别简单语音的要求,笔者设计了一个基于LPCC参数的语音识别系统。该系统包含以下几个主要功能:录制语音、播放语音、预处理、分段滤波、特征提取和识别语音。 最后以“0,1,2,3,4,5,6,7,8,9”10 个语音为例进行仿真实验,实验验证了本系统基本能够实现识别简单语音的任务,取得了预期的结果。

1 LPCC参数

线性预测倒谱参数(LPCC)[2]是线性预测系数(LPC)在倒谱域中的表示。该特征是基于语音信号为自回归信号的值时,利用线性预测分析获得倒谱系数。该特征是基于语音信号为自回归信号的值时,利用线性预测分析获得倒谱系数。LPCC参数的优点是计算量小,易于实现,对元音有较好的描述能力,其缺点在于对辅音的描述能力差,抗噪声性能较差。

由于通过自相关法求得的LPC系数保证了系统的稳定性,使得式(1)所对应的声道模型传输函数具有最小相位。

利用这一特点,可以推导出语音信号的倒谱和LPC系数之间的递推关系:

或是由LPC得到

根据同态处理的概念和语音信号产生的模型,语音信号的倒谱 c(n)等于激励信号的倒谱e^(n)与声道传输函数的倒谱h^(n)之和。通过分析激励信号的语音特点以及声道传输函数的零极点分布情况,可知e^(n)的分布范围很宽,c(n)从低时域延伸到高时域,而h^(n)主要分布于低时域中。语音信号所携带的语义信息主要体现在声道传输函数上,因而在语言识别中通常取语音信号倒谱的低时域构成LPC倒谱特征c,即

式中,q为LPC倒谱特征的阶数。

2 系统功能介绍及设计实现

文中设计了一个基于MFCC参数的语音识别系统,其基本能够识别简单的语音单元。该系统主要功能有录制语音、播放语音、预处理、分段滤波、特征提取和识别语音。平台功能划分如图1所示。

图1 系统功能模块图Fig.1 Module chart of system function

根据本系统的各个功能,将其分成3个大的核心模块。分别是采集模块、处理模块和识别模块。

2.1 采集模块

1)录制语音 通过麦克风录入声音,并保存为.wav的格式,以备后用。

用函数 wavrecord录制语音,然后用函数wavwrite(y,filename)将变量y中储存的数据写入名为filename的WAVE文件中。

2)播放语音 播放已录制的语音WAVE文件,并输出其波形图和语谱图。

在此,用wavread和sound函数分别读取、播放语音。求取波形图和语谱图时,要用到length函数和FFT变换。通过波形图和语谱图能够得到语音信号的时域和频域信息,把此二者结合起来能够比较准确的判断其频率、能量等有用信息,从而为后续的处理提供可靠的数据基础。

2.2 处理模块

1)预处理 对前面录制的语音信号进行去除噪声和端点检测处理,为后续工作提供更加清晰有效的信号。即去除语音信号在产生、传输及接收的过程中所污染到噪声;端点检测就是找到信号中有用的语音成分。这些工作都是语音信号处理工作所不可缺少的重要环节。

2)分段滤波 对经预处理后语音信号进行分段滤波,将不同频率的语音信号分离开,从而能够更好的识别语音信号。本文用滤波器组将语音信号分成M个子带信号[3],根据每个子带信号所具有的能量的不同,也即“重要性”不同,而进行不同的对待和处理。

3)特征提取 语音的特征参数能有效地体现说话人语音所包含的与其他说话人不同的特点,它在整个识别过程中起着至关重要的作用。文中提取语音信号的LPCC参数[4],以表征段语音,为后面的识别工作提供一个较为可靠的参考数据。

2.3 识别模块

1)模式匹配 新录入的语音经特征提取后,将其特征参数与数据库中参考模板的特征参数按照某种原则进行匹配比较,找出相似度最高、失真率最低的参考模板所对应的语音,此语音即为识别结果。

2)输出结果 输出前面的识别结果。输出结果有两种,待识别语音特征参数与数据库中模板特征参数的相似度符合条件,则可以识别,输出识别结果,如:待识别语音为“1”;否则,输出“库中无此语音!”。

3 仿真结果分析

1)语音模板的获取

运用系统的采集模块录制一个普通男声声音,录制“0,1,2,3,4,5,6,7,8,9”10 个语音为实验对象, 分别命名为0a.wav、1a.wav、2a.wav、3a.wav、4a.wav、5a.wav、6a.wav、7a.wav、8a.wav、9a.wav。分析处理后,提取特征参数[5],经过模板训练,为10个语音分别选取最合适的语音作为模板,存入数据库建立参考模型库。

2)待测语音的获取

类似, 录制一组普通男声的声音, 同样为“0,1,2,3,4,5,6,7,8,9”10 个语音,作为 10 个待测语音信号。分别命名为0b.wav、1b.wav、2b.wav、3b.wav、4b.wav、5b.wav、6b.wav、7b.wav、8b.wav、9b.wav。

3)语音识别

用文中的方法对10个待测语音进行识别。首先读入语音信号的wav文件,用函数wavread来完成;其次,对读入信号进行端点检测,应用函数vad来处理;再次,提取其LPCC参数作为特征参数,并将所有特征参数分别存入到参考模板的结构数组中或待测语音的结构数组中。接下来,要求得所有待测语音和参考模板之间的距离,以进行模式匹配,并将这些距离存入矩阵dist,然后用函数min找出最小累积距离,其对应的模板即为所要的识别结果。

仿真实验结果如图2所示。

从上图中可以看出,程序完成了任务要求,获得了正确的识别结果。进而表示本系统的识别模块能较好的完成识别简单语音的任务。

4 结束语

文中首先介绍了LPCC参数[6-7],然后叙述了文中语音识别系统的各个功能模块,并对各个模块进行详细设计,最后通 过 实 验 验 证 本 文 系 统 的 可 行 性 。 以 “0,1,2,3,4,5,6,7,8,9”10 个语音为例,录制多组语音,从中选定参考模板和待测语音,用本系统对待测语音进行识别,从程序的输出结果可以看出,识别得到了正确的结果。这充分说明了本系统能够完成识别简单语音的任务。

图2 语音识别结果Fig.2 Speech recognition result

尽管本系统也存在一定的不足之处,如:对于整句语音不能很好处理,并且在复杂环境下(较高噪声时)也存在一定的局限性,这都是亟待改进的地方。

[1]韩纪庆,张磊,郑铁然.语音信号处理[M].北京:清华大学出版社,2004.

[2]王炳锡,屈丹,彭煊,等.实用语音识别基础[M].北京:国防工业出版社,2005.

[3]秦毅,秦树人,毛永芳.连续小波变换快速带通滤波实现算法的研究[J].振动与冲击,2008,27(12):23-27.

QIN Yi,QIN Shu-ren,MAO Yong-fang.Fash algorithm for continuous wavelet transform based on band-pass filtering[J].Journal of Vibration and Shock,2008,27(12):23-27.

[4]陈杰,张玲华,吴玺宏.基于小波包一LPCC的说话人识别特征参数 [J].南京邮电大学学报:自然科学版,2007,27(6):54-56.

CHEN Jie,ZHANG Ling-hua,WU Xi-hong. Feature extraction based on waveletpacket-LPCC in speaker recognition[J].Journal of Nanjing University of Post and Telecommunications:Natrtal Science, 2007,27(6):54-56.

[5]李萓.语音特征参数提取方法研究[D].西安:西安电子科技大学,2006.

[6]荣薇,陶智,顾济华,等.基于改进LPCC和MFCC的汉语耳语音识别[J].计算机工程与应用, 2007,43(30):213-216.

RONG Wei,TAO Zhi,GU Ji-hua,et al.Identification of Chinese whispered speech based on modified LPCC and MFCC[J].Computer Engineering and Applicafiom,2007,43(30):213-216.

[7]余建潮,张瑞林.基于MFCC和LPCC的说话人识别[J].计算机工程与设计,2009,30(5):1189-1191.

YU Jian-chao,ZHANG Rui-1in.Speaker recognition method using MFCC and LPCC features[J].Computer Engineering and Design,2009,30(5):1189-1191.

猜你喜欢

特征参数语音模板
铝模板在高层建筑施工中的应用
铝模板在高层建筑施工中的应用
冕洞特征参数与地磁暴强度及发生时间统计
魔力语音
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
对方正在输入……
基于PSO-VMD的齿轮特征参数提取方法研究
基于视频的车辆特征参数算法研究
铝模板在高层建筑施工中的应用