研究分析低速率语音压缩编码对语音识别系统的影响

2014-03-20刘小丽

商 2014年40期

关键词：影响

刘小丽

摘要：本文通过对低速率语音压缩编码对语音识别系统的影响进行分析，从而了解在当前语音识别技术不断快速发展的大背景下，如何能够更好地提升语音压缩编码的水平。低速率语音压缩编码会对系统的语音识别产生很大的影响，本文通过对三种语音压缩编码器进行分析，既比较了三者对语音识别产生的不同影响，又对其语音识别效果进行了分析。

关键词：低速率语音压缩编码；语音识别系统；影响

随着改革开放以来我国经济社会的不断快速发展，语音识别系统广泛地运用于各个领域。语音识别系统随着多媒体技术的不断发展，既面临着机遇同时也面临着挑战。在整个语音识别系统中，语音压缩编码占有十分重要的地位，语音压缩编码的水平直接决定了语音识别系统的效果。因此，我们对目前使用较多的几种语音压缩编码算法进行了分析，从而对低速率语音压缩编码对语音识别系统的影响有一个基本的了解。

一、研究背景阐述

通过对语音识别系统进行分析，结果表明：当前语音压缩编码速率的逐渐下降，会造成编码后的语音识别率有所下降。之所以出现这种情况，主要是由于在低速率条件下，单位时间内所能描述的语音信息量会有所减少，因而必然会导致语音质量下降以及语音形式失真。

想要提升编码效率，降低编码速率，唯一能够采用的就是参数编码方式。一些相关领域的研究人员对无线通信环境下的中低速率语音编码进行研究，结果是：如果采用低速率语音压缩编码（如2.4kbps），那么其合成出的声音不会影响接受者的理解，但是会造成一些信息的流失。因此，在低速率语音压缩编码的条件下，其合成语音能否被语音识别系统理解，既是一个亟需解决的问题，同时也是一项重要的研究项目。

二、低速率语音编码算法分析

（一）LPC-10算法

通常来说，在2.4kbps速率的情况下，能够对表述信息量的语音信号十分有限，因而想要做到准确描述语音波形，难度很大。基于这种情况，目前语音压缩编码采用较多的是分帧提取参数法。

对于语音识别系统来说，首先要对其进行参数的提取，即将语音信号分为若干帧提取参数，之后通过对提取参数和模型进行对比，从而确定识别结果。对于不同的语音编码来说，提取的参数也是不同的，但是有一点是相同的，即所提取的参数通常都是由两大部分构成的，即声道参数和激励参数。

对于语音识别系统来说，编码好坏的判断标准主要是声音的还原程度。即通过对语言信号进行压缩编码，从而生产出合成语音，而且合成语音要尽量做到高保真。因此，以下主要通过对各种低速率语音压缩编码器进行分析，来确定各种技术可能对语音识别系统产生的影响。

要分析低速率语音压缩编码，就必须要提到一种使用十分广泛的语音压缩编码算法——LPC-10算法，LPC-10算法在上个世纪70年代就已经作为美国语音编码的标准而被广泛采用了。LPC-10算法原理并不復杂，简单来说，就是将线性预测系数当作声道的模型、将周期脉冲当作浊音的激励信号、将白噪声当作清音的激励信号。从LPC-10算法的原理能够看出，对于LPC-10算法来说，参数的提取十分重要，只有做到对参数的准确提取，才能保证合成之后语音的质量。

LPC-10算法的优势在于其合成之后语音的质量比较高，但是，LPC-10算法也有一个较为显著的缺点，主要是由于其固有模型决定的。LPC-10算法的固有模型——二元激励模型会对语音的自然度产生很大的影响。

除此之外，LPC-10算法虽然适用的范围较广，但是由于其声道模型为全极点模型，因此对于一些特殊的语音信号并不适用，例如一些鼻音、擦音等等语音信号则并不适用于LPC-10算法。而且，在实际的低速率压缩编码过程中，LPC-10算法采用的是10阶的预测系数，导致其对语音谱的描述不够精确。

（二）MELP算法

MELP算法以LPC-10算法为基础，不同于LPC-10算法的是：MELP算法引入了诸如：混合激励、非周期脉冲、自适应谱增强、脉冲扩散、傅里叶系数等等新的特点。在这些新特点中，最为重要的就是“混合激励”。混合激励，简单来说就是通过对语言进行分类，从而将其分为五个固定频带，然后分别对各个频带进行清浊音的判别，最后根据判别结果，进行语音合成，将各频带合成之后的语音进行相加，从而得到重建语音。

MELP算法相对LPC—10算法来说，由于其混合激励的特点，在语音的自然度方面有了很大的提升，而且提升了合成语音的听觉质量。除此之外，在声道参数方面，MELP算法采用的是线谱对（LSP）参数，相比LPC—10算法来说，既代替了原有的线性预测系数，又提高了低速率语音压缩编码的效率。虽然线谱对（LSP）参数和线性预测参数两者本质上相同，但线谱对（LSP）参数更具稳定性和量化性能。而且MELP算法相比LPC—10算法来说，在听觉效果方面取得了很大的改善，MELP算法在美国已经相关机构的认可。

（三）IMBE算法

与MELP算法不同的是，IMBE算法并非建立在LPC—10算法的基础之上，而是一个完全不同于LPC—10算法的模型。具体而言，IMBE算法是通过对编码语音进行分带，然后进行语音清浊的判别，从而将白噪声当作清音的激励信号、将基音周期脉冲当作浊音的激励信号，最后将各个分带的激励信号相加，从而得到全带的激励信号。

在低速率语音压缩编码IMBE算法中，可以将声道参数当作各个频带分量的相对幅度以及相位，那么合成语音的频谱即各个频带的频域与激励信号谱相乘的结果。之所以IMBE算法不同于MELP算法，主要就是在编码语音的分带上。相比MELP算法实行的固定分带，IMBE算法能够做到更加贴近实际语音。与此同时，IMBE算法在参数的提取方面，采用的算法与合成分析法较为类似，因此能够做到在低速率的情况下，合成出清晰明确的语音。

以上分析的三种方法都属于低速率的语音压缩编码算法，总体来说，三种算法均能生产出较为清晰准确的语音。由于三种算法各具特点，因此在实际的低速率语音压缩编码过程中，语音损失的情况各不相同，而且合成出的语音效果也各不相同。因此，必然会对语音识别系统产生不同的影响。值得注意的是：各个低速率语音压缩编码算法自身并无太大的优劣之分，三种算法各具特色。因此，应该根据语音识别系统自身的特点来选择合适的低速率语音压缩编码算法。

三、语音识别系统的选择方案

想要分析低速率语音压缩编码对语音识别系统的影响，不仅要对各种语音压缩编码有所了解，而且要对各种语音识别系统进行研究。

语音识别系统的分类方式较多，以识别对象为标准进行分类，可以分为孤立词、连接词以及连续语音识别，对于语音识别系统来说，以上几种对象的识别难度依次增加；以说话人为标准进行分类，可以分为特定人以及非特定人语音识别，对于语音识别系统来说，非特定人的难度高于特定人。

为了分析研究低速率语音压缩编码对语音识别系统的影响，通常会选用难度较高的非特定人连接词语音识别系统以及特定人连续语音识别系统进行实验。在进行连接词语音识别系统实验时，将需要识别的语音设定为0～9长度不固定的数字串。

对于语音识别系统来说，识别单元的选择十分重要。例如，每一个汉字均对应一个单独的音节，而且该单独音节由声母和韵母组成。而且因为声母是单独的音素，所以其既可以是清音，又可以是浊音。韵母通常由一到三个音素组成，所以其一般都是浊音。

如果某语音识别系统选择了较小的识别单元，那么其所需的码本尺寸则会比较小，而且整个识别系统的计算量也会较低；与此同时，由于较小的识别单元存在着不稳定的特性，因此其在不同的语音环境中变化较大，从而影响了语音的清晰性以及语音识别的准确性。

如果某语音识别系统选择了较大的识别单元，那么其语音识别的准确性则会相应的有所提高，但是对于存储单元以及计算量的需求也会相应的有所增加。因此，在实际的语音识别系统应用中，通常会选择大小较为适中的识别单元，如音节和半音节。因此，本次实验将半音节作为识别单元。

除此之外，对于同一语音来说，编码前后采用的语音识别系统也是不同的。采用不同矢量的语音识别系统，对于原始语音来说，其精度的差距不会很大。但是对于编码之后的语音来说，采用不同矢量的语音识别系统，其精度的差距很可能非常悬殊。因此，在具体的实验环节当中，可以采用两种不同特征矢量的语音识别系统，从而对低速率压缩编码语音进行识别。

四、实验结果

在低速率语音压缩编码实验中，通过采用目前较为先进的HTK工具，从而建立起一个实验用语音识别系统。在模型设计方面，本次实验采用的是无跨越的、从左到右的、连续隐含的马尔可夫模型，该模型包含五种状态。

以上阐述的三种算法，都属于低速率语音压缩编码算法，也就是以22.5ms为一帧的算法。通过在实验过程中进行改进，利用LSP矢量来代替LPC参数，从而实现了矢量量化。除此之外，各帧LSP矢量使用34bit进行量化，实验结果显示：使用34bit对LSP矢量进行量化，其量化效果要明显好于使用25bit量化的MELP算法和使用34bit量化的LPC参数。

与此同时，为了研究各低速率语音压缩编码算法相比其他算法的优势，本次实验还采用了G.729算法，通过对8kbps条件下的G.729算法进行分析研究，从而了解其对语音识别系统产生的影响。

五、深层次内容分析

通过对实验结果进行分析，我们了解到：具有不同特征的矢量以及不同的语音编码算法，在同等的低速率（2.4kbps）条件下，所得的语音识别结果存在着相当大的差异。对于几种低速率语音压缩编码算法来说，较为常见的LPC算法，其主要适用于以LPC倒谱矢量为语音识别的特征矢量；而对于IMBE算法而言，其主要适用于以临界带倒谱矢量为语音识别的特征矢量。

结束语

对于实际的语音识别系统来说，低速率语音压缩编码的选择应该根据语音识别系统的实际情况，具体问题具体分析。而且也可以根据语音识别系统的具体情况，对低速率语音压缩编码算法进行适当的搭配，从而提升整个语音识别系统的性能。

与此同时，还应该对相关的特征矢量进行分析，结合特征矢量的特点选择合适的语音编码算法。除此之外，如果某语音识别系统对低速率语音编码算法存在着特殊要求，那么应该对相关的特征矢量进行适当的调整，从而取得更好的语音识别效果。（作者单位：武汉纺织大学）

参考文献：

[1] 祖漪清.漢语连续语音数据库的语料设计[J].声学学报，1999（24）.

[2] Hong Kook Kim，Richard V Cox.A Bitstream-based Front-endforWireless Speech Recognition on IS-136 Communications Sys-tem[J].IEEE Transactions on Speech and Audio Processing，2001（05）.

[3] R Salami，C Laflamme，J Adoul，et al.Design and Description ofCS-ACELP：AToll Quality 8kbpsSpeech Coder[J].IEEETrans-actions on Speech and Audio Processing，1998（02）.