移动通信系统中的AMR语音编码
2010-08-15张馨予
张馨予
西安文理学院,陕西 西安 710065
0 引言
第三代移动通信系统将支持语音、视频和数据等多媒体业务,但语音业务仍然是3G的最基本的业务。语音编码技术经过几十年的发展,已经有很多种可以实现在4.8kbit/s甚至更低的速率上提供接近长途语言质量高效的语音编码方法,为保证互通性,3GPP于1999年公布了WCDMA的语音编码标准AMR声码器标准。它由多速率语音编码器,含有话音激活检测器(VAD)与舒适背景噪声(SID)产生系统的源控速率方案(SCR)和能减小传输误码与包丢失对合成语音影响的消除错误机制(ECU)3部分组成。其中,多速率语音编码器是一个编码速率和背景噪声低速率编码模式的一个整体语音编解码器。它允许每一帧信号(20ms)的编码速率可以不同,是AMR语音编码标准的核心;其余几部分则用语改善声码器的性能和提高网络的用户容量,是可选的组件。
1 AMR语音编码器的速率选择
多速率语音编码器是一种单个集成的语音编码器,它有8种固定的信源速率模式,从4.75kbit/s到12.2kbit/s。此外,还有低速率的噪声编码模式,此编码器能够根据命令在每20ms语音帧中改变它的速率。经测试表明:从信噪比的角度来看,对没有背景噪声的纯语音序列,AMR声码器的8种速率表现出相对接近的语音质量;而对有背景噪声的语音,8种速率的语音质量有明显区别。根据此时的语音质量可以把8种速率分成高、中、低3类速率,高速率提供的语音质量比低速率提供的语音质量有很大提高;各类中不同速率提供较接近的语音质量。考虑到可能存在的应用要求。也可以将中速率再细分为两个子类,分别拥有7.95kps、7.40kps和 6.70kps、5.90kps。
在讨论AMR声码器8种速率模式选择的时候,没有给出每种速率和某些参数值的一一对应关系,也没有给出相邻速率切换的参数,因为这样做没有太大的意义。首先,从语音质量上,将8种速率分为3类,各类内提供较相近的语音质量;其次,AMR声码器有8种速率并不是为了在信道变化的时候在相邻速率之间,由高到低的切换。实际上,在信道迅速变化时,这种遍历式的切换也是不现实的。
相反,给出了用于不同类别速率选择的参数值,因为在语音含有噪声的情况下(无线通信系统中的常见情况)各类速率提供的语音质量有较大的不同。在实际操作中,可以选择不同类之间的速率进行切换,以适应信道情况的变化。同时也可以根据不同的需要对每一类速率进行内部适当选择。
2 背景噪声的处理
如果接收机在背景噪声状态下不输出任何信号,则用户可能认为线路中断,容易造成误操作。研究表明当用户处在噪声环境中时,间断的语音使得可懂度急剧下降,严重时甚至造成不能进行正常通话。移动环境的噪声并不是长期平稳的,但是相对语音来说,背景噪声变化比较缓慢,前后帧参数间的差距较小,编码器没有必要每一帧都进行参数估计、编码,所以标准中采用非连续发送(DTX)的方法,但是解码器连续产生背景噪声。下面介绍编码器和解码器各自的处理方法。
2.1 编码器的处理
编码器要完成的是背景噪声参数的估计和编码。由于人耳听觉只和信号的幅频特性和信号幅度(能量)有关,所以只要估计出背景噪声的频谱包络和能量就可以再生听觉上很接近的噪声。LSP可以很好地描述听觉信号的谱包络特性,所以AMR选取LSP和能量两组参数来表示背景噪声的特性,然后用背景噪声特有的方法对LSP和能量进行量化,编码成SID帧,传送给信道。
AMR声码器把SID分为两类:SID-FIRST和SID-UPDATE,其中SID-FIRST在语音帧(包括延长时间)结束后,立即发送,帧中不包括任何的编码信息,只在帧模式域填充相应的值,它的作用是告知解码器SID的起始时刻,同时编码器计算缓冲区中特征参数(也即语音延长帧的特征参数)的平均值作为背景噪声段参数的初始值;SID-UPDATE则包含两个参数(LSP和能量)信息量化,它每三帧发送一次。另外,如果语音帧发送的时间很短,则在该语音段结束后立即重复发送前一次SID-UPDATE帧,同时使用前一段的背景噪声参数作为本段背景噪声的参数估计的初始值,这是因为人类的说话和信令音以及音乐信号都是有一定持续时间的,持续时间很短语音是由背景噪声干扰造成的,如果把该段时间的参数作为背景噪声参数估计的初始值,解码器合成的背景噪声在频谱和能量上与实际背景噪声的相差很大,主观听觉质量差。
2.2 解码器的处理
解码器收到SID帧所需要进行的操作就是根据背景再生参数构造一个合成滤波器,用能量受控的白噪声序列激励滤波器得到连续的背景噪声。由于SID-UPDATE帧中包含噪声的所有参数,解码器只需进行解码和合成就可以了,处理比较简单。SID-FIRST没有传送背景噪声的参数,只是告知解码器背景噪声段已经开始,后续的帧将是不连续的SID-UPDATE帧,所以第一个SID帧的参数是由保存在缓存区中的语音延长帧的参数计算得到的,把它作为背景噪声参数估计的初始值。这就是编码器对于语音突发结束时对语音进行延长,继续连续发送LSP参数的原因。对于SIDUPDATE帧,LSP和能量均通过解码得到,但能量需根据语音变化的模型进行调整以提高语音和背景噪声相互切换时合成语音的主观质量。
3 AMR编码器流程
AMR语音编码器以CELP模型作为编码模型,采用分析—合成方法量化激励信号。编码器对20ms的语音帧进行编码,对应于160个语音样本,采样频率为8kHz。在每160个样本中,对语音信号进行分析并抽取模型的参数(滤波器系数、自适应和固定码本索引和增益)。这些参数被编码并传送,在译码端,这些参数被译码并用来选择合成滤波器的激励信号。AMR编码器功能包括9大部分:预处理;线性预测分析和量化;开环基因分析;冲击响应计算;目标信号计算;自适应码本;代数码本;自适应和固定码本增益的量化;存储器更新。
AMR的特点是LSP采用矢量量化。为保持时变性,AMR用内插重建每子帧所需的LSP参数。对12.2kb/s模式,线性预测分析执行两次,而对其它模式,每帧执行一次。在12.2kb/s模式时,线性预测参数的两个集被转化为线谱对(LSP)并用38比特的分裂矩阵量化(SMQ)来联合量化;对其它模式,线性预测参数的单个集被转化成LSP并用分裂矢量量化(SVQ)来量化。语音帧被分为4个5ms的子帧,每个子帧包括40个样本,每个子帧都传送自适应码本和固定码本参数,子帧根据需要可以用量化和非量化的参数或它们的内插值形式。每个子帧(5.15kb/s和4.75kb/s模式是每帧)根据感知加权语音对开环基音延迟进行估计。然后对每个子帧进行以下的重复操作:
1)滤波器的初始状态用LP残留和激励之间的误差来修正的加权合成滤波器来计算目标信号;
2)计算加权合成滤波器的冲激响应;
3)用目标信号和冲激响应通过在开环基因延时周围进行搜索来进行闭环基音分析;
4)通过移去自适应码本的贡献来修正目标信号,新的目标信号用在固定码本搜索;
5)自适应和固定码本的增益被量化成4—5bit或矢量量化成6—7bit;
6)最后,滤波器的存储器状态被更新以便发现下个子帧的目标信号。
4 AMR解码器流程
AMR解码器的处理和一般的解码器相同。解码器包括以下部分:发送参数译码(LP参数、自适应码本矢量、自适应码本增益、固定码本矢量、固定码本增益),合成重建语音。重建的语音还要经过后处理和信号放大。解码器具有其独特的重构随机激励矢量的相位弥散处理。由于7.95,6.70,5.90,5.15,4.75kb/s模式中随机激励码矢量中非零样点非常少,如果随机激励码矢量在整个激励信号中所占分量比较大,则合成语音自然度差、机器声比较明显,为了消除这种情况的影响,声码器对随机激励矢量的脉冲进行了相位弥散处理(抗稀疏处理)。其步骤为:
1)根据当前分帧子适应码矢量的增益选取相位弥散处理程度;
2)根据随机激励码矢量的增益修正相位弥散处理程度;
3)相位弥散处理:首先根据模式和相位弥散处理程度选取相应的滤波器,然后随机激励码矢量和滤波器进行循环卷积。
5 结论
通过对AMR研究,可以较清楚地看到以下几个特点:
1)AMR有八种固定的信源速率模式,从12.2kb/s到4.75kb/s。另外还有低速率的背景噪声编码模式:1.8kb/s。
2)AMR是以更智能的方式解决信源编码和信道编码的速率分配问题。实际的语音速率取决于信道质量,是信道质量的函数。
3)AMR参数包括LP参数、自适应码本矢量、自适应码本增益、固定码本矢量、固定码本增益。AMR中不同模式下参数更新的速率相同,而不同模式下核心帧的比特数不同,其它部分比特数均相同。
4)AMR中专门设有静音帧并在发送端和接收端都以一定的格式处理背景噪声,使得对静音的处理更加优化,从而使合成语音在主观听觉上的质量更好。
5)AMR中利用噪声的短时平稳性采用非连续传输技术,噪声参数每三帧传输一次,降低了系统的自干扰,同时增加了系统容量。
[1]祁玉生,等.现代移动通信系统[M].北京:人民邮电出版社,1999.
[2]杨留青,等.数字移动通信系统[M].北京:人民邮电出版社,1995.
[3]赵力.语音信号处理[M].北京:机械工业出版社,2003.
[4]胡航.语音信号处理[M].哈尔滨:哈尔滨工业大学出版社,2000.
[5]竺南直,等.码分多址(CDMA)移动通信系统[M].北京:电子工业出版社,1999.
[6]邱玲,等.第三代移动通信技术[M].北京:人民邮电出版社,2001.
[7]邬国扬.数字蜂窝网[M].西安:西安电子科学技术大学出版社,2000.
[8]易克初,等.语音信号处理[M].北京:国防工业出版社,2000.