采用ITU-T标准的商用音频压缩编码系统研究

2010-09-12聂铭玮肖倩

合作经济与科技 2010年24期

□文/聂铭玮肖倩

□文/聂铭玮1肖倩2

声音信号的存储与传输，从模拟信号到数字信号经历了一个革命性的发展。随着多媒体处理技术的发展，数字音频压缩编码技术得到了广泛应用。从1972年开始ITU-T为音频信号压缩编码制定的一系列标准，成为当前移动通讯、数字卫星系统、网络广播等领域广泛采用的音频压缩编码技术和标准。

声音信号；音频压缩编码；ITU-T标准

一、引言

声音是一种能量波。数字音频编码是把连续变化的波形信号转化为离散的数字信号的过程。我们通常采用PCM编码方式进行转化。

PCM也称为脉冲代码调制编码。脉冲调制就是把一个时间连续，取值连续的模拟信号变换成时间离散，取值离散的数字信号后在信道中传输。脉冲编码调制就是对模拟信号先抽样，再对样值幅度量化、编码的过程。

在计算机应用中，能够达到最高保真水平的就是PCM编码，被广泛用于素材保存及音乐欣赏，CD、DVD以及我们常见的WAV文件中均有应用。因此，规定PCM为无损编码。

（一）音频数据压缩比。音频编码的作用：一是采用一定的格式来记录数字数据；二是采用一定的算法来压缩数字数据以减少存贮空间和提高传输效率。压缩编码的基本指标之一就是压缩比，它通常小于1。压缩越多，信息丢失越多、信号还原后失真越大。

音频数据压缩比=压缩后的音频数据量/压缩前的音频数据量

（二）音频压缩的主要分类。一般来讲，根据压缩后的音频能否完全重构出原始声音可以将音频压缩技术分为无损压缩及有损压缩两大类；而按照压缩方案的不同，又可将其划分为时域压缩、变换压缩、子带压缩以及多种技术相互融合的混合压缩，等等。各种不同的压缩技术，其算法的复杂程度（包括时间复杂度和空间复杂度）、音频质量、算法效率（即压缩比例）以及编解码延时等都有很大的不同。

多媒体音频信号大致可分为三类：电话质量的语音信号、调幅广播质量的音频信号和高保真立体声音频。ITU-T标准是当前商用音频编码系统主要的三大标准之一。

二、ITU-T标准简介

ITU-T（国际电信联盟远程通信标准化组原CCITT）旗下的G系列标准已成为电话质量的语音信号、调幅广播质量的音频信号压缩编码的国际标准。

ITU-T最初定义的音频编码算法建议标准包括G.711、G.721、G.722、G.723等。1995年之后，ITU-T批准了新的语音压缩标准G.728，G.729等。表1给出了ITU-T标准主要算法的比较。（表1）

表1 G.7XX算法比较

三、ITU-T G系列主要标准的发展及应用

（一）G.726标准。G.726是ITU-T1990年在G.721和G.723标准的基础上提出的关于把64kbps非线性PCM信号转换为40kbps、32kbps、24kbps、16kbps的ADPCM信号的标准。G.726标准算法简单，语音质量高，多次转换后语音质量有保证，能够在低比特率上达到网络等级的话音质量。

G.726最为常用的方式是32kbit/s，但由于其只是G.711速率的一半，所以就将网络的可利用空间增加了一倍。在这些通道中，24kbps和16kbps的通道被用于数字电路倍增设备（DCME）中的语音传输，而40kbps通道则被用于DCME中的数据解调信号（尤其是4800kbps或更高的调制解调器）。

（二）G.727标准。ITU-T于1990年通过了镶嵌式ADPCM标准G.727。其码率为16～40kbit/s，G.727定义了当原信号是脉冲率为64kbit/s脉冲编码调制信号（从在G.711中具体规定的语音频率模拟信号转变而来）。

（三）G.728标准。为了进一步降低语音压缩的码率，1991年ITU-T制定了G.728标准，使用基于短延时码本激励线性预测（LDCELP）算法，通过对语音信号的分析，提取CELP模型的参数，在解码端，这些参数用于恢复激励信号和综合滤波器的参数。其码率为16kbit/s，其质量与32kbit/s的G.721标准相当。

CELP是一个闭环线性预测系统，它利用输入语音信号确定最佳参数，然后根据最小误差准则从码本中找出最佳激励码矢量。CELP具有较强的抗干扰能力，在4-16Kb的传输速率下能够得到较高质量的语音信号。

G.728标准的语音编码的主要特点有：算法时延短，仅为0.625ms；编码时延小于2ms；传输比特率为16kbit/s；MOS值为4.173，达到了长途通信质量。

我们选用G.728标准的语音编码算法作为IP电话的编码算法。

（四）G.723.1标准。随着互联网技术的快速发展和多媒体通信业务的飞速增长，ITU-T对8kbit/s以下的高质量语音编码方案给予了极大关注。由ITU-T的第15小组（SG15）1995年提出的G.723.1标准是极低速率多媒体通信标准系列H.324中的有关语音编码的一个标准。

G.723.1编码器采用了线性预测分析合成的技术，对8kHz取样的16bit精度的PCM数字音频进行处理，以尽量减少实际语音与合成语音之间经听觉加权后的差分信号的能量为准则来进行编码的。在G.723.1标准中提供了两种可选速率，分别为5.27kbit/s和6.3kbit/s。和同样速率的其他语音编码器相比，这两种编码器都具有较高的语音质量，较低的编码时延（30～40ms）。高速率提供更好的重建语音质量，低速率的算法计算量低，给系统设计者提供了更多的灵活性。两种速率的编解码器都具有较高的语音质量和较低的延时，允许在相邻帧（30ms）的边界转换速率，在无声帧进行噪声填充，实现了可变速率的不间断传输。

该编码建议在有限的复杂度下最优化地表示语音信号，采用线性预测的合成分析法分帧处理。高码率（6.3kb/s）激励信号采用多脉冲极大似然量化（MP-MLQ），低码率（5.3kb/s）激励信号采用代数码本激励线性预测（ACELP）。每帧30ms，另加7.5ms的前视，算法总延迟37.5m。

（五）G.729标准。G.729标准是国际电联电信标准部门第十五研究组（ITU-TSG15）在（1993～1996）期间在语音编码方面取得的最大标准化成果。

G.729协议定义了8kbit/s码率的共扼结构代数码本激励线性预测（CS-ACELP）语音编解码算法。模拟信号经过电话带宽滤波，以8kHz采样，再转换为16bit PCM码，送入编码器编码，输出比特流参数，解码器对比特流参数解码，以同样方式转换为模拟信号。其他格式的信号都要预先化为16bit PCM码，解码后再转换回来。

CS-ACELP编码器建立在码本激励模型的基础上，8kHz采样信号每10ms为一帧（含80个样本），按帧计算CELP模型参数（LP系数、码本增益、基音和码本索引），将参数编码传送。解码器将接收到的参数解码，得到激励和合成滤波器参数。激励信号经过短时合成滤波器滤波得重构语音信号，短时合成滤波器为10阶LP滤波器。长时滤波器为自适应码本滤波器。重构语音还需经过若干个后滤波处理步骤。

G.729标准主要应用有：个人移动通信、低C/N数字卫星系统（包括陆地移动卫星通信、海事卫星通信、一般航空卫星通信等）、高质量数字移动无线通信DOME、存储/检索以及分组语音和数字租用信道等。