APP下载

AVS-P10移动音频编解码标准与关键技术*

2010-03-14胡瑞敏王晓晨涂卫平

电视技术 2010年10期
关键词:基音编解码音视频

胡瑞敏,王晓晨,涂卫平

(武汉大学 国家多媒体软件工程技术研究中心,湖北 武汉 430079)

1 移动音频编码研究背景

当前全球移动通信已全面进入3G时代,3G时代的技术进步使终端接入网络的带宽进一步提升,移动通信的环境条件得到明显改善,并促进用户需求进一步增强,各种基于高速网络的增值业务层出不穷。以移动视频点播、移动音乐点播、手机电视、手机音频广播、手机音乐等为代表的移动多媒体业务最具发展前景,将成为3G业务的主导[1]。

移动通信网从2G,2.5G到3G和LTE(Long Term Evolution)的演进过程中,呈现出异构化、多媒体化、宽带化和互联网化的趋势,同时也给我国移动多媒体编解码技术研究带来了挑战:

1)无线电频谱资源有限。尽管新一代通信网具有更高的数据率和更大的系统容量,但是通信带宽的增长永远跟不上业务的增长。这就要求流媒体传输系统在对流媒体进行编码时,要有较高的压缩效率。

2)无线信道环境不稳定。异构移动网络环境下,无线信道具有易变、时错和带限的特点,导致多媒体通信受到带宽、时延、干扰和丢包率等因素的影响严重,对其服务质量产生了较大影响。迫切需要通过转码、适配、传输及差错掩蔽等方面的研究来提高异构移动环境下的服务质量。

3)移动终端资源受限。作为便携式系统的移动终端,通常使用电池供电,其供能系统的容量受到很大限制,这已成为制约移动多媒体通信业务发展的主要因素之一,因而设计低能耗的压缩算法,减少终端的功率消耗是关键。

4)核心技术专利状况受制于人。长期以来,数字音视频的核心技术基本掌握在美、日、欧等国家和地区的大公司手中,音视频信源编码技术昂贵的专利费用成为产业障碍。

鉴于以上分析,传统的音频编码技术难以满足移动环境下的编码需求,因此理想的移动音频编解码技术应该具有对复杂音频信号高效编码,低码率下提供足够好的音频质量,较强的差错控制能力,较低的资源需求等特点[2]。

在网络直播这个行业刚盛行的时候,这个平台没有人监管,直播打造了一批批的网络红人,然而有一部分的网红毫无底线的进行低俗表演来吸引人们的视线和眼球。因此对网络直播平台必须坚持法治和道德的底线。在日常监管中,应通过立法法规来规范监督,对网络直播的内容信息等进行全面严格的审查,坚持不懈。网络直播平台需要相关部门的共同努力,另外,需要社会全体网民的共同监督。无论是现实还是网络,都需要有法治和道德底线,一旦缺失,就会导致社会混乱。要加强网络监管,提供健康的网络直播环境。

2 国际主要移动音频编解码标准

目前,国内外都对移动音频编解码的标准制订展开了研究,国际上负责制订移动音频标准的组织为第三代合作伙伴计划(the 3rd Generation Partnership Project,3GPP),该组织将3G移动音频标准的注意力集中到AMR-WB+[3]和 EAAC+[4](即 enhanced aacPlus)这 2 个音频编码标准上。

2.1 EAAC+标准

EAAC+可以在中低码率下对音频信号进行高效的编码,主要由 MPEG-4 AAC[5],MPEG-4 SBR[6]和 MPEG-4 PS[7]组成,外加错误隐藏工具,立体声-单声道下混工具,样条重取样工具,以进一步提升压缩效率。

MPEG-4 AAC属于音频编码标准中取得巨大成功的动态图像专家组(Moving Pictures Experts Group,MPEG)系列标准,其主要采用心理声学模型,利用人耳的掩蔽特性来掩蔽有损编码失真[8],而且利用变换编码去除统计冗余,压缩率可达15∶1。MPEG-4 SBR技术是一种非常高效的带宽扩展技术,使用该技术进行音频编码,可在同等编码质量的情况下节省约一半的码率。MPEG组织在MPEG-4 AAC下加入频带复制(Spectral Band Replication,SBR)技术,对信号的低频部分采用高级音频编码(Advanced Audio Coding,AAC), 而高频部分采用SBR技术编码,这样可在编码质量基本不降低的情况下降低编码码率,压缩率得到进一步提高。为了在更低的码率下达到更好的编码质量,尤其针对立体声模式下码率低于24 kbit/s时编码质量不理想的问题,在上述基础上再加入参数立体声(Parametric Stereo,PS)技术构成EAAC+的主体。PS技术通过对输入信号下混并提取表征空间信息的参数进行编码,解决了传统多声道码率随声道数近似线性增长的缺陷,在低码率下实现了多声道音频编码,将压缩率又提高了约30%,最终EAAC+可在16~24 kbit/s达到较满意的编码质量。

2.2 AMR-WB+标准

AMR-WB+是对AMR-WB宽带语音编码标准[9]的扩展,其增加了对音频信号的编码,其算法的核心是基于混合的ACELP/TCX模型。其中代数码本激励线性预测 (Algebraic Code Excited Linear Prediction,ACELP)[10]适合对语音信号编码,变换编码激励(Transform Coded Excitation,TCX)[11]适合对音乐信号进行编码。在编码时,AMR-WB+根据音频信号的内容,自适应选择ACELP编码或TCX编码,可在中低码率下提供极优越的音质,且声音质量不会因网络带宽的限制而受影响,具有良好的抗误码能力。

2.3 AVS标准

在国内音频编码领域中,由国家信息产业部科学技术司于2002年6月批准成立数字音视频编解码技术标准工作组(Audio Video Coding Standard Workgroup of China),负责AVS标准的制订。AVS标准是针对中国音视频产业的需求,由中国数字音视频领域的科研机构和企业牵头,相关国际组织和企业广泛参与,按照国际开放式规则制订的标准[12],在国家标准计划中,AVS标准的正式名称为:信息技术先进音视频编码,包括系统、视频、音频、数字版权管理等10个部分,其中面向音频编解码技术的标准包括2个部分:《信息技术先进音视频编码第3部分:音频》(AVS-P3)[13]和《信息技术先进音视频编码第 10部分:移动语音和音频》(AVS-P10)。

为了向迅速发展的移动通信、移动多媒体业务、无线流媒体等诸多应用提供音频编解码、文件和存储格式等方面的规范和标准,AVS工作组于2005年底启动了AVS-P10移动音频编码标准的制订。制订过程中,AVS音频组共收到了10个单位的105项提案,并最终筛选出武汉大学等单位的31项技术提案,于2009年12月完成最终委员会草案(FinalCommittee Draft,AVS-P10 FCD)[14]。 部分国家标准立项于2008年得到国家标准委正式批准,正式性能测试表明其性能与AMR-WB+相当[15]。

3 AVS-P10编码标准介绍

3.1 概述

AVS-P10音频标准是面向新一代移动通信系统的低码率高保真音频编解码技术标准,应用包括移动通信、无线宽带多媒体通信、互联网宽带流媒体业务等。

AVS-P10 支持采样频率为 8 kHz,16 kHz,24 kHz,32 kHz,48 kHz,11 kHz,22 kHz和 44.1 kHz的 16 位采样单声道、双声道脉冲编码调制 (Pulse Code Modulation,PCM)信号,解码输出是同样格式的单声道或立体声信号,单声道模式输出比特流为10.4~24.0 kbit/s,立体声模式下输出比特流为12.4~32.0 kbit/s。

AVS-P10移动语音和音频编码将ACELP编码和变换矢量编码(Transform Vector Coding,TVC)集成到一个正交混合编码器中,构建ACELP/TVC多模式编码模型,能够依据信号类型在2种编码模式之间选择最佳的编码模式,其中基于线性预测分析的ACELP模式适合对类似语音的信号编码,变换域的TVC编码模式适合对类似音乐的信号进行编码,从而能够对各种复杂的音频信号进行编码。其具体编码框图如图1所示。

解码器的结构如图2所示。解码器将对低频和高频分别解码,然后用一个合成滤波器将2个频段的信号合并在一起。如果信号输出被限制为单声道则不使用立体声解码。

图1 AVS-P10音频标准编码框图

图2 AVS-P10音频标准解码框图

3.2 主要模块与关键技术介绍

3.2.1 ACELP/TVC混合编码框架

编码器的核心算法是混合ACELP/TVC模式编码。对每帧输入音频信号,编码器可采用开环方式或闭环方式选择使用哪种模式(ACELP或TVC)编码。

ACELP/TVC编码模块的输入是单声道、2kHz采样信号。每1024个连续的输入信号采样点组成一个超帧进行处理。每个1024点超帧可采用多种模式编码,包括ACELP256,TVC256,TVC512 和 TVC1024, 每个超帧有26种不同的ACELP/TVC编码模式组合。

最优编码模式可通过闭环方法选择模式(高运算复杂度模式),将全部26种模式编码,然后计算每种模式的平均分段信噪比,平均分段信噪比最大的对应模式即为选定的编码模式,然后再选择最好的组合。另外一种ACELP/TVC编码模式选择方法是开环选择方法(低运算复杂度模式),通过提取信号的特征并根据这些特征决定选择哪一种编码模式进行编码。该方法不需要对各种模式进行编码尝试,降低了计算复杂度,但编码模式的选择不一定最佳。

3.2.2 ACELP编码模式

ACELP编码模式采用了多速率码激励线性预测编码技术,输入到ACELP/TVC核心编码器的单声道信号,先通过一个高通预处理滤波器,再经一个传递函数为一阶的预加重滤波器,以降低信号频谱的动态范围,进一步增强线性预测编码(LinearPredictiveCoding,LPC)分析的分辨力。

线性预测(LinearPrediction,LP)分析是用 16阶 LP作短时分析,用384点非对称窗加权预处理后的内部采样信号,求256个样点的自相关系数,这里采用莱文逊-杜宾(Levinson-Durbin)算法进行LP系数求解,每帧分析一次得到一组LP系数。LP系数在编码前要先转化为导抗谱频率(ImmittanceSpectralFrequencies,ISF)参数,然后采用预测分裂矢量量化器(PredictiveSplitVector Quantizer,PSVQ)进行量化。

感知加权模块用于实现对信号进行感知加权域的滤波处理。感知加权滤波处理的实质物理过程是通过判断信号的高低频能量差异,选择对应的谱平坦滤波器产生谱平坦信号。AVS-P10的谱平坦滤波器包括一个用来提升宽带语音信号低频部分的低通滤波器以及一个用来提升宽带语音信号高频部分的高通滤波器[16]。

ACELP编码器的激励由自适应码本和固定码本构成,基音分析基于感知加权后的信号。感知加权域信号在进行基音周期搜索之前,先用4阶有限冲激响应(Finite ImpulseResponse,FIR)滤波器进行滤波,然后进行降采样处理。

对于长时预测模块,AMR-WB+标准采取的是传统的自适应宽带搜索-自适应基音搜索 (AdaptiveBand widthSearching-AdaptivePitchSearching,ABS-APS)方法。为了减少算法复杂度,ABS-APS采取了两路的方式,其中一路先对激励信号低通滤波生成输出信号,另外一路则直接使用激励信号本身,通过两路性能误差比较选择路径。AVS-P10的长时预测采用了武汉大学提出的基于频段波形相关的自适应宽带信号基音搜索(Inter-band WaveformCrossCorrelationbasedAdaptiveBandwidth PitchSearching,IWCC-APS)方法[17],利用宽带语音信号长时相关谐波结构在高频段并不显著的特点,通过计算宽带信号频段间的相关度判决对长时预测的激励信号进行选择性低通滤波,与ABS-APS算法比较,IWCC-APS算法的运算复杂度仅为前者的一半。

在开环基因搜索方面,AVS-P10标准采用一种低复杂度、高效的开环基音搜索方法[18],利用归一化的自相关函数搜索基音周期,同时采用固定加权去除倍基音影响和基音周期的全局参考平滑基音周期,适用于各种语音编解码算法中的开环基音搜索。得到的基音周期候选值同解于追求原始信号与延迟信号误差的最小均方差标准求解得到的基音周期候选值。从统计意义上讲比较精确,并且与后面的闭环基音搜索中的整数基音搜索相一致。使用归一化的自相关函数,以通过对自相关函数值的分类分析解决倍周期问题,同时对基音周期平滑性进行加权并判断语音的周期性强弱,最终确定基音周期。在判定过程中设定基音周期全局参考轨迹作为全局变化的量度,用于平滑基音周期,并采用分类的基音周期分析,针对信号自适应最佳确定的基音周期,解决了变化范围大的问题。试验显示,AVS-P10中的开环基因搜索算法运算复杂度和存储开销均小于AMR-WB+,而性能与AMR-WB+相当。

3.2.3 TVC编码模式

TVC编码模式是一种基于时域线性预测分析技术和频域变换编码技术的混合编码技术,首先将输入的信号通过一个时变感知加权滤波器获得感知加权信号,然后对感知加权信号自适应加窗后通过快速傅里叶变换(Fast Fourier Transform,FFT)将信号变换到频域,对频谱信号采用基于分裂表的标矢量结合量化输出。

经过FFT变换后,通过频谱预整形技术对频谱进行平坦化处理,然后将连续的4个复系数频谱组成1个8维实数矢量,对其采用基于RE8格的多速率分裂表矢量量化器进行量化,该量化算法的基本思想是对于各个待编码数据,首先判断其是否在基础码本中,若在,则直接利用基础码本编码;否则,尝试将其分裂为基础码本中的码字和分裂表中一个分裂量的和,对基础码字和分裂量分别编码。这样就解决了大值码字无法在基础码本中找到因而不能编码的问题。解码算法是编码算法的逆过程,解包读取编码端传过来的所有参数。

3.2.4 带宽扩展

在AVS-P10中,利用带宽扩展方法对高频信号进行编码,采用模拟语音或音频信号中高频信号分量的频谱包络,以及在频域空间将所述的频谱包络与高频信号分量对应的低频信号分量进行合成,得到重建的高频信号分量。同时,通过提取高频信号分量的频谱包络,将该精细结构作用到频域空间对应的低频信号分量上,能够保证重建的高频信号频谱与编码过程中截去的高频信号频谱的调和相关。其中高频基础信号采用如下的方式生成:每20ms一帧高频信号经过LPC分析,得到9阶LPC系数,进而得到高频信号的合成滤波器。在每一个20ms帧内,提取288点的高频合成滤波器的冲击响应,并归一化。归一化后的冲激响应乘以288点的余弦窗函数,并通过288点的FFT转换到频域。在每80ms的一个超帧内,低频激励信号通过288点的余弦窗函数分割成4个288点的帧,每一帧的激励信号通过288点的FFT变换转换到频域。频域的低频激励信号乘以频域高频激励滤波器冲激响应,得到新的高频激励信号。其实现框图如图3所示。

图3 带宽扩展实现框图

3.2.5 立体声编码

AVS-P10移动语音和音频标准在单声道编码的基础上也具有立体声编码功能。AVS-P10中采用一种频域可配置的参数立体声编码方案,其特点有:1)提供一致的编解码框架以解决AMR-WB+由于在时域滤波而使编解码结构过于复杂的问题。2)对于采用精确编码方案的低频带宽可根据编码比特率进行灵活控制,如当可用的编码比特率较高时,可扩大低频范围,反之则降低低频范围,从而有效提高高频部分的编码质量。3)高频部分进行增益控制是在频域中进行的,提高了增益控制的频率分辨力。

3.3 技术特色与优势

AVS-P10标准的技术特色与优势如下:

1)高效压缩特性适合有限的带宽资源。AVS-P10移动音频采用了先进的ACELP/TVC混合编码框架,充分利用人耳听觉的掩蔽特性与心理声学特性,采用各种先进的数字信号处理技术和压缩技术充分去除音频信号的冗余,在16~24 kbit/s的编码码率下能达到很好的音质,在实现高压缩比的同时仍能保持高质量的声音效果,最大限度地节省系统带宽。

2)灵活的编码适应异构的传输网络。AVS-P10移动音频编码标准采用可变速率编码结构,可根据网络的实际带宽需求和信道条件对编码速率进行调整,能够使码流在复杂多变的移动网络上传输,体现了其编码灵活性的特点。

3)强大的错误保护机制对抗不稳定的无线信道环境。AVS-P10移动音频支持对不同参数进行非均匀的误码保护,可以对重要信息进行重点保护,可以在不稳定的移动网络条件下,尽可能地降低重点保护信息的出错概率,使在移动网络环境下的各种多媒体业务能正常地进行传输。

4)低复杂度模式适合资源受限的移动终端。AVSP10的低复杂度模式专门针对大部分移动终端的数据处理能力相对不强的特点,通过声音分类器进行模式判决并采用开环搜索模式替代闭环搜索模式,编码的复杂度大大降低。

5)自主的知识产权改变受制于人的核心技术专利状况。AVS-P10标准除了技术先进、性能稳定外,重要的是拥有完全自主知识产权,这也是近几年来国内DVD等音视频行业饱受专利费之苦后,中国首个具有自主知识产权的移动视音频编解码技术标准,这也为中国企业提供了摆脱国外企业专利费困扰的机会。

4 小结

目前,国内通信设备生产厂商向ITU标准专利持有者缴纳的专利费用折合成人民币每年高达数亿元,而且随着国内新一代移动通信业务的发展,此项费用将会越来越高。AVS-P10是具有清晰自主知识产权结构的移动视音频标准,有明确的知识产权管理和收费政策,为将来的产业推广奠定了坚实的基础,可保证产业的平稳发展和长治久安。

[1]胡瑞敏,高戈,王晓晨,等.面向移动多媒体应用的AVS-P10移动语音和音频标准[C]//第九届全国消费电子技术年会暨数字电视研讨会论文集.云南,丽江:北京电视电声杂志社,2007:95-101.

[2]胡瑞敏,张勇.AVS-M移动音频编码技术的研究及应用[J].电声技术,2007, 31(7):65-69.

[3]3GPP TS 26.290.Extended adaptive multi-rate-wideband(AMRWB+) codec[EB/OL].[2010-07-01].http://en.wikipedia.org/wiki/Extended_Adaptive_Multi-Rate_%E2%80%93_Wideband.

[4]3GPP TS 26.401.Enhanced aacPlus general audio codec;general description[EB/OL].[2010-07-01].http://www.3gpp.org/ftp/Specs/htmlinfo/26401.htm.

[5]3GPP TS 26.403.Enhanced aacPlus general audio codec;encoder specification AAC part[EB/OL].[2010-07-01].http://www.3gpp.org/ftp/Specs/html-info/26-series.htm.

[6]3GPP TS 26.404.Enhanced aacPlus general audio codec;encoder specification SBR part[EB/OL].[2010-07-01].http://www.3gpp.org/ftp/Specs/html-info/26-series.htm.

[7]BREEBAART J,PAR S,KOHLRAUSCH A,etal.Parametric coding of stereo audio[J].EURASIP Journal on Applied Signal Processing,2005(9): 1305-1322.

[8]PAINTER T,SPANIASA.Perceptual coding of digital audio[EB/OL].[2010-06-01].http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.149.1231&rep=rep1&type=pdf.

[9]3GPPTS 26.190.Adaptivemulti-rate-wideband (AMR-WB)speech codec[EB/OL].[2010-07-01].http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber=1175533.

[10]BRUNO B,REDWAN S,ROCH L,et al.The adaptivemulti-rate wideband speech codec (AMR-WB)[J].IEEE Trans.Speech and Audio Processing, 2002, 10(8): 620-636.

[11]RAGOT S, BESSETTE B, LEFEBVRE R.Low-complexity multirate lattice vector quantization with application to wideband TCX speech coding at 32kbps[C]//Proc.IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP).[S.l.]:IEEE Press,2004:501-504.

[12]黄铁军,王强,马思伟.AVS数字音视频编解码标准[J].中兴通讯技术,2006,12(3):6-13.

[13]GB/T 20090.3.信息技术 先进音视频编码 第3部分:音频[S].2009.

[14]武汉大学.信息技术 先进音视频编码 第10部分:移动语音和音频 AVSN_1687[EB/OL].[2010-07-01].ftp://192.168.5.10/public/avs_doc/1003_Guangzhou/avs/N1687.doc.

[15]北京理工大学.AVS-P10移动语音和音频编解码器主观质量测试 [EB/OL].[2010-07-01].ftp://192.168.5.10/public/avs_doc/1006_Sanxia/output/N1720.doc.

[16]杨玉红,周成,高戈.语音频宽带感知加权AVS_M2394[EB/OL].[2010-07-01].ftp://192.168.5.10/public/avs_doc/0806_Xiamen/contrib/AVS_M2394.docM2394.doc.

[17]张勇,刘霖,杨玉红,等.宽带自适应码本激励搜索方法AVS_M1922[EB/OL].[2010-07-01].ftp://159.226.42.57/public/avs_doc/0612_Zhuhai/contrib/M1922.doc.

[18]张勇,刘霖,杨玉红,等.宽带语音开环基音搜索AVS_M1869[EB/OL].[2010-07-01].http://159.226.42.57/public/avs_doc/0609_Beijing/contrib/M1869.doc.

猜你喜欢

基音编解码音视频
Microchip推出首款车载以太网音视频桥接(AVB)全集成解决方案
1553B总线控制器编解码设计
为多重编解码世界做好准备
3KB深圳市一禾音视频科技有限公司
大型民机试飞遥测视频编解码方法研究
基于基音跟踪的语音增强研究
WIFI音视频信号传输的关键问题探究
高速公路整合移动音视频系统应用
一种基音周期检测中减小中值平滑误差的方法
2G/3G网络IP化语音编解码协商策略部署研究