音频带宽扩展技术分析与展望❋
2011-04-02鲍枫刘鑫贾懋王申鲍长春
鲍枫,刘鑫,贾懋王申,鲍长春
音频带宽扩展技术分析与展望❋
鲍枫,刘鑫,贾懋王申,鲍长春
(北京工业大学电子信息与控制工程学院语音与音频信号处理研究室,北京100124)
对音频带宽扩展中的非盲目式和盲目式高频重建技术进行了分析、对比,给出了非盲目式高频重建中的6种技术及盲目式高频重建中的4种技术的基本原理,并对它们各自的优劣性进行了评价,指出盲目式高频重建法将是未来频带扩展技术发展中关注和研究的热点。
音频信号处理;音频编码;带宽扩展;高频重建
1 引言
相对于音频信号的高频信息,人耳对音频信号的低频信息更敏感,所以,在很多低比特率音频编码方法中,为了提高编码效率,高频信息几乎被截去,而只对低频信息编码,如MP3[1]、MPEG-2 AAC[2]等编码方法,这使得重建音频信号的明亮度与自然度丧失许多,导致整体音频质量下降。
为了还原音频信号的带宽,提高音频解码质量,人们通常将带宽扩展技术,即高频重建技术引入到音频解码器中来恢复截去的高频信息。高频重建是指码流中不包含高频编码信息时,通过低频解码信息来恢复高频信息的一种技术,其主要目的是拓宽原始编码信号的有效频带,提高解码音频信号的质量。带宽扩展方法[3-15]可分为非盲目式高频重建法[3-11]和盲目式高频重建法[12-15]。在非盲目式高频重建法中,编码器除对低频信息编码外,还需对高、低频相关参数、高频子带谐波/噪声属性和高频能量包络等边信息进行编码,解码器则根据低频信息和隐含高频信息的边信息来恢复高频信息;而在盲目式高频重建法中,编码器不提取任何隐含高频信息的参数,解码器直接用低频信息来恢复高频信息。
本文将分别介绍音频带宽扩展的非盲目式和盲目式高频重建方法的基本原理,对相关技术进行分析,最后得出结论。
2 非盲目式高频重建方法
目前,非盲目式高频重建法主要包括频带复制(Spectral Band Replication,SBR)法[3-6]、简化参数的带宽扩展(Simplified Parameters Bandwidth Extension,SPBE)法[7]、PlusV高频重建法[8]、Bark带频谱建模(Bark Band Spectrum Modeling,BBSM)[9]、基于BBSM的简化参数高频重建[10]和基于最小熵的音频信号高频重建法[11]。
2.1 频带复制(SBR)法[3-6]
在编码端,SBR方法首先借助正交镜像滤波器(Quadrature Mirror Filter,QMF)将输入信号划分为64个子带,并定义前32个子带包含低频信息,后32个子带包含高频信息。其次,对各高频子带进行谐波和噪声属性分析,最后将高频各子带的谐波和噪声属性及能量包络参数随同低频信息参数一同写入码流。
在解码端,首先借助QMF,将解码后的低频时域信号分为32个子带;其次,将各低频子带信息复制到各高频子带;最后,根据解码后高频各子带的谐波和噪声属性及能量包络恢复高频各子带信息,即若某一高频子带为谐波属性,则用正弦发生器生成该频带的时域信号;若该频带为噪声属性,则由白噪声生成器生成该频带的时域信号。
通过上述原理介绍我们可以看出,SBR方法的主要优点是直接将低频子带的信息复制到高频子带,并借助高频子带的谐波和噪声属性及能量包络重建高频信息。但其缺点是需对原始音频信号进行分带处理,并提取高频子带的诸多参数,这使得复杂度和加入比特流的参数信息量很大。为此,文献[7]提出了一种简化SBR参数的方法,下面对其原理进行概要介绍。
2.2 简化参数的带宽扩展(SPBE)法[7]
在编码端,SPBE方法首先对输入音频信号进行修正的离散余弦变换(Modified Discrete Cosine Transform,MDCT),将得到的一组MDCT系数等分到N个子带中,并定义前N/2个子带包含低频信息,后N/2个子带包含高频信息;其次,利用各子带中的MDCT系数计算各低频子带与各高频子带的相关系数及各高频子带能量;最后,将各高频子带的能量参数、高低频子带相关系数随同低频MDCT系数一同写入码流。
在解码端,首先将解码后的低频时域信号分为N/2个子带;其次,根据高低频子带相关系数,判断是否存在与高频子带相关的低频子带,如果有,则将对应的低频子带信息复制到对应的高频子带;如果没有,则将对应的高频子带填充随机白噪声;最后,利用高频子带能量信息调整时域幅度,完成高频重建。
通过上述的原理介绍我们可以看出,SPBE方法与SBR相比,避免了分带处理,而是利用MDCT建立起的高低频子带相关性及高频子带能量进行低频子带信息复制或噪声填充来实现高频信息重建,该方法具有复杂度低和边信息少的优势。
2.3 PlusV高频重建法[8]
在编码端,首先将输入音频信号的有效带宽一分为二,并将高频带等分为N个子带。然后依次检测各高频子带是否存在类正弦峰值,如果存在,则记录该峰值的能量及对应频率。接下来则去除各高频子带的类正弦峰值,使各高频带只剩下类噪声成分,并分别计算每个高频子带的类噪声能量。最后,将类正弦峰值的能量与其对应的频率及高频各子带类噪声能量参数随同低频信息参数一同写入码流。
在解码端,首先将高频带等分为N个子带,然后用白噪声填充各高频子带,并用解码的高频各子带类噪声能量调整各子带能量。最后,利用解码的类正弦峰值的能量及其所对应的频率,在各高频子带加入正弦峰值,完成最终的高频信息重建。
通过上述原理分析可以看出,PlusV方法利用了音频信号的高频信息由噪声和类正弦信号混合组成的特点。该方法主要以噪声来填充高频带,这对于高频带以噪声为主要成分的信号而言,高频重建效果较好,人耳很难听出解码信号与输入信号的差别。但是由于其重建所得的高频频谱并不精细,对于谐波成分多、噪声成分少的音频信号而言,难免会引入人工噪声,人耳对此噪声会有所感知,造成音频质量下降。
2.4 Bark带频谱建模(BBSM)法[9]
在编码端,首先对输入音频信号进行FFT变换,并计算高频带与本地解码的低频带信息之间的相关系数;其次,将输入信号的高频幅度谱与本地解码的低频幅度谱分别按Bark尺度进行子带划分,并将高频Bark子带分为N个组,低频前M个Bark子带归为一个组,这里N应是M的倍数。最后,计算各高频子带组与低频子带组的能量比随同低频信息参数一同写入码流。
在解码端,首先对低频解码信息进行采样,并利用Bark尺度进行子带划分;其次,根据解码的相关系数进行高低频相关性判断,当相关系数小于给定阈值时,用随机白噪声填充高频各Bark子带;反之,将解码的前M个低频Bark子带信息复制到各高频子带组;最后,根据解码的高频子带组与低频子带组的能量比,对高频Bark子带的能量进行调整,完成最终的高频重建。
通过上述原理分析可以看出,BBSM方法借助Bark尺度进行非均匀分带[16],使得子带宽度呈指数增长,避免了前面3种方法对频带进行均匀划分的缺陷,有效减少了分带数目及表示高频信息的参数。但是,由于该方法使用一组相同的Bark带低频信息去重建各组Bark带高频信息,并没有使用与高频子带相关性最大的低频子带去重建高频信息,因此得到的不是最佳的重构信息。
2.5 基于BBSM的简化参数高频重建方法[10]
在编码端,首先将输入信号等分为N个子带;其次,根据子带能量差异和过零率,对相邻两帧信号相同低频子带进行相关性判断,并提取相关性最强的M个低频子带,作为高频重建单元;接着,比较相邻两帧高频各子带的能量差异,只有当差异值大于给定门限时,才传递高、低频子带能量比;最终将提取的M个低频子带的索引值、高频子带的能量差异与高、低频子带能量比参数随同低频信息参数一同写入码流。
在解码端,首先,将解码的低频信号等分为N/2个子带;其次,利用相邻两帧高频各子带的能量差异进行频带复制判断,当差异值大于给定门限时,则将M个低频子带复制到高频带,并利用高、低频子带能量比对其进行能量调整得到高频信息;反之,则填充随机白噪声得到高频信息。
通过上述原理分析可以看出,此方法避免了BBSM中使用固定的低频信息重建高频信息的缺陷,通过选择相关性最好的低频子带对高频带进行重建,进一步减少了表示高频的参数,有利于提升重建质量。
2.6 基于最小熵的音频信号高频重建法[11]
在编码端,输入音频信号经FFT变换后被等分为N个子带,将提取的高频各子带的包络能量信息随同低频信息参数一同写入码流。
在解码端,将信号等分为N个子带,低频解码信息填入对应的低频子带,高频子带均赋为零值,同时加入直流信息,构成一个全频带信号。经IFFT变换后,得到时域信号。将此时域信号作为初始全频带信号,结合高频包络能量信息,用最小熵算法[11,17]循环迭代不断得到新的全频带信号。每次恢复出全频带信号后,都将其与初始全频带信号做相关性检测,当相关系数小于某个门限值时,迭代停止,此时恢复的全频带信号即为解码信号。
通过上述原理分析可以看出,该方法利用了最小熵准则来对低频信息进行谱外推得到高频信息,其核心思想是利用信息熵来度量信号的频谱分辨率,通过求取最小信息熵来提高信号的频谱分辨率,使得外推得到的高频谱信息更加准确。其重建音频信号的高频谱信息更加丰富,从而使得重建信号更加饱满自然。但是,由于本方法没有对高频细节谱进行精确恢复,当处理高频能量较强的信号时,难免会引入轻微的噪声。
3 盲目式高频重建方法
目前,盲目式高频重建法主要包括线性外推(Linear Extrapolation,LE)[12]、有效高频带宽扩展(Efficient High-frequency Bandwidth Extension,EHBE)[13,14]、混合信号外推(Hybrid Signal Extrapolation,HSE)[15]和非线性预测[18]等。
3.1 线性外推(LE)法[12]
LE法利用音频信号的对数幅度谱包络呈近似线性递减关系来进行高频重建。
在解码端的高频重建中,需要恢复的高频信息包括两部分内容,即高频谱包络和高频谱细节。高频谱包络借助幅度谱的线性关系获得,高频谱细节通过复制低频带的谐波结构获得。具体步骤如下:
首先,对低频解码信号进行时频变换得到其谱包络;其次,采用线性最小二乘法将该包络在对数域拟合成一条直线,得到该直线的最佳斜率和截距;最后,将低频谱信息进行复制得到高频谱细节,并利用拟合直线的斜率对高频谱细节进行包络衰减,完成最后的高频重建。
通过上述原理分析可以看出,LE方法利用了强制谱包络递减的方法来保证重构的高频信息不会淹没低频信息,但当实际的音频频谱包络在对数域不呈下降趋势时,重构高频信息将与原始谱有较大差别。
3.2 有效高频带宽扩展(EHBE)法[13,14,19]
在解码端的高频重建中,EHBE法首先将低频解码的信号(截止频率为fcut)进行带通滤波,得到此低频解码信号的最高八度音信号(截止频率为起始频率两倍的带限音频信号[19]),将其定义为基波B1(fcut/2~fcut)。然后经非线性手段产生基波B1的二次谐波B2(fcut~2fcut)、三次谐波B3(2fcut~3fcut)等一系列谐波,将包含这些谐波的信号记为S。接着将信号S经另一个带通滤波器处理,得到所需的谐波集合BS(fcut~fhigh),并将其作为重建高频信息。这里,fhigh为频带展宽后信号的截止频率。最后调整此高频信息的增益,并与低频解码信号结合,得到全频带音频信号。
通过上述原理分析可以看出,EHBE法是一种基于八度音信号的高频重建方法,其优点是计算复杂度低,针对不同带宽的信号,只需更改滤波器系数和谐波增益就可进行高频重建。其缺点是,带通滤波器的过渡带会使八度音信号的截止频率不精准,从而导致重建高频信息的准确性下降。
3.3 混合信号外推(HSE)法[15]
在解码端的高频重建中,HSE法首先对每帧低频解码信号进行线性预测,并利用预测系数将每帧信号进行前向和后向外推,以增加时域信号的长度。这样做的目的是为了提高每帧信号的频域分辨率,保证频域外推的准确性。其次,将增长的时域信号加窗,经FFT变换得到频域系数,并对这些系数进行动态估计,得出截止频率。在处理截止频率未知或变化的音频信号时,此操作避免了信号低频谱与重建高频谱之间产生谱间隙。最后,将FFT系数转换到对数域进行线性预测,并利用预测系数外推得到高频谱信息,完成最终的高频重建。
通过上述原理分析可以看出,HSE法是一种时域外推和频域外推相结合的高频重建方法。由于截止频率检测模块的存在,使得此方法适用于未知截止频率或可变截止频率音频信号的高频重建,从而扩大了应用范围。但是,如果此方法处理的是瞬态信号,如鼓声等,增加样点数的时域外推步骤将导致信号动态特性的丢失,从而在反变换后将无法精确恢复出瞬态信息。
3.4 非线性预测法[18]
在解码端的高频重建中,非线性预测法首先将截去高频信息的时域信号进行分帧处理,并对相邻两帧的信号进行MDCT变换,得到低频MDCT系数;其次,求取此低频MDCT系数的嵌入维和延迟量来重构音频非线性动力系统的相空间;接着在重构相空间中,利用Lyapunov指数对MDCT系数序列的混沌特性进行检测,一旦MDCT系数具有混沌特性后,则利用局部自适应非线性预测结合低频MDCT系数预测得到高频MDCT系数;而后再根据人耳的听觉特性与高、低频MDCT系数间的相关性,对高频MDCT系数谱信息的谐波成分进行调整;最后,将原有的低频MDCT系数与重建所得高频MDCT系数结合,利用逆MDCT变换将其变换到时域,得到经过频带扩展后的全频带时域信号。
通过上述原理分析可以看出,该非线性预测法是一种利用音频信号的非线性动力学特性及人耳的听觉特性的盲目式频带扩展方法,更符合音频变化的一般规律,一但找到了理想的相空间,则会产生高质量的高频信息。这是一项暂新的课题,有待进一步研究。
4 结论
通过分析上述两类音频高频重建方法可以看出,利用频带扩展技术能够在较低的码率下实现对高质量音频的良好重建,对降低高带宽音频处理、存储和传输成本具有重要的意义。
本文描述了目前主流的音频频带扩展技术,分别针对盲目式和非盲目式两类高频重建法的关键技术进行了详细阐述。非盲目式高频重建法需要编码端提取额外的边信息,边信息越丰富,重建高频的质量越好,但这些边信息会增加编码的比特数,降低整个编码器的编码效率。而盲目式高频重建法则不需要编码端提供任何边信息,解码端只根据低频信息就可得到高频信息。因缺少相应的高频边信息,盲目式高频重建法的性能通常要逊色于非盲目式高频重建法,但盲目式高频重建法可大大节省编码比特数,有效提高编码效率。因此,在未来频带扩展技术发展的过程中,盲目式高频重建法会同时受到客户和制造企业的青睐,其研究工作也将日益成为人们关注的热点。
参考文献:
[1]ISO/IEC 11172-3,Coding of moving pictures and associated audio for digital storage media at up to about 1.5Mbit/s——Part 3 Audio[S].
[2]ISO/IEC 13818-7,Information technology-Generic coding of moving pictures and associated audio information-Part 7:Advanced Audio Coding(AAC)[S].
[3]ISO/IEC,WD Text for Backward Compatible Bandwidth Extension for General Audio Coding[S].
[4]Per Ekstrand,Andreas Ehret,Manfred Lutzky,et al.Enhancing mp3 with SBR:Features and Capabilities of the new mp3PRO Algorithm[C]//Proceedings of the 112th AES Convention.Munich,Germany:AES,2002:1-7.
[5]Martin Dietz,Lars Liljeryd,Kristofer Kjörling,et al.Spectral Band Replication,a novel approach in audio coding[C]//Proceedings of the 112th AES Convention.Munich,Germany:AES,2002:1-8.
[6]Per Ekstrand.Bandwidth extension of audio signals by spectral band replication[C]//Proceedings of the 1st IEEE Benelux Workshop on Model based Processing and Coding of Audio.Leuven,Belgium:IEEE,2002:53-58.
[7]黄远军,胡剑凌.一种简化参数的音频信号谱扩展技术[J].电声技术,2007,31(4):45-48.
HUANG Yuan-jun,HU Jian-ling.Research on the Bandwidth Extension Algorithm for the Audio Signal Using the Simplified Parameters[J].Audio Engineering,2007,31(4):45-48.(in Chinese)
[8]VLSI Solution Oy.PlusV Specification:VLSI Solution PlusV[R].Finland:VLSI,2001.
[9]Jeongil Seo,Daeyoung Jang,Jinwoo Hong,et al.A Simple Method for Reproducing High Frequency Components at Low-Bit Rate Audio Coding[C]//Proceedings of the 113th AES Convention.Los Angeles,California:AES,2002:1-7.
[10]潘政彦.节省参数并提升音质之改良式高频重建方法[D].台湾:大叶大学,2005. PAN Jeng-yan.A Solution of High Frequency Reconstruction for Saving more Parameters and Improving Quality[D]. Taiwan:Da-Yeh University,2005.(in Chinese)
[11]白晓亮,胡剑凌,徐盛.基于最小熵的音频信号高频重建[J].电声技术,2006,30(2):37-40.
BAI Xiao-liang,HU Jian-ling,XU Sheng.Minimum Entropy Based High Frequency Reconstruction of Audio Signal[J]. Audio Engineering,2006,30(4):37-40.(in Chinese)
[12]Chi-Min Liu,Wen-Chieh Lee,Han-Wen Hsu.High frequency reconstruction for band-limited audio signals[C]//Proceedings of the 6th International Conference on Digital Audio Effects.London,UK:IEEE,2003:1-6.
[13]Erik Larsen,Ronald M Aarts,Michael Danessis.Efficient high-frequency bandwidth extension of music and speech[C]//Proceedings of the 112th AES Convention.Munich,Germany:AES,2002:1-5.
[14]Ronald M Aarts,Erik Larsen,Daniël Schobben.Improving perceived bass and reconstruction of high frequencies for band limited signals[C]//Proceedings of the 1st IEEE Benelux Workshop on Model based Processing and Coding of Audio.Leuven,Belgium:IEEE,2002:59-71.
[15]Chatree Budsabathon,Akinori Nishihara.Bandwidth Extension with Hybrid Signal Extrapolation for Audio Coding[J]. IEICE Transactions on Fundamentals,2007,E90-A(8):1564-1569.
[16]Julius O Smith,Jonathan S Abel.Bark and ERB Bilinear Transforms[J].IEEE Transactions on Speech and Audio Processing,1999,7(6):697-708.
[17]Mauricio D Sacchi,Danilo R Velis,Alberto H Cominguez. Minimum entropy deconvolution with frequency-domain constraints[J].Geophysics,1994,59(6):938-945.
[18]Yong-tao Sha,Chang-chun Bao,Mao-shen Jia,et al. High frequency reconstruction of audio signal based on chaotic prediction theory[C]//Proceedings of IEEE International conference on Acoustics speech and signal processing. Dallas,Texas,USA:IEEE,2010:381-384.
[19]沙永涛,鲍长春,贾懋王申.一种基于重构八度音的音频信号高频重建方法[C]//第十四届全国信号处理学术年会(CCSP-2009)论文集.长沙:[s.n.],2009:139-142.
SHA Yong-tao,BAO Chang-chun,JIA Mao-shen.A Method of High Frequencies Reconstruction of Audio signal based on Reconstructed Octave[C]//Proceeding of the 14th Annually Academic Conference on Signal Processing.Changsha,China:[s.n.],2009:139-142.(in Chinese)
BAO Feng was born in Changchun,Jilin Province,in 1990.He is now a principal investigator of National Innovation Research and Training Program for Beijing University of Technology.His research concerns audio information processing.He holds an excellent award for course study and a top award for Embedded System Design Competition of Yu-xing Cup.
刘鑫(1986-),男,北京人,北京工业大学硕士研究生,主要研究方向为音频信号处理;
LIU Xin was born in Beijing,in 1986.He is now a graduate student.His research direction is audio signal processing.
贾懋王申(1982-),男,河北张家口人,2010年获北京工业大学博士学位,现为讲师,主要研究方向为语音与音频编码;
JIA Mao-shen was born in Zhangjiakou,Hebei Province,in 1982.He received the Ph.D.degree in Electrical Engineering from Beijing University of Technology in 2010.He is now a lecturer.His research direction is speech and audio coding.
鲍长春(1965-),男,内蒙古赤峰人,北京工业大学教授、博士生导师,主要研究方向为语音与音频信号处理。
BAO Chang-chun was born in Chifeng,Neimonggol Autonomous Region,in 1965.He is now a professor and also the Ph.D.supervisor. His research direction is speech and audio signal processing.
Email:chchbao@bjut.edu.cn
Analysis and Forecast of Audio Bandwidth Extending Techniques
BAO Feng,LIU Xin,JIA Mao-shen,BAO Chang-chun
(Speech and Audio Signal Processing Lab,School of Electronic Information and Control Engineering,Beijing University of Technology,Beijing 100124,China)
The non-blind and blind high frequency reconstruction methods for extending audio bandwidth are introduced and compared in this paper.The basic principles of six specific methods related to the non-blind one and four specific methods related to the blind one are given,respectively.Their advantages and disadvantages of these methods are evaluated as well.Finally,it is pointed out that the blind high frequency reconstruction will be the research focus in the development of bandwidth extending.
audio signal processing;audio coding;bandwidth extension;high frequency reconstruction
The National Natural Science Foundation of China(No.60872027,61072089);The Natural Science Foundation of Beijing(No.4082006);The Funding Project for Academic Human Resources Development in Institutions of Higher Learning Under the Jurisdiction of Beijing Municipality;National Innovation Research and Training Program for Beijing University of Technology(No.101000506)
TN912.3
A
10.3969/j.issn.1001-893x.2011.02.025
鲍枫(1990-),男,吉林长春人,北京工业大学国家大学生创新性实验项目负责人,主要研究兴趣为音频信息处理,曾获北京工业大学学习优秀奖和北京工业大学“裕兴杯”嵌入式系统设计竞赛一等奖;
1001-893X(2011)02-0122-05
2010-11-08;
2011-01-17
国家自然科学基金资助项目(60872027,61072089);北京市自然科学基金资助项目(4082006);北京市属高等学校人才强教计划;北京工业大学国家大学生创新性实验项目(101000506)