APP下载

基于MDCT的线性带宽扩展方法

2020-07-04李思源姜林

智能计算机与应用 2020年3期

李思源 姜林

摘要:音频带宽扩展技术是音频编解码技术的重要组成部分,研究高频信号的编码方法,目的是大幅减少编码码率。针对传统频域率带宽扩展框架中直接高频信号在频率域编码导致高码率和高复杂度的问题,本文提出基于MDCT变换的带宽扩展编码方法,该方法基于源滤波器模型对高频信号进行分析合成。编码中对高频信号进行LPC参数提取,并将高频激励信号进行MDCT变换,提取MDCT子带能量系数,然后对LPC和MDCT子带能量进行矢量编码并传送至解码端。解码时将低频激励作为高频激励信号的精细结构,采用MDCT子带能量对精细结构进行调整,最后采用LPC合成得到高频重建信号。实验结果表明,本文方法相比经典的SBR方法,主观音质相当,编码码率下降了56.36%,整体时间复杂度下降明显。

关键词: 带宽扩展; 音频压缩; 线性预测; MDCT变换

【Abstract】 The audio bandwidth extension technology is an important part of the audio codec technology. It studies the encoding method of audio compression, which can greatly reduce the coding rate. For the traditional frequency domain rate bandwidth extension framework, the time-frequency transform of the original audio signal after passing the filter directly leads to the problem of coding bit rate higher. The linear encoder based on the linear prediction is used in the traditional source filter bandwidth method. In combination with the MDCT transform, the residual signal obtained by the LPC  analysis is firstly used as the fine structure of the high-frequency signal, and the fine structure is subjected to MDCT transform to obtain the fine-domain frequency domain signal, and then the frequency domain of the fine structure is achieved. The signal is encoded to obtain the final reconstructed high frequency signal. The experimental results show that the encoded sound quality is equivalent to the SBR algorithm, the coding rate is reduced by 56.36%, and the complexity is also reduced.

【Key words】  bandwidth extension; audio compression; linear prediction; MDCT transform

0 引 言

音頻带宽扩展(Bandwidth Extension,BWE)技术是现代音频编解码技术的重要组成部分,主要研究的是音频压缩编码的方法,可以仅使用极低的码率实现高质量的高频信号重建[1]。音频带宽扩展利用了高低频间具有相关性这一物理特性,可以利用低频信号实现高频信号的重建。根据重建高频信号时是否使用了高频参数音频带宽扩展可为分盲式和非盲式两种[2],本文仅针对非盲式带宽扩展(传输少量高频参数)进行讨论。

现有的音频带宽扩展算法根据针对的音频种类不同分为2类,即:时域带宽扩展和频率域带宽扩展。本文的研究是针对类音乐信号,因此主要探讨频率域带宽扩展技术。频率域带宽扩展技术以2002年瑞典 Dietz 等人[3]首次提出的频带复制技术(Spectral Band Replication,SBR)为代表。SBR技术被应用于MPEG ACC[4]编码标准中,其原理是将低频信号从时域转换到频率域后,再将其复制到高频得到用于重建高频信号的信号源。使用低频信号得到高频信号的重建信号是利用了高低频间具有相关性来实现的,此方法在高低频间相关性强的时候效果较好,当相关性变弱时,高频重建信号的谐波将会产生严重失真。为了解决这一问题,2009 年,Nagel等人[5]提出采用频谱拉伸的方法进行谐波调制方法,用以恢复高频谐波。此后,又提出了谐波连续调制的方法,进一步提高了谐波恢复的效果[6]。目前,重建音质最好的BWE方法是2013年MPEG USAC标准提出的增强型的SBR(简称eSBR)技术[7],但是其使用的伪正交镜像滤波器导致编码复杂度较高。本文使用了更加稳定的离散余弦变换(Modified Discrete Cosine Transform , MDCT)作为时频变换方法。

1 基于MDCT的音频带宽扩展框架

传统的频域率带宽扩展技术针对类音乐信号的高频重建效果较好,一般输入信号后通过滤波器直接获取原始音频信号进行时频变换得到高频信号的边信息,本文使用基于线性预测(Linear Prediction,LP)的核心编码器与频域率核心编码器相结合的方法进行音频信号的带宽扩展降低了编码码率。