基于高斯混合模型的感知域音频编码方法

2015-03-07吕亚平

计算机工程 2015年10期

关键词：极小值子带高斯

吕亚平，高戈，陈怡，张康

（1.武汉大学计算机学院国家多媒体软件工程技术研究中心，武汉 430072；2.华中师范大学计算机学院，武汉 430072）

基于高斯混合模型的感知域音频编码方法

吕亚平1，高戈1，陈怡2，张康1

（1.武汉大学计算机学院国家多媒体软件工程技术研究中心，武汉 430072；2.华中师范大学计算机学院，武汉 430072）

传统感知音频编码方案采用心理声学掩蔽降低编码码率，其声道模型+信号激励的方式难以同时实现高质量的中低码率语音和音频信号编码。为此，提出一种基于高斯混合模型的感知域音频编码方法，利用Gammatone滤波器组模拟人耳听觉系统，采用多路复用掩蔽模型替换降低包络脉冲的数量，对结构化模型进行拟合，使用高斯-牛顿算法对听觉包络进行高斯混合模型参数的拟合，将高斯混合模型参数替代音频信号特征。实验结果表明，与基于稀疏包络表示重构的音频编码方法相比，该方法的主观测试高0.5分～0.8分，客观测试高5分～10分，解码得到的语音和大部分音乐信号都能还原到原始音频信号，可用于实现高质量的中低码率语音和音频编码。

人耳听觉系统；感知域音频编码；高斯混合模型；Gammatone滤波器组；高斯-牛顿算法

DO I：10.3969/j.issn.1000-3428.2015.10.050

1 概述

随着移动网络从第三代移动通信发展到长期演进，移动网络带宽越来越大。尽管如此，伴随着移动视频增值业务应用的普及，要求尽可能实现高效的中低码率语音和音频编解码器。

传统音频编码方案不是专为中低码率语音和音乐信号高效编码而设计的［1］。一方面，通用音频信号编码方案，如MPEG4HE-AAC（High Efficiency Advanced Audio Coding）［2］，能够实现高质量的中低

码率音乐编码。然而，在该类编码方案中使用的基于子带或基于变换的模型无法有效地适用于语音信号。另一方面，线性预测编码方案，尤其是 CELP（Code Excited Linear Predictive）编码方案，特别适用于语音信号编码。当前最好的语音编码器之一，如3GPP AMR-WB［3］，能够在中低码率非常有效地重建语音信号，但无法很好地重建一般音频信号。

文献［4］提出的基于仿真人听觉系统的听觉滤波器的音频编码方案［5］（即感知域音频编码）被认为是用于替代传统音频编码方案的一种很好的选择，使得中低码率下的感知域语音和音频编码框架成为可能。

本文提出一种基于高斯混合模型［6-7］（Gaussian Mixture Model，GMM）的感知域音频编码技术。该编码技术利用GMM对经过Gammatone滤波器组［8］的音频信号的每个子带谱包络进行拟合后，使用GMM参数来表示每个子带谱包络，可以使用较少参数表示很长一段谱包络。

2 Gammatone滤波器组和高斯混合模型

2.1 Gammatone滤波器组

Gammatone滤波器是一个标准的耳蜗听觉滤波器，其在时域的表达式如下：

gi（t）=AtN-1exp（-2πbit）cos（2πfit+fi）（1）其中，t≥0，1≤i≤N；A为滤波器的增益；N为滤波器的阶数；fi是滤波器的中心频率；φi是相位。为了简化模型，取φi=0，bi是滤波器的衰减因子，它决定了脉冲响应的衰减速度，并与相应的滤波器的带宽有关，bi=1.019ERB（fi），ERB（fi）是等效矩形带宽，可用式（2）进行度量：

ERB（fi）=24.7（4.37 fi/1 000+1）（2）

各滤波器的中心频率在ERB域上等间距分布，整个滤波器组的频率范围为0～8 000 Hz。图1给出了其频率响应示意图。

图1 Gammatone滤波器组的冲激响应

2.2 高斯混合模型

使用高斯概率密度函数来表征事物的状态变化过程，将这个事物的状态变化过程分解为若干个由高斯概率密度函数组成的模型，这个模型称为高斯混合模型，其原理如图2所示。

图2 高斯混合模型

假设现有一个N阶，维度为 M的高斯混合模型，则观察矢量χ在这个模型中的似然度可以写作：

其中，ρi表示每个M维高斯模型的权重；gi（χ）表示M维的高斯函数；gi（χ）的表达式如下：

其中，ui是均值矢量；Σ是协方差矩阵。因此，整个混合高斯模型GMM可以由权重ρi、均值矢量ui，以及协方差矩阵Σ来表示，如式（5）所示：

高斯模型作为一个概率密度的分布函数，其函数的图形表示主要由均值u和方差Σ来决定。如果将多个高斯模型按照一定的比例（权重）相加之后，就可以生成一个新的概率密度的分布函数，也就是高斯混合模型。这个新生成的分布函数在每一点上的概率密度大小由GMM的阶数N、混合模型中每个高斯的权重 ρ、均值u和方差 Σ决定。对于每个子带中的幅度谱，在理想情况下，只要使用足够多的高斯模型进行混合，就能得到与归一化后的幅度谱包络相吻合的GMM函数。每个子带中的幅度谱包络可以使用混合高斯模型的权重ρ、均值u和方差Σ来表示。在编码端，只需要传递这些GMM函数中的参数即可。

3 感知域音频编码算法实现

图3给出了基于GMM的感知域音频编码系统示意图。首先，音频信号通过Gammatone滤波器，采用包络检测提取希尔伯特包络，然后通过零相移数字滤波器进行平滑滤波，再使用多路复用掩蔽模型替换模块，一方面通过掩蔽减少脉冲的数量，另一方

面进行模型的替换，得到幅度谱包络。为了参数化这些包络，采用高斯-牛顿算法计算得到GMM参数来表示这些包络，然后利用量化编码［9］来传递GMM参数。

图3 基于GMM的感知域音频编解码系统

3.1 多路复用掩蔽模型替换

3.1.1 多路复用掩蔽模型

如图4所示，首先基于稀疏脉冲表示重建了音频信号，然后使用听觉系统模型分析这个信号。整个多路复用模型工作流程如下：将多声道的信号（稀疏脉冲听觉表示）通过单信道的载波处理（得到的重构的音频信号）发送到接收端，接收端再将这一重构的音频信号进行分析，又转换成多声道的脉冲表示（听觉内部神经产生的变化）。

图4 稀疏脉冲编码的多路复用模型

假如现在已经有了一个原始的音频脉冲信号，而在这个信号相邻的频带也有一个脉冲信号，而这个脉冲信号的幅度小于这个脉冲信号在相邻频带的幅度影响。此时这2个脉冲在最终的音频包络中的影响如图5所示，图中显示了一个脉冲的包络，这个包络基本上是一个经过脉冲峰值的平滑曲线。

图5 掩蔽过程示意图

这个掩蔽模型一般运用于短时脉冲。在这个较短的时间内，所有的脉冲都将和幅度最大的脉冲相比较并进行评估。幅度最大的脉冲被视为掩蔽脉冲，周围的其他脉冲与它的包络比较，如果小于掩蔽脉冲的包络，则被掩蔽掉，并从整个脉冲序列中删去。

在剩余的脉冲中，再找出最大的脉冲，并且重复上面的过程，直到所有的脉冲都计算完毕。之后，为了保持并还原原有的音频信号，需要将被掩蔽掉的能量补偿回去，所以会使用一个增益因子，保证在解码端能够生成较好的语音质量。

在实验中，还在掩蔽模型中使用了一个经验因子，主要用于控制稀疏化的程度。这个因子 rI可以放大或者衰减多路复用模型中的脉冲。通过设置这个因子的大小，控制通过复用模型后保留的脉冲个数，可以允许使用者在最终原始音频的脉冲表示的数量和在解码端得到的语音质量之间进行权衡。将复用模型的门限设高，就会减少原始音频的脉冲表示的数量，但也会影响到解码端还原的音频质量，反之亦然。

由于包络样本的一般间隔比使用听觉脉冲表示时的间隔要更大，因此在使用多路复用的掩蔽模型时，时域掩蔽效果带来的影响被大大减少了。

3.1.2 掩蔽模型替换

音频信号通过Gammatone滤波器，包络检测和平滑滤波后，仍然存在大量的剩余脉冲，不利于编码。因此，想到使用数学模型对包络进行拟合，而后使用数学参数来表示子带包络的方法，这个方法可以有效减少需要编码的数据量。但是由于经过多路复用掩蔽之后的子带脉冲是一系列离散的脉冲序列，并不能找到与之相适应的数学模型进行拟合。为此，我们提出使用掩蔽模型替换子带包络。

其中，fmask是掩蔽模型在子带中的幅值；fori是子带中原始的谱包络大小；fevp为通过掩蔽处理替换后的谱包络大小。在提出这一方法时，进行了大量仿真实验，分别使用了男声、女声以及不同种类的音乐信号进行掩蔽模型的替换实验。实验结果表明，使用这

一方法得到的子带包络通过合成滤波器后可以重构出高质量的音频信号，因此，使用该方法是可行的。

下面将详细说明这一计算过程：

（1）找出混合谱包络 Eνe的最大值，计算其产生的复用掩蔽矩阵p，p矩阵为n×m，n为子带数目，m为参与掩蔽计算的样点数目。

（2）运用式（6），将Gammatone滤波后幅度包络与复用掩蔽矩阵作比较，如果滤波后的样本点幅度值更大，则保留幅度值；如果滤波后的幅度点值较小，则将幅度值替换为复用掩蔽矩阵中相应点的值。

（3）将每个子带的包络信号都使用多路复用掩蔽模型进行处理，得到替换后的子带包络信号。

3.2 GMM参数的计算

为了较好地还原原始的语音信号，要求使用的模型能尽可能拟合每个子带通道的幅度谱包络。本文使用高斯-牛顿算法进行实现。

将拟合问题写成下面这个算式：

其中，F（i）为要拟合的原始数据在点 i处的大小；f（i）为GMM中点i处的大小。将拟合问题变成求取▽f（X）的极小值问题，这也正好符合高斯-牛顿算法用于解决多变量函数局部极小值的用途。下面将详细阐述这一算法的实现过程。

设z=f（X）是X的函数，对于k=1，2，…，N，∂f（X）/∂χk存在。f的梯度，记为▽f（X），可以用下面的向量表示：其中，梯度向量可以表示在局部指向f（X）增加得最快的方向。因此，-▽f（X）就可以表示局部下降最快的方向。从点 P0开始，沿着过 P0，方向为 S0= -▽f（P0）/-▽f（P0）的直线方向搜索，到达点P1。当点X满足约束X=P0+γS0时，在该点处取得局部极小值。由于偏导数可得，因此，极小值求取可以通过二次近似方法算得。

计算-▽f（P1），并沿着方向S1=-▽f（P1）/‖-▽f（P1）‖搜索，到达点P2。当X满足约束X= P1+γS1时，该点处取得局部极小值。迭代此计算过程，可以得到点序列｛Pk｝∞k=0，满足f（P0）＞f（P1）＞…＞f（PN）＞…。如果limk→∞Pk=P，则f（P）是f（X）的局部极小值。

通过以上步骤，可以求出单变量情况下的局部极值点。下面将这一方法推广到多个变量情况下以适应实验的要求。使用二次逼近方法生成了一个二阶拉格朗日多项式序列。它的隐含假设是，在极小值附近，二次多项式与目标函数y=f（X）的形状相似，使得所得到的二次多项式的极小值序列收敛到目标函数f的极小值。从初始点P0开始，递归地构造一个多变量的二阶多项式序列。如果目标函数是良态的，并且初始点在实际的极值点附近，则该二次多项式的极小值序列将收敛到目标函数的极小值。

在计算二阶多项式的问题中，使用到了黑森矩阵和二阶泰勒多项式的概念，设y=f（X）是X的函数，对于存在。f在X处的黑森矩阵记为H f（X）：其中，i，j=1，2，…，N。可以将函数的黑森矩阵看成是函数的二阶导数的函数，而且函数的黑森矩阵与函数梯度的雅克比矩阵相同：

设f（X）在中心A处的二阶泰勒多项式存在，则可以写为：

设 y=f（χ1，χ2，…，χN）的一阶和二阶偏导数存在，并在包含P0的一个区间内连续，并在点 P处有极小值。用P0替换式（11）中的A，得：

它是一个多变量的二阶多项式，其中 X=［χ1，χ2，…，χN］。Q（X）的一个极小值在▽Q（X）=0或▽f（P0）+（X-P0）（H f（P0））′处取得。这样可以解得X的值：

使用P1替代式（13）中的P0，得到：

使用Pk-1替代式（14）中的P0，就可以得到一般规律：

综上所示，可以得到高斯-牛顿算法的基本方法，在Pk已知的情况下，使用递推的方式：

（1）计算搜索方向：

（2）在区间［0，b］上对Φ（γ）=f（Pk+γSk）进行单变量极小化。得到 γ=hmin，它是 Φ（γ）的极小值点。关系式Φ（hmin）=f（Pk+hminSk）表明，它是f（X）沿着搜索方向X=Pk+hminSk的一个极小值。

（3）通过同样的方法，构造下一个极小值点Pk+1=Pk+hminSk。最后在每次迭代之后，进行终止条件的判别，判断函数f（Pk）与函数f（Pk+1）是否足够相近。如果到达预设值大小，则表示函数的更新已经对拟合模型几乎没有影响，此时结束更新过程，即可得到最终的拟合模型中的各个未知参数值的大小。

4 实验结果与分析

本文对提出的基于GMM的感知域音频编码器以及文献［10］提出的基于稀疏包络表示的感知域音频编码器进行了系统仿真实验。以M atlab7.0为实验平台，采用TIM IT语音数据库以及AVS国家标准所定义的语音音频测试序列进行编解码运算。实验中共使用了12组测试序列，这12组测试序列包含语音3条、单乐器6条、复杂信号3条，采样率都为16 kHz，量化格式为16 bit PCM。先后对12组测试序列使用2种算法进行编解码实验，然后分别通过客观测试和主观测试，分别得出了这12组序列在使用2种编解码算法时的客观测试结果和主观测试得分。

4.1 客观测试

在进行客观测试时，将使用基于GMM方法重构的音频信号和相对应的原始信号编为A组，将使用稀疏包络表示方法重构的音频信号和相对应的原始信号编为B组，将2组信号分别进行PESQ测试。测试的结果如表1所示。

表1 客观测试结果

从表1可以看出，使用基于GMM的感知音频编码方法得到的客观测试结果PESQ值比使用稀疏感知音频编码方法得到的结果要高0.5～0.8，客观质量有较大提升。

4.2 主观测试

测试设备：一台PC，一副高品质耳机（森海塞尔HD-615）。

在主观测试方面，采用MUSHRA测试方法。进行主观测试时，将本文所使用的编码方案重构的音频信号定为A组，将使用稀疏包络表示的感知域音频编码方法得到的重构音频信号定为B组，主观测试结果如表2所示。从表2可以看出，使用本文中的编码方法，得到的主观测试结果比使用稀疏包络表示的感知域音频编码方法得到的结果普遍要高5分～10分，主观音质有一定提升。

表2 主观测试结果

5 结束语

本文提出一种基于高斯混合模型的感知域音频编码方法，使用高斯混合模型参数表征感知掩蔽后的音频信号特征，借助Matlab平台实现了整个编解码系统，得到了高质量的中低码率语音和音频编码。仿真结果表明，在传输码率为40.213 Kb/s时，解码得到的语音使用PESQ进行客观评价评分在3.8以上，高于使用Joachim Thiemann提出的稀疏包络表示的方法，通过主观测试使用本文方法得到的重构音频信号得分同样也高于Joachim Thiemann提出的使用稀疏方包络表示的方法。然而，本文编码方案的码率仍然较高，需要在未来的研究中找出更加适合的模型拟合音频谱包络，在提高解码语音质量的同时进一步降低编码码率。

［1］ Spanias A，Painter T.Audio Signal Processing and Coding［M］.New York，USA：John Wiley and Sons，2012.

［2］ ISO.ISO/IEC 14496-3-2009 Coding of Audio-Visual Objects，Part 3：Audio［S］.2009.

［3］ 3GPP.3GPP TS 26.171-2002 Adaptive Multi-Rate-Wide-band（AMR-WB）Speech Codec，General Description［S］.2002.

［4］ Smith E C，Lewicki M S.Efficient Auditory Coding［J］. Nature，2006，439（7079）：978-982.

［5］ Holters M.Automatic Parameter Optimization for a Perceptual Audio Codec［C］//Proceedings of IEEE International Conference on Acoustics，Speech and Signal Processing.Washington D.C.，USA：IEEE Press，2009：13-16.

［6］王鑫.基于高斯混合模型的聚类算法及其在图像分割中的应用［D］.太原：中北大学，2013：24-31.

［7］颜建平.广义Gamma混合模型的参数估计研究［D］.成都：西南交通大学，2011.

［8］ Strahl S.Sparse Gammatone Signal Model Optimized for English Speech Does not Match the Human Auditory Filters［J］.Brain Research，2008，1220（2）：224-233.

［9］ Mathews JH，Fink K K.数值方法（Matlab版）［M］. 4版.北京：电子工业出版社，2010.

［10］ Thiemann J.A Sparse Auditory Envelope Representation with Iterative Reconstruction for Audio Coding［D］. Montreal，Canada：McGill University，2011.

编辑顾逸斐

Perceptual Domain Audio Coding Method Based on Gaussian Mixture Model

LV Yaping1，GAO Ge1，CHEN Yi2，ZHANG Kang1
（1.National Engineering Research Center for Multimedia Software，Computer College，Wuhan University，Wuhan 430072，China；2.Computer College，Central China Normal University，Wuhan 430072，China）

For the traditional perceptual audio encoding scheme using the psychoacoustic mask effect to reduce coding rate，the channel model+signal incentive way is difficult to simultaneously realize high quality in low bit rate speech and audio signal coding.It proposes a perceptual domain audio coding algorithm based on Gaussian Mixture Model（GMM）.The algorithm uses Gammatone filter groups to simulate the human auditory system，using multiplexer masking model and replace to reduce the number of pulse envelope and facilitate the use of structural model fitting，using the Gauss-New ton algorithm for the fitting of Gaussian mixture model parameters，using Gaussian mixture model parameter replace audio signal characteristics.The results prove that compared with the audio coding method based on the envelope with sparse reconstruction，subjective test is higher than 0.5 point to 0.8 point，and the objective test is higher than 5 point to 10 point，most of the speech and music signal can be restored to the effect of the original audio signal by decoding，and can be used to achieve high quality speech and audio encoding at low bit rate.

human auditory system；perceptual domain audio coding；Gaussian Mixture Model（GMM）；Gammatone filter bank；Gauss-Newton algorithm

吕亚平，高戈，陈怡，等.基于高斯混合模型的感知域音频编码方法［J］.计算机工程，2015，41（10）：265-269.

英文引用格式：Lv Yaping，Gao Ge，Chen Yi，et al.Perceptual Domain Audio Coding Method Based on Gaussian Mixture Model［J］.Computer Engineering，2015，41（10）：265-269.

1000-3428（2015）10-0265-05

TN912

国家自然科学基金资助项目（614712710）。

吕亚平（1990-），女，硕士研究生，主研方向：音频编码与处理；高戈、陈怡，副教授、博士；张康，硕士研究生。

2014-09-16

2014-10-27E-mail：lvyaping514@sohu.com