基于离散余弦变换的语音压缩采样和编码算法∗

2015-10-26武朋辉杨百龙

应用声学 2015年1期

关键词：码本刻度滤波器

武朋辉　杨百龙　时磊

（1第二炮兵工程大学信息工程系　西安　710025）

（2中国人民解放军96424部队　宝鸡　721004）

（3第二炮兵工程大学士官学院　潍坊　262500）

基于离散余弦变换的语音压缩采样和编码算法∗

武朋辉1,2†杨百龙1时磊3

（1第二炮兵工程大学信息工程系西安710025）

（2中国人民解放军96424部队宝鸡721004）

（3第二炮兵工程大学士官学院潍坊262500）

针对语音无线通信中带宽资源受限的问题，提出基于压缩采样的低速率语音编码算法。以基尼系数为指标，比较不同稀疏变换域下语音信号的稀疏性，分析常见重构算法对语音信号压缩采样观测信号的重构特性。对标准耳蜗滤波器——伽马啁啾滤波器组的参数进行研究，并以梯度投影稀疏重建（GPSR）算法重构语音信号。利用语音质量感知评估（PESQ）、信噪比和主观听觉测试，对编解码后的合成语音信号进行了质量评估。实验表明，基于压缩感知的语音编码器以4 kbps的低速率对语音进行编码时，PESQ得分可达到3.16，计算复杂度相对较低，可以用于实际的语音编码环境。

低速率编码，压缩采样，基尼系数，离散余弦变换

1　引言

语音压缩编码要求在保证尽可能好的听觉质量基础上，以尽可能低的码率传输和存储语音信号中的信息。低编码率的语音压缩算法，在无线网络、卫星通信和军事保密通信等带宽资源十分有限的环境中有着广泛应用［1］。根据信息论的观点，理论上语音编码的极限速率为80～100 bps，然而这种情况下，说话人的音质、音调、情感等重要信息已经丢失。线性预测编码（Linear prediction code）是最基本的语音参数编码方法，在此基础上发展起来的码激励线性预测模型（Code excited linear prediction，CELP），混合激励线性预测模型（Mixed-excitation linear prediction，MELP），谐波激励线性预测模型（Harmonic excited linear prediction，HELP）和波形插值编码模型（Waveform interpolation，WI）是当前语音低速率编码研究的发展方向［2］。

压缩采样［3-4］（Compressive sensing，CS）技术，认为如果信号本身或信号在某一变换域中稀疏或近似稀疏，就可以用此信号的投影观测值来近似无损地重构原信号。重构信号的质量与信号的最高频率无关，突破了奈奎斯特采样定律对采样频率的限制。此外，Sreenivas［5］从理论和实验上分析了语音信号的稀疏特性，这使得压缩采样技术在一维语音信号中的应用成为现实。

利用CS技术进行低速率语音编码成为研究的一个热点，叶蕾［6］等对语音信号小波变换高频系数进行压缩采样，在保证解码端重构语音质量的同时，降低语音码率降至3.4 kbps。2011年，叶蕾［7］经过改进重构算法，提出基于CS的3.0 kbps语音编码算法，且重构语音质量的平均意见得分（Mean opinion score，MOS）达到3.7。Gunawan［8］等在六核并行计算框架下，利用矢量量化算法对语音CS后的观测值进行编码，合成语音的MOS值可达到3.6。

本文对语音信号在三种确定性稀疏变换（离散余弦变换（Discrete cosine transform，DCT），离散傅里叶变换（Discrete fourier transform，DFT），离散小波变换（Discrete wavelet transform，DWT））下的稀疏性进行分析对比，提出了一种DCT下基于压缩采样的语音编码算法，对语音信号经过伽马通滤器组滤波后的子带参数进行压缩采样以降低码率，解码端利用梯度投影稀疏重建（Gradient projection for sparse reconstruction，GPSR）算法对压缩采样后的语音信号进行重构。通过主观和客观的语音质量评估方法，对合成语音的质量进行了分析，并与CELP编码算法进行了性能比较。

2　基础理论

2.1语音信号的稀疏表示

信号的严格稀疏性要求信号在变换基上只有K个非零的系数，但是大多数情况下信号无法达到这个要求。然而，如果信号经过变换后得到的系数经排列后能够呈现出指数级衰减趋近于零的趋势，就表示信号也是可压缩的，称为近似稀疏。此时，可以将较小系数进行零值化处理，在不影响语音质量的前提下对进行信号稀疏化。

以16 kHz的采样频率录制一段语音信号，取320个点的浊音信号进行分析，其时域波形如图1（a）所示，可以看出信号具有准周期性。对信号进行DCT变换后，按降序排列DCT系数的绝对值，曲线如图1（b）所示，可以发现浊音信号的系数以指数级速度衰减趋于零，说明语音信号的浊音部分在离散余弦变换下的系数可以看成是近似稀疏的。浊音信号在其他确定性变换基下的系数也是近似稀疏的，限于篇幅，其他变换的实验数据不再列出。由于语音信号中浊音信号占70%以上，所以我们可以得出结论：对语音信号可以采用压缩采样技术进行处理，从而降低信息冗余。

2.2压缩采样

压缩采样与传统的数据采集方法不同。它采取比传统方法使用少得多的样品或测量值来恢复原始信号。由于只需通过存储最大的基系数，信号得到压缩。在复原过程中，没有存储的较小系数被置为零。

CS技术利用了两个原理实现对原始信号的近似重构。一是稀疏性，这与信号本身的特征相关；二是非相干性，即感知模型中的观测矩阵和稀疏变换中的稀疏矩阵之间的非关联性［9］。

2.2.1稀疏性

从信号的随机投影中恢复信号的前提是信号在向量空间上是稀疏的［10］。稀疏度是CS在测量阶段衡量一个信号冗余度的指标。观察信号在常用变换域（像小波变换，离散余弦变换或快速傅立叶变换）的系数可以发现，大部分系数都非常小，可以忽略不计，只有相对较少的大系数包含了信号最重要的信息。

假设原始信号为x∈RN，ψ=｛ψ1，ψ2，···，ψN｝是RN空间上的基向量。信号成为“T稀疏”的条件是：

其中sni是标量系数，且T＜N，ψ是x的知识。所以x=ψ·s，其中s是只有T个非零元素的稀疏向量。

观测方法是：

或y=Φ·x，ϕ 是M×N维的观测矩阵。Φ由m维随机正交基向量ϕm构成。如果Φ和ϕ 满足非相干性，且M＞T lgN，则可以从y中高概率地重构x。

CS的基本目标是找出线性非自适应观测的最小数量以重构信号。重构的过程可转化为求解凸优化问题：

其中‖·‖1表示ℓ1范数。观测矩阵的维数相当低，重构时需要利用迭代算法。

2.2.2重构算法

重构出的信号的质量取决于观测次数，信号的稀疏性和重构算法的性能。稀疏逼近的重构算法有许多，基本有三大类：追踪算法，凸松弛算法和组合算法。其代表算法有匹配追踪（Matching pursuit，MP），梯度追踪（Gradient pursuit，GP）算法和链式追踪（Chaining pursuit，CP）算法等。梯度追踪类算法结合了匹配追踪算法，又使用最优化方法中的最速下降法，在计算量上与MP算法接近，重建效果上又与正交匹配追踪（Orthogonal matching pursuit，OMP）算法相当，具有很好的重构效果。

3　基于压缩感知的语音编码器设计

本文提出的编码算法如图2所示。在编码端，输入的语音首先被分成32 ms的语音帧，然后经过带通滤波器进行滤波。对帧信号进行离散余弦变换，以使信号稀疏化，利用随机高斯矩阵作为观测矩阵，对稀疏信号进行测量，将测量结果进行矢量量化后，得到量化后的码本下标数据，再传输或经过信道存储。

图2　基于压缩感知的语音编码模型Fig.2 Speech encoder model based on CS

在解码端，依据接收到的码本下标，在码本中进行检索，得到解码后的信号，接着利用GPSR算法对稀疏系数进行重构，得到重构的语音信号DCT系数，经过IDCT变换后，再利用带通滤波器进行滤波，得到合成的语音信号。由于重构算法和DCT变换占用了时间资源，因此在伽马通滤波器后使用延迟补偿算法，以抵消合成语音的滞后现象。

3.1带通滤波器组设计

人耳对语音信号各频带的感知是非均匀的，人耳的感知频率与传统意义的频率之间并不是线性关系。因此，在设计带通滤波器组之前，需要将实际频率映射到符合人耳感知频率的刻度上。目前，常用的非线性频率刻度变换有Mel刻度、Bark刻度和ERB（Equivalent rectangular bandwidth）刻度［11］。

Mel刻度多用于心理声学中对基音“幅度”的客观测度，它和实际频率之间大体呈对数关系，在1 kHz以上呈对数增长，在1 kHz以下大致呈线性分布。基于Mel刻度的美尔滤波器组一般采用多个三角形滤波器对语音信号进行参数提取。

Bark刻度依据人类听觉系统的频率选择性测量得到，在500 Hz以下呈线性关系，高于500 Hz则呈对数关系。基于临界带的Mel刻度和Bark刻度模拟了人耳的听觉系统特性，但与真实的人耳听觉系统特性还有差距。

ERB刻度是依据听觉滤波器的波形而定义的一种刻度，同Bark刻度相比较，ERB刻度下，临界带带宽更窄，尤其在低频范围内更加明显。在500 Hz频率以下，ERB刻度既不像Bark刻度那样呈线性关系，也不是对数关系，而是介于两者之间，能够更精确地描述了人耳基底膜的频率选择特性。因此，基于ERB刻度的耳蜗滤波器组在提取语音参数上更接近实际情况。常用的耳蜗滤波器组有伽马通滤波器组和伽马啁啾滤波器组。

伽马通滤波器组［12］的冲激响应为

式中，t≥0，1≤i≤N，N为滤波器的阶数；A为滤波器的增益；φi表示相位；u（t）为单位阶跃函数；B=-2πbERB（fi）；ERB为等效矩形带宽，可由式（5）得到。

fi表示滤波器中心频率，在30 Hz到4000 Hz之间分布。伽马通滤波器组，能模拟人耳的频率选择特性和频谱分析特性，但它的幅频响应曲线是关于中心频率对称的且振幅与强度无关，无法体现出基底膜曲线的非对称性和强度相关特性。

伽马啁啾滤波器组［13］是一个标准的耳蜗听觉滤波器，其冲击响应的典型模式为

其中：

lnt为时间的自然对数；c为啁啾因子，当c=0时，伽马啁啾滤波器组简化为伽马通滤波器组。伽马啁啾滤波器组不但具备伽马通滤波器组的优点，还可以模拟基底膜滤波器的非对称性和强度依赖性，因此，本文选择伽马啁啾滤波器组作为带通滤波器。

3.2稀疏变换基的选择

对一维语音信号稀疏化的变换域常有离散傅立叶变换（DFT），离散余弦变换（DCT）和小波变换（WT）。为了评价语音信号在稀疏基下的稀疏性能，本文借鉴经济学中的基尼系数（Gini index）来衡量信号的均匀程度。基尼系数用于表征分配系统中的平均度，表示完全平均分配，即各个受益者在系统中得到均匀的资源；1表示最不等分配，即最稀疏情况。

对一段语音信号进行稀疏变换后，以变换系数最大值的3%作为较小系数的计数开始点，将较小系数置，计算系数的基尼系数，结果如表1所示。可以看出，DCT域的语音信号更加稀疏，压缩采样的效果最好。本文采用DCT变换以使语音信号在子带上稀疏。

表1　语音信号在稀疏基下的Gini系数Table 1 Gini indexs of speech signals under sparse basis

3.3梯度投影稀疏重建算法（GPSR）

梯度投影（GPSR）［14］算法将无约束ℓ1正则化非线性凸优化问题，转化为带边界约束的二次规划问题。即无约束凸优化问题：其中x∈Rn，y∈Rk，A是k×n矩阵。τ是非负参数，‖·‖2表示欧几里得范数，‖·‖1表示ℓ1范数，可以转化带约束凸优化问题：

及

其中ε和σ均为非负实参数。

以任意一个可能解作为出发点，沿着下降的可行方向搜索，求出使目标函数值下降的新的可能解。当迭代出发点在可行域内部时，沿负梯度方向进行搜索；当迭代出发点在某些约束的边界上时，将该点处的负梯度投影到矩阵的零空间，该空间是以起作用约束或部分起作用约束的梯度为行所构造成的。GPSR算法对信号的重构精度较高，且其收敛速度比最小ℓ1范数算法和硬阈值算法快。表2是几类重建算法的CPU时间。

表2　几类重建算法执行时间Table 2　CPU time of reconstruction algorithms

4　实验结果与分析

实验平台参数为：Pentium Dual 2.0 GHz CPU，2 GB RAM，Windows 7操作系统，仿真使用Mathwork公司的Matlab V7.8进行。

4.1语音材料录制

为了比较编码算法的性能，在录音室内录制3名男性和3名女性的话音，采样频率为25 kHz，位深16比特。每人录制5段时长在2～5 s的短话，共计30段语音数据。用Adobe Audition软件对录音进行下采样至16 kHz。

4.2码本尺寸对重构质量的影响

实验选用前20个语音文件训练码本，后20个语音文件进行编码并做性能测试。矢量量化固定码本的尺寸初始设置为256，128，64，32，和16。

以第21个语音文件为实验音频，测试码本尺寸对语音感知质量的影响。图3是码本大小与PESQ［15］测量值的关系曲线。可以看出，决定编码速率的码本尺寸和语音透明性之间存在着相互制衡的关系。增加码本尺寸，可以得到较好的合成语音质量，但这会增加编码比特率。

图3　语音PESQ质量与码本尺寸关系曲线Fig.3 Speech quality with increasing codebook size

4.3语音合成质量客观评价

以语音素材集的后10个音频文件（5男声，5女声）为实验材料，码本尺寸设为256，利用PESQ、信噪比和分段信噪比作为客观评价指标，对合成语音质量进行评价。表3是10个语音文件的PESQ值。PESQ平均得分3.164，表明合成语音质量较好。图4给出了合成语音的SNR和SNRseg。

表3　合成语音的PESQ值Table 3 PESQ score of synthetic speech

4.4语音合成质量主观评价

选取25名正常听觉的听音者对10个合成语音进行主观性能测试，得到每个语音文件的平均意见得分。得分5表示完全无杂音，得分1表示完全听不清。10个合成语音的平均得分为3.712，表示具有非常良好的品质，也证实了客观测试PESQ得分3.164的正确性。

图4　合成语音的信噪比和分段信噪比Fig.4 SNR and SNRsegof synthetic speech

4.5与典型低速率声码器的性能比较

保密电话常用的声码器以CELP和MELP声码器为主。CELP以高质量的合成语音、优良的抗噪声和多次转接性能，在低速率语音编码上得到广泛应用。MELP声码器在传统的二元激励线性预测模型的基础上作了改进，并采用了许多新的措施，使得在2.4 kbps速率上能够得到更高质量的合成语音。将4.8 kbps CELP声码器，2.4 kbps MELP声码器和本文提出的算法进行比较，对后10个语音文件分别进行三种算法下的编解码，其性能如表4所示。

表4　声码器性能比较Table 4 Vocoder characteristics of a range

在语音合成质量方面，三种算法的平均PESQ得分相当。在编码速率方面，基于压缩采样的语音编码速率可以达到4 kbps，低于CELP声码器的编码速率，但高于MELP声码器的编码速率。

在计算复杂度方面，本文算法的性能介于两种传统声码器之间。由于语音信号相邻帧之间的相关性很大，可以在GPSR重构时，以前一帧信号的重构信息作为当前帧重构时的初值，从而减少恢复算法的计算量，加快信号恢复的过程，降低算法的计算复杂度。

5　结论

提出基于压缩采样的低比特率语音编码算法，利用伽马通滤波器组对语音信号进行滤波后，语音信号在DCT变换域上的稀疏性，使用压缩采样对语音信号进行测量。利用GPSR算法对语音进行了重构。客观和主观评价结果表明合成语音质量的PESQ得分为3.16，信噪比为9.35，表现出良好的合成语音质量。与编码速率为4.8 kbps的FS-1016标准CELP编码算法相比，在降低编码速率（4 kbps）的同时，提高了合成语音的感知质量。算法可满足语音编码系统的性能要求，也为低速率语音编码探索了新的方法和途径。下一步，将利用语音信号帧间的相关性，研究基于压缩采样的参数域语音编码方法，并降低算法的计算复杂度。

［1］SPANIAS A S.Speech coding：a tutorial review［J］.Proceedings of the IEEE，1994，82（10）：1541-1582.

［2］RABINER L R，SCHAFER R W.数字语音处理理论与应用（英文版）［M］.北京：电子工业出版社，2011.

［3］CANDES E J，WAKIN M B.An introduction to compressive sampling［J］.Signal Processing Magazine，IEEE，2008，25（2）：21-30.

［4］DONOHO D L.Compressed sensing［J］.IEEE TransactionsonInformationTheory，IEEE，2006，52（4）：1289-1306.

［5］SREENIVAS T V，BASTIAAN K W.Compressive sensing for sparsely excited speech signals［C］.Proceeding of IEEE ICASSP.Washington DC：IEEE Computer Society，2009：4125-4128.

［6］叶蕾，杨震，郭海燕.基于小波变换和压缩感知的低速率语音编码方案［J］.仪器仪表学报，2010，31（7）：1569-1575. YE Lei，YANG Zhen，GUO Haiyan.Low bit rate speech codingbased on wavelet transform and compressed sensing［J］.Chinese Journal of Scientific Instrument，2010，31（7）：1569-1575.

［7］叶蕾，杨震，孙林慧.基于压缩感知的低速率语音编码新方案［J］.仪器仪表学报，2011，32（12）：2688-2692. YE Lei，YANG Zhen，SUN Linhui.New low bit rate speech coding scheme based on compressed sensing［J］. Chinese Journal of Scientific Instrument，2011，32（12）：2688-2692.

［8］GUNAWAN T S，KHALIFA O O，SHAFIE A A，et al. Speech compression using compressive sensing on a multicore system［C］.Proceeding of the 4th International Conference On Mechatronics（ICOM），IEEE，2011：1-4.

［9］郭金库，刘光斌，余志勇，等.信号稀疏表示理论及其应用［M］.北京：科学出版社，2013：22-27.

［10］CHRISTENSEN M G，STERGAARD J，JENSEN SH. On compressed sensing and its application to speech and audio signals［C］.Conference Record of the Forty-Third Asilomar Conference on Signals，Systems and Computers，2009：356-360.

［11］俞一彪，袁冬梅，薛峰.一种适于说话人识别的非线性频率尺度变换［J］.声学学报，2008，33（5）：450-455. YU Yibiao，YUAN Dongmei，XUE Feng.A non-linear frequencytransformforspeakerrecognition［J］.Acta Acustica，2008，33（5）：450-455.

［12］AMBIKAIRAJAH E，EPPS J，LIN L.Wideband speech and audio coding using gamma tone filter banks［C］. Proceedings of International Conference on Acoustics，Speech，and Signal Processing（ICASSP’01），IEEE，2001，2：773-776.

［13］IRINO T，PATTERSON R D.A dynamic compressive gamma chirp auditory filter bank［J］.Transactions on Audio，Speech，and Language Processing，IEEE，2008，14（6）：1044-1048.

［14］FIGUEIREDO M A T，NOWAK R D，WRIGHT S J.Gradient projection for sparse reconstruction：application to compressed sensing and other inverse problems［J］.Journal of Selected Topics in Signal Processing，IEEE，2007，1（4）：586-597.

［15］HU Y，LOIZOU P.Subjective evaluation and comparison of speech enhancement algorithms［J］.Speech Communication，2007，49：588-601.

Speech compressive sensing and codec algorithm based on discrete cosine transform∗

WU Penghui1，2†YANG Bailong1SHI Lei3

（1 Department of Information Engineering，the Second Artillery Engineering University，Xi'an 710025，China）

（2 Unit 96424 of PLA，Baoji 721004，China）

（3 College of NCO，the Second Artillery Engineering University，Weifang 262500，China）

Due to restricted bandwidth in wireless speech communication,a new low-bit rate speech codec based on compressive sampling under discrete cosine transform is proposed.Speech sparsity under different transformations was compared,and the characteristic of reconstructed algorithm on speech compressive sampling was analyzed.The Gini index was utilized to gage the coefficient sparsity Before sampling,parameters of gamma chirp filter bank were selected in the speech frame.During reconstruction,the gradient projection for sparse reconstruction（GPSR）was used to recover the signals.Speech signals after encoded were evaluated by perceptual evaluation of speech quality（PESQ）,signal to noise ratio（SNR）and listening tests.Subjective and objective tests show that the proposed technique gets 3.16 PESQ mean score,and the bit-rate reaches to 4 kbps.Furthermore,low computation complexity of the proposed algorithm makes that it can be deployed under real circumstance.

Low bitrate coding,Compressive sampling,Gini index,Discrete cosine transform

TN973

1000-310X（2015）01-0017-07

10.11684/j.issn.1000-310X.2015.01.003

2014-03-28收稿；2014-07-09定稿

∗军队装备科研基金资助项目（EP133072）

武朋辉（1980-），男，陕西周至人，博士研究生，研究方向：语音信号处理，信息安全。

E-mail：wupenghui403@163.com