APP下载

基于二阶隐马尔可夫模型的清浊音恢复算法✴

2011-04-02何洪华徐敬德崔慧娟唐昆

电讯技术 2011年6期
关键词:浊音子帧子带

何洪华,徐敬德,计 哲,崔慧娟,唐昆

(清华大学电子工程系清华信息科学与技术国家实验室,北京100084)

基于二阶隐马尔可夫模型的清浊音恢复算法✴

何洪华,徐敬德,计 哲,崔慧娟,唐昆

(清华大学电子工程系清华信息科学与技术国家实验室,北京100084)

为了解决低速率语音编码中比特受限的问题,提出了一种基于二阶隐马尔可夫模型的清浊音参数恢复算法。该算法采用二阶隐马尔可夫模型,通过归一化的能量参数和LPC倒谱系数估计出序列中的全带清浊音判决和各个子带的清浊音度。解码器实现该算法后,编码器就无需对清浊音参数进行量化传输,从而节约了比特数。实验结果表明,该算法比基于GMM模型的算法能更好地恢复出清浊音信息,全带清浊音误判率减少了5%~20%,合成语音的MOS分比用5 bit的矢量量化(VQ)算法提高了0.03左右,达到了在节约比特数的同时也提高了语音质量的效果。

低速率语音编码;二阶隐马尔可夫模型;全带V/U判决;BPVC恢复

1 引言

随着现代通信技术的不断进步,特别是光纤通信的发展使得通信的能力大幅提高。但是在信道价格昂贵的卫星通信、信道带宽极其有限的水声通信和信道环境恶劣的短波通信中,仍然存在着对超低速率的声码器的强烈需求。因此,有必要进一步研究300 bit/s甚至更低速率的语音编码器。

在低速率语音参数编码算法中,一般在编码端对原始语音信号进行分析,提取各种能够表征语音信号的参数,如清浊音参数、线性预测系数(Linear Prediction Coding,LPC)、基音周期参数、能量参数等,对这些参数进行量化传输,然后在解码端使用反量化后的这些参数来合成语音信号[1]。因此,各个参数的量化性能直接影响着合成语音的质量。传统的低速率声码器通过衡量各个参数对语音质量的影响程度,然后给各个参数分配合理的比特数进行量化传输。然而在超低速率声码器中,分配给各个参数的比特数极其有限,各个参数的量化性能受到严重影响,从而影响了合成语音的质量。文献[2]提出了一种基于GMM(Gaussian Mixture Models)模型的清浊音解码端恢复算法,使得浊音度参数无需传输,从而节约原本用于浊音度参数量化传输的比特。这样,节约出的比特数就可以分配给线性预测系数和基音周期等其它参数进行量化,使得其它参数的量化性能得到提高,从而使合成语音的整体性能也得到提高。但是文献[2]中的GMM模型忽略了语音信号参数具有时间相关性的事实。实际上,人的发音习惯相对稳定,相邻帧的清浊音参数之间相关性很大。为了更好地利用相邻帧的清浊音参数的相关性及其与能量参数、LPC倒谱系数之间的统计相关性,本文提出了一种基于二阶隐马尔可夫模型的清浊音恢复算法。算法假定离散的清浊音为隐状态,归一化的能量参数和LPC倒谱系数组成的联合矢量为可观测状态,采用二阶隐马尔可夫模型估计出序列中的清浊音处于浊音状态的概率,将该值作为子带的清浊音模糊值。由于目前低速率声码器如SELP[1]和MELP[3]都是将语音信号按频率分为(0,0.5 kHz)、(0.5,1 kHz)、(1,2 kHz)、(2,3 kHz)、(3,4 kHz)5个子带,分别在各个子带内判断浊音度(BPVC),全带的V/U判决与第1子带的BPVC信息保持一致。因此,本文算法在恢复出各个子带的BPVC模糊值后,给第1子带的BPVC值设定一个门限即可以得到全带的V/U判决。

2 清浊音参数恢复算法

隐马尔可夫模型作为一种有效的语音信号统计模型,在语音识别和说话人识别研究中得到了广泛的应用[4-6]。本文假设每连续N个子帧组成一个超帧,超帧中的BPVC参数序列满足马尔可夫性,其中归一化能量参数和LPC倒谱系数(LPCC)为该马尔可夫链的可观测状态,BPVC参数为隐状态,根据隐马尔可夫模型,通过归一化的能量参数和LPC系数来估计BPVC的状态。为了更好地利用BPVC参数的帧间相关性,算法采用二阶隐马尔可夫模型(HMM2)。

2.1 清浊音参数的HMM2模型

首先将带通浊音度的值分为两个状态,分别标记为V(浊音)和U(清音),当BPVC的值大于某个门限时就标记其为V,否则为U。假设N个子帧组成一个超帧,第n子帧第b个子带的清浊音参数的状态为,若BPVC状态满足二阶隐马尔可夫性,则有:

然后将十维的LPC系数转换成12维的LPC倒谱系数矢量l,并将其与归一化能量参数¯g组成一个联合矢量

式中,归一化能量参数¯g=g/g0,g为当前子帧的能量,g0为当前子帧的长时能量。当前子帧的长时能量的更新方式为g0=αg+(1-α)g0,α为自适应修正的权重因子。

N个子帧的联合矢量组成了马尔可夫链中的可观测序列,则p(z|Sb=i)表示当第b个子带的清浊音参数处于状态i时出现观测矢量z的概率。在隐马尔可夫模型当中,观测矢量的概率密度通常由多个正态概率密度函数的线性叠加来逼近[7],即:

2.2 清浊音参数恢复算法

根据上一节的假设,在已知上一超帧最后一子帧的清浊音状态和当前超帧各子帧观测矢量的条件下,算法采用HMM2模型通过以下动态规划过程估计当前子帧各子带的清浊音状态。

令前向概率αb(i,j,n)表示第n-1子帧第b子带的浊音度处于状态i,第n子帧第b子带浊音度处于状态j,且观测矢量从第1帧到第n帧分别为z1到zn的概率,则有:

式中,n=1,2,…,N。假设上一超帧的最后一子帧为第0帧,则初始化

式中,n=2,3,…,N;r=2为状态数。

令后向概率βb(i,j,n)表示已知第子n-1帧第b子带的浊音度状态为i,第n子帧第b子带的浊音度状态为j的条件下,观测矢量从第n+1子帧到第N子帧分别为zn+1到zN的概率,则有:

式中,n=1,2,…,N。由初始条件βb(i,j,N)=1,通过以下公式迭代计算βb(i,j,n):

式中,n=2,3,…,N;r=2为状态数。

在通过动态规划迭代得到αb(i,j,n)与βb(i,j,n)后,按下式可以计算出超帧中的第n子帧第b子带的浊音度状态分布:

当j的状态为V时上式即为该语音帧的第b子带的BPVC参数处于状态V时的概率,该值即为第n子帧第b子带的模糊BPVC值。

一般认为全带清浊音判决与低子带的清浊音信息保持一致,因此可以根据第1子带的BPVC值直接判决全带的清浊音,如果下式成立则认为该语音帧为浊音,否则判决该语音帧为清音。

式中,Tuv为预设的判决门限。这样通过本文算法既可以恢复出子带的BPVC模糊值,也可以得到全带的清浊音判决。

3 仿真实验

本文使用一段114 min的中文语音作训练库来训练状态转移矩阵和正态分布的各个参数,该数据库包含不同性别不同方言的说话人的不同语句。观测矢量逼近为M个正态分布的线性组合,一般来说,M越大,逼近得越好,性能也就越好,但是复杂度也相应增加,而且随着M的增加,性能的提高会变得越来越不明显[2]。基于实际考虑选择M=8进行模型训练。

3.1 清浊音参数恢复性能

为了去除LSF和能量的量化对恢复效果的影响,首先采用未量化的值来恢复U/V参数,计算算法对U/V参数的恢复效果,测试指标包括全带V/U判决的准确率以及5个子带的BPVC参数恢复误差,恢复误差的计算采用以下的加权失真:

全带V/U判决的测试语音采用带有全带V/U标注信息的Keele语音库,包括10个男女声说话人的话音内容,总时长为5 min 36 s[2]。改变门限Tuv,得到清音误判为浊音的概率Peu和浊音误判为清音的概率Pev的相应变化曲线如图1所示。本文也实现了文献[2]的GMM算法,曲线越靠近左下方,错误率越低,性能越好。

当Pev≈1%时,两种算法的Peu如表1所示,由于浊音被误判对语音的影响远大于清音被误判的影响,所以通常在实际应用调整Tuv,使得Pev<1%。由图1和表1可知,当Pev<1%时,本文算法比GMM算法的Peu减小了5%~20%,性能提高了20%~30%。

为了计算算法对各个子带BPVC参数的恢复性能,按式(11)计算BPVC参数的失真。表2列出了本文算法与GMM算法的失真结果,测试语句采用了4段长度约为3 min的训练集外标准测试语音。

2018年9月18日下午,2018年中国技能大赛——第六届全国职工职业技能大赛中建七局杯砌筑工决赛在河南郑州举行。

由表2可知,本文算法相比GMM算法,BPVC的失真减少了12.7%。

由以上测试可知,本文算法相比于GMM算法能更好地恢复出全带V/U判决和子带BPVC参数。

3.2 对合成语音质量的影响

为了测试算法对整体语音性能的影响,在一种SELP声码器上进行了测试。该声码器以25 ms为一帧,采用12帧联合矢量量化的方式对LSF参数、能量参数(Gain)进行量化,由于在SELP声码器模型中,BPVC要被用来辅助量化基音周期参数(Pitch),为了更客观地比较,基音周期参数采用直通方式,无量化失真,不同算法的各个参数的比特分配方式如表3所示。其中,VQ算法采用5 bit对BPVC参数进行矢量量化(Vector Quantization)后传输;而GMM算法和HMM2算法不传输BPVC参数,只需在解码端根据量化后的LSF参数和能量参数分别采用GMM模型和HMM2模型对V/U参数进行恢复,并利用恢复的V/U参数对语音信号进行合成。

测试语音采用4段长度约为3 min的训练集外标准测试语音。测试指标采用平均意见得分(Mean Opinion Score,MOS),测试过程采用国际电信联盟建议的P.862 MOS测试软件,对应于表3中不同的算法,相应的测试结果见表4。

表4的测试结果表明,相较于5 bit的粗糙量化,采用GMM算法和本文算法后,客观MOS分都有不同程度的提高,且节省了5 bit,而本文算法的MOS分比GMM算法又提高了0.03,有效地提高了合成语音的质量。

4 结论

在超低速率语音参数编码算法中,极其有限的比特数给各个参数的量化增加了困难。为此,本文提出了一种基于二阶隐马尔可夫模型的BPVC恢复算法,算法充分利用子带清浊音参数自身的时间相关性及其与能量、线性预测系数之间的统计相关性,采用二阶隐马尔可夫模型,用归一化能量参数和LSF参数来恢复BPVC参数,节省了原本用于BPVC参数量化传输的比特。实验结果表明,相比于GMM算法,本文算法能使全带清浊音误判率减少了5%~20%,使合成语音的平均MOS分提高了0.03左右。因此,在超低速率语音参数编码算法中,利用参数自身的时间相关性和各参数之间的统计相关性来进一步改善算法性能是下一步的研究方向。

参考文献:

LI Ye.Research on low bit rate speech coding techniques and algorithm[D].Beijing:Tsinghua University,2009.(in Chinese)

[2] Wei X,Dang X,Cui H,et al.Voiced/Unvoiced Classification Recovery in the Speech Decoder Based on GMM[C]//Proceedings of ICSP.Beijing:IEEE,2008:546-548.

[3] McCree V,Barnwell T.A mixed excitation LPC vocoder model for low bit rate speech coding[J].IEEE Transactions on Speech Audio Processing,1995,3(4):242-250.

[4] Rabiner L,Juang B H.Fundamentals of Speech Recognition[M].New Jersey:Prentice-Hall,1993:321-386.

[5] Ismail Shahin.Using Second-Order Hidden Markov Model to Improve Speaker Identification Recognition Performance under Neutral Condition[C]//Proceedings of the 10th IEEE ICECS. Sharjah,United Arab Emirates:IEEE,2003:124-127.

[6] Jean-Francois Mari,Jean-Paul Haton,Abdelaziz kriouile. Automatic wordrecognition based on second-order hidden Markov models[J].IEEE Transactions on Speech and Audio Processing,1997(5):22-25.

[7]杨行峻,迟惠生.语音信号数字处理[M].北京:电子工业出版社,1995:141-144.

YANG Xing-jun,CHI Hui-sheng.Voice digital signal processing[M].Beijing:Publishing House of Electronics Industry,1995:141-144(in Chinese)

[8]李晔,洪侃,王童,等.正弦激励线性预测声码器子带清浊音模糊判决[J].清华大学学报(自然科学版),2008,48(7):1101-1103.

LI Ye,HONG Kan.WANG Tong,et al.Fuzzy unvoiced/voiced decision-making for sub-bands for SELP vocoder[J].Journal of Tsinghua University(Science& Technology Edition),2008,48(7):1101-1103.(in Chinese)

HE Hong-hua was born in Chenzhou,Hunan Province,in 1985.He received the B.S.degree in 2008.He is now a graduate student.His research direction is low-bit rate speech coding.

Email:hhonghua@gmail.com

徐敬德(1985—),男,福建安南人,2007年获学士学位,现为博士研究生,主要研究方向为低速率语音编码;

XU Jing-de was born in Annan,Fujian Province,in 1985. He received the B.S.degree in 2007.He is currently working toward the Ph.D.degree.His research direction is low-bit rate speech coding.

计哲(1984—),女,黑龙江大庆人,2006年获学士学位,现为博士研究生,主要研究方向为低速率语音编码;

JI Zhe was born in Daqing,Heilongjiang Province,in 1984. She received the B.S.degree in 2006.She is currently working toward the Ph.D.degree.Her research direction is low-bit rate speech coding.

崔慧娟(1945—),女,辽宁沈阳人,清华大学电子工程系教授,主要研究方向为信源编码、多媒体通信系统等;

CUI Hui-juan was born in Shenyang,Liaoning Province,in 1945.She is now a professor.Her research interests include signal source coding and multimedia communication system.

唐昆(1945—),男,江苏宜兴人,清华大学电子工程系教授,主要研究方向为数字通信、语音编码等领域。

TANG Kun was born in Yixing,Jiangsu Province,in 1945. He is now a professor.His research interests include communication,speech coding.

Voiced/Unvoiced Parameters Recovery Based on Second-Order Hidden Markov Model

HE Hong-hua,XU Jing-de,JI Zhe,CUI Hui-juan,TANG Kun
(Tsinghua National Laboratory for Information Science and Technology,Department of Electronic Engineering,Tsinghua University,Beijing 100084,China)

In order to solve the problem of limited number of bits in low bit rate speech coding,an algorithm using second-order Hidden Markov Model(HMM2)to recover the voiced/unvoiced parameters is proposed in this paper.The algorithm uses the normalized energy and linear prediction coding(LPC)coefficients to estimate the full-band V/U classification and the sub-band BPVC value.The algorithm can be implemented in the decoder,saving the bits originally used by V/U parameters and reducing the bit rate of speech coding.Experimental results show that the algorithm proposed can reduce the V/U classification error rate by 5%~20%compared with the GMM algorithm,and improve the mean opinion score(MOS)of the synthesized speech signal by about 0.03 compared with the 5bit vector quantization(VQ),thereby greatly improves the estimation performance of the V/U parameters.

low-bit rate speech coding;second-order HMM;V/U classification;BPVC recovery

The National Natural Science Foundation of China(No.60572081)

TN912.32

A

10.3969/j.issn.1001-893x.2011.06.013

何洪华(1985—),男,湖南郴州人,2008年获学士学位,现为硕士研究生,主要研究方向为低速率语音编码;

1001-893X(2011)06-0056-05

2011-01-30;

2011-04-14

国家自然科学基金资助项目(60572081)

猜你喜欢

浊音子帧子带
一种基于奇偶判断WPT的多音干扰抑制方法*
子带编码在图像压缩编码中的应用
日语半浊音的变化规律研究
清浊音分离抗噪的语音识别算法的研究
有关鼻浊音使用实态的研究
——以NHK新闻为中心
LAA系统在非授权频段上的动态子帧配置策略
基于虚拟孔径扩展的子带信息融合宽带DOA估计
LTE-A异构网中空白子帧的动态配置*
TD—LTE特殊子帧配比的优化设计
LTE TDD系统中下行HARQ机制的研究*