APP下载

考虑帧间信息的语音转换算法

2012-11-26简志华王向文

关键词:男声特征参数矢量

简志华,王向文

(杭州电子科技大学通信工程学院,浙江杭州310018)

0 引言

在语音信号中,说话人的个性特征是一种非常重要的信息。语音转换就是要改变源说话人语音的个性特征信息,使之具有目标说话人的个性信息,也即转换后的语音听起来就像是目标说话人的声音一样,但语音的语义内容保持不变[1]。早期的语音转换函数是基于矢量量化模型[2]。但基于矢量量化的转换算法由于将特征参数矢量离散化,导致频谱的不连续性,转换性能和语音质量都不理想。文献3提出了一种基于高斯混合模型(Gaussian Mixture Model,GMM)的具有连续形式的转换函数,具有较好的转换性能。文献4对GMM算法进行了改进,提出了联合矢量GMM模型,简化了运算,也使得基于GMM的转换算法逐渐地成为语音转换的主流算法。但由于基于GMM的转换函数是基于统计平均,使频谱过于平滑,导致转换后的语音质量和自然度下降。为了提高语音质量,文献5提出了一种基于频率卷绕的转换算法,具有较好的语音质量,但转换效果不佳。文献6综合了GMM转换算法和频率卷绕算法的优势,提出了一种在GMM模型的基础上进行加权的频率卷绕算法(Weighted Frequency Warping,WFW),较好地平衡了语音质量和转换性能之间的矛盾。但以上算法在转换时都没有考虑语音帧间的相关信息,而事实上,语音帧间具有很强的相关性,这些相关信息不仅有利于改善转换效果,也有利于提高转换后的语音质量。本文正是基于这一考虑,提出了采用压缩感知(Compressed Sensing,CS)理论[7]来考虑语音特征参数帧间相关信息的语音转换算法。

1 传统的WFW转换算法

在对称语料库的情况下,假定在经过时间规整后,源说话人的语音特征参数序列为 X={x1,x2,…,xn,…,xN},目标说话人语音特征参数序列为 Y= {y1,y2,…,yn,…,yN}。将xn与对应的yn拼接成一个新的联合矢量zn,即zn=[]T,其中符号“T”表示矩阵转置。因此,就得到了联合矢量空间 Z= {z1,z2,…,zn,…,zN},对该空间用GMM进行建模,并用期望最大算法获得GMM模型的参数为:

式中,αi是权重和分别表示第i个分量的均值向量和协方差矩阵,M表示高斯分量的总个数为:

式中,βi(xn)是后验概率为:

从式3可以看出,不同的语音帧具有不同的后验概率分布βi(xn),因此每帧语音具有不同的频率卷绕函数。

2 MWFW转换算法

WFW算法是单独对每帧语音的特征参数进行转换,没有考虑到语音帧间的相关性。而事实上,语音帧间的相关信息具有重要的作用,为了利用语音帧间的相关性,同时也考虑到在转换时,语音段比语音帧更具有稳定性,有利于提高语音质量,本文采用CS理论来提取语音帧间的相关信息。

CS理论指出,只要信号是可压缩的或在某个变换域是稀疏的,那么就可以用一个与变换基不相关的观测矩阵将高维信号投影到一个低维空间上,然后通过求解一个优化问题就可以从这些少量投影中以高概率重构出原信号[7]。

由于线谱对参数具有良好的量化和插值特性,使它成为目前语音转换中使用最为广泛的特征参数。假定xn是当前时刻语音帧的LSP参数,即L维的列矢量,则是一以xn为中心的由τ(τ为奇数)帧语音LSP参数构成的矢量序列。将这一矢量序列按时间先后顺序拼接起来形成一个长的矢量为:

式中,符号“T”表示转置,则Xn是一个τL×1维的列矢量。由于联合矢量Xn在DCT域具有很好的稀疏性,其大部分的系数都为零或者接近于零。这说明在DCT域,联合矢量Xn采用压缩感知理论是完全可行的。令观测矩阵Φ为一个D×τL维的高斯随机矩阵为:

根据CS理论,D可以是一个比 τL小得多的值,在本文中,D=「ξlog(τL/ξ)。其中符号「·表示不小于某数的最小整数,ξ是稀疏度。因此,第n帧语音的LSP特征参数xn就变换成了D维的矢量。这样,采用做特征参数,不仅包含了当前语音帧的信息,也包含了前后几帧语音的信息。同理,提取目标说话人相应的,再将和拼接起来就构成了gn。用GMM模型对矢量空间{gn}进行建模,这样就可以得到矢量空间{gn}下的式1-3。在物理意义上,和相当于τ帧语音的LSP参数经过CS压缩后所得到的值。为了能得到GMM各子空间的频率卷绕函数,需将和分别用CS技术重构出各自连续的τ帧LSP参数,并取其对应的位于中间的LSP参数和。和WFW算法一样,利用和获得第i个子空间的频率曲线函数Wi(f),再用后验概率进行加权就可以得到整体的频率卷绕函数W(n)(f)。

3 实验与结果

本实验所采用的语音库信号的采样率为16kHz,每个样点16bit量化,发音是采用中性的朗读风格。抽取其中4个人的语音,即2个男声和2个女声,分别命名为M1、M2和F1、F2。每个人都取200个语句,每个语句大致是2-3s时长的短语和短句,其中150个用于训练,50个用于测试。而且每个人的发音内容相同,也即是对称的语音库。实验的语音帧长为20ms,帧移为10ms,采用Hamming窗,语音信号采用 STRAIGHT 模型[8]。

整个实验根据转换方向的不同分为4部分,分别是男声转换成女声(M1-F1)、男声转换成男声(M1-M2)、女声转换男声(F2-M2)和女声转换成女声(F2-F1)。由于语音信号的听觉感觉特性和对数域的频谱密切相关,本文的客观评价标准采用文献9的频谱相对距离比值来衡量转换性能。

如表1所示是在τ分别等于3、5、7、9几种情况下的MWFW算法和WFW算法的性能对比图。从表1上可以看出,有些情况下的MWFW频谱相对距离比WFW小,有些情况下要大,但从整体上来讲MWFW的性能要好,特别是MWFW5在4个转换方向上都要好于WFW。这是由于当τ=5时,5帧语音所构成的语音段能够较好地反映出语音的帧间相关性和稳定性,当τ越大时,相关性则越来越弱,就不利于语音转换性能的提高。

表1 几种转换情况下的频谱相对距离的对比(%)

主观听觉测试主要包括两方面:一是相似度测试,主要是为了反映转换的程度;二是语音质量评价,语音质量的好坏对语音转换技术的应用具有非常大的影响。相似度测试主要采用ABX测试方法,其中的A和B分别表示源说话人和目标说话人,X指的转换后的语音,该测试的目的主要是为了反映转换后的语音听起来是像源说话人还是更像目标说话人,如果像源说话人则得分为0,如果像目标说话人则得分为1,然后将总分加起来再去除以总共测试的语音个数。ABX的测试结果如表2所示。从表2可以看出,异性之间的转换,ABX的结果要好于同性之间。这是因为异性之间的频谱距离虽然比同性之间的要大,但它的转换程度要大于同性,这样就导致转换后的语音听起来很明显像目标说话人,而不像源说话人。这是一种相对的结果,这一结果也和客观测试中的频谱相对距离D的结果相吻合。转换后语音的MOS分如表3所示。从表3来看,同性转换的语音质量要好于异性之间。这是因为,异性语音频谱之间的距离一般要大于同性之间,转换的程度也要大些,而对语音参数修改的程度要大,对语音质量的影响也越大,这就导致了异性转换之间的语音质量有所下降。

表2 ABX测试结果(%)

表3 MOS分测试结果

4 结束语

本文提出了一种改进的加权频谱卷绕语音转换算法。MFWF采用压缩感知技术来提取语音帧间的相关信息,对语音特征参数的转换相当于是在语音分段的基础上进行,有利于保持转换语音频谱的连贯性和稳定性。客观评测和主观听觉实验都表明,在选择合适的语音段时长的情况下,MWFW算法的性能要优于WFW算法。

[1] 左国玉,刘文举,阮晓刚.声音转换技术的研究与进展[J].电子学报,2004,32(7):1 165-1 172.

[2] Abe M,Nakamura S,Shikano K,et al.Voice conversion through vector quantization[C].New York:IEEE International Conference on Acoustic Speech and Signal Processing,1988:655-658.

[3] Stylianou Y,Cappe O,Moulines E.Continuous probabilistic transform for voice conversion[J].IEEE Transactions on Speech and Audio Processing,1998,6(2):131-142

[4] Kain A,Macon MW.Design and evaluation of a voice conversion algorithm based on spectral envelop mapping and residual prediction[C].Salt Lake City:IEEE International Conference on Acoustic Speech and Signal Processing,2001:813-816.

[5] Pribilova A,Pribil J.Non-linear frequency scale mapping voice conversion in text-to-speech system with cepstral description[J].Speech Communication,2006,48(12):1 691-1 703.

[6] Erro D,Moreno A,Bonafonte A.Voice conversion based on weighted frequency warping[J].IEEE Transactions on Audio Speech and Language Processing,2010,18(5):922-931.

[7] Tropp JA,Gilbert A C.Signal recovery from random measurements via orthogonal matching pursuit[J].IEEE Transactions on Information Theory,2007,53(12):4 655-4 666.

[8] Kawahara H,Masuda-Katsuse I,Cheveigne A.Restructuring speech representations using a pitch-adaptive time-frequency smoothing and an instantaneous-frequency-based F0 extraction:Possible role of a repetitive structure in sounds[J].Speech Communication,1999,27(3):187-207.

[9] Ye Hui,Young S.Quality-enhanced voice morphing using maximum likelihood transformations[J].IEEE Transactions on Audio Speech and Language Processing,2006,14(4):1 301-1 312.

猜你喜欢

男声特征参数矢量
故障诊断中信号特征参数择取方法
矢量三角形法的应用
基于特征参数化的木工CAD/CAM系统
长江梦
中 年 人
天下父母心(男声独唱)
基于PSO-VMD的齿轮特征参数提取方法研究
基于矢量最优估计的稳健测向方法
三角形法则在动态平衡问题中的应用
初中男声合唱教学的探索