APP下载

一种基于RBF神经网络的汉语耳语音转化为正常语音的方法

2018-01-18王海燕

数字技术与应用 2018年9期

王海燕

摘要:针对汉语耳语音特征参数较正常语音发生变化而导致的可懂度和清晰度较差的问题,提出了采用能够以任意精度逼近连续函数的RBF神经网络建立汉语耳语音到正常语音的频谱包络映射关系,用以修正汉语耳语音的线谱对参数的方法。实验结果表明采用本文方法的汉语耳语音MOS得分为3.6,频谱失真距离变小,可懂度和清晰度得到了较大的提高。

关键词:RBF;汉语耳语音;线谱对参数

中图分类号:TN912 文献标识码:A 文章编号:1007-9416(2018)09-0049-03

耳语音是一种特别的发音模式,发音的主要特点是声带不振动,没有基频,声级低。耳语音转换在禁止大声喧哗的场所、移动通讯通话质量提高、国家安全部门语音识别系统升级、公安法院语音破译以及电子人工喉音质改进等方面具有非常重要的应用价值。

目前,对耳语音转换的研究主要有:粟学丽[1]等人使用相对熵法作为耳语音识别和转换的预处理来重建正常语间,改善了語音的音质,但是转换时延较长;黄程[2]等人提出了使用混合激励线性预测法实现汉语耳语音重建为正常语音,语音转换的自然度有待改善;Morris.R.w[3]等人提出谱修正法实现了耳语音的转换,但重建后的语音带有明显的失真,使得转换后的语音有较强的金属音质。

本方法将汉语耳语音和正常语音韵母部分的线谱对参数,通过RBF网络训练得到汉语耳语音到正常语音的线谱对参数转换模型,通过转换模型修正汉语耳语音的线谱对参数;然后将修正好的汉语耳语音的线谱对参数和正常语音基频平均值,输入到线谱对参数合成器中进行汉语耳语音韵母的转换;最后将转换后的清音和韵母结合,输出目标语音。

1 汉语耳语音的特点

耳语音发音时声门保持半开的状态使得声道增加了气管和肺的部分,声道传输函数随之发生相应改变,从而导致耳语音的共振峰发生偏移。

耳语音的清辅音部分与正常语音的发音方式基本没有区别,但是元音部分却有明显的差异。正常语音的元音是由准周期脉冲激励,含有明显的基音频率。耳语音的声源为噪声源,声带不振动,故耳语音的元音没有基频。而汉语的声调识别与韵律合成控制都与基频有关,汉语耳语音[4]的声母和韵母的特征差异不大,导致汉语耳语音的声韵较难分割,使得耳语音的可懂度和清晰度变差。

2 RBF神经网络在耳语音转换中的应用

RBF[5](Radial basis function)神经网络是种高效的单隐含层前馈式网络,能以任意精度逼近任何非线性连续函数。RBF网络由输入层、隐含层和输出层组成。隐含层以高斯函数exp[-(b(x-w))2]为核函数。其中x是自变量,即输入的很多值,b代表高斯函数的宽度即1/2σ2(σ为方差)。W为输入权重,决定高斯函数的中心点。输出结果是一组很平滑的小数,在特定的输入值w处具有最大exp的函数值,输入离这个特定的值越远,输出就成指数下降。

RBF网络要学习的参数为基函数的中心和方差以及隐含层与输出层间的权值。本文采用自组织选取中心法,将中心和权值的确定分为两步:一是自组织学习阶段,即学习和的阶段;二是有监督学习阶段,即学习输出层权值的阶段。

(1)学习中心。自组织学习过程用到的聚类算法是K-均值聚类算法。假设聚类中心有个(的值由先验知识决定),设(=1,2,…,),是第n次迭代时基函数的中心,K一均值聚类算法的具体步骤如下:

①始化聚类中心,即根据经验从训练样本集中随机选取个不同的样本作为初始中心,(=1,2,…),设置迭代步数n=0。

②随机输入选练样本。

③寻找训练样本拖离哪个中心最近,即找到使其满足,,式中,是第n次迭代时基函数的第i个中心。

④调整中心,用式:

3 系统结构

本文在分析了汉语耳语音发音特点的基础上,利用RBF神经网络建立了一个汉语耳语音与正常语音的频谱映射关系,通过已训练的RBF神经网络转换汉语耳语音的频谱,使用LSP参数合成器转化为正常语音。系统的处理方法如图1所示:

(1)神经网络训练阶段:首先对汉语耳语音和正常语音进行端点检测;然后分别对汉语耳语音和正常语音进行声韵分割,并分别对汉语耳语音、正常语音的韵母部分进行预处理和LSP的提取;之后将汉语耳语音的韵母线LSP作为输入信号,正常语音的韵母线LSP作为导师信号,进行RBF神经网络训练,得到汉语耳语音与正常语音的频谱包络映射关系。

(2)转换阶段:首先对汉语耳语音进行端点检测;然对汉语耳语音进行声韵分割以及提取汉语耳语音韵母部LSP;使用训练好的RBF神经网络模型修正汉语耳语音的LSP;以正常语音的基频平均值作为基音频率生成语音的激励源;把激励源以及转换后的LSP参数输入到LSP参数合成器进行汉语耳语音韵母部分的转换;最后将转换后的语音韵母部分和清音部分连接,输出正常语音。

4 实验结果与分析

4.1 仿真结果

本实验选取了采样率为I0KHz、16bit的wav格式音频文件,然后对汉语耳语音进行如下处理:(1)使用线性预测法(LPC)转换汉语耳语音;(2)使用同态信号处理法转换汉语耳语音;(3)使用本文方法转换汉语耳语音。图2图3为“酥打”的正常语音和分别由以上三种方法转换后语音的时域波形图和语谱图。

4.2 转换耳语音质量评价

对三种方法转换后的语音进行了平均MOS主观评分法和LSP失真测度、板仓—斋田谱失真度测度、Mel频率倒谱系数失真测度、巴克谱失真距离测度四种频域客观评价法[6][7],表1给出了几种方法的评价结果。仿真实验结果显示使用本文方法转换的耳语音谱失真距离减小,在可懂度和音质方面都达到了满意的效果,见表1。

5 结语

为此本文结合线谱对参数合成器以及RBF神经网络建立了一个耳语音转换的系统:首先使用RBF神经网络捕获汉语耳语音、正常语音频谱包络的映射关系;转换时,使用已训练好的RBF神经网络将汉语耳语音的频谱做非线性映射产生转换频谱,最后通过LSP参数合成器转换为正常语音。主观以及客观评价表明使用此方法转换的汉语耳语音效果比较令人满意。本文方法在转换前首先需要建立一個汉语耳语音到正常语音的频谱映射关系。因此本方法只适用于特定人的转换。另外转换后语音的可懂度仍偏低,效果也不及正常语音自然。

参考文献

[1]粟学丽,丁慧,徐柏龄.基于熵函数的耳语音声韵分割法[J].声学学报 Vol.30,NO.1 Jan,2005.

[2]Cheng Huang ,Xing Yue Tao, Liang Tao.Reconstruction of Whisper in Chinese by Modified MELP [J].ICCSE,14-17 July 2012.Melbourne,Australia Pp:349-353.

[3]R.WMorris,M.A.Clements.Reconstruction of speech from whispers[J].Medical Engineering &Physics.2002;,24(8):5 1 5-520.

[4]J.J.Guo,P.B.Lull.Selecting input factors for clusters of Gaussian radial basis functionnetworks to improve market clearing priceprediction[J].IEEE Transactions on PowerSystems,2003,18(2):665-672.

[5]王丽丽.基于RBF神经网络函数拟合方法的仿真与研究[J].河北农机.2016,11:61-63.

[6]陈雪勤,赵鹤鸣.有效高斯分量通用背景模型下耳语音声道系统转换研究[J].声学学报,2013,38(2):195-200.

[7]周健,魏昕,梁瑞宇,赵力.联合时频域中增强后耳语音的可懂度评估[J].东南大学学报:英文版,2014,30(3):261-266.