语音改变技术及其原理
2016-08-04谭梓炜
谭梓炜
(深圳市创客工场科技有限公司 广东深圳 518000)
语音改变技术及其原理
谭梓炜
(深圳市创客工场科技有限公司广东深圳518000)
语音信号处理技术是语音处理领域中新近发展起来的一个学科分支,本文主要研究了语音信号处理技术中的两个主要:内容语音时长规整技术和说话人特征改变技术。语音时长规整技术就是在不改变语音音调并保证良好音质的前提下,随意地改变语音播放速度,就仿佛说话人自己在改变说话速度一样。说话人特征改变技术是语音处理中一个比较新的交叉边缘分支,主要是通过对合成语音进行适当语音参数控制和调整来实现的。在此基础上得出了人耳对基音同步的感知存在一定的容差从而改进了二次谱提取基频算法,提高了基频提取的准确度,进一步提出了一种新的基于改进二次谱的语音时长规整算法。该算法在保持规整后语音质量的同时,有效降低了整体计算复杂度。针对说话人特征改变技术,提出了一种基于重采样的基频改变算法,该算法简单有效,整体计算复杂度较低。
语音信号 时长规整 基音检测 频谱
一、引言
1.研究背景及选题意义
语音是人类交流的最直接的方式,语音信号在社会交流、信息传输中占有重要的地位。其中,变声技术是一个备受关注的内容。利用变声技术可以将一个人说出的话通过处理后变成与自身不同的特点,从而听起来像是另一个人说出来的一样。比如一个年轻人说出的话听着像老人,男人听着像女人,这看上去非常的有趣。其实,变声技术的用途十分广泛,比如电视节目中的配音,机密信息的语音伪装等。
2.国内外研究动态
(1)语音时长规整技术研究动态
在20世纪50年代的时候,就已经开始有人研究语音时长的规整技术,并且已经有这样一种想法提出:即在保证音色不发生改变的状况下,将语音播放的速度进行改变。进入数字时代后,做到了改变语音播放速度的同时,不改变说话人特征的要求[2]。其主要方法有三类:时域法、频域法和参数法。
(2)说话人特征改变技术研究动态
对于将说话的人的特征发生改变的这一技术的研究,首先需要了解说话的人的特征。目前有两种方法可以实现使说话人特征发生改变:参数法和非参数法。第一种是首先获得说话的人的一些参数,然后凭借这些特征参数改变说话人的相应特征;后者则建立不同说话人之间的映射关系[3]。
二、语言时长规整技术
1.语音信号处理基本理论
语音时长规整技术的作用是在确保说话人的语音特征不发生变化的状况下,能够做到将语音播放的速度产生变化。这里面包括的算法有三种类型:频域法、参数法以及时域法[4]。
2.语音信号的频域特性
一段语音的短时谱的产生有两个步骤,首先要对其分帧加窗,之后还要有傅里叶变换。一个随机信号的频谱与清音的短时谱是十分相似的。在浊音信号短时谱中,周期性特征较显著,在短时谱中的凸起点的频率与声道谐振频率具有较好的一致性。短时谱中的凸起点所对应的频率通常叫做共振频率。共振峰有好几种名称,频率低的通常被叫做第一共振峰,频率高的通常被叫做第二共振峰。
3.语音信号的预处理
一般而言为了便于分析,要进行高频增强处理。能量损耗具有如下规律:由于语音信号中的功率谱每降低6dB,相应的频率就会增加两倍,因此在预加重的过程中,通常在6dB/otc的前提下提高高强部分。预加重的方法一般有两种:
硬件实现时,可用6dB/oct梯度的高频增强型滤波器,其传递函数为
在这个函数中a表示预加重系数,通常取1或者比1小。
4.仿真实现
在研究仿真实现的过程中,可以录制一段男声语音来深入研究。对这段语音进行两次规整,规整因子F分别为2和0.7,即一个是压缩处理,一个是拉伸处理。在设定帧长时采用1024个采样点,ss设定为帧长的一半。图2-4—2-6描述的是重叠加算法里面原始语音信号以及F分别取2和0.7时的波形图以及局部波形的放大图。
图2-4 原始语音波形图
图2-5 原始语音局部放大图
图2-6 F=2时波形
图2-7 F=2时局部放大图
三、说话人特征改变技术
1.人体语音信号的发声机理
人体主要有6个发声系统,外界空气经过呼吸进入肺部,声带受到气流的冲击后闭合[7]。不同的频率声波表现出来的就是不同的声音特性,所以改变语音频率是一种有效的说话人特征改变技术。
(1)算法原理
这里介绍的是音频改变的算法。当放音机里面的放音速度发生变化时,相应的音高基频会随之发生变化,在这种情况下,基频改变因子P 等同于变速因子S ,即P = S 。如果输入的语音用x(n)表示,根据变速因子S(当S > 1时,此时播放的速度就增加,当S <1的时候,此时播放的速度就减少),播放的速度发生变化之后的的语音表示为( ) x n,那么
其中[]表示下取整运算。
(2)仿真实现
下面是一段男声发“我在俄国见到的景物”的语音图形。根据图3.1的流程图,当基频增大至变成原始的基频的1.5倍时,对进行的仿真实验进行了相关的研究,依据取得的实验结果来讨论实验的合理性等等。
(1)改变播放速度调整基频
图3-2 一段男声的语音时域波形图
图3-3 改变播放速度后的时域波形图(P=1.5)
图3-4 帧语音的原始时域波形
图3-5 播放速度加快1.5倍后的该帧波形
根据图3-2中所表示的波形图可以看出,波形大体上表现为一帧信号就是4个周期,拿总长度除以周期数得到这段语音的周期时长是6ms.相应的,根据图3-5中所表示的波形图可以看出,波形的周期数也是4,拿总的长度除以周期数就得到对应的周期时长大约是4ms。将得到的两个音频相除,很容易可以看出这种做法可以很好地改变浊音信号相应的基频。
四、总结
本文一共对两个方面的问题进行了研究,第一个是关于语音时长规整技术,第二个是关于使说话人的特征发生变化的技术。虽然这两种技术在文章里面是分章节介绍的,并没有放在一起研究,但是这并不代表这两种技术之间没有关系,其实,这两种技术之间的联系十分密切,前者的深入研究是后者得以实现的关键,是后者成功的基础。
[1]杨莹春. 说话人特征及模型研究[D]. 浙江大学,博士后论文,2003.
[2]胡航. 语音信号处理[M]. 哈尔滨哈尔滨工业大学出版社,2000.
[3]陈砚圃. 听觉感知及其在语音增强中的应用研究[D]. 西安交通大学,博士学位论文,2001.
[4]张天骇, 张战, 权进国等. 语音信号基音检测的二次谱方法[J].计算机应用,2005.
{5]赵力. 语音信号处理[M] ,北京:机械工业出版社,2003.