APP下载

基于Praat的藏语连续语音参数提取仿真和分析

2019-11-16卓嘎

电子技术与软件工程 2019年20期
关键词:基音藏语音节

文/卓嘎

1 引言

随着计算机的发展和人工智能技术的普及,语音信号处理技术作为人工智能接口和交互模块的交叉学科研究领域得到了越来越多的关注。各种语音处理工具和软件也应运而生,其中Praat作为一个比较简单有效的语音处理和分析软件,在嗓音分析、语音波合成、语言辅助教学和语音数据统计分析等相关研究领域得到了广泛的应用。

Praat最早是荷兰阿姆斯特丹大学的Paul Boersma教授和David Weenink教授合作开发的语音分析软件,Praat在荷兰语里是交谈和说话的意思。研究资料显示,目前国内外有很多语言教学工作者、语音信号处理和人工智能研究者都在使用Praat软件进行世界各国语言的语音研究分析,如英语、荷兰语、日语、西班牙语、法语、俄语等。

近年来,Praat在国内语音处理研究中得到了广泛的应用,这些研究主要内容集中在对汉语普通话、汉语方言进行语音参数提取特征分析、语音频谱和声纹分析、语音标注以及语料库统计分析等方面。Praat也是语音教学过程中的有效工具之一,在辅助教学、发音纠正、口语测评等方面获得了很好的教学效果。

Praat在少数民族语言的语音处理研究中也有一些应用,如维吾尔语、藏语等,但是相关的资料和文献比较少,本文利用Praat强大的语音分析和声学参数提取功能对藏语语音进行录音、标注、参数提取、频谱分析和藏语连续语音声学分析。

2 Pratt 语音分析软件简介

1993年Paul Boersma教授和David Weenink教授合作发布了Praat语音分析软件的第一个版本,后来他们取消了授权,作为开源软件为用户免费提供。目前最新的版本是Praat6.1,在语音处理研究领域得到了广泛的应用。软件可以在不同的操作系统上跨平台使用,是一款具有语音波形绘制、语谱显示、特征参数标注、语音分解和合成等多种功能的语音信号分析研究工具。Praat强大的可视化交互界面,可以直观动态观察语音信号的细节参数。图1是把一个真人录音的语音文件导入到Praat软件后的语音分析界面。

2.1 语音时域波形和参数提取

在Praat软件环境下,一段语音完成录音后,可以进行语音的各种时域参数提取和分析。图2是一个语音文件的时域语音强度波形图。从强度曲线变化上可以直观的观察这段语音强度的特性,是语音发音过程中节奏变化的体现。在Praat里可以通过设置音强参数生成语音的分析文件进行数据分析。绘制的强度曲线单位为分贝,可以通过转换功能变成振幅强度曲线。

2.2 语谱图和声学特征参数提取

Praat软件还可以提取语音的各种评语参数,包括语谱图、共振峰、基音轨迹等。语谱图是一种三维图形,横坐标和纵坐标分别表示语音持续的时间和对应的频率,而第三维坐标一般为灰度图或者是彩色图,代表对应时刻语音的强度。图3是上面例句语音的语谱图,阴影的浓度表示语音的强度,通过选择不同的带宽可以绘制宽带语谱图和窄带语谱图。语谱图上有各种不同的“图纹”,如乱纹、横杠和冲直条等,分别代表不同的语音发音特征,冲直条代表发音的爆破音,乱纹是摩擦音,而横杠纹路代表语音的浊音。语谱图包含了语音的丰富的频率信息,包括语音音调的变化和语音基音频率变化轨迹以及语音的共振峰等参数特征,可以比较精确地分析语音的频域声学特征。

2.3 脚本语言

Praat还可以编写脚本语言,praat script语法简单、数据类型丰富,占用空间少,对于具备一定的编程能力的人可以进行快速有效的程序编写,实现语音数据参数的快速提取。在软件主窗口的Control菜单下面点击“New praat script”按钮,就可以建立新的脚本语言编辑窗口。

图1:Praat语音分析界面

图2:时域语音强度波形图

图3:语音频域语谱图

图4:Praat脚本代码

图4是一个提取语音二维谱中各频率成分的能量值的脚本界面。在对象列表窗口中选定一个二维频谱对象(Spectrum),然后点击“Run”按钮,运行脚本编辑器,完成执行后会以txt文件形式默认保存在“C:/temp.txt”下面。

表1:藏文辅音元音拉丁字母转换表

图5:藏语连续语音时域、频谱和音节标注

图6:藏语连续句子标注

图7:语音强度曲线

2.4 语音数据统计分析

Praat软件可以在前期的录音、标注和各种语音参数提取基础上,进行数据的统计分析,如语音声学参数数据的相关性分析、相似度分析、方差分析、回归分析各种统计分析,为语音合成、语音滤波和建立语音声学模型提供重要的数据分析依据。

3 利用Pratt提取和分析藏语连续语音参数

3.1 实验方法

本实验是在安静环境下的真人录音,被录音者是藏语母语话者,用cool edit录音软件录制了一段藏语连续语音,句子内容为“”,汉语翻译为“好的,那到时候咱两一起去看节目吧!”,语音文件保存为tbs.wav。采集的语音数据采样频率为44100Hz,量化精度为16bit。录制后导入到Pratt语音分析软件并进行标注,该段语音的时域波形、频谱分布和对应的语料标注如图5所示。第1层是语音的使用波形,第2层是频谱分布、语音强度,共振峰峰分布和基音轨迹的混合图。第3层和4层是标注层,第3层是该连续句子中每一个音节段的切分和藏语标注,标注为“sl”的是静音段。最后一层是每一个音节对应的序号标注。从图上可以看出语音信号延续的时间是2.91秒。

3.2 连续语音分层标注

藏语是拼音文字,发音规则类似于英语,以音节为单位,由30个辅音字母作为音节的基字,基字与“前加字”、“上加字”、“下加字”、“后加字”和“再后加字”和四个元音符号拼读出一个音节。音节是由一个或一个以上的音素构成,藏语音素的发音可以转写成对应的国际音标拉丁字母。表1是藏语辅音(30个)和元音的拉丁字母转写表,表中最后4个音素对应的是藏语4个元音的拉丁转写,分别为i,u,e,o。

在Praat软件里,通过各种分层标注可以对原始语音进行各种语音声学参数提取,这些分层标注类型包括:音节层、音素层、重音标注层、声韵母层、清音浊音层等等。Praat软件可以较精确的标注连续语音波形对应的音素和音节,为了正常显示各个音标的拉丁符号需要提前将国际音标字体IPA下载到本地机器上。标注层按所需声学参数分层后,就可以把对应音素的国际音标用拉丁字母标注在Praat的声波层(Tier)里,图6是上述藏语连续语音例句的录音文件tbs.wav的时域波形和对应的藏语拉丁字母转写的音节标注,图中包含三层标注层,第一层是例句的藏文句子,第二层是对应拉丁字母转换的音节层标注,标注为“sl”的单元代表静段,最后一层是句子中各个音节的序号标注,便于后面的数据描述。

3.3 语音强度和声调分析

图7是上述连续语音句子的语音强度曲线波形图.横坐标是时间,以秒为单位,纵坐标是语音强度的分贝值,单位是dB,整体句子的强度分布比较均匀,在提取时间线上的全部强度值,发现平均强度为63.7dB,最大强度11.8dB,最小强度为84.1dB。图7是根据前面连续语音句子的标注信息,将每个藏语音节对应的幅度曲线分割绘制出来。从图上可以直观的看到每个音节的强度曲线波形,在句子中一共有14个音节,语音的强度值越大,能量就越强,发清音时声带不振动,能量小,因此其强度值也小;发浊音时声带振动,能量强其强度值也较大,在语音特征分析研究中,通常也会用轻音和浊音的能量值的高低作为语音端点检测的依据之一。对照图6中第三层标注的音节序列,在这句藏语连续语音中,第2,4,9,11音节的能量较强对应的幅值也较高。

3.4 共振峰

共振峰是语音信号的重要频域参数之一,反映了语音的声道谐振的情况也是体现语音音质的重要参数。图8是实验例句共振峰频率峰值点的曲线图,图中横坐标是时间,纵坐标为共振峰频率值。图9是例句语音的语谱图,语音信号中元音的发音较长其能量比较强对应的频率值也较高。元音是一种周期信号,因此共振峰的频率也是按周期倍数增长,在语谱图上是横杠,如第1、4和9音节,例句中摩擦音类似于噪声的随机信号,共振峰频率值相对较低,语谱图上是乱纹,如图中的第2、11音节;爆破音类似猝发波,发音前端的频谱波纹是冲直线,如图中的第3、13、14音节的前端的共振峰频率。在语音信号中,共振峰的前三个频率是非常重要,一般会用F0,F1和F2来表示,其中F0是基音频率,对应图8中最下面的曲线,F1是1次谐波频率对应基频F0上面的的频率,F2为2次谐波频率,对应F1上面的频率,以此类推,图8中实验例句的第1个音节的前三个共振峰频率分别为327.80Hz,1932.16Hz,2733.38Hz。

3.5 基音轨迹

语音的基音参数提取方法很多,包括波形估计、自相关算法、语音倒谱算法等。在语音信号分析中,对于有调的语音来说,通常用提取基音的频率轨迹波形来观察语音的语调和韵律。图10是例句语音的基音频率包络曲线和对应的音节序号图,横坐标为时间,纵坐标为各个时刻的基音频率值,平均基音频率为115.28Hz;从曲线上可以看出藏语的发音语调有起伏变化,有明显的声调、降调、平调等四声的变化,也有韵律短语,如第4、5、6、7音节的连读音的韵律。另外,在语音合成处理过程中可以通过修改基音频率周期进行语调合成。

4 结语

Praat是可视化语音综合分析的有效平台之一。Praat软件对语音录音数据绘图比较直观,语音特征参数提取方法简单,数据也比较准确,误差较小,特别是绘制的语音参数图像分辨率较高,语谱图的纹理比较清晰,基音轨迹轮廓清楚,因此在利用图像处理技术进行语音参数方面具有很大优势。本文中,对录制的藏语连续语音的音频文件,利用Praat软件进行了详细的语音标注并提取了基本的语音参数,分析了藏语连续语音中音节语音强度、共振峰曲线、基音轨迹等特征参数,研究内容为藏语连续语音的参数提取、语音识别、语音合成以及藏语言发音教学提供一些基础研究数据。

图8:共振峰频率曲线图

图9:连续语音的语谱图

图10:语音基音轨迹

猜你喜欢

基音藏语音节
浅谈藏语中的礼仪语
汉藏语及其音乐
拼拼 读读 写写
基于基音跟踪的语音增强研究
藏语拉达克话的几个语音特征
藏文音节字的频次统计
藏语地理分布格局的形成原因
一种改进的基音周期提取算法
木管乐器“音节练习法”初探
一种高效的基音估计算法