安多方言—夏河话SAMPA_AT设计
2016-03-02陈小莹艾金勇
陈小莹 艾金勇
摘要:本文通过收集整理藏语夏河话的音系,归纳出对应的音系特征,依据SAMPA的设计原则并参照汉语和藏语的国际音标,最终设计并实现了藏语夏河话机读音标系统。藏语机读音标的设计可以为藏语语音工程的实现打下坚实的基础,可以真正地实现文音转换功能。
关键词:藏语;夏河话;机读音标;SAMPA
中图分类号:TP391 文献标识码: A 文章编号:2095-2163(2016)01-
Abstract: Through the collection of Tibetan Xiahe dialect phonetic system, the paper sums up corresponding phonetic feature. Based on this work, according to the principles of design of sampa and with reference to the international phonetic alphabet of Chinese and Tibetan, the paper designs and implements the Tibetan Xiahe phone read phonetic system. Tibetan machine read the phonetic alphabet design can lay a solid foundation for the realization of Tibetan speech engineering, which could truly realize the text to speech function.
Keywords: Tibetan; Xiahe dialect; Machine readable phonogram;SAMPA
1机读音标系统
1.1机读音标系统概述
机读音标SAMPA(Speech Assessment Methods Phonetic Alphabet)是1987-1989年间欧洲的 ESPRIT(欧洲信息技术研究开发战略计划)开发的一种计算机可读的音标系统,该系统采用拉丁字母、数字以及其它简单易于输入的键盘符号组合形式来替代目前国际音标中的各种特殊符号。目前世界上各种语言的语音数据库都使用该符号系统,使得计算机在输入国际音标时更加方便,同时也能便捷地表示出各种复杂的国际音标符号[1]。但是每一种语言的音标都有各自的语言版本,不同版本之间的SAMPA表并不能完全兼容,因此SAMPA表并不能表示出所有语言的国际音标。针对SAMPA表的这一缺点,1995年伦敦大学的语言学教授设计并提出了X-SAMPA,能够代表所有国际音标的单一代码表,而且是在SAMPA的基础上进行扩充,从而可以用ASCII字符表示国际音标的所有符号[2]。由此,SAMPA就成为一个在国际音标基础上能够表示世界上各种语言的机读音标系统。目前,SAMPA已广泛应用于欧洲的主要语种以及日语等东亚语言。国内的汉语、粤方言和台湾的“国语”也随之而设计了 SAMPA方案,在一定程度上推进了SAMPA的普及与应用。同时众多语音工作者也开始对SAMPA进行研究,并在嗓音医学和计算机语音教学等方面取得了诸多成果和可观成就。
1.2机读音标系统设计原则
SAMPA最初的目的是为了使计算机在尽可能保证语言本身音系的基础上,比较方便地表示出国际音标。基于此目的,SAMPA设定了具体原则[3]:
(1)SAMPA设计必须遵循语言本身,依据实际语言的国际音标进行处理。国际音标中的特殊字符若已包含在SAMPA字符中,则可直接使用,否则需尽量采用符合SAMPA规则的符号来予以代替;
(2)相关语言系统中已经成型的SAMPA中有一些附加符号亦尽量采用;
(3)讲究整体的系统性以及与其它语言的相通性。
在设计藏语安多话机读音标系统时,输入的藏文字符首先要在遵循其本身国际音标的基础上,转换成对应的国际音标。通过设计夏河话的声母SAMPA、韵母SAMPA以及声调的SAMPA,从而最终有效推进并完成了对夏河话SAMPA_AT的研发与实现。具体设计流程如图1所示。
2夏河话SAMPA_AT设计
2.1声母设计
夏河话中共有36个单辅音和18个复辅音,都可以作为声母(/kw/以外都能在第一音节出现)。单辅音声母包含9个塞音、9个塞擦音、10个擦音、4个鼻音、2个半元音、1个鼻音和1个闪音。复辅音声母主要有nc型和hc型两种类型,其中nc型指鼻音前置与辅音结合的复辅音形式,hc型指喉音h和?前置与辅音结合的复辅音形式,其它复辅音形式基本已经消失[4]。
在夏河话声母SAMPA_AT的设计部分,部分采用的规则和藏语拉萨话声母一致,具体则如表1所示。
在夏河话声母SAMPA_AT的设计部分,参照已有的拉萨话声母SAMPA_WT的设计方案,其余基本上采用键盘上可以直接输入的符号,并且尽可能依据国际音标,采用X-SAMPA类似符号,这样不易引起音位混淆。具体将按如下方法展开设计:
(1)如果国际音标可直接用ASCII字符来提供合理表示,而为了节约空间和击键次数,夏河话声母的 SAMPA_AT机读音标即可直接采用藏语的国际音标来进行解析与表示。辅音声母x,z,b,d,g,dz在SAMPA_AT中采用与其国际音标相同字母替代,并且对应的机读音标 SAMPA_AT分别标记为/x/,/z/,/b/,/d/,/g/,/dz/;
(2)对于其它难以用键盘输入的国际音标,直接使用和国际音标相近的且未使用过的键盘符号来标记。但是之前的标记过程中已经使用过这些音标符号,为了避免出现相同的SAMPA_AT符号,同时为了和其它相同字母区分,有些在国际音标的基础上辅以键盘上其它符号表示与其关联的SAMPA_AT;现举几例,则如下所示:
辅音d?,该国际音标符号用键盘不方便输入,为了和已经使用过的/dz/区分,同时也表明其卷舌的发音方式,所以在该国际音标的基础上加一个符号来标记它的SAMPA_AT,标记为/dz`/;
辅音t?,?,?,?和d?,这五个符号在键盘上不存在,为了表明与其相同发音方式辅音的相关性,机读音标分别标记为/ts\/,/z\/,/p\/,/h\/,/dz\/;
由于辅音?不同于以上情况,因此参照国际音标,即将其机读音标SAMPA_AT标记为/G/。
(3)藏语安多方言中声母的送气和不送气这一区别特征,在发音和感知上非常重要。例如送气辅音sh在SAMPA_AT转换时,也添加了表示送气的附加符号,具体所定义的机读音标SAMPA_AT则标记为/s_h/。
夏河话中复辅音声母的SAMPA_AT设计方式也是分两部分展开与实现,也就是分别按照对应的单辅音声母转换符号进行转换,然后再将两者相组合完成复辅音声母的转换设计。具体可如表2所示。
在夏河话复辅音声母SAMPA_AT的设计部分,也和单辅音声母采用一致的规则来完成构建,同时又为节约空间和击键次数,藏语拼音的SAMPA_AT机读音标将直接采用国际音标来表示;对于其它的难以用键盘输入的国际音标,则直接使用和国际音标相近的且未使用过的键盘符号来标记。但是之前的标记已经使用过这些音标符号,为了避免出现相同的SAMPA_AT符号,同时为了和其它相同字母区分,有些在国际音标的基础上辅以键盘上其它符号来表示其所对应的SAMPA_AT。
2.2韵母设计
安多夏河话中一共包含34个韵母,其中包含6个单元音/a/、/i/、/o/、/u/、/e/、/?/;3个复元音韵母/ai/、/ao/、/eo/以及25个带辅音韵尾的韵母,这些带韵尾的韵母分别为元音/e/、/a/、/o/、/?/、与韵尾p、m、t、n、k、?、r相结合形成的;/i/、/u/两个元音不能与任何韵尾结合[4]。
夏河话包括除/a/、/i/、/o/、/u/、/e/这5个键盘可以直接输入的基本元音外,还包括键盘无法直接输入的单元音/?/,参照前面的分析以及SAMPA原则将其SAMPA_AT符号设计为“@”。在元音与复合韵尾结合构成的韵母也是分两部分进行设计,分别将基本元音和辅音韵尾的SAMPA符号结合实现,SAMPA_AT中韵母与拉萨话韵母的设计方式基本一致。
2.3声调处理
安多方言区不存在区分语义和语法作用的声调系统,在安多方言区存在的只是一些习惯调,但是这些习惯调并不会影响到语音交流,因此项目中不予考虑[5]。
3结束语
本文选取夏河话作为藏语安多方言区的代表,通过归纳整理拉萨话音系特征,在遵循SAMPA的原则下,参照X-SAMPA以及汉语成熟的SAMPA_SC系统完成了藏语夏河话SAMPA系统的设计。藏语机读音标的设计可以为藏语语音工程的实现打下坚实的基础,可以真正实现文音转换功能。同时也为藏语韵律特征研究、语音合成以及语音识别等语音工程领域研究提供科学依据。
参考文献:
[1]于洪志,高璐,李永宏,等. 藏语机读音标SAMPA_ST的设计[J]. 中文信息学报, 2012, 26(4):66-72.
[2] 刘 博,杨鸿武,甘振业,等. 利用SAMPA实现藏语的字音转换[J].计算机工程与应用, 2011, 47(35): 117-121.
[3]张家騄. 汉语普通话机读音标SAMPA-SC[J].声学学报(中文版), 2009,34(1):81-86.
[4]格桑居冕.藏语方言概论[M]. 北京:民族出版社,2002.
[5]胡坦. 藏语(拉萨话)声调研究[J]. 民族语文, 1980(1) :22-36.