藏文国际音标(拉萨音)自动转换研究
2016-05-04龙从军刘汇丹
龙从军,刘汇丹,吴 健
(1. 中国科学院软件研究所,北京 100091; 2. 中国社会科学院民族学与人类学研究所,北京 100081)
藏文国际音标(拉萨音)自动转换研究
龙从军1,2,刘汇丹1,吴 健1
(1. 中国科学院软件研究所,北京 100091; 2. 中国社会科学院民族学与人类学研究所,北京 100081)
该文旨在实现从藏文文本到国际音标的自动转换,在一定程度上解决获取较大规模的藏文国际音标标注文本的问题。在国际音标转换系统中,采用了基于规则和统计融合的方法,实现了文语语音词自动切分;利用辅音、元音和声调对应规则表实现了藏语音节的国际音标自动转换;利用声调变化规则、辅音和元音变化规则实现了基于语音词的声调变调、辅音和元音的变化。从自动标注的结果来看,达到了实用效果。
藏语;国际音标;自动转换;分词
1 引言
到目前为止,藏文文本国际音标自动转换研究方面的成果还未报道过。但是在语音、语言研究中,语言学工作者都离不开用国际音标对语言的语音进行记录,即把听到的藏语语音用国际音标记录下来后进行分析研究。听音、记音则需要经过严格培训,即便如此,不同的人由于听辨能力的差别,对同一个音也会出现不同的记录结果;另外,语音的记录过程耗时费力,大规模的、标有国际音标的藏文文本较难获得,规模太小又不能够满足藏语语音识别、文本语音转换研究的需要。藏文是一种拼音文字,文字与语音之间有对应也有变化,如果能通过探索对应规则和变化规律,实现文本自动国际音标转换,将对藏语语音工程应用有重要的价值。由于藏语以词为单位出现元音、辅音变化和声调变调,因此,本文还涉及文本分词、辅音元音变化和声调变调等相关规则研究。
2 藏文与国际音标对应
2.1 藏文与声母的对应
藏文是拼音文字,现代藏文由30个辅音字母和四个元音符号(a无符号对应)组成,辅音和元音拼合构成藏语的音节。
现代藏语的声母有29个,它来源于单辅音字符和复合辅音字符。复合辅音字符包括前加、上加、基辅音和下加辅音。前加、上加和下加辅音在一定条件下影响声母的类型,而后加辅音字母在一定条件下影响元音和声调。藏文与声母的对应(以拉萨方言读音为准)如表1所示。
表1 声母与藏文对应关系表
续表
2.2 藏文与韵母的对应
表2 藏文与韵母的对应关系
2.3 藏文与声调对应
3 藏语元音和声调变调规则
3.1 语音词的定义
在藏文文本中,词与词之间无明显分割标记,为了适应文本信息处理的需要,通常会进行分词处理;同样在语音标注研究中,藏语的元音和声调以词为单位发生变化,因此也需要进行语音词的切分。根据研究领域和研究需要的不同,词的边界也体现出差异,语言学研究领域区分了语法词、词汇词和语音词的概念。本文旨在研究藏语的语音标注,主要关注语音词的切分。
3.2 语音词的元辅音变化规则
元音的变化。元音变化的情况可以分成两个方面考虑,一是在音节中受后加辅音的影响导致的元音变化,前文已经有叙述,这里需要强调一下//元音,这个元音在拉萨方言中并不是大家公认的,本项研究认为在音节中,如果一个音节的元音为a,后加辅音为时,a元音变化为//元音,例如,读作“php132”、读作“khp132”;另一种元音变化是在语音词的范围内,前后音节之间相互影响而引起的变化,这种变化又可以根据不同情况分类,(1)元音高低前后之间的变化,例如,读作“kha55thu55”,实际读作“kh55thu55”,读作“ji13ke51”,实际读作“ji13ki51”,读作“ko13tʂh51”,实际读作“ku13tʂhil51”。(2)元音长短的变化,由属格标记构成的黏写音节的元音变长,例如,加属格标记构成,读音由“ti13”变为“ti:13”。(3)元音类型的改变,由属格标记和施事格、工具原因格标记构成的黏写音节的元音变化,例如,和,和,分别读作“a13”、“ɛ:13”和“a13”、“ɛ132”。
3.3 语音词的声调变化规则
在一个语音词的内部,音节的声调根据音节在词中的位置会发生一定的变化。声调变化主要在双音节和三音节中,一个语流片段是否发生变调,主要看“词的内部实词素结合的松紧,结合得紧,组成一个构词单位,声调发生变化,结合得松的,不组成一个构词单位,声调不发生变化”[6]。就双音节词而言,根据前文所说的四个调类的不同调值,共有16个调值组合: 55+55、55+51、55+13、55+132、51+55、51+13、51+132、51+51、13+55、13+51、13+13、13+132、132+55、132+51、132+13、132+132,但实际只有四种合规组合: 55+55、55+51、13+55、13+51。双音节的变调规则可以总结为: (1)双音节的第一个音节不能是降调,第一个音节的51变成55,132变成13; (2)双音节的第二个音节不能是低调,13变成55,132变成51。如果第二音节是构词词缀,则第二音节变为轻声*语音词的分词规则不同,会导致一些声调变化差异,例如,在文本上体现为动词+连词,否定副词+联系动词或者存在动词的结构,我们在语音分词时作为一个分词单位,因此其声调变化规则等同于双音节词。; (3)三音节词的变调有两种情况,即前两个音节按双音节词规则变调,后一个不发生变化,或者后两个音节按照双音节词规则变调,前一个不发生变化。
4 藏文拉萨音自动标注系统
4.1 藏语语音词自动分词
在基于字位的分词方法中,使用特征模板集定义对上下文的依赖关系。字位标注系统中常用的特征模板如表3所示,U01,U02指的是特征的序号,%x[0 , 0]指的是当前字的一元特征(Unigram),%x[-1, 0]/%x[1, 0]指的是前一个字和后一个字组成的二元特征组(Bigram),依此类推。
表3 常用特征模板
在分词实验中,本研究使用了人工切分的5 837句语料作为训练语料,材料来源于教材、会话和影视频教学片。所有语料的训练与测试均采用CRF++开源程序包。尽管语料有限,经对相同类型的400句材料进行测试,获得的测试结果F值达到94.3%。
4.2 基于规则的单音节音标转换
表4 声韵母及声调规则表(部分)
4.3 语音词的韵母及声调变化转换
声调的变化主要依照前文所说的变化原则,设置变调规则,变调规则主要考虑了双音节和三音节词,以及部分读轻声的词缀、虚词等。具体的变调规则格式如表 5所示。
表5 双音节和三音节变调规律(部分)
说明: s代表音节,“>”表示变调方向, “>”的左边是单音节的原调,“>”的右边是变化后的调。
4.4 系统设计与实现
系统的总体流程如图1所示。从藏文文本到国际音标的转换总体上需要经过三个大的阶段,首先是分词,其次是音标转换,最后是变音变调。
图1 藏文国际音标自动转换的处理流程
藏文转换为国际音标的过程中之所以需要分词,是因为语音词内音节的读音和声调可能受到其前后音节的影响而发生变化,而这种影响仅发生在词语内的相邻音节,分词的目的是为了第三阶段作词内变音和变调。
对于每个词语,系统首先将其拆分为音节,对于各个音节,再拆分为声母和韵母,然后分别调用声母转换规则和韵母转换规则,将藏文文本转换为国际音标,声母转换规则和韵母转换规则中均已经包含了声调。藏文前加、上加、下加辅音对基辅音的发音有影响;同样,后加和再后加辅音对元音的发音变化也有影响,在本系统中,我们将声母和韵母作为转换的基本单元,在转换规则中已经包含了音节内的元音和辅音的变音规则。藏语中,单个音节的声调大多取决于声母,但韵母对声调也有一定的影响,声母转换规则库和韵母转换规则库中均已经包含了声母的声调和韵母的声调,系统再根据音节内变调规则最终确定整个音节的声调;然后,系统处理词语内部各个音节之间的各种变化,根据词内变音规则库和词内变调规则库对词内音节作变音和变调处理。
4.5 自动转换结果分析
在图1三个阶段中,单音节音标转换阶段完全采用规则的方法,而且这种转换规则是可以穷尽的,因此能够保证单音节转换完全正确。但是在变音变调阶段声韵调的变化是以语音词为单位,声韵调的变化是否正确取决于第一阶段分词的正确性。以A和B两组转换例子来说明。
在A组中,文本分词正确,分别得到A2和A3的转换结果,为了验证这个结果的正确性,我们录制了母语人的语音,经听辨,发现声韵调的变化基本上与母语人的语音相吻合。但是如果分词一旦发生错误,得到B3的转换结果,就与母语人发音相差较远了。
5 结语
本项研究的目的是实现藏文文本国际音标自动转换,转换过程中分别采用了规则方法和统计方法,在单音节国际音标转换阶段和词内声韵调的变化阶段完全使用规则方法,在分词阶段采用了统计方法。分词结果影响词内声韵调的变化结果。从现有转换情况来看,分词正确率达到94%左右,精度还需要进一步的提升。在后续研究中,我们计划校正现有转换结果,改善分词效果,可以考虑用统计的方法预测词内声、韵、调的变化情况。
[1] 胡坦, 藏语(拉萨话)声调研究[J]. 民族语文, 1984,8: 22-36.
[2] 格桑居勉, 格桑央金, 藏语方言概论[M]. 民族出版社, 2002: 9-10.
[3] 周季文, 藏语拼音教材[M]. 民族出版社, 1996年重印本,1996: 5.
[4] 于道泉, 藏汉拉萨口语词典[M]. 民族出版社, 1983: 11.[5] 王洪君, 汉语语音词的韵律类型[J]. 中国语文, 1996,3: 167-171.
[6] 瞿霭堂, 藏语的变调[J]. 中国语文, 1981,6: 20-27.
[7] 刘汇丹, 藏文分词及文本资源挖掘研究[D]. 中国科学院大学博士论文, 2012.
[8] Caijun Kang,Congjun Long and Di Jiang.Tibetan Word Segmentation Based on Word-Position Tagging[C]//Proceedings of the International Conference on Asian Language Processing 2013(IALP 2013): 239-242.
[9] Huidan Liu,Minghua Nuo,Longlong Ma,Jian Wu and Yeping He.Tibetan Word Segmentation as Syllable Tagging Using Conditional Random Fields[C]//Proceedings of the 25th Pacific Asia Conference on Language,Information and Computation(PACLIC-2011): 168-177.
[10] Congjun Long,Caijun Kang and Di Jiang.The Comparative Research on the Segmentation Strategies of Tibetan Bounded-Variant Forms[C]//Proceedings of the International Conference on Asian Language Processing 2013(IALP 2013): 243-246.
[11] 李亚超,加羊吉,宗成庆等.基于条件随机场的藏语自动分词方法研究与实现[J],中文信息学报,2013,(4): 52-58.
Research on Automatic Conversion of IPA for Tibetan Text
LONG Congjun1,2LIU Huidan1,WU Jian1
(1. Institute of software Chinese academy of Sciences, Beijing 100190,China 2. Institute of ethnology and Anthropology Chinese Academy of Social Sciences, Beijing 100081,China)
This paper applies rules and statistical methods to realize conversion form Tibetan texts to IPA texts. The procedures of conversion include word segmentation , and construction of mapping rules and patterns of consonants, vowels, tones and monosyllables or multi-syllables. Experimental results show the proposed system does well in IPA conversion.
Tibetan; IPA; automatic conversion; word-segmentation
龙从军(1978—),博士,副研究员,主要研究领域为藏语计算语言学。E⁃mail:longcj@cass.org.cn刘汇丹(1982—),博士,副研究员,主要研究领域为自然语言处理、多语言信息处理。E⁃mail:huidan@iscas.ac.cn吴健(1962—),研究员,主要研究领域为操作系统中文信息处理、多语言信息处理。E⁃mail:wujian@iscas.ac.cn
1003-0077(2016)05-0203-06
2015-10-15 定稿日期: 2016-04-25