APP下载

2019年藏语研究前沿

2020-12-09黄成龙

西藏民族大学学报 2020年5期
关键词:藏语方言语义

黄成龙

(中国社会科学院民族学与人类学研究所 北京 100081)

2019 年国内外藏语研究在藏语研究回顾、语音共时与历时研究、语法、人工智能、地理语言学等本体和应用研究方面都有一定进展。本文拟从以下几个方面介绍2019年国内外藏语研究的前沿和最新动态。

一、研究回顾

黄成龙的《2018年藏语研究前沿》通过对2018年国内外发表的有关藏语共时描写、历时演变、语音实验、藏语文计算机处理、藏汉/藏英翻译以及语言教学与规划等本体和应用研究成果的分析,对于及时了解藏语研究的学术前沿、研究取向以及研究方法和理论的最新动态,进一步推动国内藏语的研究有一定的参考价值[1]。

韦蕊的《新中国70 年藏语方言语音研究》,根据国内学者新中国成立以来所发表的藏语方言语音研究论著,认为新中国成立70年来,藏语方言调查研究取得了许多成果,其中语音方面的研究成果尤为丰富,指出了其不足,并提出相应的对策和建议。该文对今后藏语语音的研究有一定的参考价值[2]。

二、语音共时与历时研究

藏语语音共时与历时研究方面发表了4 篇论文,包括康巴方言语音比较、安多方言卓尼话与马蹄话的语音描写与音变规则。

东主才让的《从古藏族部落的迁徙看藏语韵尾-S 的残存:以嘉绒、巴尔蒂和拉达克藏语为例》通过对藏语西部巴尔蒂、拉达克话和藏语东部嘉绒话中特有古音韵尾-S 的考察,论证国内嘉绒话与西部藏语拉达克和巴尔蒂话同处于一源,进而断定东西两地藏族都是原地处阿里象雄部落的后裔,其语言上的考证与它的社会历史完全相吻合。认为在现代语言中残存的古音成分就像考古上的“化石”一样,它时常给人们提供重要的证据来补充和证实历史资料的遗漏和缺陷[3]。

于舒满的硕士学位论文《藏语康方言的语音描写研究》对四川省阿坝州九寨沟县玉瓦乡、松潘县水晶乡以及四川省甘孜州康定市朋布西乡以及乡城县的沙贡乡、洞松乡、热打乡声母、韵母、声调进行描写,并与普里克藏语进行对比,归纳古藏语与调查点方言对应及其演变规律,探讨语音演变的异同与成因,有助于进一步认识藏语康方言的语音现象[4]。

扎西才让的硕士学位论文《藏语卓尼话语音研究》以卓尼话近三千条词和短语基础上,对其语料进行分析和统计,归纳出卓尼话的语音系统。通过对例词的分析和统计,归纳卓尼话的声母、韵母、声调以及音节结构等音系框架,用比较和统计方法,分析了卓尼话与其他土语的异同。通过语流分析与语音历史比较,描写了声韵母、声调及音节结构中的条件音变和自然音变规律。通过与三大方言代表点夏河话、巴塘话、拉萨话的对比和音系数据统计,认为卓尼话属于康方言东南区土语[5]。

赵逸云的硕士学位论文《甘肃肃南县马蹄寺藏语语音研究》先分析了马蹄话与古藏语的共同点与差异,然后从历时视角分析了马蹄话语音的显著特征及其演变规律。通过研究认为马蹄话元音[o]和[ɔ]出现对立,出现了前高圆唇元音[y],辅音韵尾保存较完整,该文对认识和进一步研究藏语安多方言语音有一定的参考价值[6]。

三、语音实验研究

语音实验是当前国内外语言学研究的热点问题,藏语的语音实验也非常活跃,藏语语音实验研究成果有10篇论文。

卓嘎、次仁尼玛的《基于Matlab的藏语语音频谱仿真和分析》指出,语谱图是语音信号处理过程中的重要参数之一,直观地反映语音信号的动态频谱特征。语谱图是将语音的时域信号转换成二维和三维图像信号的重要方法。该文采集了藏语拉萨语辅音真人录音数据。在Matlab 环境下进行了预处理、分帧、加窗和语谱图的绘制;分析了频谱分布情况,提取了辅音的基音、共振峰等。该研究结果对藏语语音实验、藏语语音智能研究具有一定的参考价值[7]。

卓嘎、边巴旺堆的《一种藏语连续语音声学特征参数提取算法研究》设计了提取藏语连续语音时域波形、短时平均能量、短时过零率、短时自相关函数以及连续语音基音轨迹的流程。在Matlab 环境下进行编程仿真,结合藏语语音发音特征进行藏语连续语音参数特征分析。实验表明,这些参数基本上能够很好地表征藏语连续语音中的声学特征,为藏语连续语音识别、语音合成和语音数据处理提供参考依据[8]。

卓嘎的《基于Praat 的藏语连续语音参数提取仿真和分析》认为,藏语语音信号处理是藏语语音实现人工智能化的关键技术之一。自然人的语音发音和直观判断与实际的发音规则存在一定的差异。客观地量化分析藏语连续语音中的特征参数,能够更客观、更精确地反映语音的发音规律。介绍了Praat 语音分析软件及其在语音处理研究和语音教学中的应用;用Praat 软件分析了藏语句中连续语音的声学特征,有助于进一步推动藏语连续语音信号处理与语音应用的研究[9]。

次仁罗增的硕士学位论文《藏语语音情感识别方法研究》先利用Python 语言网络爬虫和人工收集5 万多个藏文句子文本进行情感分类,然后运用Matlab 对已分类的每一类情感的语音数据进行语音信号分析。研究结果总体的平均准确率达到76%,召回率75%,F 值75%。该文对藏语语音情感识别方法的探索奠定一定的基础[10]。

颜京豪的硕士学位论文《基于Lattice-free MMI和迁移学习的藏语拉萨话声学模型研究》创建TDNN-HMM 藏语拉萨话语音识别基线系统,紧扣藏语拉萨话数据资源稀缺的问题,对藏语拉萨话进行半正交因式分解TDNN-HMM 的声学模型建模,研究Lattice-free MMI 准则和迁移学习在藏语拉萨话声学模型中的应用,并证明汉语普通话到藏语拉萨话的迁移的有效性[11]。

王松的硕士学位论文《基于LSTM-CTC的藏语拉萨话语音识别系统》基于LSTM-CTC 的声学模型来进行声学模型的训练,然后使用WFST 方法来进行解码和归一化。通过基于LSTM-CTC 和DNN-HMM 对比训练,发现藏语80 小时的数据采用LSTM-CTC 方法比DNN-HMM 的方法效果好。在效果最好的情况下Syllable-ER 达到了18.71%。使用CTC 方法比传统的方法优势明显,可以联合优化[12]。

更藏措毛的硕士学位论文《基于深度神经网络的安多藏语语音识别》运用TensorFlow 框架搭建安多藏语语音识别系统,探讨了端对端双向长时与短时记忆网络在安多藏语语音识别中的应用。作者认为双向循环网络的效果优于单向循环神经网络,采用LSTM 可防止梯度爆炸或者梯度消失问题[13]。

赵昀的硕士学位论文《基于稀疏编码的藏语语音识别研究》将稀疏表示后的梅尔频率倒谱系数输入卷积神经网络用以识别藏语单音节语音。同时,稀疏编码与卷积神经网络两种技术相结合,以改善语音识别系统性能。动态梅尔频率倒谱系数和稀疏编码可提升藏语语音识别系统性能[14]。

南措吉的硕士学位论文《基于循环神经网络的藏语语音识别技术研究》借鉴汉语和英语的语音识别框架,搭建基于循环神经网络的藏语语音识别系统。采集与藏语文本对应的语音数据,并对其进行预处理,然后,用python 的模块提取MFCC 特征参数,以藏语音素为建模单元,构建藏语语音识别的声学模型,对藏语文的识别有一定的参考价值[15]。

罗李赛的硕士学位论文《序列到序列的藏语拉萨话语音合成研究及实现》通过开源的汉语普通话实验和英文实验成果,构建藏语拉萨话语料库,实现藏语的序列到序列语音合成。作者认为,序列到序列的藏语语音合成研究具有较大优点,能节省大量的文本处理人力和时间,为语音合成开辟了一条新路,促进相关领域的交叉研究[16]。

四、形态句法研究

2019 年藏语形态句法方面的研究论文不多,只有5 篇,包括重叠、虚词、复合动词以及虚词,每篇研究成果都具有一定的创新。

江荻的《藏语的重叠》从词法和句法角度讨论藏语同形音节的重叠和重复现象。除极少量的同形音节为叠音形式,称为原生重叠,一般音节均具有语素或词的身份。名词亲属称谓和摹声拟态词大多是叠音重叠;少量时空意义重叠词表现周遍性和频度。动词重叠通常构成名词,具有复合词法功能;动词的句法性重复一般也不看作形态,通常表示强调或凸显,但在具体语境中有可能造成体貌意义价值。虽然重叠或重复在藏语中数量不多,能产性弱,处于次要地位,出现频度却不小,值得关注[17]。

多拉、仁青卓么、冷本扎西的《从语言的价值视角探讨藏语功能性虚词的分类与识别》着重探讨了藏语虚词的特点和在虚词分类中颗粒度的把握问题。在词类研究中兼顾句法、语义分析,提出了从功能分类的观点,并对重要虚词的兼类和歧义识别提出了具有可操作性的结构与分布分析方法。同时,通过语料验证,观察了部分虚词的搭配模式和出现频率并对此进行了分析[18]。

楞本才让的硕士学位论文《藏语复合动词研究》,探讨了藏语复合动词的构成形式与形态句法特征。作者认为藏语复合动词出现很早,但数量少,能产性较弱,所以对其关注较少。藏语复合动词先词根复合为动名词,再附加动词词缀构成。复合动词仍有三时形态变化,也具有及物性特点。有少部分复合动词不符合藏语构词规则,属于借词[19]。

加华才让的硕士学位论文《藏语复合虚词及其演变研究》以藏语安多方言的热贡兰采话为材料,结合敦煌文献、历代碑文以及一些典籍,探讨了藏语复合虚词及其演变过程。作者认为单音虚词的变化是藏语虚词演变的核心原因[20]。

五、计算语言学研究

计算语言学理论与方法在藏语研究中的应用越来越受到重视,是当今研究的热点问题,2019年藏语计算语言学研究方面共发表了10篇论文。

龙从军、刘汇丹、周毛克的《基于句法树的藏语最长名词短语识别》认为最长名词短语携带着丰富的句法和语义信息,经常与句法成分对应,在句子中充当一定的语义角色。最长名词短语识别在自然语言处理中占重要地位,是分析和理解句子结构、意义的基础。该文通过梳理不同概念的最长名词短语的含义,从句法树角度界定了藏语最长名词短语的基本概念;从句法树库中抽取6038个句子,分析了最长名词短语的结构类型、边界特征和出现频次。对最长名词短语分别采用序列标注模型和句法分析模型进行识别。序列标注模型识别的正确率、召回率以及F1值均高于句法分析模型识别的正确率、召回率、F1值[22]。

夏吾吉、华却才让的《基于依存树的藏语语义分析》从词法分析和句法分析等浅层研究出发,结合藏语自身语法结构和语义单位之间的关系特点,实现了藏语语义依存分析。在确定和设计藏语语义依存关系标注规范和模板的基础上,采用感知机进行了藏语语义依存分析模型的训练,经实验该模型在人工标注测试语料上的根准确率、依存弧准确率、依存弧类型准确率及完全准确率等4个指标分别达到了89.56%、78.63%、71.67%及32.32%,证实了该模型在藏语语义依存分析任务中具有良好的性能[23]。

孙媛、王丽客、郭莉莉的《基于改进词向量GRU 神经网络模型的藏语实体关系抽取》认为如果把藏语知识以结构化形式表示,那么将会有利于藏语知识的结构化分析和深度挖掘。提出GRU优化词向量的神经网络模型进行藏语实体关系抽取方法。模型中,加入GRU优化的词向量,进一步优化藏语的音节、音节位置、词性等等向量特征,选取藏语词汇与句子特征。通过实验证明,使用改进词向量F1值达到了78.43%[24]。

仁青吉的《藏语N-gram 语言模型中的平滑技术研究》在Linux 环境下搭建Srilm 建模平台,然后对语料进行分块处理,并用N-gram count 和Ngram 进行计数和语言模型的建立,利用几种平滑算法对其进行了困惑度的测试,最后对这几个困惑度的数值进行比较和数据分析,总结出一个适用于当前语料和语言环境下最优的平滑方法[25]。

罗巴、扎西吉的《藏语动词分布统计技术研究》指出藏语的语义、词法、句法及语用分析,对藏语机器理解以及机器翻译提供理论基础。在构成藏语句子的各类成分中,动词占有非常重要的地位,对藏语句法分析起决定性作用。该文对藏语动词从所含音节个数和语法特征两方面进行分类,对藏语动词的分布进行统计模型和统计算法,分析其分布特征[26]。

格桑加措、赵栋材的《藏语动词形态变化的还原研究与实现》在对藏语动词随时态的形态变化分析的基础上,根据藏语语法对动词随时态形态变化的分类,建立了藏语动词随时态变化的词典库,提出基于词典匹配的藏语动词词形还原方法[27]。

夏吾吉、华却才让的《基于投射的藏语语义依存分析研究》从藏语简单句型出发进行了基于投射的藏语语义依存分析,根据藏语独有的“八格”语法特点,构建了藏语投射语义依存树库,设计了分析语义依存弧类型特征模板,基于最大熵分类模型,对人工分析过的语义依存弧的句子,进行依存弧的类型分析并进行标注。为今后的语义依存分析提供了更多的方法上支撑,也为语义依存分析方法提供了新的思考视角[28]。

近年来,受哥伦比亚建筑工艺的影响,同时引进了瓜多竹等竹种,墨西哥正在开发更为先进的原竹建筑,但整体的竹建筑行业仍然较为落后。目前,墨西哥至少有4个为建筑配送竹材的中心,同时为竹建筑的开发提供技术支持。这为建筑师和工程师了解竹材用做建材的良好性能提供了便利[11]。

丁海兰、于洪志的《认知视角下藏语方位词的统计分析研究》从语法学、语义学、统计学和认知语言学的角度探讨藏语真实文本中方位词的语义关系,分析了方位词的构成形式、语义特点、句法功能及其认知等特点[29]。

拉毛杰、安见才让的《基于转换的错误驱动学习的藏语词性标注研究》指出词性标注是自然语言处理的基础研究,应用的领域十分广泛。基于转换的错误驱动学习词性标注是一种基于规则的算法,但由于此算法占用大量的计算机资源进行规则的提取,从而造成算法本身偏慢的问题。该文在原有算法的基础上,跳过那些对语料库的标注不够明显的规则,寻找应用最好的转换规则,使语料库错误标注降到最低,从而达到标注的目的[30]。

杨宁的硕士学位论文《基于RNN 的藏语语言模型的研究与实现》通过改变隐层神经元数目等方法,与N-gram 语言模型进行比较,证实RNN 建模方法在藏语语言处理方面有较大优势。优化后的藏语RNN模型性能优于传统N-gram模型,然而需要较长训练时间,且过程要复杂些[31]。

六、地理语言学研究

近年来地理语言学在国内外越来越活跃,也是研究的热点之一,2019 年藏语地理语言学研究蓬勃发展。主要是日本学者铃木博之博士进行的一些专题性研究。

刘颖等的《方言地理信息系统与藏语方言信息化》认为方言以及方言文化是传统文化的重要组成部分,包含了各个民族独特的文化和历史。方言研究不仅具有语言研究方面的学术价值,更能体现出地区的历史、民俗和人文理念。有着数千年历史的藏语方言是藏民族文化的根基,有独特的人类文化价值,其信息化建设已经成为一项备受关注的课题。方言具有显著的时空属性,利用地理信息系统(GIS)技术实现藏语方言的信息化,既能起到保护藏语方言资源的作用,在现代信息化社会背景下,也可以促进藏语方言自身的发展[32]。

铃木博之的《利用语言地图阐明音变的扩散和界限:以香格里拉藏语的“r 韵尾”语音演变为例》以分布在云南省迪庆州香格里拉市及德钦县的康巴藏语香格里拉方言群建塘小组与云岭山脉东部小组中的诸土话为例,对与藏文含后加字r(相当于r 韵尾)对应的口语形式进行分析。大部分康巴藏语中,韵尾辅音已不存在而发展成喉塞音或使元音变长、鼻化等。但建塘小组和云岭山脉东部小组中的一部分土话保留着与r 对应的辅音成分或引起了在周边的土话里未见的特殊语音演变,如卷舌化元音、带咽化特征的辅音性元音等。其次,根据语音细节的描述绘制语言地图,对音变的地理范围和音变的扩散和界限进行讨论[33]。

铃木博之的《澜沧江流域盐井至巴迪段康巴藏语土话中的语音及词汇异同概况》通过绘制语言地图,对澜沧江流域康巴藏语土话(芒康盐井至维西巴迪)的语音现象及词汇形式进行地理语言学分析,并探讨该地域的康巴藏语如何划分。通过分析提出,德钦县佛山乡北部以及燕门乡乡政府南北之间有较大的差异,可以设方言划分线[34]。

铃木博之的《1899 年出版《藏拉法词典》记载的动词snang 口语用法:从地理语言学的方法来看其方言所属》对1899 年出版的《藏语拉丁语法语词典》里被收录的藏语动词snang 词条进行分析。该词典采用了许多口语用法,专门从康区及锡金地区选出的口语,而snang 的描述是基于康区的用法。该文通过当代藏语方言研究的成果结合起来阐明该词的描写为何处的藏语口语。讨论中运用了藏语方言学中的地理语言学的方法论,对近代藏语口语资料进行分析,认为该词的用法与康巴藏语南路方言群的用法一致[35]。

铃木博之、达瓦卓玛、吞智的《康区藏族语言中“老鹰/雕”词形的分布:以与藏文词glag 对应的形式为例》认为藏文书面语有glag“老鹰”这一词,从语音对应的角度来讲,该词的声母具有带声边音。但清代的藏汉对照文献《西番译语》(川七)有lhag的记录,表示其声母该为清边音。在康巴地区的藏族语言调查发现,不少的康巴藏语把名词“老鹰/雕”念成清边音声母。该文将针对与glag“老鹰”对应的词形绘制康巴地区(限为四川及云南)的语言地图,对其分布进行讨论。地图提示含清边音的“老鹰/雕”集中分布在康区东部及南部,主要出现在包括丹巴、木雅热岗、崩波岗、乡城、得荣德钦、香格里拉等方言群在内的土话[36]。

铃木博之的《藏东藏区藏语猪的分类:从地理语言学重新审视猪问题》主要描写了藏东藏语中的家猪词汇形式的形态变异,并从地理语言学的角度考察了猪的地理分布与繁殖习惯之间的关系。在藏语文献中,许多关于家猪的词汇都是从词根phag“猪”派生出来的,而在口语中,包括该词根或排除该词根的各种形式都得到了证明。地理语言学分析表明,与猪有关的词汇复杂性与猪繁殖习惯密切相关[37]。

结语

本文对2019年国内外学者发表的有关藏语最新前沿研究成果进行了简要介绍和总结。藏语本体结构研究方面主要聚焦在语音共时描写与历时演变研究,而语义、形态句法方面的研究成果很少。藏语语音实验研究、计算语言学、地理语言学成果较丰硕。藏语语音实验研究和计算语言学研究实力很强,注重后备人才培养,促进学科发展。藏语本体研究队伍较弱,需要加强后备人才培养和学科梯队建设。

猜你喜欢

藏语方言语义
方严的方言
真实场景水下语义分割方法及数据集
浅谈藏语中的礼仪语
方言
藏语传统辞书词目编排法探析
当代女性藏语长篇小说《花与梦》中女性成长主题研究
悬置、隐藏与冒犯:松太加“藏语电影”中的“作者”话语变奏
哪些方言有利于经商
“吃+NP”的语义生成机制研究
简论天祝方言亲属称谓词