濒危少数民族语言的档案编制工作探究

2017-03-27饶敏

科教导刊 2017年4期

饶敏

摘要本文基于筆者长期的语言田野调查实践，以四川省甘孜州康定县麦崩乡的少数民族濒危藏缅语贵琼语为例，结合濒危语言研究的最新理论，探讨濒危少数民族语言的档案编制（language documentation）工作。本文将细化濒危语言档案编制工作的五个步骤，既口语语料的录制、口语语料的数字化、口语语料的分析、口语语料的留存及口语语料的传播，并探究这五步骤中所涉及的问题及应对。

关键词濒危语言语言档案贵琼语录制数字化

中图分类号：D633 文献标识码：A DOI：10.16400/j.cnki.kjdks.2017.02.066

Abstract This paper takes Guiqiong language as example for discussing language documentation of endangered minority languages. Guiqiong is a Tibeto-Burman language of Dar.rtse.mdo County of Dkar.mdzes Prefecture， in Sichuan province， China. We have chosen to study Guiqiong spoken in Maibeng Canton. There are five procedures in language documentation. In this article， we will discuss measures and strategies about record， digitalization， analyze， archive and diffusion of Guiqiong language.

Keywords endangered language； language documentation； Guiqiong； record； digitalization

濒危语言的消失是当今世界语言发展演变的一个大趋势，是对语言多样性及文化多样性的一种严重破坏，是人类文化财富的重要损失。国际语言学界从20世纪60年代起开始关注濒危语言问题，从80年代末起对濒危语言的研究开始不断升温。直至2003年2月，一部支持语言保护和抢救重要文献《语言活力与语言濒危》以及《行动计划建议书》终于在法国巴黎联合国教科文组织总部举行的濒危语言专家会议上通过。其后在联合国教科文组织2006 年的《保护非物质文化遗产公约》的鼓励下，催生了一系列关于保护及留存非物质文化遗产的研究工作，其中包括对濒危语言的保护及留存，也就是本文要探究的濒危语言档案编制工作（language documentation）。

我国是一个多民族的语言资源及其丰富的国家，记录并留存濒危语言的原生态面貌和信息，既是当务之急的任务更是一个长期且有意义的研究方向。我们在长期的田野调查实践和理论研究中发现，贵琼语作为一门濒危的少数民族语言，在研究及保护抢救方面急需展开相关工作。本文将首先介绍作者前期对贵琼语的田野调查工作，然后再以此为基础，结合濒危语言研究的最新理论，通过濒危语言档案编制工作的五个步骤，既口语语料的录制、口语语料的数字化、口语语料的分析、口语语料的留存及口语语料的传播，来探究这五步骤中所涉及的问题及其应对。

1贵琼语简介

贵琼语在学术界普遍被认为是属于藏缅语族羌语支的一门语言（孙宏开 1983；黄布凡 1991）。说贵琼语的人主要分布在四川省西部地区，这一区域被称为“川西民族走廊”（孙宏开 1983）或“藏彝走廊”（费孝通 1982），其间分布着藏、彝、羌等几十个少数民族。确切地说，说贵琼语的人主要分布在甘孜藏族自治州康定县境内大渡河沿岸的四乡一镇，即时济乡、舍联乡、前溪乡、麦崩乡和姑咱镇，如图1所示。

语言学家们从上个世纪80年代起开始对贵琼语进行研究，但是能看到的相关文献也为数不多。孙宏开（1983）在《六江流域的民族语言及其系属分类》中谈到了贵琼语的语音系统及语法概况；宋伶俐（2011）出版专著《贵琼语研究》以及姜丽（2015）《A grammar of Guiqiong》都对贵琼语的语音及语法进行了描述。

2贵琼语的田野调查概况

贵琼语是一门口头语言，所以必须通过数据采录从而建立起可供学习和研究这门语言的素材。采集数据的工作主要通过田野调查来实现。除此之外，如果条件允许的话也通过电话调查的方式来进行补充调查，这时主要涉及的就是一些核对的工作和补充信息的获得。

2.1 前期调查

我们从2006年-2016年先后深入康定县故咱镇、麦崩乡、前溪乡等地做贵琼语的田野调查，共计八次，累计超过15个月，主要采集的是数据是词汇、长篇传统故事录音及部分山歌、酒曲子等。

2006年的4月：我们开始了首次对贵琼语的田野调查，调查为期一个月。首次调查主要以社会语言学的调查为主，也下到了不同的乡镇进行走访调查，调查对象的选择主要参考变化了以下几个因素：性别、年龄、居住、对藏语的熟知度以及对汉语的熟知度。这次的调查主要使我们获得了大量的社会语言学的数据，从而可以研究语言的使用现状及其濒危状态。同时我们也记录了一些词汇，开始熟悉并学习这门口传语言，对它的音位系统也有了自己初步的认识。

2007年1-4月：我们又深入鱼通地区，对贵琼语做了三个月的田野调查。这次的调查主要在故咱镇进行。我们用一个1500词的词表，对不同年龄、不同性别、不同居住地及不同藏汉语认知度的发音人进行了分别的调查、记录和核查。在这次的调查中，我们还采集记录了一位贵琼/西南官话双语的78岁阿婆唱的两首酒曲子和10首山歌。本次调查的发音人大部分来自麦崩乡，其他的还有来自前溪乡的，剩下的均来自姑咱镇。

2008-2015年间：我们又先后又对贵琼语做过六次田野调查。这些调查主要是有征对性地和主要发音人合作，以记录、转写和翻译长篇故事语料为主。通过自然语料来研究并整理贵琼语的语法系统。对发现的问题，也会通过启发式的直接问询调查（elicitation）来进行核对和补充。另外也有专门为研究声调而进行的专项实验调查。

2.2 主要调查方法

我们在田野调查过程中所使用的方法随着我们对该语言的认知程度以及调查内容的不同而变换。

被动的启发式调查法（Controlled elicitation）：利用这样的所谓被动的启发式调查法，我们可以进行以下的田野调查：比如为了收集贵琼语的词汇、独立的句子我们会使用到词表或者调查问卷CASSQ（由中国社会科学院民族与人类学研究所所编著的《中国语言资料有声数据库》问卷）；为了调查贵琼语的时-式-体，我们会采用Dahl （1985） Tense-Mood-Aspect Questionnaire （时-式-体问卷TMAQ）。另外我们在田野调查中还会用到刺激物（stimuli）通常是照片、视频、音频等来诱使发音人说出我们想要的语音材料。

半被动的启发式调查法（Semi-Controlled elicitation）：这个调查方法主要用来收集和分析长篇传统故事语料，或者是即时的对话语料等。有的时候我们也会兼容并用被动的启发式调查法和半被动的启发式调查法。

3贵琼语的语言档案编制工作

为了能做到一个好的语言档案的编制（language documentation），Austin （2006：89）将语言档案编制工作划分为主要的五个步骤。我们将以贵琼语为例，在接下来的五个小节中讲述我们在这五个步骤中的所做与缺失：录制、数字化、分析、留存以及传播。

3.1 贵琼语的口语语料的录制（record）

語言档案编制的第一步是数据的采录。这个步骤必须要求使用高质量的录音设备、高质量的话筒、监听耳机以及存储设备。录制的过程我们一直严格恪守以下两条：（1）永远不录制压缩格式例如mp3格式的音频文件。（2）不直接将数据录制在计算机的硬盘上，以免意外丢失数据。

我们在贵琼语的口语语料采集中，使用的录音设备随着技术的不断更新也在不断变化，坚持的原则一直是不录制压缩格式的音频数据。目前我们一直使用的是索尼的PCM D100录音棒（如图2所示）。

这款设备因具有便携且录音质量高的特点，所以一直为我们所用。其特点如下：

（1）支持1-bit audio DSD录音格式，音质自然流畅、贴近原声，与SACD格式相当。忠实录制原声且音质十分清晰，录音接近原声且空间感优于线性PCM。

（2）支持192kHz/24bit无损压缩线性PCM录音格式。清晰度优于录音的标准格式96kHz/24bit。

（3）其100dB信噪比模式，降低内部噪声，录制细小声音时能达到高清晰度。

（4）采用DSD（直接数字流编码）编码技术。DSD是一种前沿编码技术，常用于SACD。眼下，CD、DVD和电脑声音等数字音频使用的仍是PCM格式，而DSD是一种与PCM截然不同的数字音频格式。不同大小的音频信号用1-bit数字脉冲集中表示，音质得到进一步提高。DSD格式消除了传统PCM格式所具有的“数字感”。能让人们在数字技术下也能听到模拟技术才还原的音质质感。兼具模拟录音的流畅度和数字录音的清晰度。

（5）配备新开发的大直径定向麦克风，针对DSD录音格式进行优化。新开发的15毫米直径麦克风采用驻极体电容麦克风，具有出色的信噪比，可将鸟叫声等细小声音如实录制下来，且不带多余噪声。通过细心设计麦克风组件的安装位置甚至细节的间隙部分，麦克风的内部空间得到优化且达到约31dB/Pa 1KHz的高灵敏度。超过20kHz的频率特性，可以有效发挥DSD录音格式的优势。可通过改变麦克风角度来适应采集声音所在的区域。例如，当麦克风距离声源较近时，如单人表演或两至三人的会议场合，可选择“X-Y位置”来录制音频，如此便能录制出富有空间感的自然立体声；对于管弦乐队、合唱团或其他有很多人表演的大型场所，录音时可选择“宽立体声位置”，如此便能采集到具有广阔空间感的高保真饱满声音（如图3所示）。

（6）REC音量旋钮：此装置可同时调节左声道和右声道的录制音量。可以通过小幅调整左右声道的差异实现录音音量水平的调整。

（7）内置内存最多可录制约10小时50分钟的DSD格式音频，可将录制的音频复制到存储卡中并立刻与亲友分享。还可使用SD XC存储卡（48GB 或以上容量）。

3.2 贵琼语的口语语料的数字化（digitalization）

口语语料的数字化涉及到将所有语言材料转化成信息化的电子版本。这里面除了音频及视频资料外，还包括我们在田野调查过程中所做的所有手写的记录。在数字化保存这些数据时我们尤其注意到要将一些重要的信息和电子文件联系在一起。这些重要的信息叫做元数据“metatdata”。关于语料的元数据格式存在有一些国际标准，我们主要参照的是OLAC（Open Language Archive Community）和 IMDI（ISLE Metadata Initiative）。

对于我们的每个录音，我们都至少做到了提及以下信息（Himmelmann 2006：11-12）：

（1）录制章节的题目，这样可以方便我们在语料库查找识别这段音频的对应部分。

（2）录制的地点和日期。

（3）录音人的名字和其他在场人姓名（不管其是否参与了对话）。

（4）录制人姓名及所使用的器材设备。

（5）关于录音质量的指示（录音环境、发音人的能力水平等）。

（6）对录制内容的简短描述：题目，话语类型——对话、独白等。

（7）涉及同一内容的不同媒质间的联系也一并提及出来（比如这段录音对应的是哪段笔记、哪段对应这个录音的文本）。

（8）关于这段录音的详细的可使用性accessibility。

（9）发音人的社会语言学特性（性别、年龄、出生地、所说语言、受教育程度等）。

（10）如果记录转写录音的人不是录制者本人还会提及到转写人的社会语言学特性、转写的日期和地点（ Austin 200：94）。

3.3 贵琼语的口语语料的分析（analyze）

语料分析这部分是最复杂的，也是最难以预估所需花费时间的部分。Schultze-Berndt （2006？： 216）估计过1分钟的录音根据所想要达到的分析的详尽程度所花费的时间能从1小时跨度到150小时。为了更好地做语料分析，业内的标准操作是将语料文本以行间注释（interlineation）的形式来进行呈现。比如一个贵琼语的例子（表1）：

（1）分析数据的第一行是音频数据的转写记录。转写要尽可能忠实地反映录音里面所讲的，包括停顿、错误、纠正、重复和其他的音韵细节。我们对贵琼语的转写采用IPA国际音标并遵循贵琼语的音位系统来书写。这样更便于文本被更多的人看懂并会读。记录的文本我们也会拿给发音人看。

（2）第二行是语素分解。按照预先分析的最小语义单位来进行划分，这样的划分能分出最小的语义单元（比如组合词的不同语素）、词干及其前后缀等。这一行和第三行注释行（gloss）是紧密联系的，因为它决定了我们所有需要加注释的单元。关于注释学界存在有很多惯例，比如The Leipzig Glossing Rules （Bickel， Comerie & Haspelmath 2004）， Lehmann （2005）。我们在第三行采用的就是The Leipzig Glossing Rules的注释规则，这样更便于资料的流通和易懂性。

（3）第四-六行是翻译。一般我们会选择发音人的所在国家的官方语言首先来进行翻译，然后再将其翻译成一门广泛被识别的语言比如英语，这样可以让全世界的人都有机会能读懂。翻译我们会先给个字到字的翻译，第二个翻译才给出按照官方语言惯用表达翻译的流畅版。这样能让意思更易于理解。

有不少可以用于语料分析的软件，可以让我们在一个界面里实现所有信息的整合。历史最久和最被人使用的多的是Toolbox。这也正是我们在贵琼语的调查和研究中一直采用的。Toolbox可以允许我们实现文本编辑和对语料进行行间注释同时能自建一个词库。但是这个软件没法让我们实现分析、注释与音频、视频文件的对齐。由荷兰的心理语言学学院Max Planck开发的软件ELAN（EUDICO Linguistic Annotator）能实现直接对视频及音频文件的注释。Toolbox和ELAN两个软件都可以实现文件输出成xml格式，這是很多进行语言档案编制的机构都很推行的文档格式。

3.4 贵琼语的口语语料的留存（archive）

传统的存档主要集中于具体物件的留存，比如历史文化、古籍的收藏与保存。现代的技术已经开始颠覆这个领域的传统概念。许多数字档案馆应运而生，使我们的数据能实现更长期的留存。所有的语言档案都应该提交数字档案库，首先实现短期应用，比如制作语言教材或者是信息再添加补充，以便最终实现长期保存，让这些语言的录音可供大家使用即使是这门语言不再有发音者。目前比较有名的语料库：

（1）The Berkeley Linguistic Archives， University of California， Berkeley

（2）AILLA （Archive of the Indigenous Languages of Latin America）， The University of Texas

（3）ELAR （Endangered Languages Archive）， University of London

（4）PARADISEC （Pacific And Regional Archive for Digital Sources in Endangered Cultures），The University of Sydney

（5）les archives du LACITO （Langues et Civilisations €？Tradition Orale） du Centre national de recherche scientifique en France. （法国口传语言及文化实验室的数据库）

（6）First Voices Language Archive，Canada

然后这些数据库都没有实现我们之前提到的开放存取。经常的状况是，鉴于各种安全原因而无法通过互联网进入这些数据库。其实现在的安全手段可以实现数据库访问权限的分级，有了安全的保证也就能更大程度地开放类似的语言数据库以便更多人使用。比如ELAR就有四种访问权限的设置：

（1）全公开。

（2）仅对研究人员及说本语言的群体成员开放。

（3）仅对说本语言的群体成员开放。

（4）请求授权才能进入。

我们国家2015年开始启动的语保工程，在我国提供了语言资源库存的可能。在这样大政策的背景下，我们自己的田野调查数据也应当尽可能地按照规范化来留存，以便日后可以更兼容地融入一些大型的数据库来进行保护，实现资源共享。我们目前在贵琼语的语语料留存中做到了遵循以下的原则：

（1）使用.XML（Extensible Markup Language）（可扩展标记语言）文件形式来留存。可扩展标记语言XML是一种简单的数据存储语言，使用一系列简单的标记描述数据，而这些标记可以用方便的方式建立，虽然XML占用的空间比二进制数据要占用更多的空间，但XML极其简单易于掌握和使用。

（2）使用Unicode的字体，以避免不识别出现乱码的情况。

（3）视频文件按照无压缩的 MPEG2形式保存。

（4）音频文件按照wav格式（44kHz， 16bits）保存。

（5）所有的田野调查纸质笔记也会保存。

（6）所有录制有数据的CD＼DVD及mini-disc也将被保存，多形式多介质的保存录制资料能最大程度地降低信息丢失的可能性。

3.5 贵琼语的口语语料的传播（diffusion）

口传语言语料收集留存后，其传播也应当是我们少数民族语言的档案编制工作中的一个不可忽视的环节。传统的语言语料传播的手段有出版专著、语法书、字典、词汇集、论文集等，虽然也很有用，但是这些出版的作品无法让人身临其境地感受到语言的真实性。现在借助科技的手段，我们可以实现如下的语料传播模式：（1）提供可交互式语料资源，界面做的简介、易懂、易查找使用，这样使用者不会被大量数据所瞬间吞噬而迷失方向。（2）实现语料的网上传播。将语料放置于互联网上，即可方便语言学家的查阅，也可利于大众的了解。但是对于不方便上网的来自村落发音人来说，还是应该为其提供纸质的版本、多媒体媒介的材料（CD-ROM， DVD-ROM）（Csato & Nathan 2003； Morey 2010）。关于贵琼语的语料传播，目前我们所做到的有出版发表相关文章，将语料以CD-ROM， DVD-ROM等形式回馈说贵琼语言群体。

4结论

一个好的语言研究的素材或者资料库应该具备以下的特征（Woodbury， 2003：12-13）：多样（diverse）—语料应该多样化，比如发音人的不同年龄和性别的变化、话语形式的多样性（独白、叙述、对话、多人交谈等）；大量（large） –现代技术已经能够允许我们储存量大的惊人的数据了；持续、共享、充满机会（onging， distributed， and opportunistic）–能够让参与者/发音者连续地在已有数据库里加入新数据；透明易懂（transparent）– 注释清晰且至少要翻译成一门大众语言；可保存的、可携带的（preservable， ethical and portable）– 录制数据的形式要便于日后随着技术的发展转变成新的形式实现可保存课携带；和情理（ethical） – 著作权和当地语言群体的意愿都要同时兼顾。针对这些特征检视我们所做过的工作，会发现还有很多的有待改进的地方，比如缺少大量视频数据的采集。音频数据的信息含量要远远低于视频数据。视频数据能够让我们捕捉到语言使用的更多维信息，但是也随之带来了处理和分析的复杂性。对视频的分析处理涉及到复杂软件的使用，而且视频资料的存储需要很大的空间。不过，组合并同步录制音频和视频的方法依然是语言档案编制所希望的中最理想的方法。在以后的研究调查中，我们尽最大可能地扩大口语交流的数据录制的种类。随着技术的发展，数据容量再大也不再是问题。能获取的语言资料容量越大，越能为我们提供更多的关于语言本身、语言使用及语言发音者相关的信息。

濒危少数民族语言的档案编制工作是一项急需我们去着手的工作，同时也是一项纷繁复杂的工作。相關的工作者和研究者务必要在整个语言档案编制的过程中采取相应的措施以确保做好一个完美的语言档案库存工作。

参考文献

[1] 孙宏开.六江流域的民族语言及其系属分类.民族学报，1983.3：99-274.

[2] 宋伶俐.贵琼语研究[M].民族出版社，2011.

[3] BICKEL， B.， B. COMRIE ET M. HASPELMATH （2004）. The Leipzig Glossing Rules. Conventions for Interlinear Morpheme by Morpheme Glosses， Leipzig， Max Planck Institute for Evolutionary Anthropology.

[4] Croft， William.2003.Typology and universals. 2nd ed. Cambridge： Cambridge University Press， pp. xix-xxv.

[5] CSAT€？ €？ et D. NATHAN （2003）. Spoken Karaim， Institute for the Study of the Languages and Cultures of African and Asia， HRELP， Tokyo University of Foreign Studies， School of Oriental and African Studies.

[6] Jiang， Li. 2015.A grammar of guiqiong ： a language of Sichuan. Brill Academic Publishers.

[7] Lehmann，Christian. 1982. "Directions for interlinear morphemic translations". Folia Linguistica 16：199-224.

[8] LEHMANN， C. （2005）. Interlinear morphemic glossing ， in G. Booij & al.， Morphology ： An International Handbook on In？ection and Word-Formation， Berlin/New York， Walter de Gruyter， p. 1834-1857.

[9] MOREY， S.D. （2010）. Turung ： A Variety of Singpho Language Spoken in Assam， Canberra， Paci？c Linguistics.

[10] SCHULTZE-BERNDT， E.（2006）. 《Linguistic annotation 》， in J. Gippert， N.P. Himmelmann & U. Mosel （dir.）， Essentials of Language Documentation， Berlin/New York， Mouton de Gruyter， p.213-251.