云南省濒危民族语言有声语档的建设方法探讨
2012-07-03李素琴杨炳钧
李素琴,杨炳钧
(1.大理学院外国语学院,云南大理 671003;2.西南大学外国语学院,重庆 400715)
有声语档又称有声数据库,是对语言进行真实话语录音记录并数字化保存的一种方式。在云南省建设濒危民族语言有声语档,能给语言学和人类学研究提供丰富的参考素材。原因有二:一是云南26个民族使用的语言分属汉藏、南亚两大语系和藏缅、苗瑶、壮侗、孟高棉4个语族。全省5 000人以上的25个少数民族中,除回、水、满3个民族通用汉语外,其余22个少数民族使用26种语言(瑶族和景颇族各使用2种,怒族3种)。二是云南省有12个民族为云南省独有,其中几个民族语言已经濒危。另外,还有十几种使用人口不多的特殊语言或方言。这些民族语言学术价值高,因为其中不少语言保留了汉藏语系、阿尔泰语系、南岛语系等语言的许多古老面貌〔1〕。
民族语言承载、记录和传播民族文化。云南省众多少数民族语言有口语、无文字,即使有拼音方案或者方块字,绝大多数文字并不通用,而以口传文化为主。没有语声记载,民族文化的个性有可能因文化融合而逐渐消失。因此,建设云南省民族语言有声语档能完善有语言、无文字的少数民族的语言和文化记录。本文首先简要归纳我国和云南省有声语档建设的背景和现状,阐述民族语言有声语档建设的理论依据,提出借鉴汉语方言有声语档建设业已取得的实践经验之基础,然后根据云南省多民族、多语言和地域特点、语言系属划分等诸多因素,探讨云南省语档建设的特点,提出有针对性的建设方法。
一、我国语档建设的背景和现状
建国以来,在民委和社会科学院等机构的组织下,民族语言学者开展了大量的语言记录工作。20世纪80年代国家民委《中国少数民族语言简志丛书》编辑组安排全国语言学工作者进行田野调查,并对少数民族语言进行语言学描述。1980年到1986年陆续出版了调查成果,现在已有50多门语言的简志,这些简志根据传统语法描写记录了已被识别的族群的语言,提供了多方面的参考依据。然而,民语简志属于无声的文字描述,不足以立体再现该族群的语言使用和文化生活,还需要语声资料的补充。
20世纪60年代,陆续有语言学家开始收集语声语料,由此进入了初级有声语档建设阶段。使用录音机、录像机记录民族语言,语言学记录成果得以声像方式再现,例如中央民族大学语言学系等机构联合制作录像带《中国少数民族语言音档(音系资料)》和录音磁带《中国少数民族语言音档(词汇录音)》。中国社会科学院和中央民族大学以及各种民族语言研究机构都已经开始了此项工作,目前已有30多种语言得到记录、整理和保护〔1〕。
21世纪,尤其是从2010年开始,我国加大力度开展有声语档建设,为民族语言和汉语方言建立语音数据库。语档建设进入数字化时代,使用光盘以及其他存储媒介,以数据库的形式存储少数民族语言和汉语方言的词汇、会话、长语篇,乃至歌谣、戏曲和唱本等等。国内外许多学术科研机构都展开了这方面的研究和实践,其中,中国社会科学院人类学与民族学研究所、暨南大学和上海师范大学等机构的语言专家开展了汉语方言或少数民族语言的有声语档建设工作,已经验收局部阶段性成果,总结了实践经验。
二、云南省有声语档建设现状
云南民族大学2000年开始筹建“云南少数民族语言数据库”,2002年数据库软件正常运行并投入使用。这个数据库的最大特点是,它不但可以收集各种语言材料,还可以对收集到的语言材料进行分析〔2〕。这是云南省内较早进行的语言数据库建设。
云南省的部分民族语言在某些国家层面的有声数据库建设中已经有所涉及。例如,2008年10月,教育部启动了“中国语言资源有声数据库”建设试点工作。江苏南京等地积极开展了高校专家团队和语委合作,开始了方言语档建设试点工作。云南省民语委承担其中的少数民族语言采集试点任务。2009年中国社会科学院人类学与民族学研究所、上海师范大学、广西农业大学等机构的语言学专家到云南指导傣语、景颇语和载瓦语的语档建设项目,主要录音成果是1 300个词汇。到2010年2月为止,云南省民语委首次使用数字化手段采集了2个民族3种语言的词汇语音库。然而,仅限于词汇语音库的建设不足以再现一门语言的使用,需要补充对话、语篇和各种形式的有声语言资料。
三、建设方法探讨
云南省濒危民族语言有声语档建设方法可以围绕理论性、经验性、地域性和民族特性等方面展开,以下逐一说明。
(一)以纪录语言学理论为指导制定建设方法
建设方法离不开理论指导,而纪录语言学(documentary linguistics,或译为语档语言学)的相关理论是首先要遵循的。纪录语言学理论源于濒危语言保护的探索与实践。语言濒危现象引起了人类学家、语言学家和社会学家的普遍关注,欧美、环太平洋地区各国根据各自的语言实际,采取了多种保护措施和抢救对策,以延缓濒危语言的消亡速度。总体的抢救趋势已从语言学描写转向了有声资源的记录和保存,在实践中兴起了新的应用学科——纪录语言学。
纪录语言学理论以及从纪录语言学实践中总结的经验是濒危语言有声语档建设的纲领,而对某个特定语言的有声语档建设可以检验和完善该理论。纪录语言学的研究目的是纪实性地记录使用中的语言,研究方法强调数字化和真实语料数据库,重视采样的全面性、可靠性和自然性,强调定量和定性研究相结合,数字化和多媒体是这种语档建设的特色〔3〕。研究过程主要是参与观察、抽样、收集、记录及标音;还要对收集到的语言材料进行翻译处理以及储存;产出话语语料库、多媒体及文本等;成果的预期读者包括语言学者、人文科学者以及当地的族群。语言有声纪录实践活动包括语料收集、处理和储存3个过程,具体包括5个方面:①纪录:媒体和文本纪录,媒体包括音频文档、视频文档和图像文档;②捕捉:把同类资料移入电脑数字化域名中;③分析:标音、翻译、注解以及语料库之说明;④数字化资料库:创建数字化资料库,指定进入和使用权;⑤流动性:对资料进行各种形式的发布,如出版、影印、在线网络等〔3〕。
(二)借鉴汉语方言有声语档建设经验
江苏省、北京、大连等地已先后开始了汉语方言有声语档的建设。江苏省于2009年10月启动江苏语言资源有声数据库建设。作为全国最早的试点省份,江苏省按照“一县一点”的原则采集方言,全部70个调查点的采集工作计划于2012年底完成,确保2013年建成江苏语言资源有声数据库。在国家库的基础上增录了“地方口头文化”资料,包括地方戏曲、民歌和童谣等。从2009年起,该省财政每年新增上百万元专项经费。目前该省收录15个调查点的文字、声音、视频资料,在其新开通的“中国语言资源有声数据库(江苏库)展示网”内分设字库、词库、句库、话语库、地方普通话库、地方口头文化库计6大库。点击网页后可听到“吴侬软语”各地方言。语言学者对此表示,江苏语言资源有声数据库里,文字、声音、视频兼备,100年后乃至更长的时间,都可听到现今的方言土语。
江苏省如皋市的建设经验总结详细。选纯正发音人,收录纯正语音发音,组织多部门合作。在选择发音人阶段,利用各种媒体发布征召广告,在街上组织发放宣传材料,设立报名咨询点安排专人做报名工作。请公安部门查询户籍资料,请城建等部门配合,跟踪查找原如皋城居民。发动学校师生员工寻找符合条件的如皋话发音人。邀请专家团队组成发音人遴选小组,审核报名材料,并组织面试,筛选出了条件符合、音质较佳的发音人。
收录语音讲求纯正。如皋市教育局组织相关人员参加省、市语委组织的培训,邀请专家团队以及本市方言研究学者举办培训班,组织发音人认真学习规范,研讨调查内容,鼓励发音人主动与身边的亲人、邻居、同事等探讨一些字、词、句的“标准”发音,发音人互帮互助,录音时所有发音人到现场参加监听,并相互指正,要求发音人在尽量找寻字、词、句多种说法的基础上,优选两至三种常用、典型的如皋说法,寻找与本地民俗、民歌、戏曲等地方文化风貌相关的内容,力求全面、具体地反映如皋方言的历史和文化底蕴。虽然如皋市的做法不完全适应于云南省的情况,但以上经验值得借鉴〔4〕。
(三)探索云南省语档建设的特点
云南省的语档建设还需要探索多民族、多语言所造成的特殊性。云南省25门少数民族语言以汉藏语系为主,另有南亚语系的两门语言。25个少数民族分布在8个自治州、28个自治县;少数民族语言间的相互借用或与汉语相互借用突出;民族聚居地多数交通欠发达,赴偏僻村庄进行田野调查对设备有特别要求。针对这些特点,需要在语档建设中考虑以下几点。
1.兼顾语言的系属特点
云南独有的12种语言分别属于藏缅语族和壮侗语族(见图1)。同系属的语言有很多语言类型上的相似性。中国境内的藏缅语族的基本语序、名词性短语句法结构等参项已经有了详尽的列举〔5〕。同属于汉藏语系下的彝语支的彝语、傈僳语、纳西语、哈尼语和拉祜语,具备很多相似的类型学参项,是我们进行语档建设时可以参考的依据。同属缅语支的阿昌语和载瓦语很相似,例如词汇上有许多同源词,语法、语音也有相似性〔6〕。此外,省内独有民族还有属于南亚语系的佤语和德昂语,二者同属孟高棉语族的佤德昂语支,两个民族居住在滇西边境地区〔7-8〕。佤族人口约39.7万,聚寨而居,语料收集较为容易;德昂族人口仅1.8万,这两个民族的语档建设可以由同一个团队承担,便于相互参考。
图1 云南省民族语言汉藏语言系属
2.关注语言接触
云南少数民族人口分布多样,彼此交错,除山峰、河流和峡谷的阻断以外,在地域上基本连成一片。有的民族大分散、小聚居,如傣族和拉祜族;有的民族大聚居、小分散,如佤族。有的民族经历了迁移,如阿昌族的先民很早居住在滇西北一带,经过多次迁移,现定居于陇川和梁河。各民族与周边民族语言接触频繁,多数民族内部有兼通双语、三语,甚至多语的群众。基于这12个民族的语言简志和《中国民族统计年鉴》(2010),可以了解下列信息。首先,几乎每个少数民族族群的周边都有复杂的语言环境,例如普米族周边有纳西语、彝语以及汉语;德昂族周边有傣语、景颇语、汉语、阿昌语及佤语。所以,在选取发音人的时候,首选聚居地族人,然后详细调查发音人家庭成员的语言情况。其次,发音人的汉语教育程度需要考虑,因为这些人群的词汇中有大量借自汉语的词汇,经过音变成为貌似少数民族语词的词汇,有些词汇由于借用时间太久,导致被误认为是母语词汇,可向年长的、几乎无汉语教育的村民求证。总之,选取发音人的时候要关注语言接触和语言背景。
3.规划建设流程
第一,征集专家团队进行立项,统筹安排,分批建设。首先建设极其濒危的语言的语档,人口在10万以下的7个民族是布朗族(9.2万)、普米族(3.4万)、阿昌族(3.4万)、怒族(2.9万)、基诺族(2.1万)、德昂族(1.8万)和独龙族(0.7万)。独龙语和怒族柔若语被列为云南省濒危语言。进一步分析,怒族总人口2.9万(2000年),但分别讲怒苏、阿侬和柔若3种语言,怒苏语在30年间的使用人数从1 000人降到了现在的400余人〔9〕。
第二,依据民族语简志,找准发音人、语料采集地和采集时间。根据各民族语简志提供的语言使用区,调查这些聚居地的民族语言目前的使用情况,找到最合适的发音人和语料采集地。然后选择最佳驻扎调研时段,首选该民族重大节日期间,特别是对祭祀、婚礼、葬礼、新居落成典礼等百姓生活大事中的语言行为进行摄像;同时,注意各个季节潜在的障碍,如果去怒江峡谷,雨季慎行。最后,语料剪辑和数字化处理最好每天采录完毕就地进行,要请当地汉语水平较高的群众(特别是当地文化系统工作的该族群人员和语言学者)辅助进行标注和翻译,这个工作耗时较多。
第三,建立有声语料库。由计算机技术人员和语言学家合作,建立便于检索的生语料库,并且把它上传到公共网(如有),供语言族群、专家学者和社会共享。进一步考虑长远的语言恢复工作,例如,由民语委或者科研部门征集编撰该语言的有声辞典,编写面向中小学生的有声母语教学资料;在有需要的少数民族地区,加强基础教育阶段的教师的双语教育的意识和能力;进行宣传、保护和支持民族地区各种形式的文艺活动,唤起语言族群对母语和母语文化的了解与认同,以此增强语言活力。
第四,充分利用已有的民间散在的有声纪录资料〔10〕。多年来,民族语言学者、人类学者、史学者和地方文化工作者陆续在做语料收集的工作,民间有散在的语料录音材料和录像材料,如果只存放在语言学家的书房里,价值不大。建议各相关部门宣传有偿、有奖收集优质的语言纪录材料,归类后交给语档建设团队加以调研核实和数字化编辑,充分发挥它们的社会价值。数字化加工时要标注录音的时间,说明是对该语言在当时的静态状况记录。
4.使用先进便携设备
拍摄民间文化艺术活动必须在该语言族群聚居地进行,需要配备易操作的便携式摄录器材。而语词、话语和语篇的摄录最理想化的条件是请发音人进入较为专业的低噪音录音棚里,由语言学家和摄录剪辑的专业人士完成。特别是在语言接触较多的村庄,老年村民是较合适的发音人,但该群体不宜劳顿奔波。设备还得适应云南立体地形、立体气候,因为云南的少数民族村寨多数沿山区、峡谷立体分布。沿着怒江大峡谷分散居住着怒族,一江之隔造成交通障碍;哈尼族村寨散落分布在高山梯田附近,独龙族、基诺族多数居住在交通不便的山村,都不利于多次往返于这些调查地做重复的劳动。配备便携轻巧的录音棚设备可以择地搭建录音棚,以保证获取高质量的语声数据。
四、结语
云南省少数民族语言有声语档建设将成为一项中长期的工程。首要意义是记录和保存濒危语言的声像资料,满足语言族群保持语言或将来恢复语言的愿望,并适应学术界和社会对语言资源的多用途需求。这项工作的意义还在于突破之前的对濒危语言的文本描述,采用现代数字语音存储技术手段和影音摄录设备和技术,进行语音声学数据库建设,使类似柔若语、基诺语这样的濒危〔9〕语言能够真实地再现给要了解、研究和学习该门语言的人。语档建设是整个社会合力的一项工作,需要专家团队学术和技术合作,语言学家、计算机专家、人类学和社会学学者合力协作,政府各机构政策性指导和物质性支持,需要民族语族群的母语保护意识和鼎力支持。
〔1〕孙宏开.少数民族语言与文化的记录和保护〔J〕.中国民族,2006(5):32-33.
〔2〕陈锡周.云南少数民族语言数据库〔J〕.云南民族学院学报:哲学社会科学版,2003,20(1):112-114.
〔3〕黄成龙,李云兵,王锋.纪录语言学:一门新兴交叉学科〔J〕.语言科学,2011,10(3):259-269.
〔4〕李卫红.要认真学习南通有声语言资源数据库建设经验〔EB/OL〕.(2011-04-11)〔2012-06-20〕.http://www.ntjy.net.Item.aspx?id=15719.
〔5〕李云兵.中国南方民族语言语序类型研究〔M〕.北京:北京大学出版社,2008:29-109.
〔6〕戴庆厦,崔志超.阿昌语简志〔M〕.北京:民族出版社,1985:1-7.
〔7〕国家民族事务委员会经济发展司,国家统计局国民经济综合统计司.中国民族统计年鉴:2010〔M〕.北京:民族出版社,2011:661-662.
〔8〕戴庆厦,许寿椿,高喜奎.中国各民族文字与电脑信息处理〔M〕.北京:中央民族学院出版社,1991:259.
〔9〕孙宏开.中国少数民族语言活力排序研究〔J〕.广西民族大学学报:哲学社会科学版,2006,28(5):6-10.
〔10〕范俊军,张帆.面向少数民族濒危语言的语档语言学〔J〕.西北民族大学学报:哲学社会科学版,2011(6):44-50.