我国濒危方言语料档案建设研究
2018-01-23姜晓娜
文 / 姜晓娜
我国是一个统一的多民族国家,多样性亦是我国语言较为突出的特征。十里不同音,各个地域的语言差异相当大。据统计,目前55个少数民族只有回族、满族使用汉语,绝大多数少数民族还有自己的本族语言。更有甚者,有的少数民族内部也使用多种语言。全国语言数量在80种以上。语言文字的多样性主要聚焦在档案管理方面,即除了国家通用语种汉语和汉字作为语言记录档案外,还有为数众多的档案是用我国主要地域方言区的语言文字来记录的。地域方言语料档案既是我国不同地区人民在生产生活中沟通交流的工具,也是民族文化的载体、情感联系的纽带、国家的非物质文化遗产。做好地域方言语言档案资源的保存与管理工作,对于留存我国不同区域经济社会发展的历史印记、继承与发展不同区域的传统文化、促进民族之间的团结与融合,起着不可小觑的作用[1]。鉴此,我们有必要对汉语方言进行合理的保护。但是,从整体上来看,目前我国语言档案数据库建设还不完善,正处于探索阶段,特别是在“互联网+”的大数据环境下,如何有效地进行语言档案建设成为档案学及社会语言学领域的一个重要论域。
一、濒危方言语料档案信息保护的必要性
20世纪末,语言学专家对我国处于濒危状态的地域方言进行了积极的保护与抢救工作。他们利用计算语言调查软件对不同地域方言进行了共时与历时的收集,用录音、录像等电子设备录制方言语言资源,构建有声语料数据库,原生态语言的语音、词汇、语法、篇章等共时语言得以保存。但一直以来,这些珍贵的语言材料并未被相关机构作为收藏对象,仅是分散地保存于少量的研究人员手中,对于濒危方言的保护非常不利,甚至导致方言抢救工作成为社会记忆断层现象[2]。
方言作为区域群体的重要特征,与一个民族的产生、形成、发展以及变化密切相关。方言作为见证一个民族发展的活化石,具有相对的稳定性,承载着民族发展过程中的传统文化讯息。换言之,它就像一座历史博物馆,馆内陈列着各个历史时期留下的文物[2]。所以,从保护某一区域文化遗产的角度来看,建立有效的濒危方言语料资源档案保护机制对于我国显得格外重要,有利于长期保护其原生性与完整性。
二、濒危方言语料档案信息资源保护的现存问题
目前,濒危方言非遗文化资源的收集、整理、建档等工作取得了一定的成效,但方言语料资源的档案保存工作仍需进一步改进。
(一)方言档案资源管理机构建设不健全
首先,目前我国的方言保护工作尚处在起步阶段,管理机制尚不健全、方针政策还不明确、国家扶持力度弱,方言保护工作步履维艰。加之,方言档案资源在语料的收集、归类、整理以及鉴定等程序上所需要的相关人才匮乏,有关部门及高校未能积极承担此重任,方言保护工作更难开展。其次,建立有声语料档案资源库是方言保护的一项重要工作。该项工作需要强大的信息技术支持来解决信息来源层、数据集成层和服务集成层等方面的问题。但是,现今应当承担此项任务的地方高校却很少有实际行动。再次,确立方言档案资源能组建什么样的服务,以及怎么实现服务,是摆在专业机构建设上的难点。并且,方言档案资源对社会的服务功能尚不完善。最后,建成的档案未能及时向公众开放,造成了方言保护工作与民众及实际效益脱节的现象。
(二)方言档案资源保真度较低
方言语料档案库建立伊始,研究者只是考虑将纸质文档囊括其中,却忽视了有声语料档案资源的收集。方言有声语料档案不仅有着天然的开放性,而且具有一定的地域特征。然而,我国的方言保护只是停留在纸质与写实记录方面,而具有证据属性、富有表现力的有声语料却鲜有人问津。显然,有声语料的收集工作急需大批专业人员,只依赖纸质档案不足以保障濒危方言的原貌。
档案收集难在保障濒危方言的稳定性,对原生态语言的收集贵在保留原有面貌。采集和及时保存是必要工作,因为濒危方言使用人数较少,极易受到周边语言的影响。同时,在采集过程中,翻译人员用词主观性强度、语音音位混淆现象等不确定因素都会不同程度地降低濒危方言的保真度。
(三)方言档案资源缺乏跨区域共享性
我国方言档案的管理具有综合性和复杂性特征,各地区的信息化建设参差不齐,且方言档案资源缺乏跨区域共享性。方言档案资源库的建立并非为了某一个群体,而是为了继承和弘扬中华优秀文化,并为研究者提供更好的查询服务。由于人口流动、时代变迁,使用某种方言的人多集中在某一广大区域或是镶嵌分布在某些小区域。若不实现区域共享,研究者便很难全方位、多层次地认识该种濒危方言。因此,实现方言档案资源的跨区域共享刻不容缓。
三、方言语料档案信息建设的总体构想
(一)规范地域方言语料采集
一方面,语料的收集应寻找濒临方言的记录志愿者以及传承人录制,以保证语料的质量。另一方面,语料的收集和保存应当同时进行,为减少不确定因素的干扰,应使用多元化的方法进行收集。
根据收集方法性质的不同,语料的采集分为自然语料和诱发式语料[3]。在自然语料的采集过程中,常用语料库需要采集拥有固定程式、数量有限且结构单一的言语行为;研究人员还可以用自然观察法获取自然语料。诱发式语料是指研究对象在研究人员的诱发和引导下,调动记忆,以报告、表演或文字的形式呈现出来[4]。具体的方法主要有语篇完型任务、情景模拟的角色扮演及研究人员理解的口头报告。语料收集后,所有可读文件标注国际音标,以期发挥语料的跨区域性价值。现有的语料标注大部分使用汉语拼音,但是研究濒危方言语料并不一定是使用汉语的人,因而国际音标的使用大大提高了收集语料的普适性。
(二)搭建信息化语档信息网络平台
随着科技的飞速发展,网络已走进千家万户。网络的即时性为搭建信息化语档信息网络平台提供了技术层面的支持。汇总整合国内繁复档案资料,建成一体化、多元化的数字档案体系,成为未来方言文化保护工作的重点[5]。
搭建信息化语档信息网络平台需要进行档案化管理。档案化管理还可以实现电子资源的高效利用,为社会提供方便、快捷的档案资源。在濒危方言的保护工作中,电子档案可以为研究者提供不受时空限制的最新资源。此外,档案化的电子资源格式被统一规定为只读文件。档案化的电子资源与纸质文件相比,储存于相对稳定的媒介上,不易受自然因素影响,维护相对容易。与此同时,数字化档案的长期保存与维护需要相关技术人员在数据库产生时处理好编码方案、专业符号、术语录著、国家通用语言、文字版本收集等信息技术方面的问题。
信息化语档有着文字档案无法比拟的优势,搭建信息化语档信息网络平台能够对方言生态实行动态监测。方言有声档案的建立指向方言资源与地理信息管理,包括方言的语言说话发音人、语料的种类以及语音采录地理位置等重要信息。地理位置、宗教形态等地域特有的信息与之联系,从而发现方言衰退在二者之间的联系。
搭建信息化语档信息网络平台可以实现濒危方言档案资源的共享。虽然国内各个地区的方言语档不同,但是利用网络平台便可实现跨区域共享,将资源利用到极致。研究人员可利用网络快速地获取各地的濒危方言语档,为研究带来极大便利。此外,濒危方言语档资源应当供广大人民群众使用,进一步提升濒危方言保护工作的社会价值。
(三)整合语言多模态保护路径
多模态话语是人类感知通道在交际过程中综合使用的结果。模态是指交流的渠道和媒介,包括语言、技术、图像、颜色、音乐等符号系统;多模态话语则包含视觉模态、听觉模态、嗅觉模态、触觉模态和味觉模态[6]。多模态语言对于提升信息处理的准确性和速度可提供很大的帮助。此外,多模态语言还可为信息资源建设提供服务,在建立资源共享的工作上发挥巨大作用。
多模态语言档案数据库的建立是在语料收集的基础上进行语言档案管理、语言档案分析,然后建立多模态档案库,最后进行语音识别、语音教学、语音合成等工作[7]。这样便可将语言与其他相关资源如图像、色彩等整合在一起,方便研究人员把握濒危方言的语义及其不同情境下的感情色彩,大大加快工作进度。若配以高速摄像头、呼吸带等最新研究设备,还可以进行跨学科研究,为研究濒危方言提供极大的便利。其中,多模态语言档案数据库由三个子数据库组成,分别是语音子数据库,图像、视频子数据库以及文本子数据库[7]。这三个数据库是多模态语言档案数据库的重点建设对象,三者在各自独立的基础上又紧密联系、相辅相成,为用户提供方便快捷的资源。
自然状态下发生的话语活动往往具有多模态性。计算涉及模态和符号系统的数量是识别多模态话语的有效途径。学术界普遍把包含两种或两种以上的话语模态称之为“多模态”。如果被测话语只有一种模态,却包含多种符号系统,那么我们也称之为“多模态”话语[8]。
建设多模态话语可以将语言和图像、色彩及其他符号系统的资源进行有机整合,展现出语言系统在交换过程中发挥的作用,可以展示其他符号系统的作用与意义,使整个话语过程表现得更加充分、全面,使研究人员更易做出分析判断。
(四)倡导语言档案资源的共享性及开放性
方言档案资源的管理涉及多个机构,跨越多个领域,这使工作变得复杂,建成后的档案资源的共享性及开放性也因此受到忽视。当今社会,发达的信息科技使得各个机构跨区域共享资源、互惠互助成为可能[9]。借鉴保护少数民族濒危语言的方法,濒危方言的保护工作必将跨越多个领域,任何机构或组织不可能孤立地完成这项任务。所以,实现资源共享十分必要,成为濒危方言保护工作的最基本原则之一。
濒危方言保护工作离不开人民大众的支持。大部分档案应该面向公众开放,濒危方言来源于民众也必将再次走近人民大众,开放性是濒危方言语料档案保护的另一原则。只有鼓励、支持人民大众重拾濒危方言,才能最终实现濒危方言的传承和发扬。令人遗憾的是,各个机构未设置对公众开放接触档案的途径[9]。在未来的工作中,实现档案对外开放也应是工作的重点。