APP下载

赣南客家方言语音语料库及其检索平台的设计与实现

2016-10-24邓海龙

考试周刊 2016年81期
关键词:客家方言

邓海龙

摘 要: 因为没有文字系统,方言语料库通常意味着语音语料库。语音语料库在采集、整理、规范和归档等方面都与文本语料库有明显不同,因此,方言语音语料库的检索、提取和呈现对技术提出更高要求。另外,方言的内部变异是语料采集过程中需要考虑的重要因素。本文针对方言语音语料库建设中的常规问题,以赣南客家方言语料库为例,就语音语料库及其检索平台设计与实现过程进行深入探讨。

关键词: 赣南地区 客家方言 语音语料库 检索平台

一、引言

我国历史悠久、地域广大和人口众多,形成了各种各样、千姿百态的不同方言。不过,面对如此丰富的语言资源宝藏,国内方言语料库建设并不多,除了北京方言、粤语和江苏省境内方言等发达地区外,很少有其他语言得到学界和社会的足够关注。一方面是因为方言在社会交往活动中,相对于普通话而言,处于区域性和边缘性地位。另一方面,方言缺少书写系统,对它的采集和描写比现代通行汉语要艰难得多。2008年,国家语委启动了“中国语言资源有声数据库建设”项目,说明国家高度重视我国语言文化资源的采集和保护工作(李宇明,2010)。2013年,教育部语言文字信息管理司发布了《中国语言资源有声数据库建设工作规范(试行)》(教语信司函〔2013〕17号),从具体实施细节上进一步规范了我国语音语料库的建设。2014年,中山大学庄初升教授主持的“海内外客家方言的语料库建设和综合比较研究”获批国家社科重大项目立项资助,充分说明学术界也已意识到方言语料库建设的必要性和重要性。

方言语料库的建设与普通话等官方语言有着显著区别,面临更多实际困难。从某种意义上说,一个如实全面反映方言特征的方言语料库必须包含语音语料库,因为声音几乎是绝大多数方言存在的唯一形式。如果没有语音数据,直接对它进行文字转写和存档,其价值将大打折扣。本文以赣南客家方言语音语料库的建设为例,研究方言语料库及检索平台建设的设计框架和实现方案,以探索方言和其他同类语音语料库基本建设途径。

二、方言语料库的基本特点

相比较于官方正式语言语料库建设,方言语料库主要有以下一些特点:

(一)一般以语音为主

绝大部分方言素材都是以口语形式存在于语言社区之中,采集口语作为语料几乎是方言语料库建设的唯一途径。语音采集分为从录音棚里录制指定的方言表达内容和在实际交际环境中录制自然话语。前者显然比后者便于操作,录制效果易于控制。早期方言语料以前者为主,从朗读指定内容发展到讲述指定故事,反映出采集人员不断追求真实语料的努力。这种方式虽然在具体实施上较为方便,可以通过短时的录音达到较大的词汇密度,但其语料常常难以具备代表性,很难为方言研究提供反映语言全貌,有代表性和说服力的数据。最近,由于录音设备变得便捷,音频捕获和剪辑不再困难,尽量采集自然口语进行语料库建设成为一种趋势和必然发展要求(范俊军,2013)。显而易见,不管是采用录音棚还是田野录音,相比较于文本语料库,语音语料库的建设无疑困难得多。

(二)现成可用资源少

方言作为地方性使用语言,加上缺乏统一对应的文字符号系统,一般很少见于官方正式文件。即使语音形式,广播、电视等媒体节目也很少使用方言(其中粤语节目占了较大比例)。在新兴网络媒介中,由于传播量大,加上普通人也可以参与,开始出现部分娱乐或者教学性质的方言语音节目内容。总体上,运用方言进行交传播和交流通常还是局限在口耳相传这种初级形式。方言使用现状直接导致方言语料库建设中可以利用的现成资源非常少,这点与现代汉语(普通话)语料库的建设不一样。现代汉语语料库建设可以选用大量现成的电子文本数据资源,即使是建设语音语料库,也可从丰富的广播电视节目中采样选取。

(三)语料采集比较困难

因为没有现成语言素材可供利用,方言语料采集比较困难。通常需要采用田野调查的办法,到方言所属区域进行语音采集。考虑到语料代表性,采集人员需要到不同地域,录取不同职业、阶层、年龄和性别说话人的语音材料。受限于资金、时间、精力和对被采集地区及其人员的了解程度,语料采集困难重重,需要在保证语料库质量的前提下,因地制宜和灵活处理。

(四)语料翻译与转写费时费力

一般而言,方言语料库不仅要服务于理解该方言的学者开展学术研究,还要面向不是以该方言为母语的其他学者或者非科研用途使用人员。另外,还要考虑到语料的检索使用问题,因为方言没有书面文字系统,语料检索通常依赖于对应的普通话翻译词语。因此,将方言语音进行翻译,转写成对应的汉语文字就非常重要。这方面工作量极大(王泽鹏,2003;洪拓夷,2009)。根据经验,一个小时的音频通常要耗费十几到几十小时的翻译转写时间。

三、方言语料库的检索平台及技术难点

同样的,方言语料库的检索平台搭建与官方正式语言语料库有显著不同,面临更高技术要求。

(一)存储空间大

如果方言语料库里包含语音语料,在同等语言数据量的前提下,语音语料就占据更大存储空间。有些方言语料库甚至还包含视频,比语音数据还需要更大的磁盘空间。虽然现在电脑磁盘空间并不昂贵,但由于语料体积带来的分享和传播困难不容忽视。

(二)检索查找难

方言没有文字系统,检索查找目标词汇就有所不便。即使配备对应转写的普通话翻译,可以使用普通话对应词进行搜索,仍然要解决对应词的语音提取问题。毕竟,语音形式才是方言最真实的存在方式。由此可以看出,方言语音语料库类似于方言语音与普通话文字相对应的平行语料库,其检索技术涉及语音和翻译文本对齐、检索和提取过程的音频播放时间定位,实现普通话文本检索,对应方言语音句子定位提取和播放,达到服务科研、教学或者其他方言查找目的。

四、赣南地区客家方言语音语料库建设

本论文中的赣南客家方言语音语料库建设目标是区域性方言语音语料库,达到可以为语言本体研究、语言教学研究、语言识别等自然语言处理工程应用和区域特色文化传承与保护等提供基础性平台服务的目的。

(一)赣南客家方言语料库建设存在的难点

客家方言地区在全国分布比较广泛,从资金、人员和时间等各方面因素考虑,我们将语音语料库建设的对象限定为赣南地区客家方言(一般也可简称赣南客家方言)。以行政区域地理划分确定语料收集对象主要是为了采集方便,并没有语言特征上的区别含义。尽管据此将客家方言的采集锁定在限定的范围,仍然还有不少需要解决的难点。

首先,赣南客家方言虽然对外呈现出较大程度的一致性,但其内部却有着丰富的多样性(谢留文&黄雪贞,2007),这对语料采集的均衡性提出了较高要求。语料库必须体现代表性,需要较为全面地反映赣南客家方言的整体面貌,要考虑到赣州市属各区县的面积、人口及代表性各个因素。

其次,由于交通发达,当代社会的人口流动极为频繁,赣南客家方言受普通话的影响较大。如何采集语音,更好地反映赣南客家方言最本质和基础的特征是极为重要的问题。采集时宜尽量根据选择对外活动较少,以客家方言为主要使用语言的说话者为语音采集对象。当然,如果要研究语言变迁,采集流动人口的客家方言反而更加适合。

再次,普通话翻译和信息标注的工作量很大。如前所述,语音语料库建设涉及的工作量很大,在资金有限的情况下,必须充分利用语音采集人员的家庭成员和亲戚关系等社会网络,并适当吸引和动员部分语言专业学生,一起参与到语料库建设活动中。另外,尊重语料标注和翻译人员的署名权,将之反映在语音数据库中,体现为责任和权利。

(二)语料库建设的基本准则

首先,客家方言语音兼顾多样性和规模化。要达到语言研究目的,语料库的均衡性和规模量都是很重要的指标。只有做到这两点的语料库才具有代表性,才使检索结果具有实证意义。要从采录区域、说话人代表性等方面做到多样化和均衡性,各个代表性方言片区、不同年龄和教育层次都要抽取一定量的语音材料。

其次,确保采录信息充分和标注齐全。采录信息包括说话人特征(性别、年龄、教育程度、工作单位等)、采录地点(尽量详细到村级(街道)单位)、录制方式(自然口语、语音朗读等)、普通话翻译等内容。这些采录信息为后续社会文化相关研究提供重要参考价值,应该准确完备。

再者,语音采集方式上自然话语采录与指定内容录音相结合。语料库最重要的特征是原生态性,即语料最好是自然采集的(范俊军,2013)。但限于现实条件,我们采集语料时,一方面要尽量收集自然话语,另一方面需要收录一些字、词、句子和习语等不同层次的语言录音,以保证语音材料的覆盖度和规模量。

(三)语料库数据结构

语料库建设最重要的是数据保存的基本组织结构设计,数据内容与组织方式对语料库的服务功能和后续发展影响重大。赣南客家方言语音语料库包含三方面主要信息。一是方言录音文件,以音频文件保存;二是普通话翻译文本,这是将方言语音资料翻译成普通话后的内容,以文本形式保存;三是录制信息,包括说话人信息、录制者、翻译者、录制地点等方面的内容。具体见表1所示:

五、语料库检索平台设计

(一)总体原则

语料库检索平台搭建的总体原则是尽量做到方便检索、全面公开和持续开放。方便检索是为了查阅及研究便利;全面公开是积极利用网络,将语料面向全社会开放,使之充分服务社会;持续开放是语料库建设要做到容易后续增加和补充内容,使语料不断得以充实和丰富。

(二)检索与呈现

大型语料库一般都有相对应的检索工具,赣南客家方言语料库由于语音语料库的性质,需要有自己独立开发建设的检索和呈现环境。其核心机制是预先将语音与翻译文本(即字幕文件)对应,用户检索的时候,服务器查询翻译文本(字幕文件),提取出搜索词所在上下文句段及对应音频文件时间区间,将文本内容以关键词索引行形式呈现在网页中,并提供各句段对应的音频链接,点击可播放出指定区间音频。音频播放通过网页音频播放器实现。

六、具体技术与实现方案

(一)计算机辅助技术

语料库建设需要使用一些计算机软件,甚至通过一些简单的编程方法批量处理某些问题,必要时可以委托给计算机专业人员进行处理。语料数据整理、归档和发布人员需要掌握语音语料库建设相关软件,如音频剪辑软件,如Cool Edit等;网页设计开发工具如Dreamweaver及网站建设语言,如php,javascript等;语言处理程序语言,如python等。

(二)实际工作方案

首先从总体上规划设计语料库建设方案及具体语音采集方案,随后组织、动员和培训语音采集人员,以赣南地区的18个县市区为基础,联系选定的客家方言区,实施语音采集。分批采集完成后,进行语音语料的录入和整理工作,并视情况,进行语料和相关信息的补录和完善工作。最后设计语料检索软件并搭建检索平台,选择适当的方式将语料公开发布,提供给相关科研人员使用语料库展开系列应用研究。

七、结语

毋庸置疑,与很多汉语方言一样,赣南客家方言语音语料库建设有其重要学术研究价值和文化传承意义。但是,由于语料库建设的现实困难,一直未见达到一定规模、遵循规范的赣南地区客家方言语料库语料公开发布。本文分析了方言语音语料库建设难点和检索平台涉及的技术要求,并以赣南客家方言语料库建设为例,提出了具体的设计思路和实现方案,以期对广大同仁有所启示。

参考文献:

[1]范俊军.汉语方言自然口语语料库建设的几个基本问题[J].学术研究,2013(02):153-158.

[2]洪拓夷.汉语方言语音数据库建设构想[J].图书情报工作,2009(05):83-86.

[3]李宇明.论中国语言资源有声数据库的建设[J].中国语文,2010(04):356-363+384.

[4]王泽鹏.发展方言语料库提高研究水平——兼谈粤方言语料库的建设[J].烟台师范学院学报(哲学社会科学版),2003(01):97-100.

[5]谢留文,黄雪贞.客家方言的分区(稿)[J].方言,2007(03):238-249.

基金项目:本文系江西省高校人文社会科学研究青年基金项目“赣南地区客家方言语音语料库及检索平台建设”(编号YY1413)阶段性成果

猜你喜欢

客家方言
客家方言对赣南采茶戏作品的影响探析
浅谈客家方言资源的保护与传承
闽西客家方言的保护与传承策略
统编语文八年级上册“身边的文化遗产”综合性学习活动设计
近四十年来客家方言研究的历史经验与当代反思*
新时代闽西客家方言的保护与传承对策探析
初探客家方言传承存在的问题及对策
初探客家方言传承存在的问题及对策
客家方言融入幼儿生活环节途径与方法的研究
客家方言的保护以及发展趋向