APP下载

浅析赣南地区客家方言语音语料库及检索平台的构建*

2016-02-04邓海龙

山西青年 2016年19期
关键词:建库赣南语料

芦 丹 邓海龙

赣南师范大学外国语学院,江西 赣州 341000



浅析赣南地区客家方言语音语料库及检索平台的构建*

芦丹邓海龙

赣南师范大学外国语学院,江西赣州341000

语料库在本质上是一种数据库,其存在的目的就是对语言材料进行有效的存放。伴随着计算机网络技术的不断发展,赣南地区的客家方言语音语料库以及检索平台也在不断的构建当中。但是数据库与语料库并不是完全的等同,两者之间既有交叉部分同时也存在各自的不同点。本文对方言数据库概述进行分析,较为详细地阐述了方言数据库研制的系统工程,并提出建设策略。

赣南客家方言;语音语料库;检索平台;构建

语料库与数据库是从不同层面来进行阐述的。方言库又不同于一般的数据库,方言库有其自身的特殊性,主要表现在以下几个方面:首先,方言具有自己完整的语音、词汇以及语法系统,想要更好地彰显方言的特色,数据库中的存储方言的语料应该要尽量丰富。但是,需要我们注意的是不管数据库有多大,但是在某种语言的整体性上其数量是有限的。这也就说明,对方言数据库进行收集与建立时要尽可能多的体现地方特色,另外,与一般的普通话不同,方言语料追求的是自己的个性化。因而要对采集的语料信息进行各方面的分析,比如元数据以及语音信息甚至是音标等方面的分析。也就是说,将采集的语料输入数据库之前要对其进行有效分析与整理。进而方便用户更好的对其进行研究与使用。也就是说,方言数据库既有数据库的共性,但同时又具有方言语料为主的特性。本文主要阐述方言数据库的的建设,主要从方言语料的采集、标注以及数据库的应用构想等几个方面对方言数据进行全面透彻的探究。

一、方言数据库概述

相关的资料显示,我国在方言的研究方面早有建树。方言研究的历史比较悠久,最早可以追溯到两千多年以前。但是在五四运动之后,我国学术界对方言的研究开始进入全新的时期。因为第一个方言机读语料库的出现,我国对方言学的研究不管是从深度还是从广度方面考虑都进入到一个前所未有的发展阶段。近些年来,我国在方言数据库的研制以及理论方面都取得了一定的成效,集中体现在方言语音、语法、词汇以及俗语等方面。下面主要从这些方面进行阐述:

(一)建立在方言语音基础之上的数据库的研究

方言数据库主要是对方言的语音进行有效的收集,方言数据库对于收集的方言语音并不是方方面面都进行研究,有些数据库只是研究某一部分的内容。有的方言语音库只是对方言的语音与语境进行一定程度上的研究,甚至有些方言语音库在对方言进行研究时还给出了方言语境总量的计算方法。

(二)建立在方言词汇基础之上的方言数据库的研究

词汇数据库其实就是词库,词汇数据库有单语词汇与多语词汇之分。就目前我国方言词汇库的研究现状而言,主要还是集中在对单语词库的研究上。这些数据库有的是以广泛收集方言词汇语料为主;有的以词汇的不同音节建库,词汇数据库建立与完善可以方便用户在使用方言时对其进行查询,另外,也在某种程度上为更好地了解方言词汇提供了必要的分析手段。

(三)建立在方言语法以及俗语基础之上的数据库的研究

目前对于方言语法以及俗语的研究并不多,但是伴随着方言数据库技术的不断提升,建立在方言语法以及俗语基础之上的数据库将会逐渐的出现。

二、方言数据库的研制分析

众所周知,我国是个多民族国家,各地的方言都存在一定的个性特征,对于方言数据库的研究必定会是一个相对复杂、系统的工程。方言数据库的系统工程建设涉及到两个层面:首先就是建设数据库本身,针对这一层面,主要有数据库的设计以及对方言语料的采集等;另一方面就是开发数据库的应用平台,这一层面主要是对数据库中的方言进行加工管理以及对检索系统的设计。关于数据库的加工管理集中体现在对方言语料的标注。下面从方言数据库的建设相关经验方面,对赣南地区客家方言数据库系统工程的五个研制阶段进行详细的阐述,这五个阶段分别是数据库的规划阶段;数据库的设计阶段;方言语料采集以及数据库的实现阶段;数据库的标注阶段;数据库的使用以及维护阶段。

(一)方言数据库的规划阶段分析

在对数据库进行建设之前,相关的工作人员要做好规划工作。科学合理的规划对于整个数据库的系统质量有着决定性的影响。建库者在对数据库进行规划时,要坚持真实性与平衡性的原则。“真实性”是数据库内容的最根本的额特点,建库者在进行建库的时候首先就要保证方言语料的真实可靠性。其中“真实性”涉及两个方面的内容,一是收集的语料是在实际应用中的,并非是建库者自己编造出来的。二是,收集的语料要符合数据库的要求。在对数据库进行规划时还要注意另外一个问题就是,尽量做到不同语料的均衡分布。比如要对口语以及书面语的分布比例进行严格的控制。除此之外,相关的工作人员在对数据库进行建立时要考虑其建设的目的性以及建设的规模大小。除此之外,对方言的开发成本以及开发的进度等因素都要进行科学合理的规划。尽量避免在规划的过程中出现盲目、无序的现象。以赣南地区客家方言数据库为例,选取的方言采集点就具有典型的代表性,采集人员在采集的过程中也很注意,其采集的方言基本上是代表地方特色的,是一种能够在很大程度上反映地方方言的特色语料。

(二)方言数据库的设计阶段分析

针对方言数据库的设计阶段而言,主要有三个层面,即方言数据库的平衡性原则、采样原则以及建库的逻辑思维等。

1、方言数据库的平衡性原则主要是指科学合理的控制方言数据库中的各种语料的构成比例以及数据库的分类标准。关于方言数据库的分类问题,向来都是建库者比教关注的问题。不同的建库者其建库的思想是不同的。有的建库者认为方言数据库的体裁比较重要,有的则认为主题更重要,但是现今已经建成的数据库并不是按照某一种特性进行分类,数据库的建设更加趋向于多特征性。

2、方言数据库的语料收集原则主要包括对语料采集方法的设计以及语料的比例设计等。

3、数据库的结构包含逻辑结构以及物理结构两种。在对数据库的逻辑机构进行设计时,要明白数据库的组成以及对元数据项进行定义。对于元数据的定义,因为数据库的用途不同,彼此之间也存在一定的差异。

(三)语料采集以及数据库的实现阶段分析

一个方言数据库不可能没有语料,语料是数据库的灵魂。语料的质量对数据库的使用价值有着最为直接的影响,建设方言数据库的根本目的就是通过先进的网络技术对方言语料进行还原性的保存,主要是为后人更好的研究与学习创造一定的条件。所以,在采集方言语料时要遵循真实性以及客观性的原则。

数据库的实现阶段涉及的内容比较多,主要有数据库存储结构的设计、方言语料的录入、数据库信息门户的建设等。只有将数据库存储结构的设计、方言语料的录入、数据库信息门户的建设这三个方面进行科学的设计以及合理的建设,才能更好的方便用户对方言数据库的应用与检索。

(四)方言数据库的标注阶段分析

在数据库的建设过程中,对语料进行标注意义重大。语料标注的质量直接影响信息的丰富性以及准确性。赣南地区客家方言数据库的标注主要是对文本语料的选择与编著,对声学参数的提取以及对口语资源的切音等。

(五)方言数据库的使用以及维护阶段分析

一旦语料被录入数据库并且对其进行标注之后,用户就可以通过各种方式对方言语料进行有效的检索与利用。另外,建库工作人员要及时的对信息进行接受,并且实时的对方言语料进行收集更新。进而使数据库更加科学以及具备时效性。数据库的使用以及维护阶段主要包括对数据库检索系统进行设计,对数据库的相关维护等。数据库具有丰富的语料,各种用户都可以使用,为了给使用对象提供更多的方便,建库者需要对数据库的检索系统进行便捷的设计。检索系统的使用率直接关系着数据库的使用价值。便捷的数据库检索系统可以为使用者提供海量的方言语料。方言数据库一旦建成之后,就应该在实践中进行有效的应用。另外,建库的相关人员要对数据库的信息进行及时的更新与维护,其主要目的是保证方言语料的真实性以及新鲜性。

三、结语

方言数据库的建设是个复杂以及系统的过程,在建库的过程中涉及的内容也比较多,涉及到人力资源以及技术方面、语言学等多个领域。近些年,通过研建库者的不懈努力,赣南地区客家方言的数据库建设取得了一定的成就,但是在建库的过程中还有很多需要改进的地方,还有很大的发展空间摆在建库者的面前,是需要建库者进行不懈的努力的。本文主要从方言数据库的概述着手,对方言数据库的研制系统工程进行了科学的分析。

[1]王红梅.汉语方言单纯动词重叠式比较研究[J].北方论丛,2014(02).

[2]黄文杰.试析粤东北传统客家山歌的语言特征[J].重庆科技学院学报(社会科学版),2014(08).

[3]张炫.客赣方言语体标记比较研究[J].大舞台,2015(08).

H08;H174

A

1006-0049-(2016)19-0028-02

*本文是课题《赣南地区客家方言语音语料库及检索平台建设》(项目编号:YY1413)研究成果。

猜你喜欢

建库赣南语料
赣南采茶戏《一个人的长征》简介
基于归一化点向互信息的低资源平行语料过滤方法*
赣南围屋与闽中土堡的建筑比较研究
“数字温县”建设项目通过验收
赣南脐橙整形修剪技术
赣南早脐橙在几种中间砧木上高接换种的表现
交通规划数据库道路红线规划建库规则
高校图书馆回溯建库探微
对外汉语教学领域可比语料库的构建及应用研究
——以“把”字句的句法语义标注及应用研究为例
国内外语用学实证研究比较:语料类型与收集方法