面向地方文化的图书馆特色数据库建设实践——以闽南方言在线词典的建设为例
2016-01-19通拉嘎泉州师范学院图书馆福建泉州362000
●通拉嘎(泉州师范学院图书馆,福建 泉州 362000)
面向地方文化的图书馆特色数据库建设实践
——以闽南方言在线词典的建设为例
●通拉嘎(泉州师范学院图书馆,福建泉州362000)
[关键词]闽南文化;地方文化;特色数据库;闽南方言在线词典
[摘要]泉州师院目前有2个国家级闽南文化研究平台,建设闽南文化特色资源库是图书馆数字化建设的重点。闽南方言是闽南文化的载体,文章阐述了泉州师院闽南文化特色数据库—闽南方言电子词典的建设内容及意义,从数据输入、后台管理、显示界面、服务功能等四个方面详细介绍了闽南方言电子词典的结构模块,并基于数据库建设实践,总结地方特色数据库成功的关键是定位清晰、紧扣地方特色,数据知识系统化、服务紧扣用户需求。
1 引言
发展特色数据库,建设服务地方、服务本校科研需求的特色数据资源,是图书馆为读者提供服务的重要手段,也是与其他高校实现资源共建共享的重要基础。不过从目前的情形来看,高校的特色数据库建设尚缺乏规模,特色并不突出,与地域的连接性不强。以福建高校为例,图书馆自建数据库共有79个,不过立足于地方的特色自建库仅有厦门大学的“莆仙妈祖地方文化特色库”、集美大学的“陈嘉庚研究数据库”、华侨大学的“福建戏曲文献资料库”等12个数据库,并且数据库特色不足,实用性不强,共享性不高。[1]
泉州是闽南文化的发源地,泉州师院是地方性本科院校,“中国社科院文化研究中心闽南文化研究基地”及“台盟中央闽南文化交流研究基地”等2个国家级文化研究平台落户泉州师院,中国现当代文学等省级重点学科均有以闽南文化与闽南戏曲研究为研究重点的项目,[2]泉州师范学院图书馆立足于深厚的闽南文化基础,大力建设闽南文化特色数据库,将闽南文化研究作为图书馆的特色及建设重点。但到目前为止,泉州师院图书馆仅有“地方文献专题库”等自建数据库,数据库的规模与深度与本地本校的闽南文化研究需求相比明显滞后。文章阐述了泉州师院图书馆闽南文化特色数据库—闽南方言电子词典的建设内容及意义,并以此为例,探讨高校图书馆特色数据库建设过程中存在的一些问题。
2 闽南方言电子词典的建设意义
闽南方言的数字化建设对闽南文化的研究意义深远,方言是文化的载体,不仅是一种社会现象,也是一种文化现象,方言与文化相互促进,共同发展。闽南方言是非常古老的一种,主要分布于福建、台湾及东南亚。近些年,黄典诚的《普通话闽南方言词典》(1982)、周长楫的《闽南方言大词典》(2006)、陈修的《台湾话大辞典》(2000)、村上嘉英的《现代闽南语辞典》(1979)等闽南方言词典相继出版,王育德的《台湾语音的历史研究》(1987),周长楫的《福建境内闽南方言的分类》(1986)等论述也不断涌现,有力地推动了闽南方言及文化的繁荣发展。不过闽南方言的数字化建设成果还是较为少见,国家语委大力建设的语言资源有声数据库(泉州各库)收录了固定的字词;福建省图书馆建设的闽南文化专题数据库,其方言数字化成果较为稀缺;台湾学术界建设了“台文华文线上辞典”、“台湾闽南语常用词辞典”、“台文语料库”,不过台湾与福建闽南方言地区的方言有较为明显的差异,无法直接移植相关知识。迄今为止,闽南方
言的词典化建设及数据化加工已有很多成果,不过将闽南方言与词典、数字化建设结合的成果少之又少,无法满足广大方言用户研究与应用的需求。
2.1理论意义
闽南方言保存着许多古语音、古词汇和古语法,闽南方言的研究对汉语古音的构成、古籍的训释以及汉语史的研究都具有重要的意义。闽南方言数据库的建立,对弄清闽南方言分布和发展规律,了解闽南方言这一汉族族群的扩展和迁移路线、活动足迹及汉族历史文化深有裨益。方言是地域文化的载体,闽南方言研究成果有助于推进闽南地方文化及历史的研究,对繁荣发展地方文化有十分深远的意义,还将有助于全国的地域性特色资源库的建设。
2.2实践意义
语言文字信息化处理是国民经济和国防信息化建设的重要基础,与国家的信息安全、民族团结、经济发展、社会和谐密切相关。在云计算、大数据时代,研究闽南方言,并将其数据化、电子化,对促进方言地区信息化发展具有重要意义,对研究地方历史、民族关系和中外文化交流,闽南方言的规范保护及健康发展,对传承闽南文化具有深远的历史意义和重要的现实意义。电子词典的建立是语料库建设的前期工作,方言词典的研究对促进闽南方言信息化处理的发展及闽台自然语言理解与交流有深刻意义。闽南方言是维系海峡两岸文化交流的最重要纽带,是两岸相互认同的标志,此研究对于推动海峡两岸的认同和共识、促进两岸经济文化进步,具有重大的现实意义。
3 电子词典的整体结构
闽南方言是相当古老的语言,在音韵、词汇、语法上都保留了上古汉语及中古汉语的许多特征。我们以周长辑的《闽南方言大词典》为参考,以“闽南方言有声词典管理系统”为用户提供检索、统计、分析等服务。词典以一词一符一声为基本的资源类型,既有文本标注、国际音标标注,又有方言代表区的口语录音。在线词典的最终建成形态是集字查询、词查询为一体,可不断扩充与完善的闽南方言有声资源集成。闽南方言电子词典可以做一般使用者的知识查询工具,又可以供专门的语言研究及词汇数据库研究之用。
作为一个在线有声电子词典,闽南方言电子词典的结构主要有以下四部分组成:(1)数据的输入模块:遵守电子词典的“数据加工规范”,录入词条信息及有声资源信息;电子词典的管理系统,包括后台管理模块及显示界面等内容;(2)后台管理模块是建立词典数据库管理平台,对词典所有微观信息进行有序存储;(3)显示界面是按用户的使用需求以一定的结构形式显示词典信息;(4)检索与索引服务,负责词典数据的检索与提取。
3.1数据输入
闽南方言的电子化相当复杂,涉及文白异读、训读、不同字形词形、语流音变等问题,我们以周长辑的《闽南方言大词典》为参考,让文白异读、训读拥有可操作性的标准,按确定的数据加工规范统一词条及录音数据,使各类数据有统一化格式,便于检索加工与重复使用。词条数据包括方言特有词,普通话与方言对应词及录音文件,词条的录入注意使用现行规范字,有本字一律用本字,无本字可用同音或近音词替代,方言训读字另表“训”以示与词语的联系与区别,有音无字,即无法用适合的同音或近音词表示的词,可以用方框代替。文白异读需要标注“文”、“白”,白读在前,文读在后。统一采用国际音标Ipa Pan New输入法。[3]
有声词典目前以厦门、泉州、漳州三市中心市区,即厦门市思明区、泉州市鲤城区、漳州市芗城区的闽南方言读音为主体内容。三市所属县市特有的语音或特征词,需标注具体县市。以北京语言大学的BYLY软件进行录音,统一用“wav”格式,录音文件也是白读在前,文读在后。要考虑好隔音、混响、灯光等方面的环境条件,注意噪音控制,尽量不做后期的录音处理。
3.2后台管理模块
采用目前最为成熟、稳定、安全的PHP+MySQL开发框架,结合XML、AJAX等主流技术进行开发实现,使系统具有可扩展性、稳定实用的特点,提供词条维护、分类管理、权限管理、多路径检索、统计分析等多项功能,全面满足词典建设的管理需求。特色资源系统采用多层结构,每层的功能相对独立,每层之间留有标准接口,保证系统的网络化、可检索性、可扩展性、灵活性与开放性,同时也方便进行系统接入与管理。
电子词典的后台管理有三大功能模块,从左至右分别为:①模板管理模块,为保证词典数据的前后一致性、可检索性,以固定的数据加工规范确定字词的模板及索引模板;②系统配置模块,界面设置是对界面的色彩、显示功能、功能按钮等功能进行管理;文字设置是设置文字的简体和方言字转换、颜色、大小;流程管理是对数据库的整体运行流程进行管理;检索设置及索引设置是针对数据库的检索及索引功能设置的管理模块;有声功能管理模块是管理及播放电子词典的有声数据的模块;③权限管理是对词典使用者和管理者的权限进行统一安排。
3.3电子词典显示界面
电子词典的显示界面有三大功能区,从左至右分别为:①索引窗口是针对闽南方言的复杂性,设定的索引模块,按中文拼音字母顺序制定了字母索引功能,按方言字的笔画设定了方言字笔画索引功能,点击相关窗口,即出现索引内容;②查询窗口,用户在检索栏输入检索词,选择所需查询功能后回车,主显示窗即显示词的释义信息,这里简单查询、高级查询是针对中文简体输入功能,实现单一检索条件和多种检索条件的检索;拼音查询、方言词笔画查询、国际音标查询等三种查询方式主要针对方言词用户,提供不同的检索方式;③显示窗,显示词的所有释义信息,如词的词性、国际音标、释义等;④“信息统计”与“词典功能说明”是电子词典的附加功能,统计单元是对词典的微观信息进行统计,并通过显示单元显示出来;词典功能说明是对电子词典的查询、索引、显示、统计等各项功能进行逐一说明,方便用户更有效地利用好电子词典。闽南方言电子词典的显示界面设计意图是方便查询,突出中心,既满足方言及普通话用户的需求,又缩减索引及查询窗的面积,重点突出主显示窗的词的微观信息。[4]
3.4闽南方言电子词典的服务功能
闽南方言电子词典提供了检索、查询、统计、发音等功能,采集了纸质词典的各类信息资源,将数据导入到管理系统中,提供开放式数据添加和修改的功能。字查询实现方言笔画查询、拼音查询、国际音标查询等功能;词查询提供分类索引、方言笔画查询、拼音查询、国际音标查询等功能。整个检索界面还提供简单查询和高级查询功能,为方言用户提供最便利、最直接的信息推送。统计是实现对词频、同义词、有声资源使用情况进行多角度、多层面的统计。发音功能是闽南方言电子词典的重要特征之一,闽南方言电子词典的例词例句均附发音功能,厦门、泉州、漳州各有一个基本对照音,以备用户对照基本音,研究闽南各地的语音及其变化。
4 图书馆特色数据库建设的思考
方言电子词典的建设是词典学与计算机科学结合的产物,资料收集、数据处理、数据存储、词汇信息的编排等方面都与传统词典有较大差别,方言电子词典的建设要始终把用户放在第一位,以用户的实际需求为导向,设计与组织信息。闽南方言数据库建设是项浩大的工程,我们在建设中有一些感悟与思考,与特色数据资源的建设也有共性。
4.1定位清晰,选题严谨,紧扣地域及学校特色
高校图书馆特色数据库是图书馆数字化建设的重点,不过目前低水平的重复建设、缺乏特色、数据稀少等现象在特色数据资源建设中较为普遍,如何不重蹈前人的覆辙,如何体现独特性及应用性,是数据库建设之初应该充分予以考虑的。
特色数据库建设之初就应选好题,在对国内外相关领域数据库信息资源分布状况进行认真分析的基础上,综合学校建设需求、所在地域经济文化发展需求、用户需求、馆藏建设基础、重点学科发展需求等因素,确定适当的主题范围,寻找符合学校办学特色,利于学校重点学科、重点研究领域的,在所处地域有一定学术价值及应用价值的特色数据资源。在数据库建设之初,还必须了解客户群的定位,用户的知识结构和使用需求。我们建立的闽南方言电子词典有浓郁的闽南地域及历史人文特色,立足于福建高校图书馆数据建设需求,闽南文化及闽南方言研究者对闽南方言数字化建设的实际需要,是国内外高校中极有特色的数字馆藏,这也确保了数据库的独特性及应用性。
4.2数据知识要具备系统性
数据是数据库建设的核心,是数据库建设中十分重要的环节,要建立高水平的特色数据库,一定要确保数据信息的准确性、全面性和权威性。在建设特色数据库时要确定信息的形式,如文字、表格、图片、音乐及多媒体信息;确定信息源的种类,如图书、期刊、会议录、论文集、专利文献、产品说明、科技报告、网上信息等,确保收集的信息及数据在所建设领域是正确而全面的数据,是所处领域的优秀成果,从而保证数据的权威性。闽南方言电子词典的建设之初即确定数据来自《闽南方言大词典》,主编周长辑是闽南方言研究领域的著名专家,《闽南方言大词典》是闽南方言领域的权威成果,收集了具有代表性的厦漳泉三个地区的闽南方言的词汇和读音,释义及注音精准,展现了闽南方言的整体面貌,这是该词典的最大亮点,[5]也确保了我们词汇信息知识的系统性、可检索性及正确性。
4.3数据库服务要紧扣用户需求
一个成功的数据库,除了以高水平的数据做为基础,还应该方便用户获取和利用;除了提供检索、下载等基本服务外,还应该提供一些个性化的服务功能,如订制服务、推送服务、存储服务等。闽南方言电子词典的服务职能还只停留在检索、下载、统计等基本功能,还未达到个性化服务的阶段。这也是影响数据库利用率、用户认可度的重要因素。
[参考文献]
[1]卢晓凤.福建省高校图书馆特色数据库建设调查分析[J].图书馆学研究,2012(3):59-60.
[2]中国现当代文学省级重点学科.泉州师范学院重点学科与学位建设办公室[EB/OL].[2014-06-26].http://www.qztc.edu.cn/xkb/zdxk-info1.asp.
[3]周长楫.闽南方言大词典[M].福州:福建人民出版社,2006:5-7.
[4]章宜华.计算词典学[M].上海:上海辞书出版社,2013:222.
[5]吴晓芳.闽南方言与《闽南方言大词典》[J].辞书研究,2012(1):62.
[收稿日期]2014-08-02 [责任编辑]刘丹
[作者简介]通拉嘎(1976-),女,内蒙古科尔沁右翼中旗人,中央民族大学少数民族语言文学学院博士,泉州师范学院图书馆馆员,中国社科院闽南文化研究基地成员,研究方向:计算语言学、方言及情报学。
[基金项目]本文系泉州市社科规划项目“闽南方言特有词电子词典的建设及应用研究”(项目编号:2014D32),泉州师范学院校级课题“闽南方言有线词典的建设研究”(项目编号:2014sk09)的系列成果之一。
[文章编号]1005-8214(2015)03-0093-03
[文献标志码]B
[中图分类号]G250.74