APP下载

基于关系数据库的《说文》部首数据库的构建

2018-09-24霍宁宇殷冬曹阳

神州·上旬刊 2018年9期
关键词:说文部首数据库

霍宁宇 殷冬 曹阳

摘要:作为信息化技术与传统学科的结合点,运用新技术对传统学科材料进行处理和分析已成为一种趋势。本文从字形、字音、字义等方面对《说文》部首及相关材料进行梳理,以Microsoft Access 2010 为系统运行平台试制数据库,采用关系型数据库模式,并简要论述了数据库技术在传统学科研究的价值与意义。

关键词:《说文》;部首;数据库

随着数据化的进一步发展,传统学科与信息技术的结合已经成为必然的趋势。《说文》作为传统文字学的重要典籍之一,如何对其进行数据化是一项很有意义的研究,但在已有的一些查询网站和相关数据库仍存在一定的不足。本文通过对《说文》部首及相关数据的处理并对数据库的建构进行尝试,希望能够对相关研究提供帮助。

1《说文》部首数据库的建构意义

数据库是按照一定结构组织,可以长期存储在计算机内的、具有某些内在含义的、在逻辑上保持一致的、可共享的大量数据集合。数据库技术是目前使用计算机进行数据处理的主要方式,在以大批量数据的存储、组织和使用为基本特征的领域里,数据库有着广泛的应用。

对《说文》部首进行数据库化,其必要性主要体现在以下几个方面:

1.1 部首全面梳理的需要

无论是《说文》中部与部、部与字的关系还是具体到字中形音义之间的关系,都不是单纯的平面化单线性的材料堆叠,而是具有内在逻辑的多层次关系。因此,在对《说文》进行的研究中,限于原有的材料处理方式,无法便捷高效的将其中关系直观展现出来,需要借助计算机数据库技术的介入,才能对对象材料进行立体化的处理并以二维表格的形式展示出来。

1.2 部首对比分析的需要

《说文》首创“部首”这一概念,其后的历代字书在编纂中大多仿说文这一体例编排,但会根据文字形体的不同加以增删改变,由此可以一窥汉字部首在不同时期的演变规律,这要求对不同时期不同字书的部首进行对比分析的能力。

1.3 便利教学与研究的需要

在条件允许的情况下引入数据库技术,对文献材料的处理(如语料的分类等)既可以提高效率,避免不必要的资源浪费,也符合当下文献数据化的发展趋势,在传统学科研究方式的革新方向提供探索的经验。

2《说文》部首数据库的设计

《说文》部首数据库的构架,首先需要选定依据的文献版本以及实现数據库的数据库管理系统。为了保证尽量高的质量,在文献版本的选择上,《说文》采用大徐本(中华书局1963),并参考了臧克和、王平、刘志基开发的“《说文解字》全文检索系统”(南方日报出版社2004);在补充数据的选择上,字形部分选择了由陈彭年等校定的《大广益会玉篇》(中华书局1987);字音部分反切以大徐本为主,现代汉语注音则参考王彤伟《说文解字五百四十部疏讲》(巴蜀书社2012);字义部分仍以《说文》大徐本为主,参考徐锴《说文解字系传》(中华书局1987);在数据库管理系统的选择上,采用目前占据主流地位的关系型数据库。

按照关系型数据库的设计理念及建模方式,《说文》部首数据库的构建分成以下几个部分:

2.1 概念结构设计

概念结构设计,指的是使用实体关系图(ER图)对《说文》部首的组织结构进行概念结构分析,辨明其中的实体、属性与联系,从而构建出《说文》部首的概念结构模型,完成从现实世界到信息世界的第一层抽象。

分析《说文》部首,首先要了解把握《说文》整体的组织结构。《说文》的内部组织结构从实质上来说是一种层级结构:全书分若干卷,每卷分若干部,每部分若干字,每字分若干形。在这一结构下,说解、注音等内容依层归附,形成整体。

《说文》部首结构主要体现在部、字与形三者之间。且部首是部的代表,也是部中具体的一个字,可以将部与字归并为“部首”一层,也即把《说文》部首的内在结构划分为“部首”与“字形”两级。在此基础上抽象其概念并结合补充材料,用ER图表现如下:

《说文》部首各实体及其属性说明如下:

《说文》部首“部首”实体,有10个属性:“部序”是“部”层面的数字序号,“部目”是各部首的名称,“字序”是“字”层面的数字序号,“字目”是充当部首的具体字头,“原文”是《说文》对字头的说解,“徐铉”是徐铉对字头的解释,“徐锴”是徐锴对字头的解释,“今读”是对字头的现代汉语注音,“唐韵”是徐铉所加的《唐韵》反切,“玉篇”是确认该部首在《玉篇》中是否仍为部首。

《说文》部首“字形”实体,有4个属性:“形序”是“字形”的数字序号,“形目”是与字头对应的各类字形,“形类”是《说文》及补充材料中对字形的归类,“说解”是《说文》及其他材料中对字形的说明。

《说文》部首数据库的所收材料除了来自《说文》本身的材料以外补充的内容,在数据分析中作为“部首”以及“字形”的属性表现(如今读,楷字等)。

2.2 逻辑结构设计

逻辑结构设计是依据关系数据理论的转换规则,将《说文》部首ER图中的实体、属性以及实体之间的联系转换为相关的关系模式,从而构建出其中的逻辑结构模型,完成从信息世界到数据世界的二级抽象。

《说文》部首ER图中包括“部首”和“字形”2个实体,相应可以转化为2组关系,其中实体的属性表现为关系的属性;各实体之间都是1:n联系,通过将实体1端(即“部首”)的主键纳入实体n端(即“字形”)中作为外键,从而建立起关系之间的联系。通过转换,《说文》部首的逻辑关系表示如下(加下划线的属性为主键):

部首(部序、部目、字序、字目、原文、徐铉、徐锴、今读、唐韵、玉篇)

字形(形序、形目、形类、说解、部序)

2.3 规范化分析

规范化分析,是根据关系规范化理论,对《说文》部首逻辑结构中的关系模式进行分析,确定各关系模式中属性之间的函数依赖关系和达到的范式等级,从而检测系统设计的优劣程度。

运用规范化理论,可以看出,在《说文》部首的各个关系模式中,主键都是本模式的唯一决定因素,所以这2个关系模式都属于BC范式,在函数依赖的范畴内,规范化程度已经达到了最高。

2.4 表结构创建

表结构的创建即是根据关系数据库管理系统的要求,将《说文》部首逻辑结构中的关系模式转换为相应的数据表形式,并对数据表中的属性名称、数据类型、长度大小、取值范围等问题做出规定与说明,以建立存储数据的基表结构,也是对整个设计流程的全面总结和最终表示。

综前所述,建立《说文》部首的表结构如表1、表2、表3:

以上为《说文》部首数据库的表结构设计。

需要作出说明的是,对于表1的部首表,因为在材料的选取中每个部首所对应的读音与释义是可以区分且没有重复数据的,在实际的建构中与设计完全符合;但表2的字形表由于本身类别归属的复杂性(《说文》本身的分类与补充材料合计12种),以及同一类别的数据较多的重复(古文有三种重复,或体有两种,籀文有两种等),且不同类别的字体间有不同的对应关系(相当的古文、篆文、籀文都有对应的楷字形态),如果统合表现在一个表中,不可避免会造成数据冗余。因此需要对每种字形建立数据表,其具体的结构如表3。

至此,基于关系数据库理论的“《说文》部首数据库”设计完成。

3《说文》部首数据库的效用

根据上述设计方案,现已完成对《说文》部首及其相关材料数据的录入和校對工作。该数据库的具体效用可以从以下两个方面进行说明:

3.1 对《说文》部首及相关材料进行系统整理

通过《说文》部首数据库能够实现对《说文》部首小篆、诸重文以及对应楷字的形体,读若读如到《唐韵》反切、现代汉语注音的字音,以及徐铉、徐锴的说解字义等内容严格意义的数据梳理和查询设计,在此基础上能够形成详细到各字头各项信息的数据报表,这些都是传统的训诂疏证式的分析方法不能比拟的。

3.2 对相关研究提供便捷准确的数据支持

《说文》部首数据库最主要的作用还是对数据进行梳理,为研究提供便利。相较于原来的材料分析方法,《说文》部首数据库能将所有的数据从具体需求的角度提供,在数据范围能够包含的情况下减少大量的重复劳动,且依靠计算机的处理能力,也可以尽量的避免失误的出现。

在传统语言文字研究中引入数据库技术,不仅能在文献语料的统计处理上更为方便准确,而且还能通过建模设计过程与量化分析方式,充分展现出研究对象内在的本质特征和外在的表现特点,真正实现了研究手段的科学化和表达形式的精确化。

参考文献:

[1]许慎.说文解字[M].北京:中华书局,1963.

[2]顾野王.大广益会玉篇[M].北京:中华书局,1987.

[3]臧克和,王平,刘志基.《说文解字》全文检索[M].广州:南方日报出版社,2004.

[4]刘志妩,张焕君,马秀丽.基于VB和SQL的数据库编程技术[M].北京:清华大学出版社,2008.

[5]宋继华,王宁.基于超文本环境的《说文解字》知识库的建立[J].语言文字应用,1999(3):90-96.

[6]李恩江.说文部首的成因及构成[J].郑州大学学报,2002(5):20-24.

[7]宋继华,李桂芳.数字化《说文解字》教学系统的设计[J].现代教育技术,2007(3):25-31.

[8]王晴.说文解字五百四十部研究[D].江西师范大学,硕士,2007.

[9]胡佳佳.《说文》内在系统的数字化模型研究[D].北京师范大学,博士,2010.

猜你喜欢

说文部首数据库
弄清偏旁与部首
同部首的字