专题数据库开发中的文献粒度问题研究*
——以《桂西北少数民族历史、文化资源数据库》为例
2014-02-14
专题数据库开发中的文献粒度问题研究*
——以《桂西北少数民族历史、文化资源数据库》为例
李 波
在专题数据库开发中,图书的著录和实体资源封装以种为最小单元,无法充分揭示部分图书的内容特征、学术价值和发挥专题数据库的文献整合利用功能,易于造成数据冗余。应遵循“有利于检索发现,有利于读者使用,有利于提高开发效率”原则,根据实际情况,选择“章节”或者“篇”作为文集类、资料汇编类、综合性图书著录与实体资源封装的最小单元。
专题数据库著录编目元数据
1 文献粒度的概念
“粒度”,在矿物学中指组成矿石、岩石、土壤的矿物或颗粒的大小的度量。这一概念运用在信息技术领域,一般可理解为信息单元的相对大小或粗糙程度。笔者将“粒度”的概念引入专题数据库开发研究中,旨在描述专题数据库、特色数据库开发中,数字化文献著录和制作的最小单元。与我们对传统印本文献单位的认识相对应,它可以是“章节”“篇”“种”“套”等。
2 专题数据库开发中文献粒度处理上存在的问题
在专题数据库开发中,需要将印本文献转制为数字化复本,并在目录数据库中进行著录。在这一环节中,往往会以印本文献著录的习惯来处理数字文献著录、封装的粒度。图书馆的印本文献以图书、连续出版物为大宗。对于图书,通常是以独立的物理实体为标准,将同一版次及版式的同种图书,视为一“种”书,进行著录。书目数据库中的一条记录,与一种图书所包含的正本和所有复本相对应。与此相似,在印本图书数字化时,通常是按“种”进行著录和封装实体资源。
对于报纸、期刊等连续出版物,一般将出版物名称、出版单位相同,连续出版、发行的报刊,无论其份数、卷期数多少,统一视为一“种”,进行著录。书目数据库中的一条记录,与这一种报纸或刊物的所有卷期、复本相对应。但是这种以“种”为粒度的著录方式,无法反映报刊所包含的丰富内容,更多的是体现传统实体文献管理的需要。因此,在印本报刊数字化时,我们通常参照的是传统专题卡片目录的著录方式。即以内容独立、完整为标准,将某一期报纸或刊物分割成若干独立的篇目,按“篇”进行著录和实体资源封装。目录数据库中的一条记录就如同一张专题卡片目录,与报纸或刊物中的某一篇文章相对应。
以上对印本文献数字复本著录、封装粒度的处理方式,对于形式特点统一的连续出版物而言是有效的,但对于出版形式多样的图书则存在诸多弊端。以下以笔者主持开发的专题数据库《桂西北少数民族历史、文化资源数据库》为例进行分析。
2.1 无法充分揭示文集类图书的内容特征、学术价值
专题数据库的开发,其目的是为特定知识主题或学科领域的学习、研究提供系统的、具有较高参考价值的数字化文献资料。《桂西北少数民族历史、文化资源数据库》主要收录与壮、侗、仫佬、毛南、水、瑶、苗等七个桂西北世居少数民族相关的各类文化、历史研究参考文献资料,供相关研习、宣传使用。从这一目的出发,数字文献的著录则应该力求通过题名、主题词或关键词、作者、摘要等描述信息尽可能地反映、突出文献资料涉及的主题、内容与少数民族文化、历史的关联性,便于读者检索、甄别、选用。这种标引、著录的要求与图书馆常规的图书著录相比,有更强烈的指向性、目的性。
但是,对于专题论文集、个人文集、学术会议文集等文集类图书,常规以“种”为粒度来著录,往往无法通过题名、关键词、作者等途径,充分揭示文集内部与数据库主题相关的丰富内容,不利于读者检索利用。
例如京华出版社2001年出版的《乐海涛声》一书,作者赵毅为前中央民族大学艺术研究所所长。本书收录作者关于少数民族音乐研究的文章42篇。其中包含《广西壮族民歌区域分布及其特点述要》《壮族民歌的区域性特征》《壮侗语族之音乐文化比较研究》《壮族“唱蚂拐”习俗考辨》《特色浓郁的南国乐舞风情——广西河池地区铜鼓艺术团演出观感》等有关广西壮族音乐研究的文章共10篇,其他少数民族音乐研究和少数民族音乐教育相关文章32篇[1]。对于《桂西北少数民族历史、文化资源数据库》而言,上述10篇文章无疑与数据库主题高度相关,其题名均有一定的专指性,能够直观地反映文章的主题、研究领域、主要内容。从读者角度而言,如能从每篇文章的题名或关键词进行检索,则更容易发现这些文献。而按“种”进行著录时的实际情况是,图书题名项为总集名“乐海涛声”,主题词为“音乐—艺术评论—中国—文集”。题名文学色彩太浓,无法反映收录文章的研究主题、领域;主题词对于收录的具体文章而言又过于宽泛概括,不具备专指性;摘要项又无法罗列文集所有文章的目录。最终的结果就是因检索入口的缺失,上述10篇对专题数据库而言有高价值的文献极易被遮蔽。
又如由李绍明、程贤敏主编《西南民族研究论文选1904—1949》一书,收录20世纪初、中期我国西南民族研究的重要学术成果42篇,其中就包含了刘介、徐松石、徐益堂等著名学者有关广西少数民族研究的文章《广西民族研究述略》《僮乃岭南土著的明证》等[2]。从学术影响的角度而言,刘介、徐松石、徐益堂等作者的检索价值,远高于文集的编者李绍明,程贤敏,但按“种”来著录,著者项只能反映文集的编者,读者从著录信息的检索上很难做到对这些重要作者、重要文献的发现,其实际效果与专题数据库文献标引、著录的初衷可谓背道而驰。
2.2 资料汇编类图书难于发挥专题数据库的文献整合利用功能
专题数据库的一个重要价值就是可以从学科、研究主题、地域、时间、内容、文献类型等角度对庞杂、分散的文献进行快速聚合。一方面使读者可以系统、完整地获取所关注领域的文献,另一方面可以揭示出一系列孤立的文献内在的、多维的关联性,便于最大限度地挖掘、呈现其参考价值。而实现这一功能,有赖于通过数字文献的标引、著录,对文献的主题、时空、内容、文献类型等特征进行描述,为机器识别提供依据。但是,对于资料汇编类图书,常规以“种”为粒度进行著录和数字资源封装,往往无法发挥数据库的这种文献整合功能。
以广西人民出版社1986年出版的《壮族历代史料荟萃》一书为例,该书摘录二十四史,历代地方史志、类书、丛书、笔记中有关壮族的史料一千余条,每条史料均根据内容进行分类标注,凡政事、起源、人物、艺文、风俗、分布、习性、地形、气候、婚姻、文化、姓氏、贸易、产物、饮食、教育、经济、居住、祭祀等二十余类[3]。书中的这种分类标注,实际上已经为我们提供了专业的关键词、检索词标引。如能对全书一千多则史料进行逐条著录、封装,那我们就能够便捷地按某一主题来对历代相关的史料进行聚合,这将极大地便利研究者进行系统研究。但是,传统按“种”著录与资源封装的处理方式,无法实现这样的文献整合功能。传统印本文献的难于深度检索、整合利用缺陷,没有能在数字化文献系统上得以解决,数字化文献的价值没有得到充分挖掘。将印本文献简单的制成数字化复本,实际上完全不能体现专题数据库开发应有的价值。
2.3 综合性、文集类图书数字化复本数据冗余严重
专题数据库以提供特定知识主题或学科领域的文献资料为特征,它收录文献的最重要标准就是与数据库主题的“相关性”。而在实际文献出版中,一种常见的现象就是在某些综合性、文集类图书中,真正与专题数据库相关的内容只是其中的某些篇目和章节。出于按“种”著录、加工文献的习惯,我们对印本文献进行扫描等数字化处理时,通常都是将一种书作为一个不可分割的整体来封装。又或是从已有的数字化文献中筛选相关资源时,将一种书全部的内容视为一个整体来存取。由于专题数据库的特性,数据库的目标用户只会关心与数据库主题相关的文献内容。因此,我们在数字化文献制作时,为那些与数据库主题无关的内容所耗费的大量时间,对于数据库的使用者来说是没有价值的。数字化复本中那些与数据库主题无关的内容而实际上变成了冗余的数据。
以民族出版社2005年出版的《中国少数民族传统体育史》为例,全书共431页,其中与“桂西北少数民族历史、文化”相关的内容有“侗族传统体育”“壮族传统体育”“苗族传统体育”等三个章节,共41页,占全书篇幅的9.5%[4],而在制作本书的数字化复本时,如果完整保留全书的内容,就会产生90.5%的冗余数据。由于本专题数据库主题较窄,对于综合性著作而言,此书中冗余的内容比例具有一定的代表性。大量的冗余数据,首先影响读者在使用时存取的速度,制造不必要的信息干扰。其次,大量的冗余数据占用大量数据存储空间,以及工作人员的制作时间,势必要增加一些不必要的设备、人力,使数据库开发的速度与效率大大降低。
3 专题数据库开发中不同文献粒度选择的策略
为避免上述弊端,充分发挥数据库的资源检索发现、多维聚合功能,在处理专题数据库文献粒度问题上,有必要遵循“有利于检索发现、有利于读者使用、有利于提高开发效率”的“三有利原则”,根据实际情况灵活选择文献著录与封装的粒度。
3.1 对于文集类图书,宜以“篇”为著录和封装最小单元
对于文集类图书,宜采取类似期刊的处理办法,将全书分解成若干独立的篇目,分别著录题名、作者、检索词、摘要等信息。对构成图书的所有独立篇目,应当只选择与数据库主题相关的文章进行著录和数字化处理,对于与数据库主题无关的则忽略不做处理。以前文所述《乐海涛声》一书为例,书中收录与专题数据库主题相关的作品共10篇,则将这10篇文章分成10条记录,逐篇进行著录和数字化。其余文章则不作处理。
3.2 资料汇编类图书,宜以“篇”为著录和封装最小单元
对于汇编类图书的数字化,有两种具有代表性的情况:一种情况是篇目有独立、专指的题名,其处理方式与文集类专著相同。另一种情况是篇目无独立、专指题名,而是编号或分节来体现篇目的独立性。处理这一类篇目,首先需人工介入自拟题目,然后再按文集类图书的方式,逐篇著录、封装。自拟题目可以是截取资料文本首句,也可以选择文本中能够反映文章内容的语句,或根据文意归纳。以《壮族历代史料荟萃》为例,书中有摘录《雒容县志》史料5篇,无题名,以分节加分类标注以示独立。如第一篇:【风俗】雒容民与壮并居十七,力耕食,颇堪自赡……。可截取首句“雒容民与壮并居十七”作为文章的题名。又如第五篇:【政事】雒容旧治白龙岩,天顺中迁于朱峒,正德时为瑶、壮所据。可根据文本主要内容,归纳题名为“正德时瑶、壮据雒容”[3]。
3.3 对于综合性图书,宜以“章节”为著录和封装最小单元
对于综合性图书,宜根据实际情况,以“章节”为著录和封装最小单元。以前文所述《中国少数民族传统体育史》为例。书中与“桂西北少数民族历史、文化”相关的内容有“侗族传统体育”“壮族传统体育”“苗族传统体育”等三个章节。则应按“章节”为单位,以章节标题为题名分成“侗族传统体育”“壮族传统体育”“苗族传统体育”三条记录进行著录和数字化封装。
4 数字化文献著录和封装处理时应注意的几个问题
4.1 如实反映文献来源
从文集类、汇编类、综合类图书中分析出来的每个篇目,在数字资源实体封装时都应如实反映文献的来源,以便为使用者在引用文献标注时提供完整信息。只要是从来源文献中分析出来的篇目、章节文献,在制作对应数字化文件时,除与文章正文对应的页码外,还应封装来源文献的封面、目录、版权页、CIP信息页。
4.2 充分揭示目标文献的内容特征
从母体文献中分析出来的篇目、章节文献,应按具体的作者、创作时间、文章内容著录作者、创作时间、检索词等信息,充分揭示其内容特征。对于原文未标注作者、创作时间的,应尽可能根据文章的内容或来源文献的前言、版权页内容来分析。检索词的著录,主要依据题名、文章主要内容分析、标引,应尽可能专指,以及从与数据库主题的关联性来选择检索词。
5 篇目、章节类文献的元数据方案设计
由科技部制定的我国数字图书馆标准规范专门元数据规范和CALIS数字化资源专门元数据规范共定义了电子图书、古籍、地方志、舆图、期刊、学位论文等11类元数据规范[5]。上述这类从各类型文集、汇编、综合性文献中分析出的篇目、章节文献并不符合其中的任何一种。因此,对这类文献进行著录,就涉及元数据方案选择的问题。《CALIS特色库子项目描述元数据规范及相关规则》指出:“如果以上列出的11中元数据规范不能完全覆盖建库单位的资源类型,各建库单位需根据特定资源的特点,自行定义与设计新的描述元数据方案,并上报给项目管理组批准。”[6]因此,针对这类目前元数据规范未能涵盖的文献,我们可以按《CALIS特色库子项目描述元数据规范及相关规则》的精神,自定义一种新的元数据方案,姑且称之为“汇编资料元数据”。
为保证和异构系统的数据交换和通用检索,元数据方案建议只选用DC的15个基本元素。一般应包括:题名、创建者、主题(检索词)、描述、时间、格式、标识符、语种、关联、出版者十个主要元素。其中前八个元素是对篇目、章节文献本身的描述,后两个元素用于对篇目、章节文献来源文献、母体文献的描述。下面以京华出版社2001年出版《乐海涛声》一书所收录的文章《壮族民歌的区域性特征》为例简要说明,见表1。
表1 汇编资料元数据方案样例
[1]赵毅.乐海涛声[M].北京:京华出版社,2001.
[2]李绍明,程贤敏.西南民族研究论文选1904—1949 [M].成都:四川大学出版社,1991.
[3]覃兆福,陈慕贞.壮族历代史料荟萃[M].南宁:广西民族出版社,1986.
[4]徐玉良.中国少数民族传统体育史[M].北京:民族出版社,2005.
[5]中国科技信息研究所.我国数字图书馆标准规范专门数字对象描述元数据规范[EB/OL].(2003-04-12) [2013-12-16].http://cdls.nstl.gov.cn/cdls2/w3c/2003/ SpcMetadata/.
[6]CALIS三期专题特色数据库项目管理组.CALIS特色库子项目元数据规范相关规则[EB/OL].(2004-05-12)[2013-12-16].http://wenku.baidu.com/view/8d452 633a32d7375a417806f.html.
李波河池学院图书馆副研究馆员。广西河池,546300。
Granularity Problems in the Development of Special Databas:Taking"The Guangxi Northwest Minority History&Cultural ResourcesDatabase"as an Example
Li Bo
In the process of developing special database,type is used as the minimum unit to describe"document and encapsulate entity.It can’t fully reveal the content features,academic value of some literatures and develop the functions of literature integration and utility of special database.So,it easily causes the data redundancy.Followed the principle of“easy to retrieve,easy to use for readers and easy to improve the efficiency of development”and based on the fact,chapter should be chosen as the minimum unit of collected works,data compilation,comprehensive books and entity encapsulation.
Special database.Document description.Catalogue.Meta data.
G256
2013-12-13 编校:邹婉芬)
*本文系广西教育厅重点课题“河池少数民族文献信息资源共建共享研究”(项目编号:2012022D082)、河池学院重点课题“桂西北民族及地方专题文献服务系统开发与研究”(项目编号:2011YAZ-H001)的系列研究成果。