安徽中医药古籍书目提要数字化建设探析

2023-10-26王咏梅任书俊刘新宇马巍巍

合肥师范学院学报 2023年3期

王咏梅,高宇,任书俊,刘新宇,马巍巍,邓勇,宋莉

(1.合肥师范学院计算机与人工智能学院,安徽合肥 230601;2.安徽中医药大学图书馆,安徽合肥 230038)

书目提要是文献的重要信息。提要又称为“解题”,日本文献学家小见山寿海曾言:“解题是一书比较详细的记载,也就是对每一种图书的品题解说。”[1]梁启超曾言:“载籍浩博绝非一人之力所能尽藏、所能尽读。浏览诸录,可以知古人著作之大凡。有题解者,读其解题,虽未睹其原书,亦可知梗概。”[2]“提要”不仅为读书人指引治学门径,也为“辨章学术,考镜源流”提供了巨大的帮助,能够达到让读者未目睹其原书也可知梗概的目的,提要的有无与好坏直接关系着文献的质量与价值[3]。中医药古籍除了具有一般古籍的特点外还有着极强的专业价值,通常晦涩难懂,因而,中医药古籍书目提要信息数字化建设对深入研究中医药古籍历史和学术价值有着重要意义。

1 中医药古籍书目数据库存在的问题

国内已建好的书目提要数据库普遍存在以下问题:

一是书名著录规则不统一,导致以题名途径检索时容易出现偏差。很多古籍在封面、版心、内封、书衣、书根等处都可能会有书名,而且名字往往不同,因而在著录时会因所取题名位置不同而产生较大差异,导致以题名途径检索时出现差错。二是分类法不统一,导致数据库共享困难。在古籍文献分类方面,现有的书目数据库采用的分类法普遍不一,常见的有“四部法”“四库法”“中图法”“人大法”和“种次序号”等,分类方法的不统一导致古籍书目数据库难以共享[4-6]。三是主题标引欠缺。现有的《汉语主题词表》不能满足中医药古籍主题内容的要求,其主题标引差异明显。四是子目无法检索。中医药古籍,尤其是合订本古籍,都包含有很多子目,目前大部分书目数据库都未能实现子目检索。五是无法提供不同版本在不同单位的收藏线索。同一种古籍,在千百年的流传过程中形成了不同的版本,这些版本的使用价值和文物价值均不同,不同读者的使用要求也不同。同一种书的不同版本可能分散在不同的收藏单位,各收藏单位多以自己收藏的版本创建书目数据库,无法有效地为读者提供不同版本在不同收藏单位的线索。六是目前在用的中医药古籍书目数据库基本不提供提要信息[4]。

2 安徽中医药古籍书目提要数字化现状

国内中医药古籍主要集中在中医药院校、科研机构及其图书馆,收藏机构多建有书目数据库。如北京中医药大学的“中医药古籍书目数据库”、天津中医药大学的“中医古籍珍善本图书目录”、上海中医药大学图书馆的“中医古籍善本书目提要”等[7]。安徽中医药古籍在省外的收藏信息,散落在这些数据库中。由于各数据库标准不统一,揭示文献的深度和广度也不一样,要查找安徽中医药古籍的收藏情况,只能分别查找各馆的书目数据库,效率十分低下。

安徽省内有五家古籍收藏单位建立了古籍书目数据库,收藏安徽中医药古籍较多的两个单位分别是安徽中医药大学图书馆和安徽省图书馆[8]。安徽中医药大学图书馆的馆藏安徽中医药古籍与其他古籍、普通文献按照统一标准建在一个数据库内。安徽省图书馆则把安徽中医药古籍相关的书目分建在“安徽省历代皖人书目数据库”[9]、“安徽省善本书目数据库”[10]和“普通古籍书目数据库”[11]中。用户检索时不能进行跨库检索,降低了检索效率。同时,安徽中医药古籍流落海外的部分较少而且地域分散,目前国内外均没有专门的安徽中医药古籍书目提要数据库。由于安徽中医药古籍一方面具有自身的专业特色,另一方面又肩负着一部分徽文化传承的重任,因而创建专门的安徽中医药古籍书目提要数据库有重要意义。

3 安徽中医药古籍书目提要数字化研究

3.1 制定古籍元数据规范

书目提要信息数字化,是指利用现有的科学技术把中医药古籍编目纸质信息转化为可在计算机中存储和传播的资源的过程。考虑到共享与交换,书目提要必须规范化。我国目前唯一机读目录格式CNMARC是在UNIMARC基础上修订的,是针对现代文献研发的,对古籍文献并不适用。为了在计算机中合理规范地描述中医药古籍书目提要信息,本文使用制定元数据规范的方式来描述古籍文献信息。与古籍有关的元数据相关标准有《专门元数据设计指南》《专门数字对象描述元数据》《古籍元数据规范》《基本元数据著录规则》和《都柏林核心元数据集》(DC)[12]等。其中DC定义了Web资源通用的核心标准,包含了15个描述资源对象的核心元素,是国际上通用的元数据解决方案,已成为Internet的正式标准和美国国家信息标准。其他元数据标准基本都兼容DC并在其基础上进行了扩展。《专门元数据设计指南》复用了DC中15个核心元素并提出了复用原则,指出了元数据规范的基本组成元素和扩展原则。《古籍元数据规范》由科技部重大项目“我国数字图书馆标准规范建设”提出,用于规范地描述古籍的内容和外观特征。本文提出的元数据规范从著录者、使用者、著录对象三方面入手,充分考虑前两者的需求和著录对象的特性并加以平衡,遵循《专门元数据设计指南》的设计原则,以DC和《中华人民共和国文化行业标准·古籍元数据规范》(WH/T66-2014)为基础,在采集样本的基础上针对安徽中医药古籍书目提要的特点设计而成。样本取自《安徽中医古籍总目提要》和《中国中医古籍总目》。元数据规范schema结构如图1所示,该元数据规范在满足著录者录入中医药古籍书目信息要求的基础上,涵盖了资源的重要检索点,不仅可以满足使用者的要求,其中的数据项还可以作为信息抽取依据,满足安徽中医药古籍款目的信息存储要求。

图1 安徽中医药古籍元数据规范结构示意图

3.2 形成安徽中医药书目提要信息DTD和XML文档

信息抽取简称IE(information extraction),即从自然语言文本中抽取出特定的事件或事实信息,以便将海量内容进行分类、提取和重构。安徽中医药古籍信息抽取的目标是将纸质书目提要信息抽取出来,形成符合图1的半结构化数据。信息抽取可以通过基于规则和基于统计的两种方法实现[13]。以《安徽中医古籍总目提要》中的基本款目《伤寒类证便览》为例(图2)[14],可以将文本内容归纳为:正题名、卷数、附录附注、别名、主要责任者、其他责任者、责任者附注、出版时间、成书附注、内容提要、版本附注、版本及收藏单位。由以上款目可以看出,《安徽中医古籍总目提要》构成相对简单,相关词有限,有明显的规律性,更适合采用基于规则的方法对书目提要进行信息抽取。由于正则表达式对于字符串匹配的功能强大,得到大多数编程语言支持,安徽中医药古籍书目的抽取规则可以采用正则表达式来描述。

图2 伤寒类证便览款目

将抽取的记录信息放入XML文档中,形成描述安徽中医药古籍书目提要的XML文档。为了保证XML文档的有效性,先要根据图1中元数据规范设置文档数据模式定义。XML的数据模式可以通过DTD或者XML Schema的形式定义,由于DTD是XML标准的一部分且较成熟,本文使用DTD定义安徽中医药古籍书目提要的款目信息。DTD的模式管理机制包括DTD_DocType、DTD_Element、DTD_Attribute、DTD_ElementScope四部分,安徽中医药古籍书目提要信息的DTD定义如图3所示。

图3 安徽中医药古籍书目提要信息的DTD

DTD规定了安徽中医药古籍书目提要信息XML文档中使用的标记、父元素包含的子元素、各子元素的出现顺序及各元素包含的属性等。基于该模板,以《伤寒类证便览》为例,可以得出描述安徽中医药古籍书目提要的XML文档(图4)。编程人员可以根据DTD了解XML的逻辑结构,并编写相应的应用程序。

图4 安徽中医药古籍书目提要的XML文档

3.3 使用DOM访问安徽中医药古籍书目提要的XML文档

文档对象模型(Document Object Model,DOM)是W3C推荐的用来管理XML文档信息或数据的模型,它采用树型数据结构表示XML数据,基于DOM查询的实现方法相当于对DOM结构树的遍历。XML DOM 定义了所有XML元素的对象、属性以及访问方法(接口),这些接口以Document、Processing Instruction、Element、Attribute等类型的形式出现。DOM对XML文档的访问以结点访问为基础,从XML数据树型结构的根结点开始,每一个下层元素都作为处理节点。安徽中医药古籍书目提要信息XML文档对应的DOM结构树如图5所示。

图5 安徽中医药古籍DOM结构树

安徽中医药古籍书目提要信息数字化后,利用DOM编写服务器端脚本程序,可以实现在客户端远程添加、修改或查询服务器端XML文档的数据,从而实现XML文档的在线交互。由于DOM是一种与平台和语言无关的应用程序编程接口,其对于各种语言展现的都是统一的对象、属性、方法和事件,因而可以使用各种计算机语言和解决方案编写服务器端脚本。例如,可以使用JavaScript创建XML DOM对象实例TCMAbook.xml文档,加载书目提要信息:

Var xmldoc=new ActiveXobject(“MSXML.DOMDocument”);

xmldoc.async=”false”;

xmldoc.load(“TCMAbook.xml”);

创建安徽中医药古籍书目提要信息对象实例后,可以利用ASP编程通过该实例创建、遍历XML文档,添加、修改、查询XML数据等,实现对XML数据的存储和管理,工作过程如图6。

图6 DOM方式工作过程

3.4 安徽中医药古籍书目提要信息的存储与管理

基于XML的数据库系统分为NXD(Native XML Database)和XEDB(XML Enable Database)两类。NXD是以XML文档为基础的数据库管理系统,XEDB则是在传统的RDBMS中增加了支持XML技术的功能,需要结构映射或者模型映射才能允许传统数据库访问XML。在安徽中医药古籍书目提要信息的存储方面,由于需要保存中医药古籍的层次型结构信息,同时,针对书目提要信息数据库的操作主要是查询和存储,而对数据进行修改更新的需求较少。因此,可以选择专门为处理XML数据设计的NXD系统,如eXist、BaseX等。

4 结语

XML是用于新一代网络数据表示、传递和交换的标准。用XML可以清楚地描述和储存中医药古籍书目提要的层次型结构特征,解决目前CNMARC格式对古籍文献并不适用的问题。引入XML处理机制DOM,可以利用ASP编程,实现XML文档的在线交互,在不同应用平台之间传递和共享数据。利用XML数据库技术,构建安徽中医药古籍书目信息资源管理系统,对半结构化的中医药古籍书目信息进行管理并提供检索,在有效解决现有古籍书目数据库问题的基础上,实现安徽中医药古籍书目提要信息的数字化。