浅谈数字图书馆的信息体系结构
2019-03-15陈有斌
陈有斌
摘要:数字图书馆的信息体系结构将分散在异地的数字化信息统一起来,构成一个虚拟而且具有优化结构的相关有机实体,为数字图书馆的应用提供统一的资源访问,并且能方便地对资源进行管理。其主要构件是数字对象、句柄(或调度码)和仓储,数字对象存储在仓储中,用句柄来标识,数字对象具有分布式的体系结构。
关键词:数字图书馆;信息体系;结构
数字图书馆的信息体系结构具有开放性,它将数字图书馆的整个功能划分为一组定义明确的服务,每一种服务都通过一种定义明确的协议来访问。这种结构为数字图书馆提供了其必须具备的基本功能,即一组核心服务,是有效管理的数字对象集(内容)和服务集(功能)的统一。服务集是与存储、发现、检索和保存数字对象相关的服务功能,实现服务集的子系统有:仓储服务系统、名录服务系统、索引服务系统和用户接口网关。
一、数字图书馆核心服务的主要特征
数字图书馆体系结构中的内容是以数字对象形式存储的,数字对象是用全局唯一的持久名字——句柄标识的,句柄用命名服务器注册,用名录服务器解析出句柄标识的数字对象的位置。数字对象的存储和访问是由仓储服务系统来实现的。索引服务提供发现数字对象的机制,使用户易于从馆藏中寻找和发现所需的对象。用户接口网关提供以人为中心的数字图书馆的功能入口。
二、数字对象系统
1.数字对象
数字对象是数字图书馆体系结构中存储信息的基本逻辑单位和实体,是以一定结构的数字形式来表达信息内容的一种方法,是网络环境下的数字资料。可以说数字图书馆是由数字对象构筑而成的,数字图书馆中的信息以数字对象形式存储、访问、传播和管理,数字对象存放于仓储(repository)中,其形式如一篇文章、一张图片、一部音乐作品或一段影像。数字对象是由数字资料(或数据)和其唯一的标识符——句柄组成的,其中关于数据的信息称作元数据。
(1)数字对象的组成
①元数据:或称属性、关键元數据,关于数字资料的数据,是存储在数字对象中的信息,包含一些识别对象的条件、条款和调度码。其功能是管理网络环境下的数字对象,如数字对象的存储、复制和传输等权限的管理。一般情况下,元数据有三种类型:描述性元数据,用于发现和标识一个对象,如MARC和Dublin Core(都柏林核心);结构性元数据,为用户显示和导航一个对象,包括该对象的内部组织信息,如一本书的章节结构信息;管理性元数据,描述该对象的管理信息,如创建日期、文件的格式、访问权限、知识产权问题等。
②数字资料:是数字图书馆的原型资料,也就是最终用户需要获取的信息内容,即二进制字符串集合。一个数字对象所存储的数字资料可能是经XML置标后的文本,或者是一本电子图书;也可能包括传统图书馆的资料,诸如一些计算机程序或动态的图像。
③句柄或调度码:是数字对象和其他因特网资源在全局范围内的永久的唯一标志符,是URN的一种形式。URN(Uniform Resource Names)统一资源名称也叫永久名称,其名称应该是全球唯一和持久的,且独立于具体的存储位置。句柄可按名称识别对象库中的数字对象或因特网上的资源。其作用有两个方面:引用由URL列表所定义对象的一个或多个拷贝,提供E-mail地址,该地址不会随着拥有者改变工作或者ISP(因特网服务提供商)的改变而变化。句柄实际上是使用具有唯一性的字符串给数字对象提供一个具有唯一性的名称。
(2) NDLP项目中数字对象的结构体系
在美国国会图书馆的国家数字图书馆项目(NDLP)中,数字对象结构体系具有如下特征。
NDLP中基本信息单元是由字符组成且带有自身标识ID的元素,包括数据元素、属性、元素标识。数据元素是由任意二进制序列组成的字符串,属性是处理元素所必需的信息,包括作用(role)和类型(type)。前者是一个规则的描述,定义了元素的功能,例如指明一个元素是SGML的数据类型定义(DTD);后者是一个类型的描述,包含了技术性的信息,例如指明一个元素的类型是JPEG。一个SGML文本可以被编码为三个元素:置标后的文本、DTD以及样式表,其中DTD定义了置标使用的语法,样式表指定了输出的格式。元素的ID是数字对象内部的一种标识,用于系统内部识别。
“包(package)”是带有自身标识ID的元素和其他包的组合,包是可以嵌套的。如果一个包的标识是句柄,则这个包就是数字对象。因此,数字对象是一种特殊的包,数字资料由包和∕或元素组成。如有许多页的一本书,被扫描成数字格式后,可在数字图书馆系统中被表示为一个单一的数字对象,它可包含一系列的影像页和按SGML置标的目次页。该数字对象的每个影像页为一个元素,并有一个目次包。这种包有两个元素:置标页和DTD。
2.数字对象集
它是同类数字对象的组合,可用来表示一组有关联的对象,如不同版本的程序、不同格式的文本或不同演奏的音乐作品,或者是平常所说的“报告”“程序”和音乐作品等,它们常常对应于数字图书馆中的很多对象,可以用数字对象集来表示。数字对象集包括组合对象和元对象两种,组合对象的内容包含一组对象,元对象的内容包含一组对象的句柄。
总之;数字图书馆中的各种信息被描述为数字对象或数字对象集时,都需遵循各自的规则和协议,这些规则和协议规定了数字对象逐个描述信息或数字对象集组合描述信息的方法,明确了每个数字对象的内部结构,对图书数字化管理提供了有效的服务途径。