用于机构知识库的元数据研究
2009-10-13吴玲芳
吴玲芳
〔摘 要〕进入21世纪,一种基于开放理念的新型知识组织与传播形式诞生并迅速发展,这就是机构知识库。在推动机构知识库的建设中,元数据研究是不可或缺的基础。本文探讨了元数据的定义、类型、功能特点,分析了目前国际上在建设机构知识库时几种常用开源软件所使用的元数据情况。
〔关键词〕元数据;机构知识库;资源描述
〔中图分类号〕G250.74 〔文献标识码〕A 〔文章编号〕1008-0821(2009)08-0128-03
Study on Metadata Used in Institutional RepositoryWu Lingfang
(Library,Suzhou University,Suzhou 215006,China)
〔Abstract〕In 21st century,new form of knowledge organization and broadcast pattern has been developed rapidly which based on opening a new form of knowledge organization and dissemination of the birth and rapid development,that is institutional repository.Metadata research is essential basement in promoting institutional repository building.This paper discussed the definition,type,function and roleof metadata,and analysed the metadata of several commonly used software in institutional repository in the world.
〔Key words〕metadata;institutional repository;resource description
进入21世纪,在学术信息开放获取运动的推动下,随着传统学术信息交流体系的变革,一种基于开放理念的新型知识组织与传播形式诞生并迅速发展,这就是机构知识库(Institutional Repository,简称IR)。
机构知识库是大学或研究机构通过网络来收集、保存、管理、检索和利用本单位员工科研产出的科学论文、专著、报告(包括演示文件)、试验数据、教学课件、档案资料、照片和视频等数字化资料的科研信息基础设施和服务机制,主要用于知识产出的开放存贮、交流和利用。
机构知识库利用元数据描述、管理数字信息。机构知识库中的数据在来源、载体类型、学科知识等多方面的复杂性,如何以安全、高效的方式来管理和访问变得极为重要,而解决这一问题的关键是对元数据进行科学有效的管理。元数据是关于数据的数据,它包含所描述数据的大小、来源、时间、内容摘要、派生、用法等多种信息,其主要目的就是对指定数据进行有意义的模型化描述,主要目标是提供数据资源的全面指南。元数据不仅定义了机构知识库中数据的模式、来源以及抽取和转换规则等,而且整个知识库系统的运行都是基于元数据的,是元数据把知识库系统中的各个松散的组件联系起来,组成了一个有机的整体。在推动机构知识库的建设中,对元数据问题的研究是不可或缺的基础之一。
1 元数据的定义
元数据的一般定义是:元数据是关于数据的数据(data about data)。它是一种广泛存在的现象,在许多领域有其具体的定义和应用。
在哈佛大学数字图书馆项目里其定义为:元数据是帮助查找、存取、使用和管理信息资源的信息。在这个定义里,元数据既适合于电子资源,又适合于非电子资源;不仅包括编目信息,也包括其他存取和管理资源的信息[1]。
真溱指出了在图书馆信息界一种较为正式的定义:元数据是结构化的编码数据,用于描述载有信息实体的特征,以便标识、发现、评价和管理被描述的这些实体[2]。
刘嘉在其论文中概括了几种较具代表性的元数据定义。其中一种认为,“元数据是与对象相关的数据”,此数据使其潜在的用户不必预先具备对这些对象的存在或特征的完整认识。另一种认为“元数据是对信息包(information package)的编码描述,其目的在于提供一个中间级别的描述,使得人们据此就可以做出选择,确定哪些为其想要浏览或检索的信息包,而无须检索大量的全文文本。[3]”
林海青给元数据的定义是:元数据是一种用来描述数字化信息资源,特别是网络信息资源的基本特征及其相互关系,从而确保这些数字化信息资源能够被计算机及其网络系统自动辨析、分解、提取和分析归纳的一整套编码体系。
本文给元数据的定义采用在图书馆与信息界普遍使用的概念,即:元数据是提供关于信息资源或数据的一种结构化的数据,是对信息资源的结构化的描述。
2 元数据的类型
根据不同标准,可以将元数据划分为不同的类型。从元数据在组织信息资源的功能上区分,元数据可以分为以下类型:(1) 知识描述型元数据。用来描述、发现和鉴别数字化信息对象,如MARC、DC,它主要描述信息资源的主题、内容特征。(2)结构型元数据。用于描述数字化信息资源的内部结构。相对知识描述型元数据而言,结构型元数据更侧重于数字化信息资源的内在特征如目录、章节、段落等特征。(3)存取控制型元数据。用来描述数字化信息资源能够被利用的基本条件和期限,以及指示这些资源的知识产权特征和使用权限。(4)评价型元数据。描述和管理数据在信息评价体系中的位置[4]。
按结构化程度分为:非结构化元数据,如Yahoo等搜索引擎;较少字段的结构化元数据,如Dublin core等;高度结构化元数据,如MARC等。如果按其功能可分为描述型元数据、管理型元数据和结构元数据[5]。
从完整性和结构性出发,元数据可分为三类:第一类是简单记录格式的网络查询工具;第二类是结构化格式的以发现为目的的元数据;第三类是复杂格式的以详细记录为目的的元数据[6]。
在机构知识库里,我们认为元数据有3种类型:(1)描述元数据;(2)管理元数据;(3)结构元数据。
3 元数据的功能和作用
元数据能够描述信息资源或数据本身的特征和属性,规定数字化信息的组织,具有描述、定位、管理、证明、评估、选择、交互等功能。庞清社[7]将元数据的作用总结为信息资源的著录描述功能、组织集合功能、确认和检索功能、管理控制功能、还原功能、动态跟踪功能以及信息资源管理系统的开发利用功能等,体现出经济全球化、社会信息化使元数据功能不断增加、应用不断扩大的趋势。
4 机构知识库中几种常用软件系统所用元数据分析
在机构知识库中,元数据仓储实现对提交和采集进来的数字对象的内容、结构以及保藏等方面的元数据描述信息的集中存储和管理功能,知识库提供对数字对象的统一存储和管理,并与元数据仓储共同构成支持数字对象的保藏、组织和利用等功能实现的基础。
元数据标准要使用户能够检索或浏览项目以及能够对机构库的内容进行网络管理;大部分机构库要能够支持基本的元数据标准,尤其是DC标准,其余的机构库则能够支持专门领域所元数据[8]。
本文对目前国际上应用较为广泛的机构知识库软件DSpace、Eprints、Greenston、Fedora等中的元数据情况进行介绍分析。
4.1 DSpace
DSpace系统的元数据默认配置是麻省理工学院图书馆的配置,即一组基于图书馆应用协议(Library Application Profile)的DC元素和限定词[9]。各图书馆或科研机构可以在DSpace管理窗口的“Dublin Core注册”中根据实际需要适当修改相应的元素或限定词。
DSpace中,把不同的科研院所和研究中心称为一个社区(Community),把其要提交的数字化资料称为馆藏(Collection),把描述馆藏属性的条目称为项目(Item),这些项目由DC元数据来描述,项目再分为数据束(Bundle),数据束由数字流(BitStream)组成,数字流是不可以再划分的、最小的描述单位。资料描述模型如图1所示[10]。
DSpace中的存档内容具有3种元数据:描述性元数据、管理元数据与结构元数据。每个款目都包含一个限定的Dublin核心描述性元数据,有关该款目的其他描述性元数据以序列化的数字流形式存在。管理元数据包括保存元数据、出处与认证政策数据,其大多存于DSpace关系数据库表中,其中保存元数据是存储在Dublin核心记录中。结构元数据包含的信息有:如何将款目内的比特流展现给终端用户,如何展现款目内各要素之间的关系。
4.2 Eprints
Eprints(http:∥www.eprints.org/)是由英国南安普敦大学于2000年研发的通用免费软件。该软件采用联合信息系统委员会(JISC)资助的开放文献项目(OAI)制订的通用元数据标记标准,可兼容各种元数据模式[11]。
一个eprint对应系统内的一条记录,它由一些文档和元数据组成。通常,同一信息会有多种格式的文档存在。元数据又分为两类:系统元数据字段,如eprint的id和存储用户的id,是软件所必需的字段;存档元数据字段,如题名、作者和年份等,这些字段包含用户在浏览和检索知识库时所需的有用信息,这些元数据字段可在知识库建立时自定义建立[12]。
4.3 Greenstone
Greenstone(http:∥www.greenstone.org/)由Waikato大学的新西兰数字图书馆项目制作,与联合国教科文组织及人类信息非政府组织(Human Info NGO)合作开发与发行。它是在GNU通用公共许可条款下发布的开源多语种软件,包括英语、法语、西班牙语、简体中文、繁体中文等多种版本。
在Greenstone中系统有几种预定义的元数据集,DC就是其中之一,每个收藏与一个或多个元数据集相关联,图书馆员界面允许通过添加额外的元素来定义新的元数据集。此外,系统还允许从文档自身自动抽取的元数据信息(如HTML Title tags,meta tags,built-in Word author,title metadata)。系统通过名域namespace来区分不同的元数据集,如文档可以同时拥有DC题名和抽取的题名,它们不必具有相同的值。文档中的元数据和元数据集自身是用XML表现的。
4.4 Fedora
Fedora由弗吉尼亚大学和康奈尔大学共同开发并实施,是一个通用的数字对象管理系统。该系统建立在数字对象和仓库结构基础之上,具有很强的灵活性和扩展性,可用于建立功能全面的机构库、支持互操作的数字图书馆等。遵循Mozilla协议的开发源代码系统,实用对象更倾向于计算机学科人员。
数字对象是Fedora知识库中所存储的数字内容。数字对象通过数据流将文本、图像、视频、元数据及其他形式的多媒体数据和对这些数据的操作封装起来。数据流,是数字对象所包含的内容款目。一个数字对象可包含有一个或多个数据流。数据流的内容可以是元数据或数据本身。如果是元数据,可以是各种格式;如是数据本身,可是文本、图像、音频或视频数据。每个数字对象都有一个默认的Dublin核心元数据数据流[12]。
在现有的数字仓储中,Fedora是惟一彻底落实了数字对象的系统。每个Fedora数字对象有一个原始的DC记录,符合OAI PMH 2.0协议标准所定义的Schema规范,这种元数据可以使用OAI PMH 2.0标准访问。
下表是对以上4种常用开源软件系统元数据情况比较分析汇总。
综观以上4种常用软件系统在以下方面存在异同:
相同点:
(1)都支持长期保存的问题,可以给同一种内容提供多种数字格式,使用技术元数据并保证一个全球惟一的标识符来访问每个数字对象。
(2)都支持数字对象,可以是原生的或者是数字化的,不受特定的文件格式或数字内容类型的限制。
(3)都采用METS标准作为数据交换的格式。
(4)采用的标准都是DC元数据集,实现了OAI协议,提供元数据采集服务,方便系统之间的互操作。
不同点:
(1)数据处理方面。DSpace中的数据和元数据作为独立的两个实体,Fedora中的数据和元数据被封装在数字对象内部。Greenstone元数据处理相对复杂,批量处理过程(例如建立索引等)影响系统运行。
(2)元数据支持的灵活程度不同。DSpace中内置的支持允许一些简单修饰符的DC元数据,如果要扩展其它的元数据方案,需要对数据库结构进行修改。Eprints可以采用任何元数据标准,可以由管理员选择元数据字段。Fedora中的元数据 模型可以是一个本地的元数据集合,一个标准的元数据集合,或者是DC元数据的扩展。Fedo ra只提供对DC元数据集中的元素进行索引和检索的支持,如果对其他的元数据字段做索引和 检索,可以扩展一个外部的应用程序来实现,比DSpace更为灵活。Greenstone中系统有几种 预定义的元数据集,DC就是其中之一,每个收藏与一个或多个元数据集相关联,图书馆员界 面允许通过添加额外的元素来定义新的元数据集。
5 结 语
在机构知识库中,元数据通常由资源、属性、属性值、操作规则和联合操作规则五项内容组成。其中,资源可以是任何使用URI(统一资源标识符)标识的内容,它可以包含多个属性和多种操作规则,每个属性有一个确定的属性值。当有两种及以上操作规则时,就需要声明它们之间的联合操作规则。若没有定义任何操作规则,则元数据仅由资源、属性和属性值三项内容构成。通过对元数据的管理可以实现对分布存储的数据资源进行分类、聚合和集中控制,能够实现资源共享。
参考文献
[1]吕琼芳.元数据与网络信息资源的组织开发[J].浙江图书馆,2005,(3):6-8.
[2]真溱.矛盾重重的元数据世界[J].中国图书馆学报,2001,(6):56-59.
[3]刘嘉.元数据:理念与应用[J].中国图书馆学报,2001,(5):8.
[4]马珉.元数据——组织网上信息资源的基本格式[J].情报科学,2002,(4):377-379.
[5]吴开华,等.数字图书馆元数据研究[J].中国图书馆学报,2002,(3):43-46.
[6]张晓林,等.管理元数据的原理与应用[J].图书情报工作,2003,(10):12-17.
[7]庞清社.元数据的具体功能探讨[J].湖北档案,2005,(8):17-19.
[8]姜瑞其.国外机构库发展概况[J].图书情报工作,2005,(11):142-145.
[9]http:∥dublincore.org/documents/library-application-profile,2006-07-11.
[10]陈亚宁,陈淑君,钟丰谦.Dspace跨机构虚拟典藏库之可行性研究[J].教育资料与图书馆学,2004,(12):243-256.
[11]傅蓉.开放存取仓储[J].农业图书情报学刊,2006,(12):136-138.
[12]王颖洁.机构知识库建库软件DSpace、Eprints、Fedora的比较分析[J].图书馆学刊,2008,(4):133-137.
[13]董丽,等.开放源代码的数字资源管理系统DSpace和Fedora的分析和比较[J].现代图书情报技术,2005,(7):1-6.