APP下载

基于元数据仓储的公共数字文化资源整合研究*

2015-07-22肖希明刘巧园武汉大学信息管理学院武汉430072

图书馆 2015年9期

肖希明 刘巧园(武汉大学信息管理学院 武汉 430072)

基于元数据仓储的公共数字文化资源整合研究*

肖希明 刘巧园
(武汉大学信息管理学院 武汉 430072)

〔摘 要〕文章首先介绍了元数据仓储技术及基于其的数字资源整合方式的基本内涵,其次指出公共数字文化资源具有异构性和分散性等特点,并分析了其现有元数据标准。随后探讨了元数据仓储技术在公共数字文化资源整合领域的实现,构建了基于元数据仓储的资源整合框架及体系结构,最后分析了元数据仓储在公共数字文化资源整合领域的应用前景,并探讨了其可能面临的问题及解决对策。

〔关键词〕公共数字文化资源 数字资源整合 元数据仓储

1 引言

公共文化机构拥有类型多样、质量较高的文化资源,然而用户在访问和获取公共文化机构的实体资源时往往受到时间、空间等诸多因素的限制,这极大地影响了公共文化资源的利用率。近年来,公共文化机构逐步开展馆藏实体资源数字化工作,旨在建设完备的馆藏资源体系,提高公共文化服务水平。随着数字资源规模的不断扩大,不同主题不同形式的异构资源存储在不同文化机构的不同数据库中,使信息资源的管理和共享在一定程度上受到阻碍,信息孤岛现象时有发生。[1]因此,进行公共数字文化资源整合以最大限度利用现有资源,实现数字资源共建共享成为了公共文化机构所面临的重要课题之一。

常见的数字资源整合方式主要有模式集成和数据复制。[2]模式集成(Schema Integration)起步较早,是其它整合方式的基础。模式集成是指在数字资源整合过程中将来源于不同数据库的数据视图集成为全局模式(Golobal Schema),以帮助用户无限制地访问各数据库的数字资源。[3]而数据复制则是通过对各数据库的异构数据进行复制以完成对数字资源的整合,为用户提供一站式服务,满足用户信息需求,提升用户浏览和获取信息资源的体验,其代表方式是建立数据仓储(Data Warehouse)。

资源整合方式的选择直接影响着资源整合的成败,对公共数字文化资源整合方式的研究已成为该领域面临的重要课题。本文将重点分析基于元数据仓储的数字资源整合方式及其在公共数字文化资源整合领域的实现方式,希望能为公共数字文化资源整合提供某些参考。

2 基于元数据仓储的数字资源整合方式

2.1 数据仓储与元数据仓储

数据复制是物理整合方式之一,即对各数据库的资源进行复制和转换,统一存储到数据仓储中供用户检索、浏览和获取。数据仓储在资源整合过程中扮演着重要角色,将分散的、异构的资源整合为集中的、同构的资源为用户提供一站式服务。在传统的资源检索中用户需要分别登录不同的数据库,根据各数据库的检索规则构建不同的检索式来检索所需的资源,而在数据仓储中用户只需要进行一次身份验证便可以无障碍地检索和获取众多数据库中的资源,访问效率和用户体验大大提升。然而,构建数据仓储对本地存储容量、资源获取能力和更新维护效率要求较高,普通机构由于自身人力、物力和财力有限很难完成数据仓储的建立和维护,因而元数据仓储随之产生。与数据仓储不同,元数据仓储不是直接将异构数据库中的资源内容复制到仓储中,而是将资源的元数据复制到仓储中,从而有效减少了所占存储空间,减轻了机构的维护负担。元数据仓储目前在图书馆领域应用较多,如美国密歇根大学数字图书馆建立的OAIster系统就是利用OAIPMH协议收割元数据并建立元数据仓储。[4]我国高校图书馆间的CALIS系统也是采用构建本地元数据仓储的方式建设而成,为用户提供异构数据库的资源检索、获取和文献传递服务。[5]

2.2 基于元数据仓储的数字资源整合方式

基于元数据仓储的数字资源整合方式的基本原理是:通过在用户和数据库之间增加一个数据层以存储来自数据库的元数据信息并对用户的检索请求做出回应将检索结果返回至用户界面[6],用户通过元数据及其链接实现对资源的获取。由于该方式没有破坏数据库本身的体系结构,原有的分布式数据库仍然保持独立,这使得它能够同时在不同数据库中进行检索,支持并发用户的检索请求,因此特别适用于大规模异构资源的整合。该整合方式使得资源的浏览和检索独立于原数据库,具有较强的稳定性,资源获取效率也得以提高。通过建立元数据仓储可以实现结构化数据与非结构化数据的整合,为异构数据的获取和共享提供统一视图,有效提高检索效率。此外,由于元数据仓储集成了来自不同数据库的资源,在支持跨库检索的同时还能够进行高级检索和二次检索,为数据挖掘和知识发现服务奠定了基础。[7]但是该整合方式在元数据获取和维护方面也存在一定的困难。元数据的获取对资源提供者的依赖程度较高,只有当其提供数据接口和访问许可时才能够获取元数据信息,但部分商业数据库基于自身利益的考虑不愿提供接口供外部使用。而在元数据维护方面,元数据仓储中的数据必须定期进行更新才能够为用户提供实时的检索结果,保证检索的精确性。

3 公共数字文化资源特点及其元数据标准

3.1 公共数字文化资源的特点

公共数字文化资源整合领域的资源来自于图书馆、博物馆、档案馆、美术馆及艺术馆等公共文化机构,这些机构的内容特色、服务对象、服务形式和管理方式各不相同,因此不同的机构大多拥有不同的元数据标准,甚至同一机构的不同数据库间元数据标准也存在差异,机构间的资源整合面临着诸多挑战。

异构性是公共数字文化资源最显著的特点,具体表现在以下几个方面:①来源机构异构。这些数字资源来源于不同文化机构的不同部门,部分资源是文化机构自建所得,也有部分资源来自于文化机构所购买的商业数据库。②数据库模式异构。数据库模式种类众多,常见的有关系型数据库、面向对象型数据库、网络型数据库等,不同模式数据库间的互操作较为困难。③元数据标准异构。各文化机构所采用的元数据标准本身各有差异,在面对具体资源的描述时文化机构往往会考虑资源的类型和内容,在现有元数据标准的基础上根据本机构的实际情况加以调整。④资源获取方式异构。各数据库所支持的协议也有所差别,多数数据库支持用户采用HTTP协议访问数据库资源,部分文化机构支持Z39.50协议、OAI-PMH元数据收割协议等。

分散性是公共数字文化资源的又一特点。首先是文化资源的管理相对分散。各文化机构由于社会职能不同而具有不同的核心价值观和组织文化,数字资源的管理理念存在很大差异,如图书馆旨在最大限度地利用本馆数字资源突破时间和空间限制,满足用户的信息需求,而档案馆则是通过资源数字化来打破存储空间的限制,实现档案和史料资源的长期保存,较少关注用户对数字资源的利用。其次是文化资源的存储较为分散。各文化机构通过本馆馆藏数字化、购买商业数据库、收集整合互联网资源等方式来建设本机构的数字资源,这就使得资源的存储相对分散,不利于信息资源的共享。此外,公共数字文化资源还具有数量巨大、种类繁多、更新速度较快等特点。在进行公共数字文化资源整合时必须充分考虑这些特点,保证资源整合系统的运行效率。

3.2 公共数字文化资源的元数据标准

公共文化机构根据自身资源特点确立本机构的资源描述标准和组织体系,不同类型的机构间甚至同一类型的不同机构间在资源描述及元数据标准选择上都存在着较大差异。表1列出了部分文化机构常用的元数据标准及其用途。[8]

表1 部分公共文化机构常用的元数据标准及其用途

由表1可知,以图书馆、博物馆和档案馆为代表的公共文化机构在长期发展中形成了众多用途各异的元数据标准,如何解决现有数字资源元数据标准不统一问题成为了公共数字文化资源整合需要面对的重要难题。基于元数据仓储的数字资源整合方式通过建设数据仓储存储不同来源的元数据信息,消除异构数据差异,是实现公共数字文化资源整合的有效途径。

4 元数据仓储技术在公共数字文化资源整合领域的实现

4.1 基于元数据仓储的公共数字文化资源整合框架

信息孤岛的存在严重影响了文化机构现有资源的利用率,资源整合能够将分布在各数据库的文化资源按照一定的规则组织起来提供再利用,通过对资源进行深度链接来实现知识挖掘,提升公共文化服务水平。公共数字文化资源整合的总体目标是实现不同来源、形式、具有不同物理或逻辑特征的异构资源的有机整合,消除各类资源间差异,实现公共文化机构间数字资源的可视化和共享。[9]具体目标包括为用户提供统一的资源检索入口和检索结果显示、确保数据库之间既各自独立又相互联系、保证整合平台中的资源实时更新等。基于元数据仓储的公共数字文化资源整合框架及其体系结构如图1所示。

图1 基于元数据仓储的公共数字文化资源整合框架

图2 基于元数据仓储的公共数字文化资源整合基本流程

基于元数据仓储的公共数字文化资源整合的基本流程(如图2所示):首先对不同机构的文化资源进行元数据采集,然后利用数据抽取技术对采集好的元数据进行抽取和规范化处理,再利用数据转换技术消除异构资源间的差异,将处理好的元数据信息装载到元数据仓储中,当用户在资源检索平台发出检索请求时,由平台将检索请求传递给元数据仓储,元数据仓储将检索结果返回给用户,最终用户通过元数据提供的相关链接从原数据库中获取资源。

4.2 公共数字文化资源整合框架的体系结构

4.2.1 数据层

数据层是文化资源整合系统的基础,它一方面负责实现本地数字资源的保存,另一方面响应用户的资源获取请求并将满足用户需求的资源传递给用户。首先,数据层由分布在不同文化机构的多个异构数据库构成,而公共数字文化资源整合所涉及的机构数量较多、范围广泛、学科类别多样,因此数据层的资源内容形式各不相同,资源质量也有所不同。其次,元数据仓储存储的是来自数据库的元数据资源而不是资源内容本身,当用户发出资源获取请求时,数据库需要及时做出响应将资源内容传递给用户,该动作主要由OpenURL链接完成。OpenURL链接通过带有元数据信息和资源地址信息的URL,解决资源整合平台中的元数据描述到原数据库中的资源定位的问题。[10]其具体原理是当用户发出资源传递请求,链接服务器便启动,在不同数据库中检索该资源标识符的有关信息,检索完成后在资源整合平台上显示一个OpenURL链接,以帮助用户完成对资源的获取。这种方式的优点在于资源内容的变动不会影响到资源的URL,减轻了资源整合系统的维护负担,提高了系统的稳定性。

4.2.2 元数据仓储层

元数据仓储层反映了元数据从采集到装载的过程,是公共数字文化资源整合的关键环节。要建立元数据仓储,首先要进行元数据采集。根据资源结构的特点采用相应的资源采集方式是保证采集质量和效率的前提,公共文化机构经常采用ODBC/JDBC接口、OAIPMH协议、Z39.50资源适配器等方式进行元数据采集。使用频率最高的是OAI-PMH协议,凭借其简单性、易用性和多元化等特点在数字资源整合领域中备受青睐。OAI-PMH协议最初被应用于学术信息资源的共享,随后逐步推广到多个信息资源整合领域。采用OAI-PMH元数据收割协议能够实现异构数据间的互操作,使资源检索和获取不再受到元数据标准、操作系统、学科领域和语言等的限制,实现资源共享。[11]采用该协议进行元数据采集时需要指定对象提供支持该协议的收割接口,但公共文化机构在这方面投入较少尚不能提供支持服务,而部分商业数据库基于自身利益考量不愿提供相应接口,要实现对分布数据库资源的元数据收割还需要各文化机构的共同努力。

ETL是数据抽取(Extract)、转换(Transform)和装载(Load)的统称。数据抽取即统一抽取不同数据库资源的元数据的过程,系统通过预先定义好的抽取规则来定义目标数据、抽取内容、数据构成及抽取方式等进而实现元数据抽取。该过程过滤了多余的内容信息,实现了元数据格式转换,为元数据仓储的建立奠定了基础。数据转换通常包括转换和清洗两个步骤,数据转换主要解决由于数据结构不一致、定义不规范等原因造成的数据不一致问题,使异构元数据形式统一;数据清洗工作则主要解决数据冗余问题和元数据信息缺失问题,形成同构的、完整的元数据集合。数据装载是指把经过转换和清洗的元数据信息装载到元数据仓储中的过程。数据装载主要有两种技术:一是利用数据库商提供的专业工具进行装载,如Oracle数据库提供专业工具包,帮助用户实现数据迁移,二是利用数据库商提供的应用程序接口(API)来完成数据装载工作。

元数据仓储负责管理和存储元数据信息,使用户能够流畅地浏览、检索、获取所需资源,最终实现资源整合目标。[12]元数据仓储中存储的元数据经过专业的分类和组织,不仅能够及时满足用户的检索需求,还能够为用户提供深层次的数据挖掘和知识发现服务,为公共数字文化服务平台的建设提供新思路。

4.2.3 应用层

应用层是公共数字文化资源整合成果的具体表现,通过建立资源整合平台来实现资源导航、资源检索、资源获取和个性化服务等功能,使用户在统一的界面上对不同公共文化机构间的数字资源进行统一检索、浏览和利用。该平台应具备的功能需求及其描述如表2所示。

表2 公共数字文化资源整合平台的功能需求

5 元数据仓储在公共数字文化资源整合中的应用前景

5.1 元数据仓储的应用

数据仓储这一概念由来已久并且被广泛应用于各个领域中。在生物医疗领域,科研人员往往需要通过组织和查询大量异构实验信息来推导科学结论,为此有学者提出使用SB-KOM(System Biology Khaos Ontology -based Mediator)系统完成对实验数据的抽取并存储在本地数据仓储“PseudomonasDW”中保持数据一致性,为科学分析奠定基础。[13]美国梅约诊所建立了数据仓储“Mayo Clinc’s Enterprise Data Trust”,存储诊所运营过程中所产生的数据以支持诊所的日常工作及决策制定。[14]该系统由信息管理、数据建模、词汇系统以及元数据管理等部分构成,旨在通过整合现有数据资源实现诊疗数据深度开发,为诊断提供真实可靠的数据支持,值得一提的是该系统还相当重视对病人隐私信息的保护,取得了较好的效果,是在该领域资源整合的代表项目之一。在商业科技领域,诸如微软、IBM等大公司近年来也逐步开始关注资源整合中数据仓储的建设问题。IBM一直十分关注数字资源整合领域的研究进展,曾发表白皮书探讨大数据环境下的数据仓储建设及资源整合问题,指出应当构建基于可信信息的数据仓储并将数字资源转换为统一格式存储,完成资源整合以支持企业决策。[15]元数据仓储是在数据仓储的理念上提出,在资源整合领域逐步受到关注。

基于元数据仓储的数字资源整合方式相较于其它方式有显著的特点,在公共数字文化资源整合领域有良好的应用前景,它的出现将为该领域带来新的变化:

首先,通过建立元数据仓储将异构资源的元数据信息统一存储,在减轻各文化机构资源维护负担的同时还有效提高了用户的检索效率。随着数字资源数量剧增,采用传统数据仓储的方式存储所有文化机构的资源已经难以实现,公共文化机构开始探索新的资源整合方式,元数据仓储应运而生。通过建立一套完整的元数据选择标准作为范式,将数字资源的元数据信息抽取出来存储在数据仓储中,供用户统一浏览和查询。由于资源信息被集中存储,该方式能够有效地缩短用户获得检索结果所需时长,且对网络环境的依赖程度相对较低,不会受各机构数据库本身状态的限制,能够保证资源整合平台的流畅性,提高用户使用体验。

其次,元数据仓储经过元数据采集、抽取、转换、清洗和装载工作完成了对文化资源的标准化描述,对不同形式的文化资源进行了很好的聚类,有利于文化资源的深层次开发。知识挖掘服务近年来逐步受到公共文化机构的关注,将机构自身所存储的海量数字文化资源转换为用户需要的信息是公共文化机构的使命之一,也是公共数字文化资源整合的最终目标。尽管现有资源整合平台大多仍停留在初级阶段,其现阶段的研究重点是如何为来自不同机构类型各异的资源构建整合平台从而为用户提供一站式服务,尚未开展有效的知识发掘服务,但元数据仓储为该服务奠定了基础。元数据仓储中汇集了不同机构数字资源的元数据信息,可以预见的是,公共数字文化资源整合在未来将会更多地关注于资源的深度整合,致力于提供包括机构资源库、主题资源库、资源订制及推送服务在内的多项知识挖掘服务,实现数字资源的深层次整合与无缝链接。

5.2 元数据仓储存在的问题及对策

基于元数据仓储的公共数字文化资源整合尽管存在上述优势,但也不可避免地有着相应的问题,具体表现及解决对策如下:

第一,资源更新不及时,整合平台尚未完全实现自动化。元数据仓储是经过元数据采集、抽取、转换、清洗和装载完成对资源的标准化描述而建成,其建设初期需要分别采集各机构的文化资源,在后期维护中也要时刻关注各机构资源更新情况。这就容易导致信息资源更新不及时的问题,各数据库同资源整合平台的资源列表间存在一定的时滞。这就要求资源整合平台内置有效的响应机制能够定期对各数据库资源更新情况进行检查,及时更新元数据信息,保证用户能够及时获取最新最准确的资源信息。此外,基于元数据仓储的资源整合平台往往对人工操作的依赖程度较高,不能完全实现自动化。由于各公共文化机构在社会职能、机构文化乃至资源描述标准方面都存在较大差异,因而进行元数据信息采集和抽取时往往需要人工辅助完成,以最大程度保障数据的统一性和规范性。因此,在元数据仓储建设的初始阶段就必须充分考虑各机构资源的具体情况,在抽取及转换环节中要不断优化算法以提高自动化程度,节约资源整合过程中的人力成本,提高资源整合平台的运行效率。

第二,元数据采集难度高,资源描述标准较难统一。元数据采集首先需要获得各文化机构及数据库商的许可,其次要针对不同的数据库选择不同的资源采集方式,常见的有ODBC/JDBC接口、OAI-PMH协议、Z39.50资源适配器等等。公共文化机构在公共数字文化资源整合中应当建立有效的元数据仓储建设机制,寻找各机构及其数据库间的共同点,调动文化机构的积极性,加强机构间的合作,积极寻求同数据库商、出版社的合作,为元数据采集创造条件,确保元数据仓储的持续发展。元数据描述标准不统一是公共数字文化资源整合的障碍之一,其具体表现包括:相同资源在不同数据库有不同的名称、相同字段在不同数据库中表示不同内容、不同字段有语义交叉、DC元数据与MARC的映射问题和参考标准不一致等,这些都是元数据仓储建设中亟待解决的问题。[16]在元数据仓储的建设中,各文化机构还应该不断加强元数据互操作研究,实现对不同标准的元数据的访问和存储,致力于异构数据的整合研究,消除数据结构差异,早日实现公共数字文化资源整合的目标。

(来稿时间:2015年6月)

参考文献:

1. Chen Z, Wu D, Lu J, et al. Metadata-based Information Resource Integration for Research Management. Procedia Computer Science, 2013:54-61

2.史超.电子政务信息资源整合方案与框架研究. 西安:西安电子科技大学硕士论文, 2009

3. Alon Y. Halevy. Theory of Answering Queries Using Views. SIGMOD Record. 2000, 29(4):40-47

4.王静,阎雅娜. OAIster——开放存取数字资源的一站式检索平台. 图书馆杂志, 2009(5):23-26

5.李鹏云. 基于元数据仓储的图书馆数据整合实践——以国家图书馆“文津搜索”项目为例. 图书馆学刊, 2013 (8):46-49

6. Trujillo J, Palomar M, Gomez J, Song IY. Designing Data Warehouses with OO Conceptual Models. IEEE Computer Society 2001, 34(12):66-75

7.胡开胜. 基于WEB元数据抽取的ETL资源整合模型研究与实现. 长沙:湖南师范大学硕士论文, 2010

8. Digitisation:Standards landscape for European museums, archives, libraries.[2015-01-08].http://www.athenaeurope.org/ index.php?en/112/news/20/athena-booklet-digitisation-standardslandscape-for-european-museums-archives-libraries

9. Bernstein PA, Haas LM. Information integration in the enterprise. Communications of the ACM; 2008:170-177

10.王洪军等. 基于元数据仓储与动态链接的图书馆资源整合系统的整合与实现. 中华医学图书情报杂志, 2011(10):65-67

11.卫军朝. 山西高校科技文献平台异构数据整合研究.太原:山西大学硕士论文, 2009

12.彭泽华. 数字资源整合技术在数字图书馆建设中的应用. 信息通信, 2007(5):9-12

13. K. Marrakchi, A. Briache, A. Kerzazi, et al. A Data Warehouse Approach to Semantic Integration of Pseudomonas Data. Data Integration in the Life Sciences,2010, 6254:90-105

14. CG C, SA B, TB F, et al. The Enterprise Data Trust at Mayo Clinic:a semantically integrated warehouse of biomedical data. J Am Med Inform Assoc., 2010, 17(2):131-135

15. Delivering trusted information for the modern data warehouse. [2015-03-27]. http://www.bitpipe.com/detail/RES/1412192840_737. html

16. 梁蕙玮, 萨蕾. 数字图书馆推广工程面向数字资源整合的元数据仓储构建. 国家图书馆学刊, 2012(5)

〔分类号〕G250

〔作者简介〕肖希明(1955-),男,武汉大学信息管理学院教授,博士生导师;刘巧园(1992-),女,武汉大学信息管理学院硕士研究生。

*本文系国家社会科学基金重点项目“公共数字文化服务中的资源整合研究”(批准号:13ATQ001)研究成果之一。

Public Digital Cultural Resources Integration Based on Metadata Repository

Xiao Ximing Liu Qiaoyuan
( School of Information Management of Wuhan University )

〔Abstract 〕The paper introduces the basic connotations of metadata repository and the way of resources integration based on metadata repository , and points out the features, such as heterogeneity and dispersibility, of public digital cultural resources and metadata standards. The paper also discusses the implement of metadata repository technology in the public digital cultural resources integration, and builds the framework of resources integration based on metadata repository and then analyzes the application prospect of metadata repository in public digital cultural resources integration, and points out its possible problems and countermeasures.

〔Keywords〕Public digital cultural resources Digital resources integration Metadata repository