APP下载

图书馆关联数据的集成管理研究

2012-04-27西北大学图书馆西安710069

图书馆理论与实践 2012年9期
关键词:关联图书馆

●吴 旻(西北大学 图书馆,西安 710069)

1 对关联数据的初步认识

关联数据(Linked data) 描述了通过可链接的URI方式来发布、分享、连接Web中各类资源的方法,一般认为是语义网的主题之一。[1]关联数据的基本原理是用一种基于标准的知识表示与检索协议、可逐步扩展的机制来实现可动态关联的知识对象网络,并支持以此为基础的知识发现与知识组织。[2]这样看来,关联数据将对图书馆的知识组织起促进作用。

研究者认为,关联数据的核心技术是使用资源描述框架(RDF)进行资源的组织与交换。关联数据通过URI、HTTP、RDF等语义网技术将网络上相关的数据资源进行关联,是从文件网络向数据网络转化的一种优化策略,其技术体系框架如图1所示。[3]图书馆拥有大量的结构化数据,国外图书馆界对关联数据的应用已引起了足够重视并进行推广,比较典型的是美国国会图书馆和瑞典国家图书馆。目前国内关于关联数据在图书馆应用的研究成果较少,笔者查阅了国内外相关资料,经过一番探索后认为,图书馆关联数据的集成管理可归纳为关联数据的创建、关联数据的关联构建、关联数据的发布、关联数据的浏览、关联数据的链接维护。

图1 关联数据的技术体系

2 图书馆关联数据的集成管理

2.1 图书馆关联数据的创建

图书馆关联数据的创建是实现其集成管理的首要环节。图书馆创建关联数据需要用规范形式描述内容对象的内部结构、描述内容的语义(如作者、书名、出版社、内含数据集和图表等)。该描述深度取决于所依据元数据格式的丰富程度和内容对象的内容深度,描述结果是依据元数据格式转换的RDF关联记录。图书馆关联数据创建过程中较有难度的工作是在描述信息中建立彼此内容对象之间的关联描述,只有建立该关联描述,所创建的数据才算是关联数据。在关联数据创建前,图书馆已积累了大量的文献和电子资源,如何将现有的数据资源创建成关联数据并在网上发布,成为当前急需解决的问题之一。图书馆的数据量非常庞大,需要将其放进RDF数据库中,并选择合适的服务器作为关联数据服务的前端。一般而言,图书馆关联数据的更新频率相对较快,那么还需要引入更新机制,或在请求关联数据时依据原始数据在线生成RDF,但这可能影响用户的在线连续访问。在图书馆关联数据的创建中,还将面临一些现实问题:词表的定义和选择、复杂数据的结构化(RDF化)、数据集内数据关联的自动生成等。[4]

2.2 图书馆关联数据的关联构建

图书馆关联数据的关联关系构建与图书馆关联数据的创建是两个不同的过程,二者存在本质的区别。关联数据通过“链接”来为用户开展服务,并通过链接实现不同数据集的关联。[5]对于图书馆来说,关联数据关联关系的构建是图书馆关联数据发布的前提。可以认为,图书馆关联数据中关联关系的构建是图书馆关联数据集成管理的核心环节。图书馆关联数据的关联构建主要采取两种方式:映射关联和非映射关联,可采取三种常见的自动关联构建方法:基于图相似度的映射、基于规则的关联构建和基于实体的文本映射。基于图相似度的映射是对单一三元组比较方法的扩展,基于实体的文本映射是实现自动关联的基本方法,这两种方法具有通用性,但创建的关系类型比较有限。而基于规则的关联构建能创建较复杂的关系,但要依赖特定的相关规则和数据模型。对图书馆的书目数据来说,馆员希望通过识别和确定不同对象间的属性关系来构建较为丰富的关联关系。以瑞典联合目录LIBRIS系统为例,该系统通过关联数据发布了600多万条书目数据,其规范文档数据集的类型为组织机构名称或人名,URI为http://libris.db.se/resource/auth/<number>;其书目数据类型为书目,URI为 http://libris.kb.se/resource/bib/<number>。[6]

2.3 图书馆关联数据的发布

如何将已有的数据或新生成的数据发布为RDF三元组,是关联数据发布的核心,通常需考虑待发布数据的规模、更新频率和当前的存储方式。根据关联数据的基本原理,在Web中发布关联数据必须具有可参照的HTTP或URI标识。一般来说,RDF数据的生成方式主要有4种:生成并发布静态RDF文件,通过其他类型信息的RDF转换实现,通过关系型数据库的RDF转换实现,通过对已有应用或Web API的封装实现。[7]

我们首先应该弄清楚图书馆大规模的关联数据集是怎么发布到网上的。对于储存在关系型数据库里的数据,可用D2R Server将数据转换成RDF格式,并发布到网上。[7]关联数据的发布步骤如下:(1)从网上下载,然后安装D2R Server服务软件;(2) 用D2R Server软件将关系型数据库中的数据自动生成D2RQ mapping映像文件(包括RDF格式数据):(3) 根据已有的词汇集对自动生成的D2RQ mapping文件进行手工改动,对D2RQ mapping文件中的资源用网络中已有的资源代替;(4)把图书馆的关联数据集发布到网上,并通过RDF links与网上其他数据集相连,使浏览器或搜索器能搜索和浏览图书馆发布的数据。除此之外,还有其他的关联数据发布工具,如:Virtuoso Universal Server,较多的关联数据集通过Virtuoso U-niversal Server转换并发布。举例来说,美国国会图书馆以简单知识组织系统(SKOS) 格式将国会标题表(LCSH)全部关联数据化,并且提供LCSH词表的下载,成为关联数据在图书馆应用的成功范例。除了将权威文档LCSH发布为关联数据外,还创建了不同资源之间的关联(如LCSH与瑞典联合目录LIBRIS关联)。可以认为,美国国会图书馆的做法可作为国际上其他图书馆的成功实践范例,已经觉察到了图书馆发布关联数据的较大益处。

2.4 图书馆关联数据的浏览

图书馆关联数据的集成管理另外需解决的问题是怎样在网上浏览图书馆的关联数据。浏览关联数据需要专门的浏览器或插件,目前主要的浏览器有Open Link RDF Browser, Tabulator Browser, Zitgist RDF Browser等。实验结果表明,当多个关系频繁地进行连接操作时,关联数据分布树CDDT(conjunction data distribution tree)能提高整个分布式系统的查询性能。所谓关联数据分布树,可以这样理解:如果某一关系联系图中不存在回路,则该关系图就构成一个关联数据分布树,如果该关系联系图中存在回路,则删除最少的边使得该关系联系图中不存在回路。当删除一个联系时,将其中的一个关系复制到另一个关系一端,使其构成新的联系,该新的联系是被删除联系的一个副本。关联数据分布树如图2所示,在CDDT中其中的一个关系也可称为一个结点,删除了U、S之间的一条边,关系R为CDDT的根结点,其中和U相连的关系为S的一个副本。[8]

图2 关联数据分布树示意图

2.5 图书馆关联数据的链接维护

随着图书馆关联数据集的不断增多,不同数据集之间的关系将会越来越复杂。任何一个数据集的状态发生变化,都有可能导致与之相链接的其他数据集发生访问故障。因此,图书馆关联数据集之间的链接关系建立之后,对这些动态变化的链接进行及时、有效的维护是发挥关联数据的作用、维系数据集之间链接关系的重要手段,也是体现关联数据价值的重要保证。一般认为,关联数据链接的状态主要有5种:初态、不变、消失、断链、新链接。由源数据集到目标数据集的链接建立后,需要采取一定的方法对其进行维护,包括及时修补断链、删除已消失的链接、建立新链接等。有关研究表明,主要有三种动态链接的维护方法:基于WOD-LMP协议的方法要求链接双方都遵守WOD-LMP协议(是专用的关联数据链接维护协议);基于主动监测机制的方法对目标数据集的要求较低,只需要提供SPARQL查询接口或支持RDF堆下载即可;[9]基于更新通知的方法适用于目标数据集具有数据更新通知机制的情况,需要针对目标数据集的数据更新通知机制采取相应的更新数据获取方法。相对而言,第二种方法的适应性较其他方法的适应性要强。

3 图书馆关联数据的集成管理主要注意事项

3.1 关联数据的效用问题

随着美国、瑞典等国家的图书馆将自身关联数据发布到Web网上的实践,其他国家的图书馆也展开了发布关联数据的尝试。但是,也可能出现关联数据断链的问题,因为关联数据网络中的数据保持着更新状态,新的数据不断增加,旧的数据需要更改或删除,数据之间的链接也发生变化。数据源之间的关联可能产生断链,这将引起关联数据的应用发生错误,并导致关联数据失效。目前的一般做法是将该问题暂时忽略,当在具体应用中发现断链时再加以解决。虽然Web网络结构允许一定数量死链接的存在,但过多的死链接无疑会影响数据网络的使用效率。图书馆应该保证数据源关联关系的有效性,还应建立关联数据的监测和修正机制,以维护关联数据的效用。

3.2 关联数据的安全问题

数据安全对图书馆来说特别重要,一旦丢失书目数据或流通数据等,后果将是特别严重的。那么图书馆创建并发布了关联数据,是不是就意味着万无一失了呢?答案是否定的。尽管关联数据依赖较完善的链接保存策略和模式映射,但关联数据的安全问题仍是图书馆界担忧的主要议题之一。关联数据的理想目标是将目前的Web资源通过链接关系打造成为一个全球共享数据库,这为Web服务带来了极大的便利,但同时也带来诸多安全障碍,如用户的个人数据有可能被泄漏,无意中可能侵犯别人的知识产权和网络隐私权。因此,图书情报界应高度重视关联数据的安全问题,首先要求用户具有良好的安全意识,其次依靠技术手段与法律方式相结合,共同确保图书馆关联数据的安全,更好地为读者服务,提升图书馆的社会价值。

[1]Wikipedia.Linked data[EB/OL].[2011-09-28].http∶//en.wikipedia.org/wiki/linked_data.

[2]沈志宏,张晓林.关联数据及其应用现状综述[J].现代图书情报技术,2010(11):1-9.

[3] Passant A,etal.Meaningofatag:acollaborativeapproach tobridge the gap between taggingand linked data[C]//Proceedingsofthewww2008workshop Linked Dataonthe Web (LDOW2008).Beijing:China,2008.

[4]黄永文.关联数据在图书馆中的应用研究综述[J].现代图书情报技术,2010(5):1-7.

[5]Malmsten M.Making a library catalogue part of the semantic web [EB/OL].[2011-09-28].http∶//dcpa pers.dublincore.org/ojs/pubs/article/view/927/923.

[6]白海燕.关联数据及DBPedia实例分析[J].现代图书情报技术,2010(3):33-39.

[7]谭洁清.关联数据的简介与进展[J].信息与电脑,2011(1):103,106.

[8]陈庆奎,黄雨田.关联数据分布树在分布式查询中的应用[J].计算机工程与设计,2008,29(15):4009-4012.

[9]郭少友.关联数据的动态链接维护研究[J].图书情报工作,2011,55(17):112-116.

猜你喜欢

关联图书馆
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
图书馆
“一带一路”递进,关联民生更紧
时间重叠的图书馆
图书馆
奇趣搭配
基于广义关联聚类图的分层关联多目标跟踪
智趣
飞跃图书馆
去图书馆