APP下载

基于关联数据的信息资源整合

2014-12-25

图书馆学刊 2014年1期
关键词:数据源资源整合关联

田 宁

(天津农学院图书馆,天津 300384)

在信息“爆炸”的时代,用户想从海量信息里准确而全面地获得自己所需要的信息越来越困难。因此信息服务机构应整合一切信息资源,为用户提供更深层次的、一体化的符合用户需求的信息资源服务。从我国的实际情况来看,传统的以文献为主的信息资源整合是比较成功的。但是随着数字化的发展和互联网的广泛使用,对信息资源的整合提出了新的要求,关联数据的适时应用为信息资源的深度整合提供了解决方法。

1 关联数据

关联数据的概念来自于W3C,Tim Berners-Lee于2006年首次提出关联数据的基本思想及4条原则,随后逐渐发展,并得到了信息机构、政府部门、企业等多方面的重视和关注,成为推动语义网发展的重要力量[1]。关联数据通过网络把以前没有关联的相关数据联接起来,关联数据的最终目标是使用关联数据就像是用一个单一的全球数据库Web。关联数据技术作为一种新的语义发布工具是目前数字资源揭示和利用的一项重要技术,其在整合孤立的数据、提供开放的元数据服务、实现语义互操作和实现数据的Web服务等方面具有广阔的应用前景。

关联数据是一种在网络中发布、分享、联接结构化数据的方法,它主要建立在3种技术的基础上:用统一资源标识符 (Uniform Resource Identifier,URI) 来指代任何资源;用RDF三段式来描述和联接任何资源,RDF三段式,即事物——特性——值,其中的任何一部分都可以集中很多信息,都可以回答检索问题[2];用HTTP来描述资源或者检索对资源的描述。

信息机构应用关联数据主要是利用关联数据整合分布式异构数据源的能力,把信息机构在发展过程中积累的大量的异构数据源整合成采用相同存储方式的业务数据,以便于用户访问。利用关联数据扩展资源也是图书馆界应用关联数据的主要方式之一,如通过关联数据扩展其目录检索界面、浏览更多更新结果和展示更多馆藏信息等;利用关联数据实现数据融合与语义检索服务;利用关联数据在学术研究和学术交流中发挥更大的作用;跨机构的关联数据的开放与应用;关联数据有助于实现一次写入、多次使用的目的。图书馆为了多种目的需要重复使用书目数据,关联数据这时便发挥了作用。图书馆关联数据是结构化的,可以提供快速的再利用,有助于在更大范围内提供开放扩展服务,实现图书馆与教学系统之间的集成。

2 基于关联数据的信息资源整合

信息机构都有着丰富的信息资源,但不同的信息机构以及同一信息机构内部的各种信息资源采用的标准和遵循的协议很有可能不太一致,导致全国各个信息机构以及各信息机构内部的信息资源不能实现充分的整合和一站式的检索。对于信息机构来说,不仅浪费了劳力来进行重复建设,而且形成了大量的冗余数据;同时对于用户来说,既增加了信息查找的难度,也降低了信息资源的利用率。关联数据的适时提出和应用为解决这些问题提供了新的思路,因此需要对信息机构进行基于关联数据的信息资源整合,来减少冗余数据、提高信息资源利用率并创建面向用户的友好的统一查询视图,以便用户可以方便快捷地获取信息资源。

2.1 基于关联数据的信息资源整合内容

信息资源整合是根据一定的需要,对各个相对独立的信息资源系统中的数据对象、功能结构进行融合、类聚和重组,重新结合为一个新的有机整体,形成一个效能更好、效率更高的信息资源体系,从而保证信息资源得到更好的利用[3]。笔者所述的信息资源整合是基于新兴的关联数据技术的信息资源整合,指的是传统资源与各类数字资源的整合。将不同类型、不同载体的信息资源及其服务、系统进行有机结合,将现有的大量异构系统及庞大的信息资源重新组织和整合起来,形成一个统一提供服务和便于读者利用的整合环境,信息资源的整合就是要按照信息资源之间的内在知识关联进行优化、重组,形成系统化、智能化的资源集合体,提供更加便捷的信息服务。整合后的信息资源服务优势在于它赋予了用户强大的信息资源检索和获取能力。与传统信息资源整合不同,此整合包括一切与用户需求相关的信息资源,是理想状态的不受资源的载体、形式、类型、系统和机构的限制的整合。

基于关联数据的信息资源整合分为纵向信息资源整合和横向信息资源整合,见图1。

图1 需要整合的信息资源

纵向整合是整合每个信息机构内部的所有信息资源,即全部馆藏资源所包含的信息,包括纸质文献资源(如图书、期刊、报纸等)、数字文献资源(电子图书、电子期刊、数据库、各种光盘等)、网络资源、各种信息系统等。根据划分的依据不同这些资源还可以划分为实体资源和虚拟资源等。不论按哪种划分方式这些资源不仅有些部分是重合的,而且涉及的数据平台和使用方法等还各不相同,所以需要经过搜集整理排序,去冗存精整合成格式统一的信息资源。

横向整合是将各个信息机构(例如图书馆、情报研究所、档案馆、博物馆等)的所有信息资源联合起来进行整合。我国有许多相同(级别不同)或不同的信息机构,每个信息机构都承担着一定的社会职能,在公共文化服务体系中有重要的地位,其所拥有的馆藏资源有很多相同和不同之处,随着数字信息技术的发展和网络环境的形成以及人民群众对精神文化的要求越来越高,实际环境要求这些信息机构应合作起来为用户提供更好的可共享的信息服务。但是这些信息机构拥有的信息资源格式和技术各异且壁垒重重,要达到上述要求就需要通过关联数据将其信息资源完美地整合在一起。

2.2 基于关联数据的信息资源整合过程

信息资源整合是一个复杂的过程,具体分为以下几个步骤,见图2。

图2 基于关联数据的信息资源整合过程

第一步就是对信息机构的全部馆藏资源进行数字化整合(许多信息机构已经把一部分或者大部分的馆藏资源数据化了),即将各类资料文献转化为有序的数字化资源,通过对印刷型文献资料、音视频资料进行数字化加工,转化为数字格式的资源,以数字化方式存储。这一步是对所有馆藏资料进行纵向信息资源整合的过程。

第二步就是把所有的数字资源创建成关联数据形式。数字化后的信息资源主要包括元数据和对象数据两种。把这两种数据通过规范形式的描述转换成为RDF(资源描述框架)记录,在这个描述信息里需要建立这个内容对象的内部结构和内容,还需要建立与其他内容对象的关联描述。

第三步是把创建的关联数据通过网络发布出去。关联数据完全建立在已有的Web技术基础上,把转换的RDF记录在Web上发布出去是以4个基本原则为基础的,可采用以下两种方法:支持HTTP的内容协商机制,能根据客户端信息请求的类型决定返回的是HTML的表示形式还是RDF的表示形式;或者支持采用带“#”号(hash)的URL方式定位到RDF中具体的数据资源[4]。

第四步是构建关联数据之间的关联关系。关联关系的构建包括内部关联关系的构建和外部关联关系的构建。在形成RDF记录时,这个记录里就已经建立了与其他内容对象的关联描述,这个关联描述就是内部关联关系的构建。关联数据浏览器支持用户通过RDF链接在数据源之间进行浏览,将获取的RDF数据进行影射解析、提取、合并等处理后,形成虚拟的或者是实际的RDF数据库,可以通过RDF API或者SPARQL语言访问,这个数据库则是外部关联关系的构建。

第二三四这3个步骤是构建关联数据的过程,同时也是进行横向信息资源整合的过程,这个过程理论上是应该可以把所有信息机构的信息资源整合在一起的。

第五步构建可以浏览关联数据的统一视图。关联数据是可以提供多个分布式异构数据源的整合的关联的访问,将来自不同数据源的同一对象进行集成,返回关于该对象的所有相关信息的统一视图。目前关联数据浏览器主要有Tabulator、Marble、Disco、LinkSailor等。但是这些浏览器在关联数据的导航和检索结果显示方面还不太符合用户的使用习惯。考虑到面向用户的友好性方面,应该按照实体对象的类型,提供方便直观的以实体为中心的关联数据浏览器服务,以显示关联数据技术的优势。

第六步是维护关联数据的链接。随着关联数据网络的不断扩展和关联数据的开放性特征,关联数据源很可能会有所变动,这样数据源之间的关联就可能会产生断链,而基于关联数据的应用随之也会发生错误。因此需要定时扫描和修补关联数据的URL链接,包括及时修补断链、删除已消失的链接并建立新的链接。

如果所有的信息机构都能把本机构的信息资源发布成关联数据的形式,那么用户就可以利用关联数据技术通过网络检索到所有信息机构的数据,从而获得更多更齐全更丰富的信息资源。这不仅提高了信息机构的资源利用率,而且用户通过关联数据还可以检索到非信息机构的信息资源,并可以通过关联数据再链接回原信息机构,这样就进一步拓宽了用户获取资料的全面性。

[1]徐华.关联数据在国外信息机构中的应用及其借鉴意义[J].信息机构学研究:应用版,2011(8):87-89.

[2]美国肯特州立大学曾蕾教授为我院带来图书馆学学科前沿讲座[EB/OL].[2011-06-10].http://simyjs.whu.edu.cn/detail.asp?newsid=3934.

[3] 胡昌平.面向用户的信息资源整合与服务[M].武汉:武汉大学出版社,2007:27.

[4] 关联数据发布技术的发展趋势分析[EB/OL].[2012-09-01].http://lunwen.1kejian.com/MBA/104968.html.

猜你喜欢

数据源资源整合关联
少先队活动与校外资源整合的实践与探索
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
“五育并举”下家校社资源整合的价值意义
海外并购中的人力资源整合之道
“一带一路”递进,关联民生更紧
智慧高速资源整合方式实践
Web 大数据系统数据源选择*
奇趣搭配
基于不同网络数据源的期刊评价研究
智趣