基于关联数据的数字图书馆资源整合模式
2015-05-13李师龙韩翔徐州工程学院图书馆江苏徐州221008
李师龙 韩翔(徐州工程学院图书馆,江苏徐州221008)
基于关联数据的数字图书馆资源整合模式
李师龙韩翔
(徐州工程学院图书馆,江苏徐州221008)
[摘要]关联数据符合最少设计的理念,能够简化海量信息资源,处理复杂的关系。考虑到数字图书馆馆藏数据资源的复杂性,实现基于关联数据的资源整合就显得意义重大。阐述了关联数据的含义及其优越性,分析了关联数据对数字图书馆资源整合的促进作用,给出了基于关联数据的数字图书馆资源整合模式,并探讨了其实现途径。
[关键词]关联数据数字图书馆资源整合
[分类号]G253
数字图书馆拥有的信息资源具有质量高、结构化的特点,可以说是关联数据的重要基地。通过挖掘数字图书馆海量的信息资源,能够发现大量可以重复使用的信息,也可以发现一些能够被揭示的内容。通过基于关联数据的资源整合技术,能够帮助数字图书馆与全球范围内的数据库建立链接,提高与图书馆外部领域的协同性,以此提升图书馆的服务质量。
1关联数据的含义与优势分析
1.1关联数据的含义
伯纳斯于2006年根据互联网的演变规律,首次提出了关联数据的概念,并指出其是数据网络的核心部分。简单地说,在Web上互联以及发布的结构化的信息数据,就称作关联数据。这些数据可以表示任何意义,在描述数据集时多使用RDF格式,而在指向数据对象时多运用URI来命名,保障数据的可关联性以及唯一性。可以说,这是一种互联网推荐的较好实践,是通过RDF、URI以及本体来发现、发布与链接信息数据与知识的方式,图1为关联数据的应用架构[1]。
图1关联数据的应用架构
1.2关联数据的优越性
作为互联网数据连接的一种较好的实践方式,关联数据本身的技术特点决定了其独有的优越性。首先,充分应用了URI进行数据资源标识,可以标识互联网中的任何资源,让这些资源有唯一的标识符。这些信息资源可以是图片、文档等,也可以是地名、抽象理论等非信息资源,这些资源的识别运用了重定向技术。其次,信息资源的存储应用了http协议。当前互联网应用中最为广泛的访问机制就是http协议,大部分开发工具以及系统对于该种协议也给予支持[2]。这种协议在关联数据中的应用,可以保障信息资源的适用度,并让信息资源得到更好的利用。最后,关联数据在语义网中属于十分关键的实现方式。互联网实现数据连接的重要方式就是通过关联数据实现的,而语义网构建的关键就是数据的关联。要构建语义网这种与数据相关的网络,能够有关联与获取信息数据的语义工具,且其中的海量信息数据必须格式规范,不管是在语义网中融合海量信息数据还是进行信息推理等应用,均需要应用关联数据这种方式[3]。
2关联数据对数字图书馆资源整合的促进作用
数字图书馆中的海量资源一般没有进行独立的标识,多需要从书目记录中查找,同时没有统一的描述标准,要对这些数据之间的关系进行深入挖掘,所需耗费的人力、物力是非常巨大的。若数字图书馆能够对信息数据进行关联并建立链接,可以让数字图书馆与外部领域连接起来,可以让用户更加容易地理解图书馆的信息资源,让图书馆资源及其服务得以拓展,改善传统图书馆在资源整合方面的不足,促进其各领域信息服务质量的提升,让数字图书馆的信息资源发挥最大价值。由此可见,关联数据对于数字图书馆的资源整合具有重要的促进作用。
2.1实现数字图书馆数据资源的语义融合
目前在图书馆资源共享建设方面,很多图书馆做了大量工作,但在图书馆信息资源语义融合方面涉及的并不多。数字图书馆应用关联数据,可以融合来自多个信息源的数据对象,也可以融合与之相关的各种信息,并可以关联分布异构的多个数据源,构建出一个统一的数据云图,并让用户能够获取的信息量快速增长。数字图书馆引入关联数据的理念,可以简化异构分布的数据在整合过程中的难度[4]。此外,关联数据的应用不仅可以整合简单的文献资源,也可以在不同的知识元之间建立链接,让分散的、独立的知识元能够有效联系在一起,以此从整体上实现图书资源的语义融合。
2.2拓展数字图书馆的馆藏信息资源
在信息技术高速发展的环境下,人们获取信息资源的途径更为丰富。如果图书馆依然沿用文献检索等方式来为用户推送信息,很难与强大的网络搜索工具抗衡。图书馆一直以来承担着存储与传播文化知识的使命,在现代信息技术不断进步的今天,数字图书馆应该积极转变自己的服务模式。目前,很多图书馆都构建了自己的数据库,也实现了一站式的信息检索,但用户能够获取的信息资源多来自一个或者几个数据库。而应用关联数据可以提供十分开放的环境,并促进图书馆数字资源的拓展,提高图书馆知识服务的准确度与效率。
2.3保障数字图书馆信息资源利用的最大化
数字图书馆对馆藏资源进行合理关联,不仅可以让用户获取更多图书馆以外的信息资源,也可以保障用户获取需求信息的准确度与优质性。图书馆是信息资源、知识的最大提供方,应该做到从用户的需求出发,以此更好地开展工作。一般来讲,图书馆的文献资源相对规范并且稳定,并由专业人员定期进行维护[5]。数字图书馆若将拥有的数据资源进行关联,不仅可以获得稳定性高的有效数据资源,还可以对已有资源进行定期监测,这对于数字图书馆与外界的信息链接是有必要的。关联数据作为语义网中实现资源整合的有效方式,可以从海量信息资源中进行分析,找出其中隐含的内容以及相应关系,以此保障各信息资源间的联系与整合。
3基于关联数据的数字图书馆资源整合模式的实现途径
对馆藏资源进行整合是数字图书馆提供信息服务的前提。如今各种信息技术、智能技术,如语义融合、信息标引等的应用更加广泛。数字图书馆应充分应用各种技术来简化数字资源,让其有一定的规范性,并形成结构化的数据库,然后向用户开放这些数据库,让他们可以获取优质而有效的信息资源。图2所示为基于关联数据的数字图书馆进行资源整合的具体模型[6]。从图中可以看出,在对信息资源进行整合过程中,数字图书馆应用了URI、RDF等技术来进行数据标识与描述,并通过信息链接以及关联来发布、整合数据资源,让抽象概念与实体可以统一起来,形成有序的机制,便于用户浏览与查询,进而轻松获取与信息资源相关的动态链接。目前,互联网中上传的关联数据越来越多,这种方式以知识元为基础,通过从语义层面来分析各数据片段,让知识元之间建立起一定的关联,为实现数字图书馆的资源整合提供了全新的途径。
图2基于关联数据的数字图书馆资源整合模型
3.1拓宽数字图书馆资源的关联范围
数字图书馆在为用户提供资源、知识服务的过程中,不仅要让他们从中得到需求的数据对象,也要及时发现、整理和组织知识元。在数字图书馆资源整合的具体实践中,其资源标识与语义融合等技术得到了长足的进步。在对信息资源进行描述时,关联数据的应用涉及属性值等概念,并通过标准的连接、访问方式来关联数据,让各类数据能够无缝连接在一起,进而构成一个范围广泛的数据库。应用RDF来描述数字图书馆中各种类型的馆藏资源,并解析出其中每一个相对独立的知识元,进而让计算机中有可以读取的各种元数据。在这个过程中不仅有助于发现知识,也可以促进源数据向数据结合方向转化。
结合在发布关联数据时应遵循的准则,数字图书馆发布关联数据的具体过程为:
①通过RDF来描述所需发布资源的结构关系,并对著者、数据元等信息进行语义描述。
②从互联网中选择一些常用的词汇与数据集合,并得到其中通用的词汇表,以构建RDF格式的文件。通过这些文件可以方便其他系统与图书馆资源间的互通,通过这些共用的词汇集合,用户可以获取更多词汇、数据之间无形的链接。
③将URI加入应用RDF描述的数组中,并在互联网上进行发布,用户可以借助http协议等来获取图书馆发布的这些数字资源,而与之相关对象的发现可以通过URI链接来得到。
④对访问接口进行合理配置,不仅可以让其他API获得关联数据相关的服务,对于部分支持RDF格式的标准语言也是适用的,也可以建立其他数据结合之间的链接。URI作为唯一可以对关联数据进行标识的方式,可以通过本体映射等方式来对馆藏图书资源进行语义描述,并借助D2RQ等软件来规范元数据集,将原有不符合关联数据发布准则的资源挑选出来,让其成为RDF格式的虚拟资源。同时数字图书馆引入关联数据进行资源整合,以扩展原有的词汇和关联表,可以促进其创建关联数据集合速率的提升。
3.2引入关联数据集扩充知识发现平台
在关联数据不断发展的过程中,关联数据集的应用也更为广泛。很多图书发行、出版者以及开发人员开始在开放领域应用该技术,让图书资源在网络中的开放存储以及应用得以实现。这样可以无缝连接不同类型的数据资源,并形成一个有机的数据云图,供用户进行交互使用。统计表明,关联数据云图中的数据集在2011年底已经超过290个,其中的三元数组超过300亿个,数据链接达到500亿个。除了数字图书馆之外,与其相关的领域有超过85个数据集,在LOD云图中约占有1/10的比例,并包含有与图书行业相关的所有信息。数字图书馆可以从数据云图中找到大量相关数据资源,并填充到知识数据库中,如一些公共的大型数据源,可支持用户通过互联网进行查询。一般来说,关联数据有相对开放的架构,其中的基础数据模型为通过URI标识的三元数组,源于多个不同关联数据集的主体或者客体均为RDF格式,并由统一的知识组织系统等词汇集合。图书馆可以从多个角度让用户链接到图书馆以外的资源,并让常用的数据与地理、书目等联接起来,让互联网中开放共用的关联数据得到充分应用,这样不仅使系统原有的数据信息得到拓展,也让用户可以便捷地与所需知识资源建立链接,让他们更为轻松地获取知识,让已有的知识元得到拓展,进而链接不同知识源中隐藏的信息,真正实现信息服务的增值。
此外,一些形式较为规范的文档也是通过关联数据的形式,并在关联数据集合中进行发布的。美国国会图书馆就利用了关联数据来发布重要的文档信息,如图书分类法、国际分类标准等,用户可以通过LCSH词表来下载这些信息。数字图书馆利用关联数据对词表、文档等进行规范,不仅可以让信息检索得到拓展,也可以支持图书馆对现有资源的拓展与改进。
3.3对数字图书资源进行整合并实现语义检索
图书馆关联数据的应用可以让不同的数据通过链接联系在一起,而为用户提供服务的方式通过链接实现。在整合图书馆信息资源时,数字图书馆不仅要了解各知识元相应的特性,也需要借助语义知识来挖掘不同内容之间的关联性。根据关联数据的相关规范,用户可以利用http协议等来对知识元地址进行定位与查询,而信息的规范可以借助端点连接的方式来解析、发布并构建。同时各种类型的数据源需要利用本体进行描述,并且他们要有统一的语义描述,要从语义的角度来操作不同类型的数据元,就需要调出各数据元的本体集,分析它们在本体中有怎样的映射关系,这样数字图书馆中的文献等不同类型的知识元,均可以利用这种方式来从语义层进行操作。互联网中加入语义描述的知识元,它们之间的关联性可以是明显的,也可以是隐蔽的。对于隐性的关联信息,需要首先推理不同本体之间的逻辑性,从对知识结构以及组织之间的理解、认识方面,让系统与用户之间达成共识,也可以从专业角度来复用信息资源,以此获取它们之间的隐性关系,并与外部领域建立起知识服务网,让各领域的资源进行整合关联,使用户可以轻松浏览和查询共用的关联数据,或者在语义层面实现交互操作。
4 结语
关联数据由于具备可拓展、开放等特性,在很多领域得到了广泛应用。数字图书馆应用关联数据来整合数据资源,不仅可以将外部数据网络与图书资源链接在一起,也可以促进知识发现平台的拓展与学术交流,帮助图书馆更好地存储与利用信息。笔者提出基于关联数据的数字图书馆资源整合模型,旨在积累更多的实践经验,以此促进图书馆在应用关联数据方面地位的提升。
参考文献:
[1]任炜.基于关联数据的数字图书馆知识整合研究[J].高校图书馆情报论坛,2014(4):33-39.
[2]崔纪锋,张勇,邢春晓.元数据在数据库互操作中的应用[J].计算机科学与探索,2011(4):28-31.
[3]李琳.关联数据在图书馆界的应用与挑战[J].图书与情报,2011(4):69-72.
[4]王薇,欧石燕.关联数据在图书馆领域的应用研究[J].新世纪图书馆,2012(9):11-13.
[5]孙鸿燕.图书馆关联数据的综合管理及其实现[J].图书馆学研究,2011(23):22-25.
[6]史海燕,锅艳玲.基于关联数据的分布式信息查询研究[J].图书馆学研究,2012(5):53-57.
[7]王伯秋,郭彦宏,黄辉.关联数据在图书馆资源整合中的应用[J].医学信息学杂志,2013(10):28-31.
李师龙男,1978年生。本科学历,馆员。研究方向:资源建设。
韩翔男,1970年生。本科学历,助理馆员。研究方向:资源建设。
·服务经纬·
收稿日期:(2015-01-31;责编:杨新宽。)