关联数据在图书馆中的应用研究
2016-02-12杨敏
杨敏
(重庆工程职业技术学院图书馆 重庆 402260)
关联数据在图书馆中的应用研究
杨敏
(重庆工程职业技术学院图书馆 重庆 402260)
关联数据在图书馆领域具有广泛的应用前景,是图书馆语义网建设中的关键性技术。文章介绍了目前关联数据在图书馆中4个方面的应用:书目记录关联数据化、实现语义检索服务、扩展知识发现服务、跨机构的数据的开放与复用以及其在用户接口、法律许可、质量评价方面面临的挑战。
关联数据;图书馆;语义网
1 引言
2006年Tim Berners-Lee在《关联数据笔记》中提出了Linked Data这一概念,他提出关联数据就是将一箱箱数据通过开放标准关联在一起,从而萌发出很多新事物和新应用。作为语义网构建的关键性技术之一,关联数据通过可链接的URI来实现数据的语义标注,并将实际语义相关的数据连接起来,以此来构建一个可供计算机理解的结构化和语义化的数据网络。
关联数据自提出以来,得到诸多学科领域的广泛关注,目前已成为计算机科学、信息管理、图书情报等领域的研究热点。图书馆是数据的发布者,同时也是数据的消费者。关联数据一方面可以作为跨网域数据整合的通用API(Application Programming Interface,应用程序编程接口),重用或整合其他来源的数据;另一方面可提供“可信网络”的语义要素,保障整合数据网络的可信度。国外图书馆界已对关联数据的应用作了诸多有益探索。如2008年美国国会图书馆和瑞典国家图书馆分别将LCSH(Library of Congress Subject Headings,美国国会图书馆标题表)和瑞典全国联合目录LIBRIS以关联数据框架的形式在网上发布,并通过URI(Uniform Resource Identifier,统一资源标识符)实现了LIBRIS的瑞典语主题词与LCSH之间的关联。
2 图书馆什么数据可发布为关联数据?
图书馆的数据成千上万,并且有不同的类型,基本可分为基本数据与服务数据两大类。基本数据包括[1]:①受控词汇,如标题表、叙词表等;②规范文档,如人名、地名规范数据记录等;③书目数据,如瑞典联合目录等;④馆藏单位,如瑞典各图书馆等。服务数据包括:①不同项目和活动建立的网页;②整合数据;③跨行业、机构、数据源的数字资源等。
如此多的数据究竟哪种数据适合用来发布为关联数据呢?Corey Harper 2008年给出了以下建议:图书馆数据工作中的任何“资源”都应该在整个流程中尽早得到URI,这些URI都能提供有用的RDF(Resource Description Framework,资源描述框架)信息,并且这种URI都是能使用HTTP来访问的。
W3C图书馆关联数据(Library Linked Data)孵化小组收集了图书馆关联数据的用例并探索关键问题,于2011年10月发布系列报告[2]。在报告中将收集到的58个用例分为书目数据、规范控制、词汇匹配、档案数据、参考引文、数字对象、文献集、社会性应用8个类别。从用例数量上看,书目数据是最多的一类,这也是最容易实现的一部分。因此在构建关联数据之初,书目数据成为大多数图书馆的首要选择。书目数据的主要应用目标包括:建立数据描述元素的语义标准;通过关联数据,实现数据记录的去重与统一化;使用标准化书目术语来标注网络资源;多个数据提供商提供集成化元数据搜索界面;不同形式的信息集和服务(查询限定与扩展、提醒服务等);书目记录的标注,等等。
3 图书馆关联数据的应用现状
关联数据在图书馆的应用极大挖掘了原有信息资源的价值,进一步深化了知识发现服务,同时提供了图书馆资源与外部机构资源互联互通的可能。目前,图书馆领域展开的关联数据应用主要体现在以下4个方面:
(1)书目记录关联数据化
关联数据这一概念提出不久,一些欧美国家的图书馆就开始尝试采用RDF和关联数据来对本馆的数据资源进行改造,并取得了显著成效。其中书目数据的关联数据化即以关联数据形式来发布书目数据。技术上来讲是指使用URI命名书目数据,通过HTTP、URI定位链接书目数据,即通过赋予主题词、出版社、个人名称等各书目数据唯一的名称标识URI,将有语义关联的URI链接起来,并建立其与主题规范、出版项、个人名称规范等的关联链接,形成书目数据语义网,从而便于用户从一条书目记录能扩展检索到更多的相关信息[3]。
2008年瑞典国家图书馆将LIBRIS中的书目数据、人名、地名等规范文档记录以关联数据的形式发布,并将其与DBPedia①相关联。LIBRIS的关联数据化为图书馆界开展关联数据应用提供了宝贵的经验和思路。
美国国会图书馆将LCSH以关联数据形式在网上发布,并与瑞典国家图书馆合作实现了LIBRIS的瑞典语主题词与LCSH之间的关联。
2010年德国国家图书馆建立和完善了PND(个人名称规范)和SWD(主题词规范),并建立其与Wikipedia、DBPedia和VIAF[4]的链接,通过OAI-PMH(Open Archive Initiative for Protocol Meta-data Harvesting,开放文档先导—元数据收割协议)和SRU(Search and Retrieve via URL)访问数据的方法,完善了URI/URL模式,从而实现了将这些数据发布为关联数据。
2012年西班牙图书馆将馆内书目记录、个人、题名及主题等规范记录转化为RDF三元组,并将其与DBPedia、德国、瑞典的国家图书馆目录相关联。
国内图书馆目前尚未开展真正意义上的将书目数据关联数据化的实践。作为国内研究关联数据的先驱,2008年,刘炜题为“语义操作与关联数据”的报告引起了国内图书馆界对关联数据在图书馆实际工作中应用的关注。随后,2010年,“图书馆前沿技术论坛”将主题定为“关联数据与书目数据的未来”[5],专门探讨了相关方面的问题。国内一些馆藏书目记录虽然能提供责任者、主题词、出版社等链接,但相较而言较为简单,并不能算真正意义上的关联数据化。
将图书馆的书目数据发布为关联数据还仅仅只是图书馆数据资源关联数据化的初始阶段,图书馆也不应仅仅只满足于实现书目数据的关联数据化。图书馆的数据资源类型多种多样,一些服务类型的数据同样具有很高的价值,并且往往实现这些服务数据的关联化将更有助于提升用户的体验。
(2)实现语义检索服务
关联数据的发展为语义网的构建提供了新的方向和技术手段。通过关联数据技术可建立实体之间的语义链接来支持用户的语义检索。从发展现状和趋势来看,关联数据技术作为语义网实现的一种技术手段已经得到众多社区、机构和政府部门的广泛支持。
作为欧洲国家图书馆的数字资源门户的Europeana采用 SKOS(Simple Knowledge OrganizationSystem,简单知识组织系统)等元数据模式聚合了图书、视频等图书馆对象的元数据,数据间互操作性极强。目前,Europeana正在开发语义检索服务,通过在Europeana之上引入语义层,以实现在对象之间建立语义链接[6]。
(3)扩展知识发现服务
知识发现是人类知识活动的最终目标。进入网络时代,人类知识工作的基础是网络环境;知识发现的工具是相应的网络技术与工具;知识发现的对象是网络中的数据;知识发现的结果是找到有用的数据组织为有效的信息,继而将有效的信息,组织为人们感兴趣的、新颖的、有效的知识。关联数据是语义网的最佳实践,促进了语义网的发展和演进。随着关联数据的理论、原则、方法和技术的发展,消费和使用关联数据的各类工具也不断研发和完善起来。在此基础上,关联数据得以迅速发展和广泛应用,语义网得以进一步实现,资源极大丰富起来。李楠在博士论文中构建了关联数据的知识发现模型[7]。
图书馆利用关联数据方法和技术可将本馆资源和外部资源组织成为一个有效的网络,有利于挖掘资源之间原先不那么明显但实际密切相关的联系,从而促进用户的知识发现。图书馆可利用现有的一些关联数据仓储库和搜索引擎来扩展和深化自身的知识发现服务。
(4)跨机构的数据的开放与复用
关联数据是结构化和语义化的,可以实现不同机构间数据的开放与复用。如图书馆可利用出版社的一些图书数据,减轻自身的工作量,并可将自身数据与档案馆、博物馆、互联网上的数据关联起来,从而扩展自身资源的范围,同时也可将其与其他图书馆进行互联,共享数据。
英国哈德斯菲尔德大学图书馆在开放数据共享许可协议下向其他图书馆共享了本馆的流通数据和荐购数据,为他馆了解读者借阅倾向、馆藏资源建设等提供有益借鉴。
4 面临的挑战
尽管已经取得了不小的进展,但是图书馆界在应用关联数据时仍面临着诸多考验,表现在以下几个方面:
(1)用户接口问题
关联数据可以使图书馆为用户提供访问广泛的、分散的、异质的数据资源的统一接口。图书馆采用现有的关联数据搜索引擎虽然可以使用户在不同数据对象间跳转浏览,但在导航和结果显示上还存在着诸多不足,可能会造成数据迷航,增加用户负担。特别是面对海量的网页数据,如何使关联数据的应用接口更加人性化是一个极具挑战的问题。
因此,图书馆在构建关联数据之初就应充分了解本馆用户的信息需求,从以文件为中心的浏览的服务模式转变为以实体为中心的浏览,完善关联数据搜索引擎的导航和页面布局,向用户提供最精准、最全面的数据资源。
(2)法律许可问题
关联数据实现了不同数据源之间的互联互通,极大地提升了数据的利用率,但也面临着一些风险,如侵犯他人的隐私、违反知识产权等。在关联数据的构建过程中需要技术手段和法律方面的综合考量。
目前,国际上制定了一些与关联数据开放有关的协议,代表性的有3种:开放数据公用、关联协议及创作公用。这些协议明确了数据生产者和消费者在获取、传播、利用、再生产数据时的权利和义务,目的是在法律许可的范围内实现数据的再利用。图书馆在整合关联馆外数据时,需根据这些协议深入研究,规避法律风险。
(3)质量评价问题
图书馆采用关联数据等新技术的根本目的是向用户提供最需要或最合适的数据。因此图书馆需要对关联数据网中的数据质量进行评价,确保将完整、可靠、有效的信息呈现给用户。但是目前的关联数据技术提供数据构建和检索方法,并不提供数据评价方法。传统的信息检索评价方法如PageRank算法、HITS、VSM 等,不宜于直接应用于语义网的质量评价。图书馆在进行关联数据构建时,要适当对数据对象进行评价,确保数据质量。
注释:
①DBpedia是一个很特殊的语义网应用范例,它从维基百科(Wikipedia)的词条里撷取出结构化的资料,以强化维基百科的搜寻功能,并将其他资料集连结至维基百科。
[1]曾蕾.关联的图书馆数据[EB/OL].[2016-02-20].http://wenku.baidu.com/link?url=lMmotBMbRlaSFcH_ndX-rSmbMBl18Fd WzGnzgfs6JFTVCIk81oDJkKtB3cLFs0cTSewDWRlSIHhrKdbXagP6vHUN1wQ5kIWbU-DI-zB-aei.
[2]Daniel Vila Suero, Universidad Politécnica de Madrid,ES. Use-CaseReport[EB/OL].[2016-03-15].http://www.w3.org/ 2005/Incubator/lld /wiki /UseCaseReport.
[3]张海玲.图书馆书目数据的关联数据化研究:以德国国家图书馆为例[J].图书馆论坛,2013(1):120-125.
[4]VIAF[EB/OL].[2016-09-01].http://www.viaf.it.
[5]刘炜.关联数据:概念、技术及应用展望[J].大学图书馆学报,2011(2):5-12.
[6]黄永文.关联数据在图书馆中的应用研究综述[J].现代图书情报技术,2010(5):1-7.
[7]李楠.基于关联数据的知识发现研究[D].北京:中国农业科学院,2012.
Research on the Application of Linked Data in Libraries
Linked data have broad application prospects in the library field.It's the key technology of semantic web construction in libraries.This paper introduces four aspects of application of linked data in the libraries at present:bibliographical record linked datamation,realization of semantic retrieval,expansion of knowledge discovery,openness of inter-agency data and the reuse as well as challenges in the user interface,legal permission and quality evaluation.
linked data;library;semantic web
G250.7
A
杨敏(1989—),女,助教,重庆工程职业技术学院图书馆。
2016-09-06