基于SOA的关联数据的高校图书馆知识服务架构*
2013-09-27赵卫军
赵卫军
(广东金融学院图书馆,广东 广州 510521)
赵卫军 男,1972年生,馆员。
1 引言
开放式创新环境下,国家创新进程的加快和创新需求结构的多元化发展,使传统高校信息资源配置模式面临着深刻变革,由此提出了创新发展中的高校图书馆知识服务架构重构问题。笔者首先对关联数据和信息聚合进行介绍,讨论了当前关联数据在图书馆中的主要应用,在此基础上构建了基于SOA的关联数据的高校图书馆知识服务架构,从数据层、聚合层、组件服务层和应用层4个层次进行研究。基于SOA的架构能够实现软件设计的粒度化,因此可利用已有的和新开发的程序模块、工具或服务“搭建”一个新的系统,从而减少系统开发和实现的难度。
2 关联数据
2.1 概述
关联数据是国际互联网协会(W3C)推荐的一种用来发布和联接各类数据、信息、知识的标准,它希望在现有的万维网基础上,建立一个映射所有自然、社会和精神世界的数据网络,通过对事物及其相互关系进行机器可读的描述,使互联网进化为一个富含语义的、互联互通的知识海洋,从而使任何人都能够借助互联网在更大范围内,准确、高效、可靠地查找、分享、利用这些相互关联的信息和知识[1]。Tim Berners Lee首次提出了关联数据的理念,目的在于在不同资源之间建立计算机可理解的关联信息,最终建立全球性大数据空间。Tim Berners Lee进一步明确提出了关联数据技术中的数据发布和数据关联的4项原则[2]:①采用URI技术统一标识事物;②通过HTTP URI访问URI标识;③当URI被访问时,采用RDF和SPARQL标准,提供一些有用信息;④提供信息时,也提供指向其他事物的URI,以便发现更多事物。
关联数据数据发布是指采用RDF(Resource Description Framework,资源描述框架)和 HTTP(Hypertext Transfer Protocol,超文本传输协议)技术在Web上发布结构化信息;数据关联是指采用RDF链接技术在不同数据源中的数据之间建立计算机可理解的互联关系。同时强调数据的相互联系以及有助于人和计算机理解数据的语境信息。
关联数据可以在不同来源的数据之间创建链接。这些数据源可能是两个处于不同地理位置的机构所维护的数据库,也可能是一个机构内的无法在数据层面上进行互操作的不同系统。关联数据可链接至其他外部数据集,形成关联数据网络[3]。
关联数据理念受知识工程领域的关注,研发出了诸多关联数据库,其中基于代表性的有DBpedia、Freebase、WordNet等[4]。
2.2 关联数据在图书馆的应用
关联数据的应用可以分为4类:①用户界面类应用,即开发一个用户界面,以便用户浏览和检索关联数据。②语义标注类应用。此类应用的特点是以关联数据集为数据源,对其他数据资源进行语义标注,提高数据的语义处理能力和开放互联能力,如DBPedia Mobile。③数据挖掘类应用。与UI应用不同的是,数据挖掘类应用需要对关联数据进行深入分析和挖掘,发现新的知识,而不是仅仅停留在浏览和检索操作。④跨域共享与服务类应用。主要采用了4项基本原则,实现了不同关联数据的统一访问。
图书馆的MARC数据、规范记录、主题标目等资源都可以发布为关联数据。瑞典国家图书馆早在2008年便将瑞典联合目录(LIBRIS)发布为关联数据。美国国会图书馆、德国国家图书馆、法国国家图书馆、OCLC等国际级书目数据或规范数据也纷纷开放了关联数据服务。关联数据也为图书馆的资源发现服务提供了一种新的途径,通过将图书馆的资源和外部信息源连接起来,可以增强和扩展图书馆的资源发现平台[5]。
3 关联数据和知识服务
3.1 海量数据环境下知识服务形态[6]
海量数据的积累催生了数据多样化的服务形态。
第一种是数据服务本身,数据服务更多的是提供一些资源服务以及一些传统的数据能力服务,比如数据的保存、长期历史数据的留存等。
第二种服务形态是信息服务。在现在PB级的存储系统中,检索数据无异于大海捞针。传统的数据检索是靠数据库,是靠文件系统命名的。
第三种服务形态是知识服务。在数据服务和信息加工的基础上,数据融合开始体现出价值。例如,通过对金门大桥附近地质活动数据长达100年的数据采集,形成了一个有效的范本数据,这是通过长时间的数据积累达成的。随着数据本身的积累,企业对行业领域的认知会越来越深,运用大数据的能力成为企业对市场和行业施加影响和干预的重要手段。
3.2 关联数据可扩展知识发现服务
知识发现是一个系统化过程,这个过程的实施是对大量的数据库、数据仓库或知识库进行分析处理,进而深层挖掘,寻找数据间潜在的关联模式、规则、趋势等知识。关联数据为知识发现提供了良好的途径,可以将图书馆的资源与外部的资源有效地相互连接起来,帮助用户获取图书馆以外的资源。无论是对用户还是馆员,关联数据将超越图书馆的资源,为用户提供新的资源发现和访问服务,使获取资源变得更为容易。
3.3 关联数据对知识服务方式的要求
关联数据的最大好处是将来自不同数据源的同一个对象进行整合,可以将多个分布式异构数据源整合关联的访问返回给用户关于该对象的所有相关信息的统一视图,同时允许用户在不同数据源之间进行浏览,这使得用户所面对的数据和信息呈指数级增长。
3.4 基于关联数据的知识服务策略[7]
①建立以关联数据为基础的知识服务资源保障体系。关联数据的出现,使知识服务的资源保障从传统的馆藏资源进一步关联到整个互联网。可以帮助用户实现资源发现的相关性和便捷性,满足用户对热点追踪、新兴或潜在主题发现等高层次科研咨询的需求。
②加强知识服务的数据整合。关联数据一般来源于分布异构的多个数据源,而对用户而言,他们更倾向于一站式地利用所有资源与服务。这就要求图书馆必须充分利用关联数据,对这些分散、异构的信息资源进行有效组织和集成。
③加强知识服务的方式整合。对于开展知识服务的图书馆来说,应基于海量信息资源和数据,利用多种知识挖掘和内容计量手段,扩展检索结果,整合异类资源,进行知识组织系统的构建,为用户提供深层次知识服务。这就要求图书馆的知识服务必须融入用户需求,明确针对具体用户的服务责任,充分利用关联数据去调动和集成各种资源和服务。
④组建高素质的知识服务团队。图书馆开展的知识服务需要馆员具备熟练的计算机操作能力,具备一定的图书情报相关专业知识、良好的沟通能力等素质和技能才能实现。在知识服务中必须依靠团队的力量,更能满足用户需求,从而提高图书馆的整体服务质量。
4 高校图书馆知识服务架构
笔者提出一个基于SOA的关联数据的高校图书馆知识服务架构的模型(图1)。架构由服务、组件和对象3种不同粒度的功能实体构成,其核心是服务。服务是由一个或多个组件构成的粗粒度实体,向外界提供统一的接口,能够通过网络来访问,向服务请求者提供某种功能。组件是由多个对象构成的较细粒度的实体,能够提供独立功能并且可以同其他组件交互。而对象则是封装了状态和操作的更细粒度的实体。根据SOA体系架构原则,整个术语注册和服务系统的架构从上至下分为4层。
4.1 数据层
数据层可分为本地数据源和外部数据源两大部分,其中本地数据源是指图书馆自身所拥有的书目、词表和数字资源等;外地数据源即链接到关联数据网络中的各种数据集,这些数据集原先可能以关系型数据库、电子表格、Web网站等多种形式存放,因此必须采取不同的方法转换成关联数据。
4.2 聚合层[3]
在聚合层中,图书馆通过统一的规范访问关联数据网络,并将其和本馆资源进行词表或本体上的映射,自动或半自动地进行实体识别,最终形成集成数据以便下一步应用。
图1 基于SOA的关联数据的高校图书馆知识服务架构模型
①数据访问。数据访问的基本方法是解析关联数据集提供的HTTP URI,获取以RDF模型描述的对象信息。也有一些数据集提供RDF包,供下载或支持SPARQL远程查询。SPARQL是一种用于RDF的查询语言,2008年成为W3C推荐标准。此外,Sindice、Falcons等关联数据搜索引擎也提供了访问他们从网络上获取到的数据的接口。
②本体映射。基于关联数据的信息聚合是指将来自于多个不同的关联数据集中的信息集成起来并进行整合,这些数据集经常使用不同的本体来描述同一领域的信息。外部知识库可分为通用知识库和领域知识库这些知识库,一般将其所有概念组织为树状结构,可通过计算一个概念到另一个概念的距离,结合概念所处层次和概念的疏密程度来计算概念间的相似度。
③实体识别。关联数据集之间的本体映射为信息聚合打下了基础,而在不同的数据集中指向同一实体的实例数据之间建立关联则是信息聚合的重点。本体映射与实体识别之间存在互补关系,本体映射是实体识别的基础,同时实体识别的结果又可用于本体映射的评价与改进,二者的迭代使用可提高信息聚合的质量。
4.3 组件服务层
组件服务层包括数据操作组件和验证器组件[8]。
RDF数据操作组件的功能是读取和解析RDF或RDFS文档并对RDF数据进行读写和输出操作,需通过针对RDF数据的API来实现。
OWL数据操作组件的功能是读取和解析OWL文档并对OWL数据进行读写和输出操作,需通过针对OWL数据的API来实现。
SKOS数据操作组件的功能是读取和解析SKOS文档并对SKOS数据进行读写和输出操作,需通过针对SKOS数据的API来实现。
RDF验证器的功能是对提交的以某种序列化格式表示的词表文档进行RDF句法验证。W3C提供了一个RDF验证服务,能够对RDF/XML文档的句法进行验证并且对文档进行解析,输出RDF三元组和RDF图形表示。
OWL验证器的功能是对提交的OWL本体的句法进行验证,即验证OWL文件是否符合某种OWL子语言的句法规则。OWL本体的验证还包括语义验证,即检查OWL本体中描述的内容是否具有一致性,可以采用推理机来进行。因为OWLFull子语言不支持逻辑推理,因此语义验证只能针对OWL Lite和OWL Full本体。OWL语义验证的过程比较复杂,建议在术语注册和服务系统中只对OWL文档的句法进行验证。
SKOS验证器的功能是对提交的SKOS词表进行验证。目前W3C推荐了两个SKOS验证器:SKOS 2005 Validator和SKOS 2009 Validator。
4.4 应用层
在组件的基础上,图书馆可以对原有的应用进行拓展,或是开发新的应用。目前,许多图书馆通过实施资源发现服务扩展其目录检索界面,展示更多的馆藏信息,使用户可以浏览动态更新的结果,但由于它主要是通过主题标目和MARC记录里的数据来实现,具有一定的局限性。而关联数据可以为扩展书目信息提供结构化的集成数据,为用户提供新的资源发现和访问服务。随着数据的保存、交换和再利用越来越多的受到重视,并从最初的科学实验数据扩大到地理数据、统计数据等,图书馆开始帮助研究者保存、管理他们创建的数据,并提供给社会使用。关联数据可以使图书馆在数据融合方面发挥更大的作用,通过对地点、名词、题名和概念等的匹配和映射,在数据对象之间建立语义链接,从而为用户提供更有意义的检索结果。
5 结语
关联数据是一种数据发布和关联的方法,为创建公共数据空间奠定了基础。关联数据由于其本身所具有的开放、易用和可扩展特点,使其得到了迅速的发展。基于关联数据的信息聚合可以把图书馆的资源和外部的数据网络相互链接起来,增强和扩展其资源发现平台,更好地保存、管理和利用研究者创建的数据,促进学术交流。
[1] 刘炜.关联数据:概念、技术及应用展望[J].大学图书馆学报,2011(2):5-12.
[2] Berners-Lee T.Linked data[EB/OL].[2011-09-08].http://www.w3.org/DesignIssues/LinkedData.html.
[3] 丁楠.基于关联数据的图书馆信息聚合研究[J].图书与情报,2011(6):50-53.
[4] 朝乐门,张勇,邢春晓.面向开放关联数据的知识地图研究[J].图书情报工作,2012(10):17-24.
[5] 黄永文.关联数据在图书馆中的应用研究综述[J].现代图书情报技术,2010(5):1-7.
[6] 李奕.大数据应用方式:从数据服务、信息服务到知识服务[N].中国计算机报,2012(25).
[7] 管进.基于关联数据的图书馆知识服务策略研究[J].图书馆理论与实践,2012(6):9-11.
[8] 欧石燕.基于SOA架构的术语注册和服务系统设计与应用[J].中国图书馆学报,2011(5):13-25.