图书馆自建资源开放方式及安全控制研究
2017-04-22于亚秀汪志莉
于亚秀+汪志莉
[摘 要]阐述了目前信息环境的特点,探讨了图书馆为自身自建资源提供开放平台,实现资源开放获取,拓展资源服务渠道的意义,并介绍了两种提供资源开放获取的两种方式——基于WCF框架的Web Service API和开放关联数据,及资源开放过程中数据安全的保护措施。
[关键词]特色资源;开放共享;API;关联数据;安全控制
[中图分类号]G250.74[文献标志码]B[文章编号]1005-6041(2017)01-0064-04
1 引 言
在目前信息环境中存在两大现象:一是互联网已经打破了人与人、资源与资源的传统界限和连接方式,任何信息,一旦成为封闭的“孤岛”,就会失去其投资与实际利用价值之间的平衡[1],图书馆资源也是一样。二是在目前的互联网中,混搭、跨界和穿越成了创造价值的最重要方式,将不同圈子里的人或资源放在一起是一种价值的创造和深层利用,看上去毫无价值的错位便很有可能产生不可估量的深远价值。
目前国内高校大部分自建资源的利用还仅仅是在当前的封闭模式下为用户提供简单的检索和查询,如学位论文数据库。在这种封闭的框架下,资源的价值被掩盖和埋没,图书馆应考虑如何将自身拥有的资源外在化,摆脱“信息孤岛”的束缚,将自建资源推送出去与外界产生联系,在外在化的过程中挖掘自身资源的深层价值,即以开放(open)和关联(linked)为着重点,从封闭的信息“守门人”向信息提供者身份转变,迎接需求多样化的读者以及信息资源和信息服务日益泛在化挑战。
2 資源元数据开放方式
图书馆自建数据库种类众多,属性和软件架构各异,对于某些数据库,图书馆想要为其添加新的功能或者开放新的接口,必须求助于供应商,或者支付一定的费用,而有的厂商并不提供相关的服务。因此我们要运用现有技术打破资源的封闭环境,更好地挖掘图书馆自建资源数据库,为图书馆自建资源与第三方资源方便、有效且无缝地整合提供接口,建立一个包含异构资源的统一用户视图,实现跨资源、跨平台和跨系统的资源共享环境。本文介绍两种资源元数据开放的方式——基于WCF框架开发的Web Service API方式和发布关联数据的方式。
2.1 开发Web Service接口
如何通过互联网将自建资源与外在资源产生关联,并在外在化的过程中挖掘自建资源的深层价值?众所周知,API是资源开放和将不同资源互联的最好纽带之一,在保护知识产权的前提下,图书馆针对相关资源开发API供第三方调用,将图书馆资源与第三方资源方便、有效且无缝地整合起来,即可以为图书馆自建数据库增加附加值和新的访问点,扩展自建资源的使用范围和使用价值,又可以使第三方通过混搭的方式使用图书馆自建资源,达到使用户感觉到图书馆的服务无处不在的效果[2—3]。华东师范大学曾以学位论文数据库为例[4],尝试打破自建资源原有的架构体系,“强行”进入原本封闭的自建数据库架构系统,开发了基于OPEN API开放技术框架的信息检索模式,服务于学校其他单位及其他用户。
微软提供的WCF框架[5]和Web Service技术为解决异构环境中应用互操作及应用安全提供了充分的技术支持。WCF框架具有很好的互操作性、安全性、信赖性及通用性,可以用标准化的流程来创建各种服务,并且支持Web Service的行业标准和核心协议,数据也支持XML格式化,有自己的格式化器,能完全胜任跨平台和语言等问题。Web Service使用XML扩展标记语言来表示数据,这个是跨语言和平台的关键,并最终将服务以一个URL资源的方式输出,客户端可以通过编程方式请求得到它的服务,而无须知道所请求的服务是如何实现的,Web Service的体系结构是基于Web服务提供者、请求者、服务管理者(注册中心)三个角色和服务发布、服务发现、服务绑定三个动作构建而成(图1)。简单地说,Web服务提供者即Web服务的拥有者,它等待为其他服务和用户提供已有的服务;Web服务请求者即Web服务功能的使用者,它利用SOAP消息向Web服务提供者发送请求以获得服务;Web服务管理者的作用是把一个Web服务请求者与合适的Web服务提供者联系在一起,它充当管理者的角色。
我们可以用WCF作为面向服务的开发模型,利用其标准化的流程进行协议的定义、实现、发布,通过Web Service技术开发实现服务与内容的分离的接口,开发后的API将数据获取服务封装成一个URL后发布,数据使用者调用Web Service API后,将其实例化后,便可以像获取本地数据一样获取和使用数据。
基于以上两种技术,为自建资源开发的Web Service API(以学位论文为例,模型如图2),具有平台透明性,可以与运行不同环境中的应用进行通信,为相关资源的开放获取提供了更广的空间,为相关资源数据库开发API是充分挖掘资源特点、在更大范围内被其他机构或者用户利用、拓展资源服务和体现资源深层价值的有效方式。
2.2 发布关联数据
关联数据指的是一系列在网络上发布并链接结构化数据的方法,这一系列的方法中包括了语义信息的编码方法、发布方法和利用方法,这些方法合在一起便构成了语义网的一种简化实现[6]。关联数据的规范由国际互联网协会(W3C)维护,W3C推荐使用RDF作为关联数据的发布格式,并鼓励人们建立更多的RDF关联。以结构化数据为基础,经过语义化关联的关联数据将终结“信息孤岛”的现象,把现有的网络从一个分散的文件系统转变成一个分散的数据库系统[7]。
将关联数据引入图书馆,可以使得图书馆实现了真正意义上的数据开放。首先,对于图书馆来说,需要把终点(如OPAC中的详细记录页面)作为关联的起点,把绑在一起的“记录”打开,找到可以作为起点的地方(如作者、出版社等),读者通过OPAC不仅可以知道图书馆收藏了该作者多少书,还可以了解该作者更多更详细的信息,通过关联数据,馆藏数据走出了图书馆的围墙,由封闭的数据变为开放的数据。其次,从图书馆界内部业务过程看,关联数据的应用确保了数据的重用和分享,使得图书馆数据流程更加清晰,图书馆可以将自己的自建资源发布成关联数据供外部调用,如上海市中心图书馆将名录发布为关联数据,如果各省市都这么做,任何人都可凭此完成一个全国性的图书馆名录,并标注在地图上。
目前已有很多成熟的工具,我们可以根据图书馆自建资源类型,将图书馆内相关数据类型转换成关联数据类型RDF的工具,大致分为以下两种。
(1)将传统数据格式转换为RDF格式进行存储,即把如PDF、Word、CSV、Visio、Excel等数据格式转换成RDF格式的工具,如Aperature,Javadoc RDFizer、RDF123、Torrent2RDF、Filekurl等,都可以将图书馆中的传统数据格式半自动或者自动地转换成了关联数据,此类工具适合于数据格式规范、数据量较大、可拆分、数据存储模式相对简单的数据,通过这些工具,可以大大提高转换的效率和准确率。如,通过Flickurl可以将一些历史资料的扫描照片转换成RDF格式。
(2)将关系数据库公开为RDF接口。语义Web的最大数据来源就是基于实体—关系模型的关系数据库(RDB)中的信息进行建模,图书馆大部分的自建资源都是以关系数据库进行存储,如书目目前有多种工具可以用于将关系数据库中的数据公开为RDF视图,从而被其他用户访问和使用。如D2RQ、SquirrelRDF、DB2RDF、Virtuoso、Joseki。这些工具在具体应用时各有侧重点,但都提供了通用的机制,对于关系结构比较简单的关系数据库仅仅需要修改一些配置就可以使用,使得将关系數据库快速公开为一个RDF知识库的过程变得相对简单和可行。但对于数据关系模式相对复杂或者含有不一致性数据的关系数据库,在将其转换为RDF的过程中需要根据实际情况加入额外的处理步骤。
我们利用关联数据重组图书馆自建资源,并将起开放利用,建立如图3模型,扩展图书馆数据规模的同时,实现图书馆自建资源与其他机构的资源共享与重组,拓展了服务范围,增强了图书馆的社会价值和读者凝聚力。
3 安全控制
对于图书馆来说,知识产权在数据库资源共享方面还是一个不容忽视的问题,图书馆更需要保护自建资源的版权:其一,对于某些自建库,如学位论文,由于大环境下的政策限制,要坚决控制其使用权和著作权。其二,对于某些独创性的数据库,创建过程中投入了大量的人力物力,在开放过程中会考虑适度开放。因此,我们在通过以上两种方式打破了系统固有的封闭性的同时,还需要在开放过程考虑面向对象的范围及数据传输中的安全问题,以确保数据能够被合法利用。
3.1 证书加密
当传输敏感的数据时,不管是应用或网络架构的哪一层,都需要考虑以某种方式进行传输加密。对于应用传输加密来讲,SSL/TLS是目前最常见和广泛支持的一种模型。在Web Service API方式中,我们可以采用X509证书[8]作为数据安全认证控制方式,加密通过证书对(服务器客户端各一个)完成,通过证书对的匹配,确保匹配成功的客户端才能访问,并且经过X509证书加密后的输入及获取到的输出内容,
均是被加密的密文,在数据传递过程中无法看到明文,能确保数据传输过程私密、安全、可靠。实现这样的加密操作,在调用上不会受到任何影响,只需在服务程序以及调用的客户端进行一些文件配置等操作即可,因此其实现方式具有高配置型、灵活性的特点。基于X509证书加密的操作流程如图4。
3.2 IP控制授权
通过限定授权访问的IP来确保自建资源被特定联盟内用户使用,这也是一种常用的、比较简单的控制办法,此方法可用于以上两种资源开放方式。实现IP控制授权,有以下几种方式:一是通过系统自带安全策略限制,目前windows server自带了多重安全防护,其中系统自带的防火墙就很强大,可以通过创建IP安全策略,设置允许访问的IP段,IP地址,端口、服务等。二是,使用第三方防火墙或者对接入外网的路由器设定进行设置限制,第三方防火墙及路由器都有此功能。三是,通过程序编码控制服务允许被访问的IP地址。
4 结 语
随着数字化图书馆的推进,图书馆自建资源越来越多,过去,图书馆是给自己砌了一堵墙,在围城之内拥抱自己的书目数据及其他资源,逐渐切断了与外界的沟通,但新的服务理念及网络信息环境,需要图书馆打破这堵墙,让图书馆以开放、包容的姿态走向数据网络,成为一种网络数据服务商,向其他应用提供数据服务的同时,也将自身资源与其他数据融合起来,聚合更多的数据源,提供更完整的信息服务,这对图书馆的馆藏数据和图书馆人都是一个巨大的挑战。
以上两种方式都打破了系统固有的封闭性,在确保数据能够被合法利用的同时,解决了平台异构性和开发语言差异性,系统之间的内容关联性更强,拓展了图书馆数据库自建资源的服务渠道,使馆藏自建资源得到充分挖掘和利用,增强图书馆的吸引力。在目前的大环境下,传统的API的方式有更广阔的使用空间,华东师范大学已经尝试为学位论文开发API,将学位论文数据推送至研究生院,为学生选择导师提供参考,此项目取得了很好的反响,未来随着大环境中开放获取理念及实践脚步的推进,关联数据因其独特的优势必将被更大范围的推进和使用。
[参考文献]
[1]范 炜.走向开放关联的图书馆数据[J].图书情报知识,2012(3):94—102.
[2]李书宁,贾西兰.国内外图书馆行业相关OpenAPI发展现状调查及分析[J].图书情报工作,2012(7):11—15.
[3]贾西兰,郭建峰.图书馆行业OpenAPI利用的权限控制[J].图书情报工作,2012(7):21—25.
[4]李 欣,于亚秀,刘 婕.基于SRU协议的学位论文数据库拓展服务实践[J].图情杂志,2011(7):142—144.
[5]Windows Communication Foundation[EB/OL].[2016-05-10].http:∥msdn.microsoft.com/en-us/library/ms731082.aspx.
[6]刘 炜.关联数据:意义及其实现[EB/OL].[2016-02-07].http:∥www.docin.com/p-77597094.html.
[7]Heath T,Bizer C.Linked Data:Evolving the Web into a Global Data Space[EB/OL].[2016-01-07]http:∥linkeddatabook.com/editions/1.0/.
[8]X509-Wikipedia,the free encyclopedia[EB/OL].[2015-12-11]http:∥en.wikipedia.org/wiki/X.509.