APP下载

RA21:网络学术资源访问解决方案的创新与探索

2020-01-08吴至艺林俊伟

图书馆研究与工作 2020年1期
关键词:代理服务器浏览器身份

吴至艺 林俊伟 肖 铮

(厦门大学图书馆 福建厦门 361005)

1 引言

电子资源已经成为科学研究中最主要的学术资源类型,图书馆作为文献资源中心,在电子资源收集、描述、揭示、获取方面投入了大量人力物力,以满足科研人员对于电子资源的使用需求。依据教育部高校图书馆事实数据库系统数据统计,“211高校”图书馆2011—2015年的文献资源投入,自2013年起电子文献资源投入已超过了纸本文献资源投入,其中电子期刊经费占了电子文献资源投入的大部分[1]。为解决数字化环境下电子资源的描述问题,图书馆尝试使用DC和MARC相结合的方式来对文献类电子资源进行描述[2]。随着数字技术的发展,电子文献资源种类越来越多,数据量越来越大,格式越来越复杂,图书馆行业制定了RDA(Resource Description and Access,资源描述与检索)标准,以适应数字环境下资源描述与检索的需要[3]。面对搜索引擎带给图书馆的冲击,一站式的资源发现系统已成为图书馆的标准配置,DOI、OpenURL等技术实现了从搜索引擎和发现系统到电子资源全文的快速获取[4]。在互联网环境下,通过网络随时获取电子资源成为科研人员的主要需求,图书馆采用了代理服务器、URL重写、反向代理、VPN等技术保障校外用户使用电子资源的权利[5]。此外,图书馆和数据库商还通过Athens、Shibboleth项目打破传统的IP认证模式,以基于用户身份的认证模式,提供更加友好便利的校外电子资源获取方式[6]。开放科学日益成为主要的学术生态,科研人员通过学术社交平台或者使用Sci-Hub获取电子资源的现象越来越普遍,其原因主要是因为获取资源的便利性[7]。如果不能解决好电子资源获取中的“最后一公里”问题,图书馆将受到新的资源获取方式的重大挑战,也将蒙受资金和人员方面的投入损失,作为文献资源保障中心的地位将随之动摇。为用户提供更为友好、便利、顺畅的电子资源的访问与获取,是图书馆和数据库商共同面对的重要问题。

2 电子资源访问现状分析

出于版权保护的目的,数据库商一般采用基于IP地址的认证模式和基于用户身份的认证模式,以保证电子资源在合理范围内使用。两种认证模式的基本原理是:基于IP的认证模式,数据库商会针对每次用户请求判断其地址是否在授权使用的IP范围内,如果不在授权范围,则拒绝用户使用。基于身份的认证模式,数据库商会预先判断用户是否为合法用户,如果是合法用户,则可正常使用电子资源,如果不是合法用户,则拒绝用户访问。就现状而言,大多数图书馆订购的数字资源都采用基于IP的认证模式,在这种模式下,校内合法IP范围内使用订购资源不存在任何问题,但校外访问(校内合法IP范围外)是一直以来困扰用户的主要问题,并且随着用户环境的变化,这一问题越发凸显。

目前图书馆已普遍采用以下几种常见的网络学术资源校外访问解决方案,如基于IP地址的解决方案有代理服务器、EZProxy、VPN(虚拟专用网)。代理服务器解决方案通过在合法使用数据库IP范围内建立代理服务器,校外用户经过代理服务器的中转,即可合法使用电子资源。EZProxy是一种改进型的代理服务器模式,它通过“URL重写”的方式实现用户在校外合法使用电子资源。在图书馆电子资源导航页上展示已经重写过的数据库地址,用户通过访问导航页中改写后的URL实现在校外获取电子资源。VPN指在公共网络中建立专用的数据通讯网络的技术。图书馆需要先创建位于校园网内的VPN服务器,用户在校外访问数据库资源前,通过互联网先连接VPN服务器,建立一条专用的虚拟通讯链路,如同专门建立了一条从用户端到校园网的专用线路。当用户访问数据库时,就相当于从校园网发起访问请求,实现电子资源校外获取。以上3种基于IP地址的解决方案,均需用户提前进行设置操作,且图书馆需要建立专门的代理服务器、VPN服务器,或维护“URL重写”规则,对于用户使用均有一定的技术门槛,对于图书馆的维护管理也存在一定的难度。

Athens和Shibboleth是基于用户身份认证的网络学术资源校外访问解决方案。Athens始于1996年英国高等教育部的一个网络数据库登陆管理的项目,后来成为英国教育部门和卫生部门的事实标准。订购了数据库的机构,需要先在Athens中登记,并且将本机构的合法用户的认证信息存放到Athens。当用户从校外访问数据库时,选择Athens认证,再选定所属机构,然后通过用户ID和密码验证,认证成功后即可获取电子资源。Athens通过用户身份认证方式,摆脱了IP限制对于电子资源的获取。OpenAthens是Athens的第二代产品,它采取了分布式的认证方式,将认证模块与本地认证系统相集成,引导用户利用本地认证系统来完成对用户认证。Shibboleth是美国Internet2的一个项目,目的是使用联盟认证模式解决受版权保护资源的获取管理。Shibboleth系统由用户、身份认证提供方、服务提供者、认证服务器导航四部分组成。身份认证提供方由用户所在机构建立,负责认证用户,生成认证声明和用户属性,并与服务提供者之间传递和共享认证安全信息。服务提供方由数据库厂商建立,与身份认证提供者共享用户的安全认证信息,为合法用户提供相应的访问权限。认证服务器导航一般由机构联盟提供,是一个用于导航的工具,供用户来确定自己所属的机构,将用户重定向到合适的身份认证方。用户访问数据库时,选择使用Shibboleth登录,然后选择机构所属的联盟组织,在联盟组织列表中选择用户所属机构,然后跳转到用户机构提供的用户认证页面,当用户完成认证,最后跳回到数据库获取电子资源[8]。

近年来,面对Sci-Hub和ResearchGate的竞争,数据库商和学术搜索引擎分别开发出各自的全文获取工具,如Google的CASA(Campus Activated Subscriber Access)、科睿唯安的Kopernio、Digital Science公司的Anywhere Access。CASA是由Google Scholar于2013年创建的,旨在使拥有合法授权的图书馆用户在Google Scholar中更加平滑地访问电子资源全文的项目[9]。Google Scholar从合作的数据库商获得订购机构所订购的内容列表以及授权使用的IP范围,当用户在授权使用的IP范围内通过Google Scholar进行搜索,搜索结果如果是图书馆订购的电子资源,则会在结果列表中出现获取电子资源全文的链接,并且通过cookie将用户信息记录下来。当用户使用同一台设备在授权IP范围外再次使用Google Scholar,Google Scholar会根据cookie确认用户身份,允许用户继续通过Google Scholar的全文链接获取电子全文。Kopernio是由Mendeley和Newsflo的创始人于2017年创建的新产品,愿景是提供学术期刊论文的一键式访问,提高获取全球科学知识的便利性[10]。2018年4月,科睿唯安收购了Kopernio,旨在解决当前科研界在获取期刊论文时大费周折的问题。Kopernio集成了超过2万个期刊网站、数据库平台、开放获取知识库和搜索引擎,以浏览器插件的形式帮助用户实现一键式合法获取学术期刊全文文献。Anywhere Access是由Digital Science公司开发的全文获取工具,通过与现有图书馆数据库和工具的集成,如Google Scholar、Pubmed、Dimensions、Primo、数据库商平台和其他学术网络网站,研究人员通过Anywhere Access的浏览器插件中的“查看PDF”按钮,即可实时查看和访问图书馆订阅资源和开放获取资源。对于图书馆未订阅的内容,Anywhere Access还提供了5 000多种期刊的付费集成服务[11]。

以上几种网络学术资源校外访问解决方案虽然在一定程度上解决了用户的需求,但也存在某些方面的问题。表1从3个方面对已有解决方案进行了比较。在安全性方面,代理服务器易受到网络攻击,安全性较低;EZProxy、CASA、Kopernio、Anywhere Access三种方式通过浏览器插件或Cookie方式收集用户信息,存在一定安全隐患;VPN、Athens、Shibboleth方式具有较高的安全性。易用性方面,代理服务器、VPN需要用户提前进行设置,对于用户有一定的使用门槛;EZProxy要求用户必须通过图书馆的电子资源导航访问,对于用户使用不够友好;Athens和Shibboleth这两种基于用户身份的认证模式,在用户认证时,操作流程不够简便明了,容易造成用户困扰;CASA、Kopernio、Anywhere Access通过浏览器插件的形式,用户仍需进行额外安装。管理维护难度方面,代理服务器、EZProxy、VPN、Shibboleteh均需要图书馆自备服务器,安装相应的软件进行配置,对用户管理、数据库链接等内容长期更新,并保持服务器的正常运行,对管理维护的要求高;Athens采用商业服务模式,图书馆只需维护用户管理;CASA、Kopernio、Anywhere Access由数据库商提供服务,管理维护工作简单。在开放科学环境下,为用户提供更加无缝平滑的电子资源获取体验,是数据库商和图书馆需要共同解决的问题。

表1 网络学术资源校外访问解决方案功能对比表

3 RA21电子资源访问解决方案研究

随着网络环境的发展变化,基于IP控制的传统电子资源访问方式已经阻碍了知识传播与合法获取。在开放科学环境下,基于开放获取和用户身份的电子资源访问方式将成为未来发展的主要方向。开放获取运动经过20余年发展,促进了知识开放共享与再利用。虽然开放获取正逐步成为学术资源交流的模式之一,但传统的出版模式仍为当前和今后一段时间的主要学术传播途径。在新的网络环境下,解决目前出版模式的学术资源获取问题,探索更为便捷易用的基于用户身份的电子资源访问解决方案,有助于知识共享和创新发展。

3.1 RA21简介

RA21全称为Resource Access for 21st Century,旨在满足用户随时随地访问所需学术资源的需求,为用户提供一种简单、无缝、可定制、安全的获取学术资源的方式。它由国际科学、技术和医学出版商协会(Internatianal Association of Scientific,Technical and Medical Publishers,简称STM)和美国国家信息标准组织(National Information Standard Organization,简称NISO)于2016年联合发起,目前已有超过60家来自于出版社、大学、软件商、企业、机构的单位参与其中[12]。RA21认为在目前的网络环境中使用学术资源,应该拥有与使用日常互联网大多数网站一样的体验。在开放性这一原则下,RA21寻求一种与具体供应商无关的、易于实现和后续维护的、可以逐步实施的方案。RA21提出在已被各机构广泛采用的联邦身份认证系统的基础上,通过实验性项目来探索联邦认证的最佳实践,然后通过NISO发布指导意见,改进目前联邦身份认证中管理维护成本高和用户体验不友好的问题。

3.2 RA21技术架构

3.2.1 安全断言标记语言SAML

SAML,英文全称是Security Assertion Markup Language,即安全断言标记语言。它基于XML标准,用于在身份提供者(identity provider)和服务提供者(service provider)之间交换关于主体的认证和授权数据。SAML是OASIS组织安全服务技术委员会的产品,目前SAML2.0作为一种成熟的用户认证授权规范,被广泛应用于基于Web的统一认证和单点登录系统中,SAML通过令牌的方式进行授权数据交换,为保护用户隐私提供了基础条件[13]。SAML规范的框架如图1所示。

图1 SAML XML结构框图

3.2.2 SAML相关概念

为便于理解和掌握SAML规范,需要了解SAML中有的几个主要概念。

主体(Subject):拥有身份信息的实体。一般可以理解为拥有身份信息的用户。

身份提供者IdP(Identity Provider):为用户提供身份的实体,为用户提供身份验证,确保用户所声称身份的真实性,负责确认哪些服务可以被该用户访问。

服务提供者SP(Service Provider):为用户提供正式服务的实体,依赖身份提供者提供的断言验证用户身份和用户权限,为已授权认证的用户提供其服务。

断言(Assertions):使用SAML规范的一段XML语句,定义了3种提供断言的声明。身份验证声明是指由已经成功验证用户的一方创建的声明,至少包含被认证的主体,以及认证发生的具体时间。属性声明是指包含关于主体的特定标识属性。授权声明是指包含了主体的授权权限信息。

元数据(Metadata):定义SAML中实体描述其配置文件的标准规范,以供合作伙伴使用。至少包括实体ID、加密密钥、协议端点。

协议(Protocol):定义在不同实体间请求与响应的数据包格式。

绑定(Binding):定义如何使用通用的底层通信协议和在系统之间交换断言和请求-相应消息的协议。

配置(Profile):描述在特定场景使用中SAML认证的细节和步骤。

3.2.3 SAML认证流程

SAML认证流程步骤如图2所示:(1)用户请求访问某个受保护的资源。(2)SP需要获得用户身份验证用户是否有权访问,生成一个SAML认证请求。用户选择认证服务IdP。(3)SP将请求重定向到用户选择的IdP,SAML包作为参数一同发给IdP。(4)IdP解析SAML请求,用户在IdP网站进行认证。(5)IdP构造断言,生成SAML认证响应。(6)IdP重定向用户浏览器到SP,将SAML响应包作为参数发给SP。(7)SP验证SAML中的用户断言,创建安全的上下文环境。(8)SP将用户浏览器重定向到目标资源。

图2 SAML XML认证流程图

目前OpenAthens和Shibboleth联邦认证都是基于SAML的认证流程,但在使用中存在如下3个方面的问题:一是IdP服务的发现部分,用户需要在众多的IdP中找到自己机构的IdP进行验证,即WAYF(Where are you from,你来自哪里)的问题。二是用户在不同SP间重复通过IdP验证的问题,缺乏在不同SP间共享IdP信息的机制。三是由IdP提供给SP的信息中,由于没有规范要求,可能导致IdP提供给SP过多的个人信息,如用户Email地址等个人信息,从而引起隐私数据保护问题。

3.3 RA21的目标

为了解决目前联邦认证中易用性差、用户体验不好的问题,RA21项目提出以下4个主要目标。

用户界面(UI)一致性:联邦身份认证中的SP采用统一的用户界面,帮助用户更容易识别和使用,方便用户在不同的SP平台上通过认证按钮链接到IdP站点。

完善IdP发现机制:增加IdP的元数据,使用户可以通过其地址位置、机构名称或者Email域名找到匹配的IdP,优化IdP发现流程。

IdP持久化机制:持久化用户选择的IdP数据,并在SP间共享此数据,减少在访问不同SP平台时用户重新选择IdP的频次。

注重隐私保护:尽最大可能保护用户隐私,遵守目前相关信息安全方面的最佳实践。

3.4 RA21实验项目P3W和WAYF云

RA21为寻求最佳解决方案,进行了3个实验项目,分别是针对学术机构的隐私保护持久化P3W项目、WAYF云项目、针对医药企业与出版社间的联合身份认证项目,并且由社区内的相关利益方共同对实验项目进行测评。以下将详细介绍P3W项目和WAYF云项目,比较两者间的异同点,以便了解RA21针对学术机构用户获取电子资源的最佳实践。

3.4.1 隐私保护持久化WAYF(P3W)

P3W项目提出使用用户Email域名、IP范围、地理信息简化IdP的发现流程,使用浏览器信息和共享的元数据缩小IdP选择范围,通过智能技术改进登陆流程,提高用户界面的一致性,使用浏览器本地存储解决跨域调用IdP持久化数据的问题。

P3W提供两种服务模型。第一种是IdP发现服务的简单集成,服务提供者通过链接的方式将用户导向一个联邦认证发现服务的中心网站,如图3所示。它使用一个通用URL指向中心发现服务,然后由用户从智能IdP发现服务列表中选择自己的机构IdP,用户浏览器自动记住用户的选择,并在后续与其它SP的会话中继续使用此IdP。第二种是IdP发现服务的高级集成,通过在受信任的SP安全域中使用JavaScript调用IdP发现服务的API,使SP可以访问用户浏览器中保存的IdP选择信息,更加无缝地处理IdP选择的流程(如图4所示)。

图3 P3W简单集成模型

图4 P3W高级集成模型

当用户访问受限内容时,SP会先通过IdP发现服务API查询本地浏览器中是否有用户之前选择IdP的信息,如果有则直接使用该IdP进行用户授权验证,如果没有则通过智能搜索IdP界面供用户选择新的IdP进行授权验证。P3W仅在用户浏览器中记录用户所选择的IdP,不会记录用户名、密码或其他个人身份信息。如果用户使用无痕模式浏览器,在关闭浏览器后将不会存储任何信息。

3.4.2 WAYF云

WAYF云项目初衷是为用户提供与IP认证模式使用体验相同的联邦认证体验,减少用户在不同数据库商平台进行重复验证的操作,尽可能使用现有的协议规范和用户认证模式,利用开源软件创建WAYF数据共享基础设施,提供易于集成到数据库商平台的组件。

WAYF云架构由WAYF云、API、WAYF插件3个部分组成。WAYF云保存用户设备(通常为浏览器)的全局ID与在不同SP上的本地ID的对应关系,API提供创建、发现、共享用户WAYF信息的接口,WAYF插件将为用户设备在SP上创建本地ID,并传送给WAYF云。用户访问某个SP时,将通过API创建该用户设备的全局ID和本地ID,并把用户在SP上选择的IdP的数据通过API共享给WAYF云中心做持久化保存,并且与全局ID关联。当用户访问另外一个SP时,该SP通过API调用用户设备存储在WAYF云中心的全局ID,再调用关联的持久化IdP信息对用户进行认证授权。WAYF云模型如图5所示。

图5 WAYF云模型

WAYF云不存储用户名、密码或其他个人身份信息。云端仅存储用户设备在SP中的本地唯一标识符和在中心数据库中的全局唯一标识符的映射关系,用户本地浏览器保存全局唯一标识符。当用户使用隐身模式,用户数据只存在于会话的生命周期,当浏览器关闭时用户数据会被清除。

3.5 RA21进展

RA21从安全分析、隐私保护、技术架构3个方面对前期的实验性项目进行了深度测评。采用微软的STRIDE威胁模型,从身份欺骗、数据篡改、信息泄漏、不可否认、拒绝服务、权限提升几个方面对P3W和WAYF云项目测评,结果表明两者在安全性方面的风险都较小。根据欧盟一般数据保护条例要求对数据隐私影响进行了评估,认为两者都不涉及直接获取个人隐私数据,唯一区别是P3W将持久化数据存储在用户本地浏览器,WAYF云存储在云端集中的数据库中。从服务架构上看,两者的区别在于WAYF云采用类似传统的应用架构,需要一个高可用的后端中心数据库,保证持久化信息的保存、全局ID和本地ID的查询调用,还需要满足欧盟一般数据保护条例的隐私数据使用要求[14],也需要有更多专业人员进行维护。P3W采用了较为轻量化的架构,中心服务仅需要提供JavaScript API和对必要的元数据进行维护。根据隐私数据最小化和实施维护成本低的原则,RA21选择了P3W作为社区推荐方案,下一步将形成NISO规范草案,发布最终规范并向社区发布实践指导意见。根据RA21的项目时间表,2019年二季度将建成基础服务中心开始提供服务,数据库商根据指导意见改造各自平台,形成遵循RA21最佳实践的统一服务模式。

4 结语

电子资源已经成为最主要的学术资源,图书馆作为重要的文献资源保障机构,一方面需要提升资源的丰富度,另一方面还需要保障资源的可用性。在当前的信息环境下,用户随时随地获取学术资源的需求日益增长,如果数据库商和图书馆还囿于传统的电子资源访问模式,将使用户越来越多地使用如Sci-Hub、ResearchGate等更简便易用的平台。长久地看,这样影响整个学术交流环境的良性发展[15]。由包括标准化组织、出版商、图书馆、软件开发商、服务提供方等诸多相关利益方组成的社区共同推动的RA21项目,打破了传统的IP认证模式,以目前已在业界广泛使用的联邦身份认证为基础,在用户隐私安全保护、联邦认证界面统一、认证流程优化等方面进行了改进,在学术环境中实现一个与目前互联网使用体验相一致的、现代的、基于标准的资源访问模式,从而满足用户的需求和期望,同时又有效保护用户隐私,使任何设备在任何时间和地点,都能安全便捷地合法获取电子资源,更好地满足用户对学术资源的获取使用,推动知识传播和分享利用,加速创新型社会的发展。

猜你喜欢

代理服务器浏览器身份
微软发布新Edge浏览器预览版下载换装Chrome内核
反浏览器指纹追踪
跟踪导练(三)(5)
妈妈的N种身份
身份案(下)
基于防火墙技术的网络安全机制
防火墙技术与校园网络安全的研究
放松一下 隐瞒身份
一种容侵系统的设计
浏览器