APP下载

COUNTERRelease5的新特征及其应用研究

2020-02-28杨巍叶仁杰吴元业林伟明

大学图书馆学报 2020年1期
关键词:数据模型计量报告

杨巍 叶仁杰 吴元业 林伟明

摘要 COUNTER Release 5旨在应对不断变化的电子资源,提供可靠、一致和可对比的使用统计数据。文章分析了COUNTER Release 5的规范并探索其在中国高校图书馆数字资源采购联盟(DRAA)中的应用。研究发现,与COUNTER Release 4相比,Release 5有了明显的变化,包括定义了全新的报告体系、统计指标类型、RESTful SUSHI接口等技术细节。为在DRAA中应用COUNTER Release 5,需要从两个方面改进:一是让统计模块兼容COUNTER Release 5的数据模型,使COUNTER Release 5的统计数据可以融入现有的统计模型;二是需要新增RESTful SUSHI接口的客户端及文件解析器,让系统可以获取并解析到COUNTER Release 5的报告。

关键词 COUNTER Release 5 SUSHI 使用统计

分类号 G250.7

DOI 10.16603/j.issn1002-1027.2020.01.003

1 引言

COUNTER (Counting Online Usage of Networked Electronic Resources) 是规范电子资源使用统计报告数据处理、审核和提交的国际化标准[1],2002年开始由高校、出版界和中间商共同发起,其目的是为在线信息服务商和用户提供可靠的、一致的、兼容的使用统计标准和方案,并获得了大部分国际著名学术出版机构的支持。COUNTER经历了5个版本的升级。第一版COUNTER在2003年推出,从第一版到第三版主要关注数据库和期刊,2012年4月正式出版发行了第四版《COUNTER 电子资源使用统计实施规范》,集成了在线期刊、数据库、在线图书及多媒体内容等电子资源的使用统计规范,是对原有《COUNTER 在线期刊及数据库使用统计实施规范》(第三版)及《COUNTER 在线图书和参考书使用统计实施规范》(第一版)的升级与整合,并正式统一命名为《第四版COUNTER 电子资源实施规范》(The COUNTER Code of Practice for Release 4)(以下简称COUNTER R4)[2]。

最新版本的COUNTER Release 5于2019年1月开始生效,目前其官网已经发布了第五版《COUNTER 电子资源使用统计实施规范》(The COUNTER Code of Practice for Release 5)(以下简称COUNTER R5)[3],以及COUNTER R4 与 R5 两个版本之间的过渡时间表和过渡选项,COUNTER R4会一直服务至2021年1月,从2019年1月开始,数据库商会开始逐渐过渡到COUNTER R5。COUNTER R5着重于提高报告的一致性、可信度和可对比性,并在提供的报告种类、报告格式、统计量的定义、COUNTER_SUSHI接口等细节做了很多重大的调整。目前有40家数据库商已经声称正在开始实现COUNTER R5的工作[4],具體进度还需要继续跟踪。

目前无论是国内还是国外,对COUNTER R5的研究都比较少。在国外,主要是奥利弗·佩奇(Oliver Pesch)对COUNTER R5的新功能,与以前的实践进行了比较,并讨论了对图书馆的影响[5-6]。在国内,胡大琴基于R5草案版本对比了统计指标的变化[7];侯景丽从报告设置、指标类型、数据类型、访问类型等讨论了R5引入的新特征[8]。目前国内外研究主要基于对R5文档的解读及对应用前景的展望,较少深入分析或开展应用型研究。

中国高校图书馆数字资源采购联盟(DRAA)门户于2013年初开始支持通过SUSHI(Standardized Usage Statistics Harvesting Initiative)协议自动获取COUNTER报告,于2014年开始支持COUNTER R4[9],并向下兼容COUNTER R3。截至第16届引进数据库培训周,有329家成员馆授权DRAA为本机构收割COUNTER报告,DRAA共收集了268235个COUNTER报告,93613155条COUNTER数据量。DRAA于2015年9月正式成立资源使用统计工作组, 梳理DRAA数字资源使用数据收集与统计工作的现状及问题,敦促数据库商配合使用数据收集工作,对使用数据质量进行抽查与验证,目的是建立使用数据收集的长效机制。如何及时准确地应对COUNTER R5的新特征新变化,是DRAA下一阶段统计工作面临的重大挑战。为此,本文着重分析COUNTER R5的新特征,探索其在DRAA统计模块中的应用,推动国内图书馆及供应链中的内容供应商和数据库商等对COUNTER R5标准的理解与应用。

2 COUNTER R5的新特征

COUNTER一直致力于提供一种行为准则,帮助图书馆获得在线学术资源信息的一致、可对比、可靠的使用统计报告。COUNTER发布的实施规范定义了电子资源在使用过程中需要统计的数据量、统计数据计算的策略、输出报告的内容、格式等技术细节。随着技术的发展,电子资源的内容及其访问方式都有很大的变化,COUNTER R4中对电子资源使用统计的定义和解释已经不能满足这种变化,某些情况下还会导致实际使用环境和COUNTER定义的冲突和混淆[10]。COUNTER R5的改变侧重于提高报告的清晰度和一致性,与R4相比,R5更新了整个报告体系,重命名了计量类型,引入了新的元素来拓展规范的适用范围,并引入了全新的SUSHI协议。COUNTER R5具有的新特征如下:

2.1 新报告体系

COUNTER R4共有24个报告[11],每新增一种统计数据需求,就要新增一种报告类型,不同报告之间为并列关系。COUNTER R5的报告由主报告(Master Report)和标准视图(Standard View)构成,用户可以通过对主报告设置过滤参数来满足不同的统计需求,标准视图可以理解为根据常见统计需求预设了过滤参数的主报告。COUNTER R5的这种报告体系在提供完善统计数据的同时也实现了良好的伸缩性,仅需改变请求参数即可满足不同的统计需求。

COUNTER R5包括4个主报告,分别是PR(Platform Master Report)、DR(Database Master Report)、TR(Title Master Report)、IR(Item Master Report)。4个主报告覆盖了4种主流的电子资源统计方式,包括平台、数据库、标题和项目。

标准视图是从主报告派生出来的,标准视图的报告ID格式为{Master Report_ID}_ {View ID}。COUNTER R5中共提供了12个标准视图来满足图书馆的日常统计需求(见表1)。

另外,在报告的格式方面,COUNTER R5的各类报告使用相同的报告结构,使用同样的元素、属性定义,提供表格格式和JSON格式(JavaScript Object Notation)两种不同格式的报告,并且对于同一种报告的表格格式和JSON格式数据内容也保持一致。

2.2 新属性及元素

随着数字技术的发展,出现了许多全新的电子资源载体及资源访问途径,COUNTER R5的统计范围包括期刊、数据库、电子书、文章、多媒体、研究数据以及社交媒体数据等,为了以一种一致的、可对比的方式管理不同种类资源的使用统计,COUNTER R5添加了一些新的属性和报告元素[12]。通过使用这些属性和元素对主报告进行过滤,可以满足用户更加丰富的使用统计需求场景。新增的属性及元素主要有:

(1)主机类型(Host Types)。统计报告由不同的内容主机所提供,使用报告需求因主机类型而异,为了适应这种差异引入了主机类型的属性。但是要注意的是,主机类型属性并未出现在COUNTER报告主体中,主要是为了帮助数据库商确定不同的主机类型应与哪些统计报告、统计量相关联。主机类型主要包括以下12种:A&I_Database、Aggregated_Full_Content、Data_Repository、Discovery_Service、eBook、 eBook_Collection、eJournal、Full_Content_Database、Multimedia、Multimedia_Collection、Repository、Scholarly_Collaboration_Network。

(2)数据类型(Data Types)。数据类型用来描述报告的统计内容是什么,具体有13种数据类型(见表2)。

(3)章节类型(Section Types)。一些学术内容可以按章节访问,用户可以一次只访问资源的一章或一段内容。共有5种不同的章节类型(见表3)。

(4)计量类型(Metric Types)。相比COUNTER R4,COUNTER R5更新了全部的计量类型,计量类型表示被统计的与内容相关的行为,主要分3类12种(见表4):与检索相关的行为(Searches),与内容项目相关的行为(Requests and Investigations),以及与拒绝访问相关的行为(Access Denied)。其中与内容项目相关的行为分为请求(Requests)和调查(Investigations)两种。任何与内容相关的行为都被认为是调查,包括查看或下载内容等行为,而请求行为仅限于用户浏览或下载资源内容本身。

(5)访问类型(Access Types)。为了区分OA资源和其他开放访问的资源与需要授权访问资源的使用情况,COUNTER R5引入了访问类型的属性,共有4种访问类型(见表5)。

(6)访问方式(Access Methods)。访问方式属性用于区分正常的用户访问行为和为了数据挖掘(TDM)而进行的访问行为(见表6)。

(7)报告过滤器(Report Filter)和报告属性(Report Attribute)。COUNTER R5允许用户通过对主报告设置报告过滤器和报告属性来定制视图。属性定义了报告中包含的统计项目(列),过滤器定义了报告中应包含的统计值。报告过滤器和报告属性应该在报告头中指明。

2.3 新SUSHI协议

COUNTER R5的另一个重大变化就是定义了全新的SUSHI协议。COUNTER R4使用的是基于SOAP[13]的Webservice服务,用户请求与服务器返回数据格式为XML[14]。COUNTER R5使用了RESTful[15]接口的服务,用户请求以URL的形式发送给SUSHI服务器,返回报告数据格式为JSON(JavaScript Object Notation)[16]。

SOAP(Simple Object Access Protocol)是一个严格定义的信息交换协议,SOAP使用XML数据格式,定义了一整套复杂的标签,以描述调用的远程过程、参数、返回值和出错信息,等等。传统的基于SOAP的Webservice存在复杂性较高、效率较低的问题。REST(REpresentational State Transfort)形式上表述为客户端通过申请资源来实现状态的转换,RESTful+JSON轻量級的数据交换协议与SOAP和XML相比更加简洁,更适合于面向资源的应用。

2.3.1 RESTful SUSHI接口、安全验证方式及过滤器

COUNTER R5版的SUSHI接口文档托管于SwaggerHub[17],定义了COUNTER_SUSHI接口的技术规范,其中4个接口是明确要求实现的(见表7)。

返回联盟的成员或站点。返回值包括一系列客户账户信息,包括针对每个客户的Requestor ID和Customer ID等信息

COUNTER R5规定了3种安全验证方式:①通过Customer ID和Requestor ID的组合验证;②通过IP地址验证;③通过调用接口时的API key验证。并且明确说明不可使用未在规范中定义的验证方式,这样简化了用户在调用SUSHI接口时的实现难度。

COUNTER R5规定使用过滤器和属性对主报告进行定制需求时,需要将过滤器和属性明确包含在COUNTER_SUSHI请求中作为参数。以Swaggerhub的样例SUSHI服务为例,获取2019年1月份的TR_J1报告时,请求的URL格式如下:https://virtserver.swaggerhub.com/COUNTER/countersushi_5_0_api/1.0.0/reports/tr_j1?customer_id=szu&begin_date=2019-01-01&end_date=2019-01-31。如果接口状态正常,返回的报告数据包括报告头和报告内容(见图1)。

2.3.2 COUNTER R5报告的交付方式

COUNTER R5对于数据库商提供SUSHI服务的交付方式也提出了明确的要求:①数据库商需要在Web端的管理平台提供表格格式的报告,所有支持的报告必须可以通过SUSHI接口进行访问;②每份报告需要保存在独立的文件中;③必须每月提交报告;④数据必须在4周内提供;⑤每个月的统计数据必须完整,否则要使用异常代码3031来告知用户;⑥至少提供当前年份和之前24个月的统计报告,新加入的数据库商除外;⑦数据库商实现了新版的COUNTER规范,在提供新版COUNTER报告的同时,还要提供上一版本的COUNTER报告。

针对联盟的统计需求,COUNTER R5明确规定联盟的管理员可以通过Web端管理后台获取其成员馆的统计报告,SUSHI实现也必须支持/members接口,通过该接口联盟管理员可以获取到联盟下所有成员馆的SUSHI访问账号。

2.4 COUNTER R5与COUNTER R4相比的变化及兼容方式

COUNTER R5更新了整个报告体系,重命名了计量类型,引入了新的元素来拓展规范的适用范围,引入了全新的SUSHI协议。两个版本常用的报告、计量类型之间的关系详见表8。

相比于COUNTER R4,COUNTER R5的这些新变化使得统计报告内容上更加一致,获取途径上更加方便,图书馆可更准确地获取数字资源的使用数量,更准确地评估数字资源的使用成本,这对于图书馆的资源评价工作具有非常积极的意义。

3 在DRAA使用统计模块中应用COUNTER R5的探索

DRAA系统的使用统计模块于2013年投入使用,于2014年开始支持COUNTER R4。DRAA系统支持手工上传COUNTER报告和通过SUSHI方式自动获取COUNTER报告,从COUNTER R4开始明确要求数据商提供SUSHI服务,DRAA系统从COUNTER R4开始只支持通过SUSHI服务的方式获取COUNTER报告。

3.1 DRAA使用统计模块

DRAA使用统计模块对于统计数据的管理主要分为3个层次:数据获取、数据处理、报告展示(见图2)。DRAA自主研发了基于SOAP Webservice的SUSHI客户端及XML文件解析器(见图3),可以实现对COUNTER R3和R4 SUSHI服务器的调用,并处理了常见的安全认证需求,分析COUNTER报告数据结构,在数据库中建立了对应的数据模型,基于数据模型研发了COUNTER报告解析器。

图2 DRAA统计模块系统结构

图3 DRAA统计模块自动收割COUNTER报告过程

在数据获取层面,系统统一配置了数据库商SUSHI服务器的参数,并向数据库商收集各个成员馆的SUSHI服务账号信息,定期获取成员馆的使用统计报告,同时系统会对所有成员馆的SUSHI账号定期检查维护。在获取到COUNTER报告之后,利用报告解析器将数据解析到对应的数据模型,并存储在数据库表中。通过SUSHI获取到的统计数据原始文件,也会保存在文件系统中,用户可下载这些文件供参考和研究。在数据处理层,系统对获取到的数据进行查询去重等操作,将统计数据与DRAA资源百科信息相关联,并结合数据库商上传的购买费用数据计算使用成本,依据成本及使用量等信息生成各类使用数据排行。最后将处理好的数据以DRAA单馆统计报告及数据库商报告的形式呈现给用户,在报告中给出数据库全部成员馆的平均下载成本、用户本馆的下载成本以及全文下载成本在全部订购成员馆中的排名,供成员馆比较本馆的电子资源使用情况。

DRAA对引进数据库的经济效益评估,主要是针对检索成本、登录成本和全文下载成本[18],在DRAA系统中用户比较关心的统计值就是检索量、访问量和全文下载量。在通过SUSHI获取数据时主要是使用DB1、JR1、BR1这3种报告。

3.2 COUNTER Release 5在DRAA的应用

DRAA在应用COUNTER R4方面已经有了一些成功的经验[19],为了在DRAA中应用COUNTER R5,主要从两个方面进行了改进:一是让统计模块兼容COUNTER R5的數据模型,使COUNTER R5的统计数据可以融入现有的统计模块;二是新增RESTful SUSHI接口的客户端及文件解析器,让系统可以获取并解析到COUNTER R5的报告。

3.2.1 兼容COUNTER R5数据模型

COUNTER R5新增的指标和属性中,主机类型、数据类型、章节类型、访问类型、访问方式等主要是对资源的描述,计量类型是对用户行为的描述。在DRAA系统中应该首先将COUNTER R5中的报告体系和计量类型映射到数据模型,根据DRAA引进数据库的经济效益评估需求,可以使用DR_D1、TR_B1、TR_J1这3个标准视图来获取数据库、电子书、电子期刊的使用统计数据,使用Total_Item_Requests和Searches_Regular计量类型来度量用户的访问行为。

对COUNTER R5的JSON格式数据模型进行分析,使用数据表以兼容COUNTER R5的数据模型,核心的数据表有3个,分别为描述资源的表、记录资源使用量的表以及记录计量类型的表。资源的描述表记录了资源名称、标识符、平台、出版社等与资源相关的信息,可以保存COUNTER R5 JSON格式报告中Report_Item节点的Title、Platform、Publisher等信息(见图4)。Report_Item.Performance节点记录了资源的具体的使用量,其中包括使用量的日期范围信息Period,具体的使用量Instance,其中Instance节点又包括计量类型Metric_Type和统计量的值Count,可以使用资源使用量表来记录这些信息(见图4)。计量类型的表使用行记录来保存所有的计量类型,在表中增加COUNTER R5中新增的计量类型如Total_Item_Investigations等,COUNTER R5中与R4等价的计量类型可以继续使用现有的计量类型来保存数据,例如Total_Item_Requests类型的数据可以在系统中使用ft_total字段来记录(见图5)。

3.2.2 增加RESTful SUSHI接口的客户端

COUNTER R5规定了数据库商必须实现RESTful SUSHI接口,并给出了接口的详细规范。在Java中实现对RESTful API接口的调用方式有很多种,例如使用Jersey API、HttpURLConnection、HttpClient、Spring RestTemplate等。DRAA系统计划使用HttpURLConnection方式来实现COUNTER R5的RESTful SUSHI客户端,核心代码如图6所示,HttpURLConnection[20]工具类继承自URLConnection,包含在JDK的java.net包中,它提供了访问 HTTP 协议的基本功能,它对大部分工作进行了包装,屏蔽了不需要的细节,能够简化开发和后期维护。在获取到JSON格式的报告数据之后,可以使用JSONObject、Jackson ObjectMapper、GSON、FastJSON等工具解析数据,获得的JSON格式的报告以.json格式的文件存档。

DRAA系统的前端用户界面也需要兼容COUNTER R5的选项,在用户界面上应保持一致的风格。在系统后端根据用户设定的SUSHI服务的版本来选择对应的SUSHI客户端(见图7)。在COUNTER R4和R5两个版本的过渡阶段,针对COUNTER R4的服务,使用SOAP Webservice获取数据,然后通过XML文件解析器解析;针对COUNTER R5的服务,使用RESTful API客户端获取数据,并使用JSON文件解析器解析;最后将来自COUNTER R4和COUNTER R5服务的数据汇总到数据库表中。

4 结语

随着信息技术的发展,电子资源在载体形式和访问方式上都发生了巨大的变化,为了应对这些变化,COUNTER Release 5引入了新的报告体系以及新的元素和属性,并且定义了全新的RESTful SUSHI接口,与COUNTER Release 4相比有了非常大的变化。目前各个数据库商还在努力实现COUNTER Release 5的合规性,提供符合COUNTER Release 5的报告必然是未来电子资源使用统计发展的方向。本文分析了COUNTER Release 5的新特征,對比分析了其相对于COUNTER Release 4的更新之处,为DRAA未来支持COUNTER Release 5做好理论上的准备和应用升级的计划,让DRAA对使用统计数据的应用紧贴时代发展趋势,走进技术前沿。

参考文献

1 李洪.新版COUNTER的特征及未来发展[J].中国图书馆学报,2012,38(6):29-37.

2 The COUNTER code of practice for release 4[EB/OL].[2019-02-20].https://www.projectcounter.org/codeofpracticesections/generalinformation/.

3 The COUNTER code of practice for release 5[EB/OL].[2019-02-20].https://www.projectcounter.org/codeofpracticefivesections/abstract/.

4 Organisations release 5 compliant and working toward compliance[EB/OL].[2019-02-20].https://www.projectcounter.org/about/organisationsworkingtowardsrelease5compliance/.

5 Oliver Pesch. COUNTER: looking ahead to release 5 of the COUNTER code of practice[J].The Serials Librarian,2016,71(2):83-90.

6 Oliver Pesch. COUNTER release 5: whats new and what it means to libraries[J].The Serials Librarian,2017, 73:195-207.

7 胡大琴.中文数字资源使用统计数据的调查研究[J].图书情报工作,2017,61(15):104-110.

8 侯景丽.COUNTER R5的新特性及对图书馆的影响[J].图书馆杂志,2018,37(12):46-55.

9 关于开通SUSHI自动收割DRAA成员馆使用统计服务的通知[EB/OL].[2019-02-24].http://www.libconsortia.edu.cn/Acqothernotice/view.action?id=06d024ec9c5041ab95a680356208fc59.

10 Section 1.2: changes from COUNTER release 4, the COUNTER code of practice for release 5[EB/OL].[2019-02-24].https://www.projectcounter.org/codeofpracticefivesections/introductiontocountercodeofpracticerelease5/.

11 Release 4 code of practice: usage reports[EB/OL].[2019-02-25].https://www.projectcounter.org/codeofpracticesections/usagereports.

12 Section 3.3: COUNTER report common attributes and elements, the COUNTER code of practice for release 5[EB/OL].[2019-02-25].https://www.projectcounter.org/codeofpracticefivesections/30technicalspecifications/#commonattributes.

13 Simple Object Access Protocol (SOAP)[S/OL].[2019-03-01].https://www.w3.org/TR/soap/.

14 Extensible Markup Language (XML)[S/OL].[2019-03-01].https://www.w3.org/TR/xml/.

15 Representational state transfer[EB/OL].[2019-03-01].https://en.wikipedia.org/wiki/Representational_state_transfer.

16 JavaScript Object Notation[EB/OL].[2019-03-01].https://www.json.org/.

17 The specification for the RESTful COUNTER_SUSHI API[EB/OL].[2019-03-02].https://app.swaggerhub.com/apis/COUNTER.

18 肖珑,章琳.引进数据库的发展趋势与价格成本策略[J].大学图书馆学报,2015,33(1):5-13+20.

19 Lan Ye, Wei Yang, Weiming Lin. DRAA eresources usage statistics services in China: research and practice[J]. The Electronic Library,2018,36(6):1043-1061.

20 Class HttpURLConnection[EB/OL].[2019-03-04].https://docs.oracle.com/javase/8/docs/api/java/net/HttpURLConnection.html.

作者單位:深圳大学图书馆,广东深圳,518086

收稿日期:2019年5月30日

(责任编辑:关志英)

Research on the New Features of COUNTER Release 5 and Its Implementation

Yang Wei Ye Renjie Wu Yuanye Lin Weiming

Abstract: The COUNTER Code of Practice for Release 5 enables content providers to produce consistent, comparable and credible usage data for their online contents. This paper analyses the new features of COUNTER Release 5, its differences from COUNTER Release 4 and its application in DRAA. The research shows that COUNTER Release 5 is significantly different from COUNTER Release 4. It defines new reporting system, attributes and elements, RESTful SUSHI interface and other technical details. In order to promote the implementation of COUNTER Release 5 in DRAA, two aspects should be improved:one is to make the statistical module compatible with the data model of COUNTER R5, so that the usage statistics of COUNTER R5 can be integrated into the existing DRAA statistical module;the other is to add a SUSHI client and a file parser with a RESTful SUSHI interface to get and parse COUNTER R5 reports.

Keywords: COUNTER Release5; SUSHI; Usage Statistics

猜你喜欢

数据模型计量报告
《化学分析计量》2020年第6期目次
面板数据模型截面相关检验方法综述
关注日常 计量幸福
计量自动化在线损异常中的应用
加热炉炉内跟踪数据模型优化
一图看懂十九大报告
基于因子分析的人力资本计量研究
面向集成管理的出版原图数据模型
一种顾及级联时空变化描述的土地利用变更数据模型