国外开放链接质量控制的进展及启示
2013-07-07邱玉婷
邱玉婷
(中国科学院国家科学图书馆 北京 100190)
(中国科学院大学 北京 100190)
1 引言
在数字化、全球化的浪潮中,图书馆的数字资源馆藏越发受到重视,越来越多的用户也更愿意采用电子访问的形式。为了更好地体现以用户为中心的服务理念,今日的图书馆在很大程度上更需要依赖电子全文内容。OpenURL标准引导了一种新的、情景敏感的方式来链接到许可的电子资源内容,它的建立和产生为图书馆员解决了很多问题,实现了不同类型、不同格式、分布式信息资源的无缝链接。
OpenURL框架是一种开放的信息资源与查询服务之间的通讯协议标准,是开放的、上下文相关的链接框架。OpenURL最早产生于2000年,随着其在信息资源整合和内容服务中的应用,美国国家信息标准组织在2005年批准了OpenURL标准版1.0为新的美国国家标准NISO Z39.88。 SFX是最为著名的链接解析器,Ex Libris 在2010年6月发布了SFX 4.0,目前SFX已经部署在1800多家机构,50多个国家。此外,EBSCO Linksource,Innovative Interfaces的 WebBridge,Serials Solutions的 360 Link,WorldCat Link Manager等链接解析器也占据了一定的市场比重。
十多年来,OpenURL框架及链接解析器得到了广泛的应用,图书馆用户能够检索到更多的上下文敏感链接的学术信息。然而,即使采用技术成熟的OpenURL和链接解析器,从引文链接到获取全文的过程依旧经常困扰着图书馆的用户。无论链接解析器技术如何发展,从引文链接到全文的访问失败依旧经常发生;一种提供完全可靠、从参考文献引文到全文之间无缝链接的目标还没有实现。甚至,当链接解析正确时,由于提供商网站中期刊内容的表现方式不同,用户有时也不能找到他们所需的内容。因此,进行OpenURL质量控制的研究就显得愈加重要。
2 OpenURL质量问题及研究现状
OpenURL质量问题并不是偶然产生的,而是具有其一定的根源。近年来,OpenURL质量控制的研究在国外越发受到关注。
2.1 OpenURL的质量问题
动态参考链接模型中,假设包含在OpenURL中的引文元数据是固定的、一致的、准确的,然而实际情况并非完全如此。 早在 1997 年,Clifford Lynch就预料到这种链接元数据的不可靠性:实践经验显示链接的数据通常是不准确或不完整的;而他假定市场压力会迫使供应商提高其链接质量。
2002 年,Miriam E.Blake 和 Frances L.Knudson根据OpenURL框架的第一个测试实例的结果反馈,鉴别出导致OpenURL链接错误的多种不完整或不准确的方式有:匹配复本造成的多个ISSN、卷期信息转录时的错误或不一致、引用文献中的错误页码以及不正确的出版日期。ProQuest's Todd Fegan注意到 OpenURL 的标准并不是完美的,不能解决数据差异:OpenURL假定元数据能够从一个系统准确地翻译和匹配转换到另一个系统中,而实际上不同的编辑政策、标签规则等都是有问题的。
2007年,UKSG给出了题为“链接解析器和连续性资源供应链”的报告,从信息供应链的角度探讨了OpenURL框架中出现的相关问题,强调了缺少数据标准和数据质量控制。与此同时,UKSG委托开展一项探讨链接解析器及连续性资源供应链前景的调查,调查结果显示有72%的回复者认为链接解析器最主要的问题是通过数据库产生的OpenURL不完整或不正确。
2010年10月,在以 “像元数据一样有益:提高OpenURL和知识库的质量”(“It's Only as Good as the Metadata:Improving OpenURL and Knowledge Base Quality”)为主题的网络研讨会中,NISO在现场所做的一项关于OpenURL出现问题频次的调查中,有40%的用户回答是“每天”,有15%用户的答案是“每周”,而没有用户选择 “无”。当询问到造成OpenURL无法工作的最大问题时,有38%的人选择了“构造的OpenURL不完全或不充分”,36%的人选择了 “知识库链接解析器的错误”,5%的人认为是“链接句法错误”,还有20%的人承认不知是何原因。调查说明OpenURL经常不能正常工作并且没有人能够确定是何原因。
2.2 OpenURL质量控制研究现状
针对OpenURL链接的问题,有学者从现有的元数据质量研究中引入了一些相关概念。例如:完备性(completeness),准确率(accuracy),符合预期率(conformance to expectations),逻辑一致性和相关性 (logical consistency and coherence)以及其他评价元数据质量方法。
2008年,康奈尔大学的Adame Chandler主持了对L’Année philologique引文资源相关的 OpenURL链接的研究(以下简称 Aph 研究);旨在检查这些 OpenURL 的质量,迈出了提高链接质量的第一步。在Aph研究中,设计了 OpenURL的质量指标,并给 L’Année philologique中每个元素进行了评分,分析出元素对比报告及元素模式报表。 其中,元素指 title、spage、volume、issue、date、issn、DOI等。
在元素对比报表中,提供了两个常量“%link-tos that recommend or require element”、 “%of all openurls that contain element”以及一个变量“%of this origin's openurls that contain element”。 常量 “%link-tos that recommend or require element”给出了推荐或必须包含请求中的元素占康奈尔链接解析器样例中链接句法字符串的百分比;“%of all openurls that contain element”给出了在请求中出现的元素占康奈尔链接解析器样例中OpenURL的百分比。这两个常量为目标OpenURL元素提供了定标比超。变量“%of this origin's openurls that contain element”给出了从源中获得的OpenURL中目标元素所占的百分比。通过对此报表的分析,可揭示出OpenURL中最频繁推荐/请求的元素、请求缺失的元素等。
元素模式报表列出了元素值的字符串模式。如表1所示的volume元素模式报表中,建立了6个模式类别:5个与正则表达式匹配的类别,以及一个“other”类别。
Aph 研究发现:L'Annéephilologique 数据库中有 50%的“from origin with this pattern”OpenURL包含罗马数字,而这与“form all sample origins with this pattern”有鲜明的对比。数据集中99%的Volume元素仅包含阿拉伯数字,揭示了L'Année philologique使用 volume元素与标准不同,以至于OpenURL链接解析器可能就不能优化或处理这些字符串模式。这就容易造成从链接句法到全文内容提供商中的传递出错。
受Aph研究的激励,Chandler向NISO建议继续该项研究,将结果向更大的范围推广。NISO采纳了该建议,并于2009年12月成立了OpenURL质量指标(the OpenURL Quality Metric)工作组,稍后改名为 IOTA(Improving Open URLs Through Analytics),宗旨是“改变一小步,提升一大步(small changes,big improvements)”。
表1 Aph研究中的元素模式报表[5]
针对电子期刊的情形,NISO于2010年12月设立了PIE-J工作组,推出了电子期刊表示和识别的推荐规范(Recommended Practices for the Presentation and Identification of E-Journals)。推荐规范中主要规定了期刊标题和引文信息、标题变化和标题历史、ISSN、计数制度(Enumeration System)、出版物信息、内容获取(access to content)、印本内容数字化的保存。
此外,UKSG“链接解析器和连续性资源供应链”的报告促动NISO和UKSG联合在2007年12月成立了KBART(Knowledge Bases And Related Tools,知识库和相关工具)工作组。此工作组关注如何在从内容提供商到知识库供应商的元数据批量交换过程中提高元数据准确性,发布了关于如何简化交换过程,从而使链接解析器知识库中的错误最少的推荐规范。
由于IOTA及KBART的项目成果已在国外图书馆界产生了一定程度的影响力,故在下文详细阐述了IOTA、KBART项目及其分析实践情况。
3 IOTA的研究内容及实践
IOTA项目源自于康奈尔大学的Aph研究,跟踪了从引文发送到链接解析器的OpenURL,利用机构或供应商的记录文件分析评估OpenURL的质量。
3.1 IOTA的研究内容
IOTA通过分析OpenURL链接如何工作来获取结果,假设有选择地修正OpenURL能够在本质上提高链接效率。主要的研究内容如下:
(1)IOTA报表系统。在最初的两年研究后,项目组已开发出定性报告来帮助OpenURL提供商与他们的同行对比OpenURL质量,期望最终能够提高整个OpenURL行业的质量。目前,在IOTA报表系统中提供了两种类型的OpenURL质量分析报表:metric和source。从metric报表中可查看某一特定的OpenURL元素被供应商或数据库使用的状况;而从source报表中可查看某一特定的供应商或数据库所使用的所有OpenURL元素的格式和频率。
截止到2012年10月07日,IOTA OpenURL报表系统已存有21,925,039条OpenURL数据可分析;报表系统通过选择日志文件提供商、报告类型(metric或source)、源类型(供应商或数据库)、时间、OpenURL类型、最小样本量等,进而可以分析相应供应商或数据库的OpenURL工作状况。
(2)OpenURL元素权重的确定。OpenURL元素权重基于元素相对重要性来确定。初始时,IOTA调研了300多个目标链接的链接句法,统计每个核心元素的出现次数,并结合了常识推理来确定了每个元素的权重值(见表2)。然而,使用该权重计算得到的完备性的平均得分与OpenURL准确率的相关系数为0.43,为弱相关,表明它们存在一定的相关性,但并不强。
表2 OpenURL元素的初始权重
然后采用了逐步回归(stepwise regression)的统计方法改进了OpenURL中元素的权重。开始选取一个完美的OpenURL集合 (不仅包含了所有的核心数据元素,还能在LinkSource和360Link中有效匹配到全文目标),选用的样本量为1500。接着,执行了一系列测试,将不同元素的OpenURL通过链接解析器,每个测试系列移除不同的元素;并记录下每个元素的相关准确率 (或相关失败率)。使用失败率作为权重的基值,将结果取log10值,计算得到OpenURL元素的权重值(见表3)。
表3 改进后的OpenURL元素权重
再次计算OpenURL提供商完备性的平均得分与OpenURL准确率的相关系数为0.80,为强相关,说明完备性指标能够用于预测某个内容提供商OpenURL的准确率。
然而,采用不同的链接解析器作为样本所计算得到的元素权重值并不一致,知识库的内容和解析器技术会对结果造成影响,这也就意味着无法确定一个通用的权重和评分集。
(3)OpenURL完备性评分体系。IOTA提出了OpenURL供应商完备性(completeness)评分体系,通过计算分析可直接查看供应商的OpenURL质量评分。
OpenURL质量指标中的核心元素指从包含在IOTA报表系统中的元素,源自图书馆和内容提供商的OpenURL记录。建立OpenURL完备性评分体系,假设核心元素的OpenURL完备性与OpenURL链接到指定内容的能力这两者之间存在相关性。某供应商OpenURL的完备性评分(rating)等于该时间段内供应商的得分除以所有可能的得分,即:rating=points for provider during period/total possible points
其中,所有可能的得分等于样例中OpenURL数目乘以所有元素总共的权重值,该时间段内供应商的得分等于包含的各个元素的个数与权重的乘积和。
完备性指标是一种机制,单个的链接解析器提供商能够使用它鉴定出较有问题的一批OpenURL源,从而帮助提升服务质量。
IOTA计划下一步将公布链接解析器提供商使用的用于评估链接质量的完备性评分的计算和使用的推荐规范。
3.2 OpenURL的质量分析实践
IOTA报表系统中可以查看某一特定的OpenURL元素频率以及供应商使用的各个元素的状况。而由OpenURL元素权重的分析可知,ISSN对期刊全文的请求非常重要。以ISSN为例来分析2011年供应商的OpenURL质量。
首先,从IOTA报表系统中选择日志文件的提供商为“EBSCOInformation Services”, 选择报表类型为“metric”。在下一步中选择“by source”为“vendor”,“year”为“2011”,“quarter” 为 “all”, “Openurl type” 为 “articles”, “minimum sampe size”为“1000”。 再在下一步中选择“metric”为“issn”(分析结果见表4)。
表4 各供应商的OpenURL中ISSN百分比
表5揭示了在2011年所有文章请求的OpenURL中,含ISSN最高的供应商有:elsevier.com、embase、jstor,比重都占了100%;而比重最少的是ac.uk,仅有5%。然后,在IOTA报表系统中选择报表类型为“source”,分别将“Vendor”选择为“embase”、“ac.uk”,详细对比两者之间的OpenURL元素差异。
从表5分析发现:在权重较高的几个元素issn、spage、volume中,ac.uk所占比重过低,与平均值相比有较明显的差距。仅仅在OpenURL字符串中发送期刊名并不是总能足够找到合适的匹配,如果有个ISSN关联到期刊,那么从理论上OpenURL提供商就能把ISSN纳入OpenURL请求中以期获得更好的结果。
因而,提供商 ac.uk可在issn、spage、volume这几个元素上加以改进,特别是issn元素,从而可以较大地提高OpenURL链接的有效性。
此外,若以不同年份作为维度,还可以分析供应商对OpenURL元素的改进情况,这里就不再详细叙述。
表5 Embase和ac.uk各元素指标详细对比
4 KBART的研究内容及应用
KBART项目研究OpenURL供应链中的数据管理问题,与IOTA项目互补,创建从内容提供商发送到知识库提供商的过程中数据格式的最佳推荐规范。在2011年3月,KBART和IOTA开始合作,意味着将OpenURL质量控制研究提升到更广泛的语境中。
4.1 KBART的研究内容
知识库是OpenURL链接处理的关键,知识库的质量在很大程度上依赖于内容提供商传送给知识库开发者的数据;若这些数据中有错误就会传播到知识库中。另外,内容提供商提供的数据有各种不同的格式和各种不同的信息元素,而这些数据没有一个统一标准的格式。
KBART工作组利用OpenURL格式和教育各方的重要数据,集中于数据转换的创建指导,通过创建一个标准来提高用户对电子资源的访问,旨在为在线资源完善信息供应链,方便内容提供商和知识库开发商之间准确元数据的及时交流。2010年初工作组已完成了第一阶段的工作,出版了推荐规范报告,为格式和分布式的题名列表提供了一些最好的推荐规范。其中,简单的元数据格式是推荐方法的一部分,鼓励内容提供商使用包含16个具体的字段作为以制表符分割的元数据文件的列(见表6)。
推荐规范用于内容提供商和知识库开发者之间准确元数据的实时交互,实现从数据到链接解析器以及知识库供应链的改善,从而提高OpenURL链接的效率和有效性。这些推荐规范设计得直观、简单,方便内容提供商使用,便于知识库开发人员处理。这个标准能够支持OpenURL连接解析器、电子期刊MARC记录的传递服务以及知识库提供商的自动更新,从而能够减少死链,提高信息资源的可获得性。下一阶段,研究将扩展到电子书和开放获取的资源,以及对特定联盟和机构的元数据转换。
表6 简单的元数据字段格式[30]
4.2 KBART推荐规范的应用
采用KBART推荐规范,一是可以扩展内容的使用范围。据估计,出版商网站中有40%的全文使用是由图书馆数据库驱动的,而大部分通过OpenURL链接解析器的访问流依赖于出版商提供的详细的知识库标题数据。出版商的即时陈述和内容聚合者的可用性能够增加全文内容的揭示和使用,建立在OpenURL框架的基础上又确保了更平滑的数据交互和获取。二是提供了一种公认的数据格式。之前,人们对使图书馆的链接解析器运行最佳的必备数据并没有产生共识,因此,用户访问出版商的内容就受到了阻碍。KBART的格式满足了从全文聚合商到联盟或个体图书馆的知识库提供商这整个下游供应链的需求,还扩展了对出版商内容的访问。此外,这种公认的KBART元数据格式将节省出版商时间,并会提高服务质量。三是能够得到投资的立即回报。一旦出版商开始以KBART格式提供内容可用性的数据,将会有个单独的源指向知识库提供商、聚合商、联盟和图书馆来满足需求。KBART注册处对合作的出版商进行认证和公布后,在适当的情况下将为出版商提供一个数据集下载链接的清算库(clearinghouse)。
出版商或内容供应商采用KBART的具体步骤有:①出版商联系KBART的工作人员,表明加入KBART的兴趣;②访问KBART官网了解详情,参考数据样例文件;③将电子期刊和电子图书的内容格式化,来满足KBART对有效性数据的要求;④确保自己有合适的定期数据交换的加工平台;⑤在KBART登记网站中注册机构;⑥KBART认证后,给出版商提供一个logo,并将出版商添加到认证的机构列表中;⑦出版商可以为其供应链的机构提供KBART格式的数据,或提供可下载的路径。
AIP(American Institute of Physics)的在线出版物平台Sciation早在2010年6月就公布了符合KBART第一阶段的推荐规范。AIP认为符合KBART的推荐规范对其机构客户也大有裨益,能够允许图书馆读者访问和最大化使用许可内容,提高了图书馆的投资回报;并提高了用户做研究的可发现性。此外,还可能潜在地减少引文和电子资源提供的对机构所需字段的查询。目前,KBART的支持者还有:Ex Libris、OCLC、Serials Solutions、Alexander Street Press、Annual Reviews、EBSCO Information Services、Innovative Interfaces、Royal Society Publishing 等。
5 启示
在国内,OpenURL在图书馆的信息资源整合和情景敏感链接服务方面得到了一定程度的推广和应用;虽然目前应用范围不及美国,但不容置疑在未来OpenURL技术将会被越来越多的机构和单位采纳。然而,国内关于OpenURL质量控制的研究还寥寥无几,很多用户在使用时因链接错误而深感不便,这往往也阻碍了OpenURL的应用推广。开展提高OpenURL链接质量的研究,对用户而言,能够在图书馆获得更好的使用体验和服务质量,提高对电子资源使用的满意度;对图书馆而言,能够加强对订阅的电子资源和交叉链接的发现。此外,对目前成为研究热点的关联数据的链接质量控制的研究也具有重要的借鉴意义。
综观国外在OpenURL质量控制方面所做的努力,总结对我国实施OpenURL质量控制机制的启示有:(1)数据格式与国际标准统一。图书馆应当鼓励出版商采用格式统一的KBART、PIE-J推荐规范等,这样能够扩展内容的使用范围,提高服务质量。(2)元素局部调整。使用IOTA测量内容提供商OpenURL的元素质量,从而局部调整OpenURL的设置,进而提高链接的有效性,为用户提供更优质的服务。(3)健全质量控制机制。根据我国的应用现状,建立一套完善的OpenURL链接质量控制机制,更好地发挥OpenURL的应用效果。(4)加强国际交流与合作。OpenURL的质量问题是一个全球共同关注的问题,通过交流和合作,应当取百家之长,加快我国OpenURL质量控制的研究进程。
[1]Glen Wiley,Wm.Joseph Thomas.Improving OpenURL Metadata[J].TheSerials Librarian,2009,56:282-286.
[2]Ex Libris Ltd.OpenURLOverview[EB/OL].[2006-08-01].http://www.exlibrisgroup.com/sfx.htm.
[3]ANSI/NISO Z39.88—The OpenURL Framework for Context-Sensitive Services[EB/OL].[2012-10-05].http://ww w.niso.org/kst/reports/standards?step=2&project_key=d53 20409c5160be4697dc046613f71b9a773cd9e.
[4]SFX-the OpenURL link resolver and much more[EB/OL].[2012-10-05].http://www.exlibrisgroup.com/category/SFXOverview.
[5]Chandler,Adam;Wiley,Glen;LeBlanc,Jim.Towards Transparent and Scalable OpenURL Quality Metrics[J].D-Lib magazine,2011,(17):3-4.
[6]Glasser,Sarah.Broken Links and Failed Access:How KBART,IOTA,and PIE-JCan Help[J].Library Resour ces&Technical Services,2012,56(1):14-23.
[7]Lynch,Clifford A.Building the Infrastructure of Resource Sharing:Union Catalogs,Distributed Search,and Cross-Database Linkage[J].Library Trends,1997,45(3):448-461.
[8]Blake,Miriam E.,Knudson,Frances L.Metadata and Reference Linking[J].Library Collections,Acquisitions,and Technical Services,2002,26(3):219-230.
[9]Hendricks,Arthur.The Development of the NISO Committee AX's OpenURL Standard[J].Information Technology and Libraries,2003,22(3):129-133.
[10]Culling,J.Link Resolvers and the Serials Supply Chain[R].Oxford:Scholarly Information Strategies,2007.
[11]Sarah Glasser.NISO Webinar:It's Only as Good as the Metadata:Improving OpenURL and Knowledge Base Quality[J].Blythe/Serials Review,2011,(37):47-60.
[12]Rafal Kaprowski,Susan Marcin.NISO'S IOTA Working Group:Creating an Index for Measuring the Quality of OpenURL Links[C].Proceeding of the Charleston Libra ry Conference,2010.
[13]Chandler.Results of L’Année philologique online OpenURL Quality Investigation:Mellon Planning Grant Final Report[R].2009.
[14]NISO.IOTA:improving OpenURLs Through Analytics[EB/OL].[2012-10-05].http://www.niso.org/workrooms/openurlquality/.
[15]NISO.Recommended Practices for the Presentation and Identification of E-Journals[EB/OL]. [2012-10-05].http://www.niso.org/workrooms/piej.
[16]PIE-J Working Group.PIE-J:Recommended Practices for the Presentation and Identification of E-Journals[R].2012.
[17]KBART:Knowledge Bases and Related Tools working group[EB/OL].[2012-10-05].http://www.uksg.org/kbart.
[18]NISO.what is iota[EB/OL][2012-04-20].http://openurl quality.niso.org/.
[19]Oliver Pesch.NISO’s IOTA initiative:completeness index and improving element weights[C].IOTA presentation on completeness index,2012.
[20]Rafal Kaprowski.NISO'S IOTA Initiative: Fixing OpenURL Links Using Data Analysis Improving OpenURLs Through Analytics[C].Special Libraries Association Annual Conference,Chicago,IL.2012.
[21]Rafal Kaprowski.NISO'SIOTA Initiative:Measuring the Quality of OpenURL Links[C].NASIG Annual Conference.St.Louis,MO.2011.
[22]NISO/UKSG KBART Working Group.KBART:Knowledge Bases and Related Tools[R].2010.
[23]Andreas Biedenbach.Knowledge bases and related tools:A NISO/UKSG Recommended practice[C].NISO Webinar:It’s Only as Good as the Metadata-Improving OpenURL and Knowledge Base Quality.2010.
[24]KBART:endorsement[EB/OL].[2012-10-05].http://ww w.uksg.org/kbart/s1/summary.
[25]AIP.Using Scitation[EB/OL].[2012-10-05].http://libr arians.scitation.org/librarians/help_files.jsp.
[26] Scitation-Hosted Journals Now Compliant with KBART Phase I Recommended Practice[EB/OL].[2010-06-14].http://www.aip.org/press_release/kbart_compliancy.html.