开放科学视域下基于PIDs的期刊网站多模态学术内容管理与利用解决方案
2024-05-29赵婧陈哲郭晓峰
赵婧 陈哲 郭晓峰
摘 要:对于学术期刊网站建设中面临的多模态学术内容的管理与利用问题,本文参考国际科研与学术出版社区中多种持久标识符(Persistent Identifiers,PIDs)的发展状况,提出基于PIDs构建技术解决方案,从而为多模态学术内容的关联、集成、管理与利用提供统一的技术框架。本文分析了科技期刊网站建设中的相关需求,并提出主要以DOI系统作为多模态学术内容资源标识体系同时也需要结合其他PID体系进行必要的补充,从PID编码与注册、基于PID元数据描述内容实体之间的关联关系、充分利用PIDs促进学术期刊网站的内容资源管理与服务功能完善三方面对方案展开论述,同时主要基于Crossref DOI服务进行了具体介绍,以便对方案的实施进行说明。该技术方案基于开放科学的基础设施构建,具有成熟易行、综合性强、可伸缩、易扩展、低成本等特点和优势,为学术期刊出版提供了一种多模态学术内容资源管理与利用的轻型开放式架构,对于促进学术期刊网站的内容管理与传播、开放获取出版流程建设、科研诚信支持服务构建等具有事半功倍的作用。
关键词:科技期刊网站;多模态学术内容;持久标识符;PIDs;DOI;Crossref;开放科学
DOI: 10.3969/j.issn.2097-1869.2024.02.008 文献标识码:A
著录格式:赵婧,陈哲,郭晓峰.开放科学视域下基于PIDs的期刊网站多模态学术内容管理与利用解决方案[J].数字出版研究,2024,3(2):65-71.
1 多模态内容资源的标识及其发展状况
2000年前后诞生的DOI系统[1]为学术论文赋予终身不变的唯一标识(被称为互联网上的身份证),并基于DOI标识体系对学术论文进行持久链接与引用等,催生了丰富多样的DOI应用场景。经过20余年的发展,DOI系统不仅成为全球通用的数字对象唯一标识符[2],而且也日益成为学术社区不可或缺的基础设施,在网络环境下对于学术内容的标识、链接、发现、利用、集成、管理等各方面都发挥着越来越重要的支撑作用。
由于DOI系统基于先进的数字对象唯一标识理论与技术框架而构建[3],可以按照实际应用的需要标识任何种类、任意颗粒度、任何媒体类型的对象,因而随着学术出版与开放科学的发展,DOI也被用于为更广泛的学术内容资源提供唯一标识,如论文中的图表、科学研究中产生的科学数据集、科技报告、音视频或其他媒体类型的学术相关内容也以数据集的形式被赋予DOI编号。随着论文评审流程向公开化、透明化发展,第三方论文评审平台推动学术期刊将专家评审报告单独注册DOI并在平台上进行公开。而研究方法(Protocol)的公开化需求也催生了DOI作为研究方法的唯一标识而被应用。论文相关的基金项目也被赋予DOI编号,以便于与论文或其他研究成果的信息进行集成,从而追踪、管理基金项目的研究产出。
近10余年来,DOI的蓬勃发展也促进了学术领域其他持久标识符(Persistent Identifiers,PIDs)的诞生与发展。如开放式研究人员标识(Open Researcher and Contributor ID,ORCID)[4]、研究机构标识(Research Organization Registry,ROR)[5]、研究活动标识(Research Activity Identifier,RAiD)[6]、开放基金标识等。越来越多的标识体系不断涌现,针对科研活动中的不同要素提供更加细颗粒度的标识,从而促进相关信息的追踪与管理,并进一步促进科研流程的公开与透明;而为DOI系统提供标识注册、解析与管理能力的底层系统——Handle系统[7],也早已被嵌入数字空间(DSpace)、费多拉(Fedora)等多个著名的研究内容管理系统中,或直接被研究机构用于内部研究报告、研究数据及其他种类的研究资源的标识与管理,在学术研究社区得到了广泛利用。包括DOI在内的PIDs被纳入开放科学基础设施,体现出学术研究社区对于标识技术、标识体系在科研活动及科研成果信息管理中发挥的重要支撑作用,有了深入和一致的认识。标识技术在学术研究社区从无人知晓到炙手可热,可以说DOI的发展功不可没。而DOI系统作为科研成果最常用的唯一标识体系,与其他PID系统进行信息集成,可以为促进学术信息管理提供更加完整、统一的管理框架与解决方案。如将DOI元数据与ORCID、ROR元数据进行集成,可以为学者提供学术档案,也为科研机构管理科研成果提供了方便的途径。2022年,被批准为ISO标准的RAiD则是一个桥梁性的标识符,通过将所有关联的PIDs(如 ORCID、ROR、Crossref DOI[8]、DataCite DOI[9])及PID系統中存储的标识符数据记录进行关联集成来支持项目信息的跟踪。RAiD的管理机构已采用DOI系统并使用DOI前缀“10.25”分配RAiD,开创了不同的PID体系之间的新合作模式。
由此可见,20余年来PID基础设施蓬勃发展,形成了多种开放标准体系和丰富的服务,特别是借此识别出海量的研究实体及其相互间数以亿计的连结关系,并以结构化的数据(即元数据)进行描述,为开放科学提供了整个研究生态系统的数字化背景,并可以被整个学术研究社区进行永久的、可重复性的利用,进一步推动开放科学的持续发展。需要注意的是,不同PID体系采用的技术、标准及管理与运行架构不同,服务方式也不相同,而且即使遵循相同的标准体系,不同的服务商提供的服务也不尽相同,如不同的DOI注册机构提供的注册服务有较大的差别,在实际应用中应进行充分了解后加以选择。
2 基于PIDs构建期刊网站多模态学术内容关联、集成、管理与利用的技术解决方案
PIDs作为开放科学的基础设施,可以为学术期刊网站建设中涉及的多模态学术内容的管理与利用提供强有力的支持。因此,本文重点基于前期开展的科技期刊网站建设项目,总结形成基于持久标识符的多模态学术内容关联、集成、管理与利用技术解决方案。方案主要从负责学术期刊网站建设的平台技术方的需要出发,明确利用PID技术与服务促进多模态资源管理与利用的应用需求,并结合目前国内外相关技术与服务发展状况,提出技术解决方案与建议,便于技术平台方的实施与利用。
当前,学术期刊网站建设中对多模态学术内容资源标识技术与服务相关需求愈发多样,主要包括:(1)实现期刊网站相关各种类型、各种颗粒度的内容资源的唯一标识与识别,以统一的框架标识和描述多模态、多尺度的内容资源,并保证内容资源的持久链接;(2)利用PIDs促进内容资源的关联、集成。期刊网站多模态、多层级的内容资源之间的关联同样丰富,而且内容资源种类越丰富、颗粒度越细化,这些资源之间的关联也越多样,并将成倍增长,基于PIDs对不断增加的关联关系进行识别和描述,是促进期刊网站多模态内容资源关联和集成的关键;(3)利用PID元数据进一步丰富學术期刊网站的内容资源,同时提高内容资源的数据规范性,可促进数据挖掘与利用,并提升网站内容的可发现性;(4)在网站功能中实现PID注册及其他相关服务的自动化,并嵌入期刊出版、论文审校、内容发布等工作流程中,可提高生产效率;(5)充分利用其他PID增值服务,进一步发挥PIDs作为开放科学基础设施对学术期刊出版、传播的全流程的支持作用,可促进期刊网站的功能和服务的丰富和完善。
根据以上学术期刊网站建设中对于PIDs相关需求,本研究拟主要采用DOI系统作为多模态学术内容资源标识体系,并采用其他PID体系进行必要的补充。在此基础上提供以下技术解决方案。
2.1 为不同种类、不同媒介的学术内容资源提供PID的编码、注册及持久链接方案
2.1.1 PID编码、注册方案
经调研确定,本方案中涵盖的多模态学术内容资源主要包括期刊及其论文、论文中的图形图像与表格、作为论文补充材料的数据集、音视频文件、论文的同行评议报告、与论文相关的预印本等。以上内容资源均可采用DOI作为唯一标识进行识别。对于与论文信息相关的作者、研究机构、资助机构、资助基金等实体的标识,可根据网站建设的实际需要基于其他标识体系进行适当的扩展。因此,本方案主要针对以上内容资源种类和颗粒度,采用以DOI体系为主的标识编码方法,并基于服务的适配性、丰富性、成熟性等因素推荐选择Crossref DOI作为主要的注册服务。DOI编码的语法规则、相关示例可参考相关国际及国家标准规范[3],或查阅Crossref网站提供的相关文档,也可获得DOI编码最佳实践及多种注册方法、注册数据规范的详细说明。
2.1.2 维护内容资源的持久链接与访问
持久链接也是基于Handle系统的PIDs(如DOI系统)的核心能力之一。但除依赖DOI系统的能力外,还需要及时进行注册信息的更新工作,才能保证DOI链接的持久有效,也才能保证DOI成为内容资源的持久链接。因此,期刊网站需要提供相关功能和服务维护PID链接的持久性。
以DOI为例,某个内容项的DOI编码一经注册则终身不变(且不能删除),因此,利用DOI对该内容项进行参照或引用就可以成为持久的引用。进一步地,基于DOI的网络解析机制,通过点击DOI可以链接到内容项的详细信息(一般链接到描述该内容项的网页,如期刊论文的文摘页)。如果这种链接是持久有效的,DOI就可以提供对该内容项的持久链接。但内容项的网络位置发生变化是普遍发生的,甚至可能随着时间的推移在网络中永久消失。DOI系统为这种情况提供了解决方法,即:当变化发生时,通过在DOI系统中及时更新内容项注册的网络位置信息就可保证DOI链接到最新的网页。因此,当内容资源的网址发生变化时(最常见的就是期刊网站的域名变化),就需要内容的注册者在DOI注册服务中提交新的信息以对DOI元数据进行及时更新。Crossref网站中也提供了DOI元数据更新方法的说明。
对于科技期刊内容的长期访问问题,一些DOI注册服务也提供了解决方案。如Crossref DOI元数据中提供了对于长期保存位置信息的存储,即使科技期刊内容的原始网站不再运行,也可以通过DOI链接到长期保存系统中保存的内容。
2.2 基于PID元数据描述内容实体之间的关联,促进期刊网站对多模态内容资源的关联与集成
本方案通过学术期刊网站建设涉及的多种应用场景识别网站多模态内容实体之间的关联,充分利用PID服务功能,实现在数据层面对于关联关系的识别与固化。主要方法和步骤包括:
(1)在注册数据中采用多种方式描述、声明内容项之间的关联;
(2)利用针对特定场景的PID服务产生更多的关联关系;
(3)通过PID数据的检索获得包含增值的关联关系的元数据,并利用到期刊网站建设中。
在数据层面对关联进行识别与固化,与在应用层面识别并实现关联相比事半功倍,而且将为应用功能的实现提供坚实的基础,大大降低网站应用功能实现的复杂度。同时对于带有关联关系的元数据的重复利用也将进一步降低全行业的应用开发成本,提升行业应用发展的整体水平。
在利用PID对不同种类的内容资源及相关实体进行唯一标识的基础上,对实体之间的关联进行结构化描述并注册到PID服务中,是在数据层面识别和固化这种关联的最佳途径。而且通过PID服务对于注册数据的开放共享,这些包含丰富关联的内容资源元数据将被科研社区充分利用,并进一步促进关联关系的丰富和扩展,不断提升整个学术研究生态背景信息的完整度和清晰度。这种方法也可以将产生或存储在不同系统内的相关实体信息进行关联,在数据层面形成有机整体,进而从底层促进系统间的信息交换与集成。
Crossref DOI元数据中提供了对关联关系的详细描述规范,Crossref的部分其他增值服务也会产生隐性的关联关系(见图1)。
2.3 充分利用PIDs技术、标准、服务,促进学术期刊网站的内容资源管理与服务功能完善
本节所述的方案内容可以提升科技期刊网站对PIDs的应用效果,从而促进学术期刊网站建设规范化、内容资源丰富化,以低成本的方法提升数据质量、扩展数据覆盖范围、丰富和完善科技期刊网站服务功能。
2.3.1 规范标识的显示与链接
完成对科技期刊网站多模态资源的PID注册后,需要按照国际、国家层面的标准规范和行业最佳实践,在网络环境下对这些PID进行展示和链接。由于持久链接是DOI系统的核心功能,所以DOI的标准规范中尤其强调DOI的链接与显示方式。为了进一步促进DOI链接的应用,Crossref于2017年修订了“Crossref DOI显示指南”,将DOI的显示格式从“doi:10.xxxx/xxxxx”改为可以直接链接的“https//:doi.org/10.xxxx/xxxxx”,并要求所有会员一致遵守这项规范,同时强调应为DOI链接提供合乎规范的响应页面(Landing Page)。除了要求会员在内容上遵守响应页面中必须显示相关的Crossref DOI这一义务外,还建议在目录、摘要、全文HTML和PDF文章及其他学术文档、参考文献管理系统、向第三方提供的元数据、内容页面上关于“如何引用此内容”的说明、社交网络链接、其他希望用户被稳定或持久定向链接的地方等环境中也显示Crossref DOI。
2.3.2 通过检索服务,促进PID元数据的利用
20余年来,随着PID服务的持续发展,其服务种类不断扩展,服务规模迅速增加,在各种PIDs注册服务中汇聚的元数据信息也已发展为规模庞大、质量上乘的学术内容数据源,而且在开放科学的背景下,这些PID数据源的开放程度越来越高,为整个学术出版行业的信息管理、共享与利用提供了强有力的支撑。在学术期刊网站建设中,平台技术方应充分利用这些PID元数据,进一步丰富和扩展网站覆盖、关联的内容资源,并将其作为提高网站数据质量的低成本途径,在丰富资源、加强外部关联、提高数据质量的基础上,促进数据的挖掘与利用。其中Crossref DOI元数据检索服务具有一定代表性。Crossref DOI元数据规模庞大,内容丰富,开放性好,提供了多种访问和利用的方式,并且大部分都是免费服务。随着近年来Crossref不断与业内的合作伙伴联合推动元数据公开,持续鼓励出版商会员不断提升DOI注册元数据的完整度和质量,出版商会员向Crossref注册的摘要和参考文献元数据都得以完全公开,任何人都可以利用Crossref DOI元数据检索服务免费获得并无限制地使用这些元数据。技术平台方可以通过Crossref AP①1对Crossref提供的这些数据进行获取和利用,也可以了解DataCite、ORCID、ROR等提供的开放API,对于其他PID数据进行更广泛的集成和利用。(①全称为Application Programming Interface,表示应用程序编程接口。)
2.3.3 利用PID服务的API集成相关功能,实现自动化的工作流程
大多PID服务都提供了丰富、开放的API,促进PID服务的集成及PID注册数据的利用。在学术期刊网站功能开发过程中,平台技术方可利用这些API促进与PID系统的互操作,实现PID相关工作流程的自動化,也可以利用API提高与PID系统进行数据交换的效率。
Crossref提供了注册文件提交的机器接口及批量化的注册功能,技术平台方可以加以利用,在期刊网站中实现DOI一键注册功能,并可提供单篇论文注册、按期注册等多种注册方式。技术平台方也可以结合Crossref提供的DOI信息更新方法,在期刊网站中实现DOI信息的自动更新,特别是在网站迁移时能够对URL地址进行自动批量更新。
Crossref元数据服务提供了丰富的自动化接口。技术平台方可以利用REST API②或OAI-PMH③,提高元数据检索、下载的效率,也可以根据期刊网站的不同应用场景,利用其他接口开发期刊网站需要的功能,如利用OpenURL检索接口,可以实时获取单篇论文的DOI;利用XML API可以开发基于DOI进行自动引文填充的功能等。(②API的一种类型,提供了一种灵活、轻量级的方式来集成应用程序并连接微服务架构中的组件。③全称为Open Archives Initiative Protocol for Metadata Harvesting,其中OAI是一种独立于应用的、能够提高Web上资源共享范围和能力的互操作协议标准,为加强系统之间的互通性、更准确地取用学术性电子全文资源,OAI进一步发展诠释资料撷取协定(OAI-PMH)以利运作。)
2.3.4 利用PID增值服务为数据增值,丰富、扩展期刊网站功能
PID服务除基础的注册服务外,还提供丰富的增值服务,适用于科研与学术出版等社区的多种应用场景,科技期刊网站建设的技术平台方应进行充分了解和利用。以下以Crossref为例进行介绍。
(1)参考文献链接(Reference Linking)是Crossref要求所有会员必须作为一项义务实行的核心服务。这项服务要求为参考文献加上DOI链接,对会员内容的相互链接提供了平等互惠的方案,在极大促进研究可追踪性的同时,还会促进会员内容的发现。这项服务是Crossref核心价值的体现。
(2)被引服务(Cited-by)与参考文献链接服务密切相关,或者说互为因果,可以在会员提交注册的内容项之间匹配引用关系、统计被引数量并提供具体的引用情况。会员在使用参考文献链接并在注册DOI的同时提交更完整、更准确的参考文献元数据,才能够在使用被引服务时得到更准确的被引统计数据。
(3)交叉标记(Crossmark)允许Crossref的会员出版商补充提供与内容项(DOI)相关的任何被认为有价值的数据,也为读者提供了一种跨平台的方式来快速发现研究成果的状态及与编辑过程相关的其他元数据。出版商可以利用Crossmark补充提供论文的基金资助、访问许可(如金色OA、绿色OA等)、临床试验注册信息等元数据,而且还可以提供论文编辑过程中的关键日期、评论、防抄袭检测等各种信息,而稿件的修订、撤回等信息对于读者的帮助更为显著。这些补充信息本身及其更新的及时性、信息获取的方便性,都为开放科学环境下的学术内容出版与学术信息交流提供了更高的透明性。目前论文撤稿问题备受关注,为了提高撤稿信息的透明性,Crossref于2023年9月宣布收购撤稿观察(Retraction Watch)数据库,并对2个系统中的撤稿数据进行了集成,去除重复数据后,共得到大约5万条撤稿数据记录。Crossref已将完整的数据集进行了公开发布,供用户免费使用,并将持续更新维护撤稿数据。
(4)相似性检测(Similarity Check)是在学术期刊出版过程中对科研诚信建设非常重要的服务,Crossref通过大幅降低费用,使会员出版商都可以轻松利用相似性检测系统iThenticate来进行论文的防抄袭检测,降低了整个学术出版社区的科研诚信建设成本。
(5)事件数据(Event Data)与Crossref的其他数据服务有明显区别,这项服务并不是完全基于其会员出版商提交的元数据开展服务的,而是基于DOI对经过筛选的数据源网站进行广泛的监测,抓取在Crossref中注册DOI的内容在这些网站上被传播或提及的实时数据。这些数据目前也是完全开放的,可以通过Crossref API进行获取和利用,无论对于作者、读者、出版商和资助者,都可以利用这些数据了解、评估已发表的研究内容除引用以外的被使用情况。
3 结语
在开放科学蓬勃发展的今天,DOI和其他PIDs的相关数据及PID服务机构提供的各种服务,对于构建完整的科研生态信息全景、支持学术出版及学术研究全流程都发挥了强有力的基础支撑作用,已成为科研、学术出版等社区发展不可或缺的基础设施。作为其中的代表,Crossref在成立20余年来,一直围绕着学术出版以及科研社区的发展,持续开发、提供一系列基于DOI的服务,也与其他PID服务产生了越来越多的互操作。
本文分析了科技期刊网站建设中对于多模态内容资源进行管理与利用的具体需求,结合PID技术原理与服务发展状况,提出了基于PIDs对多模态学术内容进行关联、集成、管理与利用的技术解决方案。该方案具有成熟易行、综合性强、可伸缩、易扩展、低成本等特点和优势,并且基于开放式的社区基础设施而构建,可以说是一种对于多模态学术内容资源进行管理与利用的轻型开放式架构。
目前,中图科信数智技术(北京)有限公司已成为Crossref在中国的赞助机构(Sponsor Organization),可通过与Crossref的密切合作,协助中国期刊更方便、更充分地使用Crossref DOI服务对多模态学术内容进行管理和利用。期待未来的科技期刊技术平台建设方在学术期刊网站的建设中参考本文提出的方案进行大胆探索,充分利用PID相关数据和服务,面向学术内容出版与传播的全流程,围绕学术期刊论文出版、多模态内容资源的关联与发现、科研诚信、研究影响力评估等重点应用场景,开发丰富的应用,为开放出版、开放获取、开放科研持续提供支持。
作者简介
赵婧,女,中图科信数智技术(北京)有限公司期刊业务总监。研究方向:数字出版技术平台建设与标准。
陈哲,男,中图科信数智技术(北京)有限公司副总经理,中国图书进出口总公司数字發展中心副主任。研究方向:数字出版技术平台建设与标准。
郭晓峰,女,教授级工程师,中图科信数智技术(北京)有限公司特聘专家。研究方向:学术内容资源标识方案研究。
参考文献
[1]DOI Foundation.Home page[EB/OL].(2023-11-30)[2024-04-25].https://www.doi.org.
[2]ISO.ISO 26324 Information and documentation: Digital object identifier system[EB/OL].(2015-10-23)[2024-04-25].https://www.doc88.com/p-9055329955576.html.
[3]中国国家标准化管理委员会.GB/T 36369信息与文献 数字对象唯一标识符系统[EB/OL].(2018-07-31) [2024-03-28].https://www.doc88.com/p-3595050518712.html.
[4]ORCID.About[EB/OL].[2024-03-28].https://info.orcid.org/what-is-orcid.
[5]ROR.About[EB/OL].[2024-03-28].https://ror.org.
[6]RAiD.About[EB/OL].[2024-03-28].https://raid.org/about.
[7]DONA Foundation.Handle syste[EB/OL].(2023-11-30) [2024-03-28].https://www.dona.net/handle-system.
[8]Crossref.Home[EB/OL].[2024-03-28].https://www.crossref.org.
[9]DataCite.About us[EB/OL].[2024-03-28].https://www.datacite.org.
A PlDs-based Multimodal Academic Content Management and Utilization Solution for Journal Websites under the Perspective of Open Science
ZHAO Jing1, CHEN Zhe1, 2, GUO Xiaofeng1
1. Zhongtu Kexin Technology (Beijing) Co., Ltd., 100020, Beijing, China; 2. Digital Development Center, China National Publications Import and Export (Group) Corporation, 100020, Beijing, China
Abstract: In view of the management and utilization of multimodal academic content faced in the construction of academic journal websites, this study proposed a technical solution based on persistent identifiers (PIDs) with reference to the development of multiple PIDs in the international scientific research and academic publishing community, providing a unified technical framework for the association, integration, management and utilization of multimodal academic content. This study analyzed the related needs in the construction of sci-tech journal websites, and proposed that the DOI system was mainly used as a multimodal academic content resource identification system while combining with other PID systems. The solution was developed from three aspects, namely, PID encoding and registration, describing the correlation between content and entities based on PID metadata, and making full use of PIDs to promote the content resource management and service function of academic journal websites. It was also mainly based on the Crossref DOI service to specify the implementation of the solution. The technical solution was based on the infrastructure construction of open science, and had the advantages of being mature, easy to implement, comprehensive, scalable, easy to expand, and low in cost. It provided a lightweight and open architecture for multimodal academic content resource management and utilization for academic journal publishing, and had a multiplier effect on promoting content management and dissemination of academic journal websites, constructing open-access publishing process, and developing scientific research integrity support services.
Keywords: Sci-tech journal website; Multimodal academic content; Persistent identifiers; PIDs; DOI; Crossref; Open science