DOI在科技期刊出版全流程中的价值及常见错误分析
2024-05-29李鹏刘红霞倪婧沈锡宾刘冰魏均民
李鹏 刘红霞 倪婧 沈锡宾 刘冰 魏均民
摘 要:作为期刊文献的关键元数据,DOI为每篇文献赋予了独特标识,在多方面发挥着至关重要的作用:它不仅促进了文献的广泛传播,还确保了作者的科研成果能够首次发表,支撑了版权交易,助力了科学数据的传播,并且在科技论文评价中扮演着日益重要的角色。本文通过分析中华医学会系列杂志中的DOI错误,阐释了DOI在科技期刊传播和评价中的重要价值,并提出了防止DOI著录错误的有效建议。
关键词:数字对象唯一标识符;科技期刊;传播;著录错误;DOI
DOI: 10.3969/j.issn.2097-1869.2024.02.010文献标识码:A
著录格式:李鹏,刘红霞,倪婧,等.DOI在科技期刊出版全流程中的价值及常见错误分析:以中华医学会系列杂志为例[J].数字出版研究,2024,3(2):77-83.
数字对象唯一标识符(Digital Object Unique Identifier,DOI)已经在国内应用良久,其作为数字化对象的识别符,对所标识的数字对象而言,相当于公民的身份证,具有唯一性[1]。DOI的标注使用虽已普及至绝大多数科技期刊,但据笔者观察,不少编辑部对于DOI的理解和使用尚存有诸多误区,更遑论将其作为数字化时代科技期刊论文的核心信息并予以重视。本文对DOI在科技期刊传播和评价中的价值进行分析,总结了中文科技期刊编辑部在应用DOI时的各种注意事项,以减少、克服DOI注册中的错误问题,并提出了防止DOI著录错误的有效建议,有助于DOI进一步成为期刊数字化出版传播的有力辅助工具。
1 DOI发展及注册
为维护数字化时代的知识产权和版权所有者利益,20世纪90年代末,美国出版商协会创立了国际DOI基金会(International DOI Foundation,IDF),DOI系统由此建立并开启运营,DOI国际标准(ISO 26324)也随之制订。现阶段,科技期刊对文献进行DOI注册的唯一途径是通过IDF授权的DOI注册代理机构进行,目前全球共有11家DOI注册机构,如CrossRef、EIDR、DataCite等。2007年,中国科学技术信息研究所和万方数据联合向IDF申请并取得了DOI的中文注册权,并在此基础上成立了中文DOI注册与服务中心;2013年,中国知网正式成为DOI注册代理机构,开始为各种期刊、图书等提供DOI注册服务。中华医学会杂志社出版的中文期刊数据,均通过万方数据进行注册。
2 DOI在科技期刊出版全流程中的作用
虽然国内科技期刊编辑对DOI已有所认知,但关于DOI对科技期刊传播的价值尚有以下几点值得进一步探讨。
2.1 促进科技期刊优先出版
为促进科技成果的快速传播,确保作者科研成果的首发权,近年来科技期刊的优先出版活动越来越频繁。优先出版文章在期刊印刷前尚无期数、页码等出版元数据信息,也可能存在部分信息的修正,网址的变更等,为获得优先出版论文的首发权,DOI发挥了充分作用。其唯一性、持久性、可动态更新及多重解析等功能可以实现稿件不同版本的定位一致性,从而解决优先出版文章的永久可定位问题[2]。但如果优先出版时DOI著录错误可能导致该文献与正式出版的文献失去联系,引文数据库可能无法对两个版本的文献进行归一化处理,最终使得文献的引用和下载数据丢失,从而影响期刊评价。尤其在现阶段,优先出版的文献已经成为社交媒体的优质传播对象,若这些文献的相关数据(包括阅读、下载和引用等)遗失就比较遗憾了。
2.2 促进科技期刊及文献的全面传播
DOI促使期刊文献在信息共享的底层实现了标准规范及链接协议,其多重解析功能实现一个编码对应多个链接地址。此外,国内外各类文献数据库、出版传播平台、搜索引擎均支持DOI与期刊全文的链接,这些功能促使文献的访问路径多元化,让更多的中文期刊能深入参与国际传播,促进知识的传递及挖掘,从而增加期刊论文的下载及被引频次,提升期刊的影响力[3]。例如,全球具有较高影响力的学术协作网络平台ResearchGate(https://www.researchgate.net)和Mendeley(https://www.mendeley.com)的主界面均支持通过DOI检索文献;以Springer Nature与ResearchGate合作为例,出版商倾向于要求用户上传论文时填写DOI[4];科技新闻集散网站EurekAlert!上发布的科学新闻,均会在新闻稿下方附上论文DOI;《中国肺癌杂志》已通过DOI实现期刊全部论文的回溯注册,在html格式论文的参考文献部分实现引文外链(Linkout),优化阅读体验,有利于保持知识体系的完整性[5]。论文若著录错误的DOI可能导致在线资源的“链接断裂”,进而影响整个学术传播系统的稳定性和信赖度。
2.3 作为替代评价及科技评价数据来源的介质
Altmetric评价系统在追踪某一研究成果的在线影响力时会纳入三方面数据,其中之一就是可用于识别研究成果的标识符,包括DOI、分布式数据集RePEc等;PlumX评价系统纳入统计的引用数据来源之一即为Crossref注册的DOI,基于DOI統计参考文献的相关数据。单连慧等[6]利用DOI建立PubMed和SCIE文献数据的关联,构建医学领域科技评价文献数据集,比既往利用单一文献数据库的方式获取了更全面、准确的引文数据。若DOI错误则可能导致引用各数据集的计数不准确,影响学术评价体系。
2.4 平台的链入(LinkIn)服务
数字化平台可以基于DOI进行LinkIn服务。中华医学会杂志社自有平台“中华医学期刊全文数据库”(https://www.yiigle.com)基于期刊DOI数据,完成了期刊数据DOI检索、纸版期刊与数字期刊跳转阅读、PubMed收录数据跳转全文阅读等多项服务。DOI著录错误会使读者和研究人员无法通过DOI找到特定的文献,影响文献的可访问性和可见性,对期刊文献的传播、引用及期刊评价指标均会产生不利的影响。
2.5 支撑科技期刊版权交易
数字出版与网络传播的双向叠加,触发科技期刊界产生许多以往未见的版权交易强需求,例如,不少科技期刊发文时或在学术交流活动中会采用国际刊物已发表文章的图片、内容来增进文章、演讲稿的表达能力和直观感受,也有很多商务展览、课件展示等需要获得科技期刊的商务版权等。妥善处理海量使用者的作品授权、不断增进期刊的版权贸易价值、开发海外市场等,是中文科技期刊的诉求之一。目前中华医学会杂志社已经和美国版权结算中心(Copyright Clearance Center, CCC)合作,采用集体授权的形式解决上述问题。出版社或期刊社和CCC签约后,读者即可在CCC平台上通过文章的标题或DOI等查找期刊文章,之后采取一次性付费或年度付费的形式进行选购并按照内容使用者要求的方式来合理使用内容。鉴于DOI一旦分配就永久不变的特性和方便溯源的属性,其被广泛应用于各类版权结算系统。DOI信息中提供了对电子出版物的版权信息和归属信息的链接,如果DOI错误,可能会引发版权归属的混淆,并对后续的确权、版权交易等活动产生重大影响。
此外,DOI著录时频繁出现错误,反映出在出版流程中的管理和技术疏忽,也会损害期刊或出版单位的声誉,DOI错误需要出版商投入额外的时间和资源进行更正,大大增加了操作成本,甚至可能因纠错而导致出版时间的延迟。
3 DOI的常见错误类型
鉴于DOI在科技期刊传播中的重要作用,國内期刊近年来纷纷采用了DOI注册,但DOI的编码涉及编辑、排版、数据加工、注册等多个环节,之间的功能衔接及人员理解能力不一,时常会产生DOI漏注或注册错误现象。有研究对生物医药类、建筑类、地质类等科技期刊DOI标注情况进行了全面调研,发现期刊出版单位对DOI现刊注册及回溯注册均存在不同程度的遗漏情况,以及对参考文献录著DOI不够重视、DOI期刊解析地址未及时更新、统一资源定位系统(Uniform Resource Locator,URL)指向单一、仅指向检索数据库而非全文阅读平台等系列问题[7-13]。
DOI包括4个组成要素,即标识符、元数据、解析系统和规则,通过这些要素,DOI能够提供数字对象与其元数据、数字对象与数字对象具体物理位置的链接。一个DOI包含前缀和后缀两部分,中间以“/”符号分割,前缀由目录代码(DIR)和登记机构代码(REG)组成。DIR为DOI的特定代码,其值为10,用以将DOI与句柄系统技术的系统进行区分;REG由DOI的管理机构分配,由4位阿拉伯数字构成[14-15]。DOI后缀编码方案由登记机构自行定义,只要在该出版单位的所有产品中具有唯一性即可。
笔者于2022年6月,通过中华医学期刊全文数据库回顾分析中华医学会系列杂志的已有文献数据,在已标注的860 524条DOI文献中,共发现错误DOI标识27 741条,占文献总量的3.2%。通过数据比对,发现在期刊类的DOI著录中,经常出现前缀错误、符号错误、后缀错误和注册错误(见表1)。其中,前缀错误和符号错误将直接导致DOI在系统中的注册失效。
3.1 DOI前缀错误
造成前缀错误的原因一般有两类,一是编辑在编写DOI时输入错误,如将“10.3760”误写为“10.3670”“10.3706”“10.3160”等;将前缀与后缀间的分隔符号“/”遗漏、错位,或误写为“.”“:”等。二是文献在数字化过程中的识别错误,尤其是在编辑部未能提供排版文件的情况下,注册机构需要通过光学字符识别(Optical Character Recognition,OCR)技术提取数据时更为常见,如将“10”识别为“i0”“l0”“lo”等。
前缀中出现的任何错误都将导致该篇文献无法在DOI注册机构进行注册,平台也无法通过LinkedIn方式进行跳转,读者无法通过DOI检索到该篇文献(见图1)。
3.2 DOI符号错误
DOI只允许使用美国信息交换标准代码(American Standard Code for Information Interchange,ASCII)进行编码,如果使用了其他特殊符号,将导致DOI无法注册。编辑部使用的部分排版软件,尤其是方正书版软件,因其对全角字符和半角字符具有同样的版式呈现效果,所以转化为DOI元数据时极易出现错误。如“10.3760/cma.j.issn.1009-2587.2010.02.022”中使用了全角字符的半字线、点、字母、数字等符号导致DOI注册失效,或注册后与纸刊DOI不一致。
3.3 DOI后缀错误
由于DOI后缀并无明确的编排规则,DOI后缀错误不影响文章的注册和查询,只需保证唯一性即可,因此DOI编排过程中的不规范、重复等问题是较为常见的现象
3.3.1 期刊标识错误
这类错误一般不影响DOI注册,如将中华医学会系列期刊中的标识“cma”漏写或错写,将期刊标识“j”误写为“i”等。由于在编辑日常工作中,DOI的编排通常由编辑人员手工录入,导致类似错误出现较多。
3.3.2 期刊年、期信息错误
包括中华医学会系列期刊在内的部分科技期刊在编排DOI后缀时,使用“年-期-流水码”的方式著录,部分文章由于编排错误,或留版、顺序调整等原因,造成DOI中相关项目出现错误。这类错误在未出现编码重复的情况下不影响DOI的注册和检索,但是会对读者通过DOI获取杂志、年、期信息时造成误判。
3.3.3 DOI重复
DOI的重复是后缀错误中后果最严重的。后缀中的ISSN、年、期、流水码等各项目的错误均可能导致DOI重复,尤其是ISSN编码错误,可能导致该DOI与另一期刊的DOI产生冲突。究其原因,采用“年-期-流水码”的方式编码的期刊,在稿件发排前编辑无法提前获取准确的DOI信息,在发稿时经常使用“000”或“XX”以表示,但由于稿件在出版流程中存在次序调整现象导致DOI的修改未能及时同步,从而使已有的DOI占用了后续的DOI。以上问题很难通过编辑的手检方式被发现。而DOI重复是无法完成注册的,如果放弃注册,将导致该篇文献在DOI数据库中丢失,读者无法通过DOI检索到该文献。如某刊2020年第3期两篇文章的DOI均标注为“10.3760/cma.j.issn.0529-5807.2020.03.007”,在DOI注册时由于同一批次数据出现重复值导致两篇文献均未能成功注册,在通过DOI网站检索时,该DOI提示“DOI Not Found”。又如某刊2013年第8期的一文DOI标注为“10.3760/cma.j.issn.0412-4081.2013.07.008”,其中期号数据误标为“07”。在通过DOI网站检索时,该DOI指向该刊2013年第7期的另外一篇文章,如无事后修正,该文将无法通过DOI查询和链入。
DOI与已有数据重复时,如果注册人员未加以判别,使用update模式强行注册该文献,会导致第一次注册文献内容被替换,已注册的原文献从DOI数据库中丢失。如某刊2017年第2期的一篇文章DOI标注为“10.3760/cma.j.issn.1001-4497.2017.01.004”,其中期号数据误标为“01”,导致该刊2017年第1期中相应DOI对应的文献在DOI数据库中被替换,读者无法通过DOI检索到该文献。
3.4 DOI注册错误
目前,国内中文期刊的DOI注册一般由注册代理机构或数据服务商完成,期刊编辑部较少接触相关操作。部分期刊原本设想对一期文章中的部分文献不标注DOI,却未能与代理机构及时沟通,导致这些文献“被标注”。部分期刊使用“年-期-流水码”的方式著录DOI,但在调整文献顺序时未调整相应的DOI流水码,注册机构按照该刊著录规则使用计算机按照页码顺序直接编排,并未与文内的DOI进行核对,导致DOI流水码部分错位。上述操作均会导致DOI注册的数据与原刊的DOI不符或出现重复值。如某刊2011年第8期一文DOI为“10.3760/cma.j.issn.0529-5807.2011.08.014”,流水码编号为“014”,由于该文是短篇文章,作為补白被插入两篇论著文献(流水码编号分别为004、005)之间。注册机构在注册时按照页码顺序排列,导致注册DOI数据在005~014号段间出现错位,相关检索结果的指向均出现错误(见图2)。
4 避免DOI著录错误的建议
4.1 重视DOI的检校
对于科技文献而言,DOI如同人的身份证,是该篇文献在互联网上的唯一识别性编码,对文献显示度的重要性不言而喻。期刊编辑及相关工作人员应高度重视DOI著录,在编校环节予以全面关注,减少著录错误的发生,尤其是可能导致DOI重复的错误。我国大部分科技期刊采用“年-期-流水码”的著录方式,虽然编码模式简明,但在编码过程中通常缺少检校技术支持,基本依靠责任编辑手工编排,容易出现错误且不易被发现。这类错误往往在DOI注册环节才会被发现,但此时期刊已经付印,无法再进行更正。对采用此种方式著录的期刊,建议在校对环节增加专项校对过程,避免错误。2019年,中华医学会杂志社全面修订了中华医学会系列期刊的DOI编码规范,后缀码使用“cma.j.cn+稿号”的形式著录,DOI编码由供稿编辑在编辑加工时完成标注,不再根据各期流水码进行编排,减少了责任编辑组版环节中由于上版、留版或顺序调整导致DOI差错的问题。
4.2 在DOI注册环节加强数据比对
科技期刊文献DOI的注册往往由代理商完成,代理商应强化DOI注册服务意识,利用技术手段加强数据比对能力。对于在注册过程中发现的DOI错误,不能“一弃了之”或“一替了之”,放弃注册或不加比对直接覆盖更新都是不规范的处理方式。对于发生重复的DOI,要保障前序注册文献的DOI不会变更或“被遗失”,再与编辑部协商处理新文献的DOI变更。代理商变更DOI并注册后,应汇总相关数据并告知编辑部,以便编辑部能及时总结归纳错误原因,避免此类问题的再次发生。
4.3 通过技术手段强化DOI管理
有条件的期刊或刊群应采用技术手段建立DOI数据库,加强DOI管理。中华医学会杂志社在数字化转型中,由专业部门统筹期刊文献的数字化管理,建立了文献DOI数据库,在数据加工过程中进行了DOI入库比对,将发现错误的时间从注册环节提前至数据加工环节,有效避免了数据注册错误导致的数据遗漏或覆盖。但数据加工环节亦属于印制后环节,在此阶段期刊往往已经付印,未来仍需进一步理顺DOI管控流程,力争将比对节点进一步前移至印前环节,从本源处杜绝DOI错误的产生。
4.4 推行智能结构化排版,通过平台控制彻底避免DOI错误问题
结构化排版基于可扩展标记语言(Extensible Markup Language,XML),除了可以实现期刊内容和样式分离,具有一次制作、多元多次发布,便于存储、交换等优势外,一些结构化排版系统还可以自动生成DOI,相比人工操作,其在保证准确率的同时,还节约了人工成本[16]。
5 结语
随着科技期刊行业的不断发展,DOI在确保学术成果的可追溯性和可访问性方面扮演着愈发重要的角色,但也同样带来了挑战。元数据的准确性和完整性是保持DOI系统有效性的关键因素。因此,提高元数据的质量,确保其准确反映出版物的内容是首要任务。此外,随着技术的不断进步,国内的DOI注册系统需要与时俱进,结合最新的创新技术,在现有的基础上延展出更多的增值服务,比如利用大数据和人工智能技术开展查重比照、选题策划和学科评价等。
作者简介
李鹏,男,学士,《中华医学杂志》社有限责任公司新媒体部副主任,副编审。研究方向:期刊数字化采编与数据标准化。
刘红霞,女,学士,中华医学会杂志社新媒体部编辑,副编审。研究方向:数字出版、新媒体传播。
倪婧,女,硕士,《中华医学杂志英文版》编辑部编辑,副编审。研究方向:科技期刊出版传播及预印本平台。
沈锡宾,本文通信作者,男,硕士,《中华医学杂志》社有限责任公司新媒体部主任,编审。研究方向:数字出版。E-mail: Robin@cma.org.cn
刘冰,男,硕士,《中华医学杂志》社有限责任公司副社长,编审。研究方向:科技期刊出版数字化研究、新媒体技术应用。
魏均民,男,学士,《中华医学杂志》社有限责任公司社长兼总编辑,编审。研究方向:医学科技期刊出版集约化。
参考文献
[1]何朝晖.DOI: 数字资源的“条形码”[J].图书馆工作与研究,2003(5):29-31.
[2]吕雪梅,程利冬,张宏,等.基于中文DOI优先出版科技期刊论文的快速精准推送[J].编辑学报,2018,30(5):488-491.
[3]李彬,霍速.基于DOI系统的学术数据资源传播模式研究[J].图书馆学研究,2018(13):33-38,54.
[4]阿嘎尔.出版商与学术协作网络合作策略探索与启示:以Springer Nature与ResearchGate的合作為例[J].数字图书馆论坛,2021(7):10-17.
[5]丁燕,南娟,王玥,等.《中国肺癌杂志》中文DOI应用实践[J].中国科技期刊研究,2012,23(4):667-669.
[6]单连慧,李勇,李海存,等.基于DOI构建医学领域科技评价文献数据集的方法研究[J].医学信息学杂志,2013,34(2):35-39,44.
[7]蒋丽琴,宋素梅,马少怡.我国生物医学工程类期刊DOI使用现状分析[J].天津科技,2018,45(2):84-88.
[8]江霞.广东省医药卫生期刊DOI标注现状分析[J].编辑学报,2016,28(3):245-246.
[9]李笑梅.国内建筑学学术期刊的DOI标注现状分析与对策研究[J].山西科技,2017,33(3):100-103.
[10]蒋实,罗辉.我国地质学类期刊DOI使用现状调查[J].图书情报导刊,2017,2(3):74-78.
[11]申乐琳.我国科技期刊DOI使用现状分析:以大气科学类2014年版CJCR核心期刊为例[J].中国科技期刊研究,2016,27(6):624-629.
[12]王健.湖南省本科院校理科学报DOI应用情况分析[J].湖南师范大学自然科学学报,2016,39(6):89-93.
[13]王雪萍.优先数字出版的科技论文DOI标注分析[J].编辑学报,2014,26(6):541-544.
[14]科置科学.学术期刊如何注册DOI?[EB/OL].(2022-08-02)[2023-02-10] https://zhuanlan.zhihu.com/p/548851538.
[15]宋丹辉,徐宽.数字对象惟一标识DOI的发展与应用研究[J].图书馆学研究,2006(8):29-32.
[16]祁丽娟.XML在线排版在科技期刊出版中的应用实践[J].科技与出版,2018(5):67-71.
Value and Common Errors Analysis of DOI in the Whole Publishing Process of Scientific Journals—An Example of Journal Series of Chinese Medical Association
LI Peng1,4, LIU Hongxia1,4, NI Jing2, SHEN Xibin1,4 , LIU Bing3,4, WEI Junmin3,4
1. Department of New Media, Chinese Medical Association Publishing House, 100069, Beijing, China;
2. Editorial Office of Chinses Medical Journal, 100069, Beijing, China; 3. Chinese Medical Association Publishing House, 100069, Beijing, China; 4. Key Laboratory of Knowledge Mining and Service for Medical Journals, 100069, Beijing, China
Abstract: As a critical piece of metadata for journal literature, the Digital Object Unique Identifier (DOI) assigns a unique identifier to each document, playing an essential role in various aspects: it not only facilitates the widespread dissemination of literature, but also ensures the initial publication of authors research findings, supports copyright transactions, aids in the spread of scientific data, and plays an increasingly important role in the evaluation of scientific papers. This research, by analyzing the DOI errors in the series of journals published by the Chinese Medical Association, elucidated the significant value of DOI in the dissemination and evaluation of scientific journals, and put forward effective suggestions for preventing errors in DOI records.
Keywords: Digital object unique identifier; Scientific journal; Dissemination; DOI error; DOl