中华医学会系列期刊全文电子文档交换和存储标准初探
2015-04-10沈锡宾王红剑姜永茂
■沈锡宾 李 鹏 王红剑 刘 冰 姜永茂
1)中华医学会杂志社新媒体部,北京东四西大街42号 100710
2)中华医学会杂志社,北京东四西大街42号 100710
1 引言
随着信息技术和数字技术的迅猛发展,传统的专业学术出版领域正被逐步颠覆。近年来,科技期刊出版人颇为深切的感受到,读者的阅读行为逐渐转至PC端和移动端[1-3],纸本的订阅总体呈现萎缩的趋势[4]。面对这些困境,同仁们在苦寻各种方式以吸引读者。2013年的调研数据显示,中国科协1056种科技期刊建设网站的有812种,占76.9%[5]。这些网站起到了期刊宣传窗口的功能,但服务窗口的功能尚待提升。如何联合学术期刊、整合现有资源、共建专业性平台、垂直服务于读者、精准化营销,创造一种可持续的盈利模式,成为当前业界学者广泛探讨的问题。可是中国科技期刊出版社(编辑部)小而散的特点,使得同仁们在数字出版时代的努力捉襟见肘。首当其冲的是数据整合的标准,庆幸的是,在资源整合和数据质量方面国外数字出版已有十多年经验积累可以借鉴,并形成了一批现成的规范和标准[6-8]。据笔者所知,国际大型出版商一直推荐使用XML作为数据交换和存储的基础,国内很多同行也认为XML是作为科技期刊内容交换和存储的不二法门[9]。
中华医学会(CMA)杂志社从2006年开始接触NLM DTD规范(现已升级为美国国家标准NISO JATS),2013 年对 NLM JATS 3.0 进行剖析[6-8],并开始研制符合中国科技期刊特点的全文结构化文档标准,2014年10月初版成型,制作了Schema并进行了发布,命名为CMA JATS 0.1版本。据笔者了解,该标准为国内第一个由杂志社发起制定并用于实际应用的全文层面的数据标准。本文将详细介绍此标准,以期对同行有所借鉴。
2 CMA JATS 0.1特点
出于对不同时间段内文献标引质量和成本-效益比的考量,CMA JATS 0.1准备起初设计了两套不同颗粒度的标准。一套用于全文信息点标引的标准,主要包括了文前信息(<font>),正文信息(<body>)和文后信息(<back>)3大部分。另一套用于文档元数据标引,包括了论文的摘要信息和全文PDF的信息。前者改编自美国NLM JATS3.0,继承了NLM JATS的大部分元素和属性,然后基于中文科技期刊的特性和CMA系列期刊的需求做了一些增删。摘要信息的标引标准尽可能的保留论文的元数据(metadata),同时在英文数据的标引上能与国外的数据库进行衔接。本文主要提及全文的标引标准,所以下文中提及的CMA JATS均特指用于标注全文信息的数据标准。
2.1 适度高颗粒度
实践应用中,寻求合适的颗粒度是标准制订的难点之一。过于繁复,对于制定者来说,提高了标准推行的门槛;对于标准的执行者来说,提高了标准认知的难度,加重了整个数据流程链上各环节人财物的投入;有可能导致标准落地难,出现被束之高阁的尴尬结局。反之,过于简略、粗线条化,会限制标准的适应性和生命力,削弱文献的知识深度;有可能为后续文档的重利用、知识挖掘和提升和商业产品的设计埋下隐患。所以避免两个极端,获得适合的平衡点是在标准制定中贯彻全程的主线之一。
CMA JATS 0.1的全文标准定义了168个元素和88个属性。元素可以理解为期刊论文的颗粒度或知识点,属性是对各元素中共性内容的提炼,可理解为对这些元素的扩展。比如在定义参考文献(<ref>)这一知识点时,将其下的<mixed-citation>(混合类型参考文献)元素定义了52个元素(这可以理解为每条参考文献的内容可以拆分成哪些信息点),篇幅问题,我们就几个较常见的信息点进行举例,比如 <article-title>(文题)、<name>(作者)、<source>(期刊名称或出处)、<year>(出版年)、<volume>(出版卷)、<issue>(出版期)、<fpage>(起始页)、<lpage>(终止页)等等。 <mixed-citation>本身也定义了几个属性作为扩展,其中@publication-format和@publication-type是两个比较重要的属性。@publication-format指明了出版的媒介,比如“print”(纸媒)、 “electronic”(电子)、“video”(视频)、 “audio”(音频)、 “ebook”(电子书)、 “online-only”(仅在线)。 @publication-type指明了出版的类型,比如“journal”(期刊)、 “book”(书)、“letter”(信件)、“patent”(专利)、“report”(报告)、“standard”(标准)等等。通过这两个属性就可以完整的标注参考文献的来源和类型。
由上可见,CMA JATS 0.1标注全文的颗粒度是相对较深的,可能是目前国内科技期刊数据规范设计中颗粒度最高的,这一规范脱胎于美国的标准,所以可与国际标准进行接轨,适当的转化就可以直接向国际知名数据库上传数据,当然前提是他们认可并收录中文科技期刊。
2.2 国际化视野、兼顾本土化
中华医学会杂志社制定的标准首先考虑是否能为数据交换的国际化提供必要的支持,所以反复研究后认为以NISO JATS作为母版最能获得国际认可。当然,国外十多年的实践经验也验证了该套标准在期刊数据的交换和存储、甚至出版中的稳定性和通用性。所以中华医学会杂志社首先继承了NISO JATS的绝大部分元素、属性和实体,然后对部分的元素和属性做删减,产生了CMA JATS 0.1。做出删减的原因部分是考虑到颗粒度过深,但价值有限;部分是因为中文语言不存在的情形;但这些删减不影响数据的准确性和与国外数据库的对接。当然更重要的是考虑到初版标准的可行性,不至于影响数据加工商的加工效率,加重数据加工的成本。
为适应中国科技期刊,尤其是生物医学期刊的特点,中华医学会杂志社也在细节上做了调整。
2.2.1 语言
NISO JATS的定义者和使用者几乎均为英语系国家,所以,英语成为该标准的默认选项或主导语种。虽然NISO JATS也允许在大部分的元素上附带“xml:lang”的属性来区别标注内容的语言,但对于中国的期刊来说,母语还是中文为主,出于使用上的习惯考虑,直接将语言的默认值进行了调整,同时在双语的内容标注时,将中文内容作为第一选项,英语成为了第二语言(翻译版本,前面冠上trans-)。
部分中文期刊还有较纯英文期刊不同的地方是同一内容同时存在两种语言的描述。比如图表的标题或注解,某些期刊使用了中文和英文同时说明。还有一些期刊对于中文的参考文献在其下附上了英文的翻译。CMA JATS标准也考虑到了这些情况。
2.2.2 特殊内容
中文的科技期刊在不少方面有其特殊的内容。这些是国外期刊不具备的信息。比如,很多期刊有分类号和中图分类法。某些计算机无法输入的特殊汉字,在排版输出时一般会启用“补字”,所以在一些国际标准中不可能出现插入图片的内容中增加了行内图(<inline-graphic>)这一元素。
2.2.3 扩展的元素
XML本身具有可扩展的特点,所以标准的特性之一便是其具有一定的灵活性。为能使得数据的知识附加值得到一定的提升,我们在参考文献的信息点上做了两项扩展。其一是增加被引文献期刊当年的影响因子(<cur-if>),关联的数据源可以是JCR或CJCR。其二是该参考文献的摘要信息(<abstract>)。通过这2个元素可极大扩展论文的信息量,再结合引文链接的方式进行原文跳转,让读者最大限度的获取论文相关的知识点,追溯研究的来龙去脉。
2.3 实践性
前文已述,标准的制订最终需落实到实际应用中。中华医学会杂志社在2014年10月推出该标准前,已将CMA JATS标准与上流和下流企业进行了深入沟通。在数字出版上流,我们跟数据加工商进行了商讨,以便让他们准确地认知我们的标准及其颗粒度,并指导他们依照统一的规格来制作数据。同时杂志社根据加工商的反馈信息进行修订,在标准与加工效率之间取得平衡,尽可能提高计算机辅助识别的比例,降低人工标识的成本和人为失误。同时基于此标准开发了Schema,以此为准绳,对生产商的数据进行基于计算机的形式审查,可初步对数据的质量进行排查,避免不合法数据的入库。在数字出版下流,跟平台开发商合作,以此标准作为数据入库的依据,在对数据做先期验证后将合法的数据进行解析、关键信息入库、编制索引、正文内容编译成HTML,然后在网站进行展示。
截止2015年3月,中华医学会杂志社已超过15种期刊启用全文数据标准进行数据加工,并可以通过后台资源管理系统打包上传至网刊发布系统,解析后统一发布至各编辑部的官网上。
众所周知,实现数字出版的第一要务是资源整合。中华医学会杂志社利用CMA JATS标准指导期刊数据的生产,走出了资源整合的第一步,即便是后端产品还不成熟,但通过资源管理平台对这些数据进行管理和存储,本身就为后期的应用打下重要的基础。
3 存在的问题
从研究美国标准开始,到2014年6月开始起草国内标准,到10月份交付使用,撰写标准的简版说明、编制Schema、编写样例,不断的测试、修订。此项工作史无前例,中国科技期刊界经验相对不足,国内同行对此相对陌生,专业人才更是欠缺,未在更大范围内征求同行意见,所以初版标准肯定存在一些不尽如人意的地方,笔者抱着开放的心态,欢迎同行加入和利用该标准体系,通过更多的实践来发现该标准的不足,通过更多的讨论来完善它。
现阶段,笔者认为存在的问题更多来自数据的生产链条。
3.1 数据加工商
虽然复合出版的理念深入人心,但国内科技期刊数字出版相对落后,成事者寥寥,对于基于学科特点的数据加工更显得力不从心。而作为劳动密集型的产业,中国数据加工的企业不能算不多,但实际上传统的数据加工过程仅限于文献摘要信息的提取,做全文层面上的加工商不多。国内也有几家对外服务的数据服务商能理解国外的数据标准,并制作符合要求的结构化数据。但这些企业对于国内流行的排版文档无能为力,加工的工具或软件一般购自国外,无法适应中文的环境,而且这些软件和服务的价格可能超过了一般期刊社能承担的范围。
所以,培养合格的数据加工商是国内科技期刊出版社面临的一大难题。
3.2 结构化排版软件
若能结合当前的国内外实践进展,创造出基于XML的结构化排版的科技期刊数字化生产流程模式,在排版的同时解决文档结构化问题将是一个一劳永逸的方案[10]。笔者以国外成熟的复合出版流程为例(图1),简要的说明结构化排版的重要性。
图1 国际科技期刊数字出版的简化生产链
图1中可以发现一个明显的区别在于XML数据生产的前置,国外的期刊是先期在定稿后的文档中进行结构化预处理,然后生成XML,再导入排版软件进行自动输出[11]。大部分工作均在前期完成,排版的工作明显弱化。同时,输出的文件也比较多样,可以直接输出多平台需要的多种格式文档,比如kindle用的ePub、印刷用的PDF、手机端用的HTML等。XML数据可以通过转化直接生成国际知名数据库需要的文档,比如PMC、PubMed、CrossRef等。很多出版商不是直接使用NISO JATS作为其标准,是因为各出版社的数据均有自己的特点,颗粒度上基本等同甚至超过NISO。所以不直接搬用这个标准还是考虑到了自身期刊的特定需求。
中国科技期刊的普遍状况是,很多出版社还停留在传统出版的思维模式中,首先考虑的是期刊的纸面呈现方式,实现纸质出版,对期刊数据的后续应用关注不多,所以导致论文的元数据信息无法自动提取,需要数据加工商在后续再行整理和加工。因此,国内各家中文期刊社使用的排版软件很少有基于结构化排版思路的,生产的排版数据重利用价值相当有限。
3.3 资源管理平台
国内科技期刊对于期刊数据的管理经验相对匮乏,也缺乏这种意识,启用资源管理平台居指可数,而基于XML文档的资源管理系统更是欠缺。理想中的资源管理平台应能在理顺科技期刊出版流程的基础上,将期刊的采编、预格式化、自动排版、校对、拼版组版、按需出版和资源发布有机贯穿起来。尤其在采编后的过程中应全程基于标准的XML数据作为核心中枢,让数据制作、检验、管理和输出一气呵成。
4 科技期刊数据出版的未来
未来基于全文标准格式的生产流程,需要重新梳理科技期刊的出版流程,摒弃不适合全媒体时代的传统出版流程。从中国科技期刊自身的特点出发,基于自身研发的数据标准,研发符合刊情的数据加工流程,是中国科技期刊走上复合出版的必由之路。
4.1 高效的结构化排版
如前所述,基于中国科技期刊的XML排版软件将适时出现,为科技期刊的数字出版助力。排版的专业化程度和使用门槛会降低,普通的编辑或具有一定计算机常识的工人就能自如的掌握。因为新型排版流程的工作重点不在于版面样式的排版和设计,而集中于源文档(比如Word文档)的预格式化。操作人员的工作在于标记内容,而非关心样式。预格式化的文档通过转化成为标准的XML数据,而后进入排版引擎,依照设定的模板进行自动输出。因此,整个排版工作变得相对简单而高效。
不仅如此,由于数据的生产可直接用于数据出版,节省了大量的数据加工成本,而这些工作很多为高劳动密集型,比如编辑部在期刊平台展示前的数据加工、各数据服务商的数据加工、为适配国际各收录数据库的数据加工(比如PubMed、PMC)等,上述过程一般会消耗期刊社一定的人力和财力。
4.2 数据加工程序化
对于未通过结构化排版软件生产的数据,若想加入全文数据库,对文档进行全文数据加工也是个必经的过程,虽然目前国内尚缺类似的数据加工商,但未来可能有一批数据加工商迎合市场的需求,开发个性化的工具,对不同格式的文档进行分析、提取、拆解、拼接成合格的XML文档。前期可能会花费一定的时间和经济成本,但未来的利用和增值服务会让其物超所值。
未来可能会围绕行业内的数据标准构建起中国科技期刊的各个生态系统,与以往不同的是,该生态系统的主体权利把握在各期刊社的手中,利用统一的数据格式创作通用的可交换的全文数据。这一定会打破目前数据提供商和服务商的利益格局,为科技期刊社的发展提供契机。传统的数据服务商理应端正态度,回归角色,发展自身的技术优势,搭建更符合编辑部需求的数据平台和交互平台。
随之而变的可能还有各大图书馆和仓储机构,基于标准的全文格式的数据将更好地提升他们的服务,甚至于扩展了检索的方式,提升了论文的展示样式,对于各专业数据库来说,可能更多基于本行业特点的信息会被有效地整合。
4.3 平台的差异化和垂直化服务
笔者认为,目前中国与国外数据库一个很明显的差别,在于国内的数据同质化显著,各数据库拼的是期刊收录的数量而非质量。很大原因在于,目前理应把握行业方向和读者需求的期刊社无力改变这一现实,将资源卖给了数据服务商,而各编辑部又不愿与数据服务商进行更深入的合作,因为他们不能成为该平台的直接受益者。这种浅合作模式,使得数据服务商在垂直领域的服务能力下降。未来的平台应当将服务者的角色让位于各期刊社,让他们成为利益的主体方,只有这种模式,编辑部才更有效而主动地发挥专业优势,发挥专家优势,为读者提供更直接、更个性化的产品和服务。譬如对图像数据更为敏感的地理、天文、气象等领域,可以将图表信息进行深度标引以便于能提供该信息的增值服务。
4.4 扶持专业化刊群平台建设
中国现已成为期刊大国,但要成为期刊强国,还有很长的一段路要走,扶持中国期刊走出去是条出路,帮扶中国期刊立足中国、服务好中国的读者亦是相当重要的任务[12]。多年来,在数字出版领域,科技期刊一直未能找到合适的道路,在传统出版市场日益萎缩的情况下,要有所突破更显得空间狭小,一些获得基金支持的期刊社也希望发展数字出版事业,但能以此作为经济增长点,并能持续发展的乏善可陈。目前国内已有期刊社探索出以专科或专业期刊集群化建设的道路,聚合该领域科技期刊,以自有和加盟的方式在平台上进行统一运营,形成行业影响力,吸引精准用户群,带来潜在商业价值。所以笔者呼吁国家有关部门能够引导和支持期刊集群化程度相对高的期刊社推进转企改制,加快市场化步伐,同时以支持专业化平台为切入点加大基础工程的投入力度,扶持专业化平台的建设。
5 结论
综上,CMA JATS 0.1贯穿了中华医学会系列部分期刊从排版文档数据加工成标准XML文档,再上传至期刊的官方网站进行统一发布的全流程。截止2015年3月,超过15种期刊实现了在线全文出版,在实践中,笔者认为该标准能适应医学科技期刊的绝大部分内容标记情况,从而有效地整合了中华医学会杂志社的期刊资源,推动了中华医学会杂志社的数字出版进程,但该标准的全面落实还需跟数字出版产业链的上下流公司进行通力协作。
[1] 郑筱梅.移动终端对科技期刊阅读行为模式的影响及策略研究[J].科技与出版,2014 (2):73-75.
[2] 胡晓强,李勇,王军.数字化阅读方式对综合性学术期刊的影响[J].中国科技期刊研究,2014,25(8):1026-1029.
[3] 李伟,关卫屏,游苏宁,等.医学期刊读者阅读需求调查分析[J].中国科技期刊研究,2012,23(3):419-422.
[4] 王家荣.从学术交流角度比较网络期刊与纸质期刊[J].图书馆学刊, 2007(5):103-105.
[5] 程维红,任胜利,沈锡宾,等.中国科协科技期刊数字出版及传播力建设[J].中国科技期刊研究,2014,25(3):340-345.
[6] 包靖玲,李敬文,沈锡宾,等.美国NLM DTD 3.0期刊存储和交换标签集中文章正文部分标记解读[J].中国科技期刊研究,2014,25(4):515-519.
[7] 包靖玲,霍永丰,顾佳,等.美国国立医学图书馆期刊文档标签集概述[J].中国科技期刊研究,2013,24(4):624-627.
[8] 沈锡宾,顾佳,包婧玲,等.美国NLM DTD 3.0期刊存储和交换标签集中参考文献的标记解读[J].中国科技期刊研究,2013, 24(2): 233-237.
[9] 沈锡宾,顾佳,包靖玲,等.中国科技期刊文档格式标准化任重道远[J].编辑学报, 2013,25(1):27-30.
[10] 刘冰,游苏宁.我国科技期刊应尽快实现基于结构化排版的生产流程再造[J].编辑学报,2010,(3):262-266.
[11] 沈锡宾,顾恬,吕小东,等.国外一基于XML的科技期刊出版工作流个案剖析[J].中国科技期刊研究,2011,22(4):581-583.
[12] 游苏宁,王海燕.立足本土的国际化战略[J].中华内科杂志,2005, 44(4):241.