基于JATS数据标准的全文文献管理
2015-03-26康宏宇
■康宏宇 侯 震 李 姣
中国医学科学院医学信息研究所,北京市朝阳区雅宝路3号 100020
PMC(PubMed Central)是由美国国立卫生研究院(NIH)美国国立医学图书馆(NLM)创建并维护的生物医学全文文献资源,在国际生物医学领域开放获取和知识共享方面享有高度学术声誉。为了有效管理来自不同机构的全文文献,隶属于NLM的美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI),建立了数据标准 JATS(Journal Article Tag Suite),用于对文献格式进行统一描述[1]。2012年8月19日,美国国家信息标准协会(NISO,National Information Standards Organization)正式批准其成为美国国家标准[2]。截止2015年5月,PMC收录的5114本期刊的340万篇全文文献均采用JATS标准,实现了全文文献的统一管理,为美国国立医学图书馆的资源整合与应用提供有力保障。
作为应用较为广泛的文献资源存档标准之一,JATS标准已经在出版商、科技期刊以及图书馆等领域广泛使用。由于JATS的适用性和可操作性,也有许多研究者将JATS内容扩展,开发出更具有领域针对性的版本。Nakanishi H等人[3]根据JATS制定了一套适用于日语文章的存档标准,并开发了“XSLT”工具来自动完成数据文档的格式转换。JATS标签集定义了科技期刊的XML文档结构,但缺少对科学数据集引用的说明;Mietchen D、McEntyre J等人[4]为JATS1.1d2增加了2个新的元素<version>和 <data-title>使其适用于科学数据的引用。在国内,沈锡宾等人[5]在研究JATS标准的基础上,制作出一套中华医学会期刊文档交换和存储标准(CMA JATS),推动了中华医学会杂志社的数字出版发展。
本文在研究JATS数据标准的基础上,利用本地文献资源,整合并利用可开放获取的期刊文献以及医学百科知识,实现了文献资源的本地化存储和全文在线阅读,丰富了本地资源,为JATS标准的本地化应用提供了依据。下文将从JATS标签集解析、JATS的应用、全文文献管理实践、总结与展望四个方面进行梳理。
1 JATS标签集解析
JATS(http://jats.nlm.nih.gov/)是一种用于期刊全文电子文档交换和存档的通用数据交换格式,它定义了一系列描述期刊、文章特征的元素及属性,并对文章中的图片、表格、术语[6]等有特定的说明,标签集共包含了250余个元素和130余个元素属性。JATS文档的内容可开放获取,出版商、科技期刊、数据库、文章作者可以根据需求选择一组JATS标准。
1.1 基本文档结构
JATS规定交换文档分为以下几个部分:前置部分(<front>),含有期刊和论文的元数据内容;主体部分(<body>),存储文章正文部分的内容信息;后置部分(<back>),存储术语表、参考文献或附录等的辅助信息;浮动部分(<float>),文章主体和后置部分引用的图和表、对文章的评论等;评论(<response>)或次级论文(<sub-article>),编辑的总结、读者反馈、作者对同行评议内容的反馈、文章的次级论文等[7]。
图1 JATS规定下的数据文档结构
1.2 4组标签集
针对不同的应用场景,JATS包括 Journal Archiving and Interchange(存档和交换标签集)、Journal Publishing(期刊出版标签集)、Article Authoring(文章作者文档标签集)三组标签集。
(1)Journal Archiving and Interchange[8]
应用场景:为出版商与数据库、数据库与数据库、出版商与出版商之间传输和交换期刊数据提供了标准上的保障。
标签集介绍:该标签集定义了XML文档中科技期刊的顶级元素,它尽可能多的包含了科技期刊可能涉到的元数据结构和内容,为XML文档添加标签提供便利,同时它能够在最初传递时保证期刊知识产权的完整和独立。标签集中元素顺序可以由提交者进行调整。
(2)Journal Publishing[9]
应用场景:优化存储,规范和控制XML文档内容,为出版商、数据库本身的数据提交提供保障。
标签集介绍:Journal Publishing标签集较Journal Archiving and Interchange标签集更为简短,减少了一些不必要的元素及属性,达到了优化存储的目的,从内容上对XML文档进行了规范和控制。同时,它定义了XML文档中元素出现的顺序,不能随意调换。
(3)Article Authoring[10]
应用场景:为作者提供授权文章的规范提交格式。
患者接受治疗之前,FMA评分和BI评分没有显著差异,接受六个月的康复治疗之后,相关患者的评分都有提升,康复组的提升幅度更高,和对照组情况对比,差异有统计学意义(P<0.01)。见表1。
标签集介绍:相较于前两组标签集,Article Authoring标签集是为最新提交到PMC的文章而设计的,其目的是方便作者根据标准对文章进行格式的转换。由于文章所属的期刊信息已经在Pubmed/PMC中存档,所以XML文档不需包含文章的出版历史或所属期刊的相关信息。同时文档元素必须按照标签集规定的顺序依次出现。另外,已收录的期刊一般都规定了文献引用和出版格式,所以,作者也不需要对参考文献进行编辑。文章提交后,会由相应的出版软件完成这部分的工作。
1.3 标签集对比分析
表1从适用范围、文档结构、元素及属性的数量3个方面对3套标签集进行对比[11]。下文中使用Archiving、Publishing、Authoring 分别代表 Journal Archiving and Interchange(存档和交换标签集)、Journal Publishing(期刊出版标签集)、Article Authoring(文章作者文档标签集)3组标签集。
表1 JATS标签集的对比
适用范围:Archiving和Publishing均适用于论文、书信、述评、书籍和产品的评论,这些文章必须来自于科技期刊(STM Journal)。Authoring适用于拥有文章版权的作者。
文档结构:3套标签集的每个文档均由1个或多个部分组成。Archiving和Publishing的文档结构必须以以下顺序出现:1)前置部分,必选;2)主体部分,可选;3)后置部分,可选;4)浮动部分,可选;5)评论或次级论文,可选。Authoring标签集的结构不同于前两者:1)前置部分,必选;2)主体部分,必选;3)后置部分,可选。
元素及属性:Archiving、Publishing、Authoring 三组标签集定义的元素及属性的数量依次减少。Publishing是在Archiving的基础上减少了如文本的“上划线位置标记”、“下划线位置标记”、“String Conference Name”、“Date as a String”等元素。Authoring标签集则减少了所属期刊使用的元数据、基金资助商及其文章提交日期、接受日期等元素及属性。
通过对比分析可以看出,Archiving标签集注重于不同来源的数据文档之间的有效转换,它规范了XML/SGML文档向PMC标准化文档转换的流程;Archiving标签集尽可能多的涵盖了原文档的元素及属性,其目的是规范出版商之间的数据交流。Publishing标签集省去了定义数据文档位置的一些元素,其目的是规范出版集团本身的数据管理与出版。Authoring标签集则主要针对最新提交到PMC的文章,其服务对象是文章的作者。随着JATS的不断更新与修订,三组标签集的应用场景更加明确,数据提交者可以根据需求选择各自适用的标签集,如图2。
2 JATS标签集的广泛应用
PMC要求出版商提供XML或SGML格式的全文文件[12],PMC不接受HTML格式的文件。该XML必须符合JATS标准或其他DTD格式。原始数据文档向PMC XML格式转换的工作是由出版商来完成的。目前,已经有出版商、知识库、图书馆、软件开发商、学术机构、期刊等身份不同的机构支持JATS标签集的使用和推广;其中,英国大不列颠图书馆(British Library)和美国国会图书馆(Library of Congress)已经宣布使用NLM DTD作为它们电子内容的储存标准[13-14]。
图2 标签集的不同应用场景
表2 JATS的应用情况
3 利用JATS的全文管理实践
作为图书馆,我们从英文科技期刊全文文献管理方面对JATS标准的本地化应用进行了实践。从出版社手中获取文献图书的XML文档或PDF文档后,在JATS数据标准的基础上对其进行扩展或修改,最终制定出适用于特定英文期刊的转换和存档标准。
为了丰富科技文献服务类型,为用户提供全文阅读的体验,我们根据JATS标准搭建了一个全文阅读展示系统。利用可开放获取的Molecular Psychiatry (http://www.nature.com/mp/archive/index.html)期刊获取文献资源后,借鉴JATS数据标准,将原始XML文档,对应到JATS数据标准上,生成格式统一的新XML文档,并存档入库。随后又在该文献资源的基础上搭建了一个文献检索及全文阅读展示系统,如图3。该系统是JATS标准的本地化应用,实现了基于JATS的文献全文的管理。XML文档的存储结构与Journal Archiving and Interchange标签集类似,内容包括了期刊元数据(期刊名称、ISSN号、卷、期)、文章元数据(文章题目、作者、发表时间)、章节信息、参考文献、图片等信息。
图3 基于JATS的英文文献在线阅读
文献检索后的题录信息展示界面,包括题目、作者、期刊名称、出版时间、关键词、摘要,以及文献所属的协议信息和图表信息等。同时,系统提供该篇文章的相关文献列表,可点击进入文章信息页面。为方便用户完成即时记录对该文章的阅读心得,系统还设计了即时笔记功能。点击文献名称可进入全文在线阅读界面。在此界面中,用户可以进行标题位置导航和关键词搜索,对文献段落和关键词进行定位;同时,本系统还为用户提供个性化定制服务,如更改阅读时的字号大小、文献关键语句高亮标记。
在英文期刊全文管理的基础上,我们还对中文期刊的管理流程进行了初步的设计,如在JATS基础上,增加“简体字/繁字体”等针对中文文章的元素。针对一些中文期刊只提供PDF格式的文档,我们还将借助PDF文本转换器将PDF文档转换成文本,并通过人工的方式对文本内容进行审核,再转化成XML文档入库。
4 总结与展望
PMC作为生物医学领域最大的OA期刊仓储平台之一,其文档提交标准的制定和技术已经比较成熟。JATS标准兼容多方使用需求,针对不同应用场景对标签集进行了分类。出版集团、数据仓储、图书馆以及文章作者可以选择一组JATS标签来完成文档的转换、存储及管理,在满足使用需求的基础上,减少了不必要的文档转化工作,优化了工作流程。国内期刊转换标准的制订需要具有国际化视野,借鉴国际上成形的期刊元数据和大型数据库存储标准,结合我国期刊数字化建设的实际,实现图书馆、出版社等多机构的数字资源交换与传播,为JATS的本地化应用以及国内外医学文献资源共享提供参考。
本研究利用JATS数据标准在学术期刊管理和医学科普图书管理两个方面进行了实践。在今后的工作中,我们也希望能与更多的学术期刊合作,推广PMC的数据格式,在文献资源获取、加工和存储的过程中实现规范化和数据化,促进科技文献数据的资源共享与利用;制定适用于中文图书和中文期刊的数据存档和交换标准。
[1]邹强,袁庆,康林,等.PubMed Central的数字化出版简介[J].中国科技期刊研究,2014,25(2):240-242.
[2]Standardized Markup for Journal Articles:Journal Article Tag Suite(JATS).[EB/OL].[2015-05-18] http://www.niso.org/workrooms/journalmarkup/.
[3]Mietchen D,McEntyre J,Beck J,et al.Adapting JATS to support data citation.Journal Article Tag Suite Conference(JATS-Con)Proceedings 2015.http://www.ncbi.nlm.nih.gov/books/NBK280240/?report=reader.
[4]Nakanishi H,Naganawa T,Tokizane S,et al.Creating JATS XML from Japanese language articles and automatic typesetting using XSLT.http://www.ncbi.nlm.nih.gov/books/NBK279832/? report=reader! po=30.0000.
[5]沈锡宾,李鹏,王红剑,等.中华医学会系列期刊全文电子文档交换和存储标准初探[J].中国科技期刊研究,2015,26(5):475-479.
[6]Journal Article Tag Suite.[EB/OL].[2015-05-18].http://en.wikipedia.org/wiki/Journal_Article_Tag_Suite.
[7]包靖玲,李敬文,沈锡宾,等.美国NLM DTD 3.0期刊存储和交换标签集中文章正文部分标记解读[J].中国科技期刊研究,2014,25(4):515-519.
[8]Journal Archiving and Interchange Tag Set.[EB/OL].[2015-05-20].http://jats.nlm.nih.gov/archiving/rationale.html.
[9]Journal Publishing Tag Set.[EB/OL].[2015-05-16].http://jats.nlm.nih.gov/publishing.
[10]Article Authoring Tag Set.[EB/OL].[2015-05-16].http://jats.nlm.nih.gov/articleauthoring/rationale.html
[11]JATS:Journal Article Tag Suite.[EB/OL].[2015-05-19].http://jats.niso.org/
[12]包靖玲,霍永丰,顾佳,等.美国国立医学图书馆期刊文档标签集概述[J].中国科技期刊研究,2013,24(4):624-627.
[13]沈锡宾,顾佳,包靖玲,等.中国科技期刊文档格式标准化任重道远[J].编辑学报,2013,25(1):27-30.
[14]NISO Z39.96 The Journal Article Tag Suite(JATS):What Happened to the NLM DTDs.[EB/OL].[2015-05-19].http://quod.lib.umich.edu/j/jep/3336451.0014.106/--niso-z3996-the-journal-article-tag-suite-jats-what-happened?rgn=main;view=fulltext N1-ptr1.