APP下载

数据论文:大数据时代新兴学术论文出版类型探讨

2014-03-26刘凤红崔金钟韩芳桥刘国俊

中国科技期刊研究 2014年12期
关键词:论文期刊科学

■刘凤红 崔金钟 韩芳桥 刘国俊

中国科学院植物研究所文献与信息管理中心,北京市海淀区香山南辛村20号 100093,E-mail:fenghong@ibcas.ac.cn

1 引言

信息技术的发展和普及催生了数据的爆炸式增长,将人类社会带入了大数据(big data)时代。对数据的识别、管理、计算和应用正前所未有地改变着人类生产和生活的诸多方面,科学研究也概莫能外。“大数据”引起了研究模式的革命性变化,促成了数据密集型科学发现即科学研究第四范式的诞生。在这种研究模式下,科学研究不再单纯地依靠科学问题或假设驱动,而是转而探究科学数据本身[1]。大数据引发了对数据共享的广泛关注和讨论[2-7],对数据共享的需求也日趋强烈,在这种背景下,数据论文(data paper)应运而生。数据论文采用规范的出版形式,但与常规学术论文有很大不同:数据不是支持学术观点的辅助性材料,而是论文主体。自从20世纪末生态学领域经典学术期刊Ecology首次刊发数据论文以来,伴随“大数据”的浪潮,其已引起了科技期刊出版界和科研群体的广泛关注,得到了长足而迅速的发展。目前,国际上不仅有期刊开通了数据论文发表通道(如Ecology,BMC Research Notes和International Journal of Robotics Research等),数据期刊(data journal)业已正式出版发行(如自然出版集团(Nature Publishing Group)的《科学数据》(Scientific Data),Pensoft出版社的《生物多样性数据期刊》(Biodiversity Data Journal,BDJ)等。有关数据论文的概念探讨也开始见诸于专业科技期刊。在出版实践上,数据论文的出版流程也在不断完善和规范。可以说,数据论文的出现和发展,不仅有益于科学数据的共享和积累,也是对论文出版类型的一种全新的尝试。然而,其在国内却未受到相应重视,对绝大多数期刊和科研群体而言,数据论文仍然是一个相对陌生的概念。基于此,本文详细介绍了数据论文产生的背景、概念以及国内外出版实践,以期为国内同行了解相关信息提供翔实的参考资料,并提出了在我国开设数据论文发表通道的建议。

2 数据论文及其相关概念

要准确地阐释数据论文,首先需要将其与数据发表、论文数据资料等概念和形式区分开来。

2.1 数据发表(data publication)

数据发表是将数据发布在网络或其它媒介上,在遵循版权协议的前提下,他人可以引用、下载、分析和重用。广义上讲,任何将数据上载到网络或其它媒介并允许他人使用的行为都可以称为“数据发表”[8]。目前国际上有很多存储专业数据的平台,这些平台的数据格式遵循国际标准,保了上载的数据能够被清晰描述,并为数据共享和重用奠定了基础。如,存储生物多样性、物种分类和描述数据的全球生物多样性网络(GBIF),存储基因数据的Genbank和生命条码数据系统(Barcode of Life Data Systems,BOLD),存储转录组数据的基因表达数据库(Gene Expression Omnibus,GEO),存储系统发育数据的TreeBASE等。科研工作者将数据上载到这些存储平台上,就属于数据发表行为。

2.2 数据资料(data materials)

数据资料作为支撑论文学术思想的佐证,是论文本身需要展示的不可或缺的部分。目前主要有两种形式,一种是限于版面和出版成本,数据不在正文中出现,而以附件形式存在。这种形式早已有之,较为普遍;另一种形式是期刊出版机构和科研群体基于对科学数据公开、重用、共享以及对论文原始数据真实性和重复性[9-10]的考虑,鼓励作者将论文涉及的数据存储在专业数据库或出版机构网站上,推行这一举措的包括Nature、American Naturalist、Ecology、Evolution、Heredity、Biological Journal of the Linnaean Society等国际知名期刊。在上述两种形式中,数据资料不是论文本身要描述的主体,而是起支撑论文学术思想的作用。

2.3 数据论文(data paper)

数据论文是正式的学术论文,遵从学术发表规范,要接受严格的同行评议(peer-review)。它与常规学术论文最大的不同之处在于,并不重点报道基于科学假设和科学问题的研究结果,而是重点描述科学数据本身。实际上,数据论文的概念早已有之。早在2000年,美国生态学会(Ecological Society of America,ESA)就在投稿须知中对其进行了阐释:数据论文是一种特殊类型的论文,用于展示大型或丰富的数据集,包括描述数据内容、数据产生背景、数据质量和结构的元数据文件。ESA明确提出发表数据论文的目的是重用数据,让数据发挥更多潜在的科研价值[11]。随着数据共享理念的发展和在线共享方式的普及,Chavan和 Penev(2011)将其概念发展为:数据论文应该总是与其描述的公开发布的数据集链接,这个链接(可以是URL,最好是数据存储库自动分配的DOI)包含在文章内部[12]。概言之,数据论文是对在线数据集(dataset)或一组数据集进行描述的元数据文档,遵循一定的数据标准,计 算 机 可 读、 可 检 索[13-15]。Ecology、Phytokeys、Zookyes、BMC Research Notes和International Journal of Robotics Research等期刊都发表数据论文。

2.4 数据期刊(data journal)

除部分期刊开设数据论文栏目外,近来还涌现了专门发表数据论文的数据期刊(data journal)。这方面非常典型的例子是:自然出版集团(Nature Publishing Group)出版的《科学数据》和Pensoft出版社的《生物多样性数据期刊》。《科学数据》重在描述实验和观察数据,并有效整合传统学术发表内容和结构信息,力求在最大程度上促进数据重用,帮助用户进行检索和信息挖掘[20]。《生物多样性数据期刊》则采用一套完整的在线平台,集中整合了论文写作、投稿、审稿和编辑,再到出版和传播的全部流程,是具有开创性的新兴期刊出版模式。

3 数据论文的出版实践

3.1 出版流程

同概念一样,数据论文的出版实践可追溯至20世纪末,也产生于生态学领域。生态学的学科属性决定了数据整合和协同研究的重要性,所以对开放数据的要求尤为突出[6-7]。过去十五年来,生态学领域国际顶级学术期刊Ecology上刊发的数据论文的数量不断上升(图1),一定程度上反映了科学数据越来越受到重视。

图1 Ecology历年发表数据论文的数量

美国生态学会对数据论文的要求非常严格,对内容、数据格式、出版流程、数据存储方式以及数据质量和审稿规范都做了详细规定,并明确要求作者不得对数据进行保护性处理,以确保读者能无障碍获取数据[11]。Ecology Archives平台为每篇论文及数据提供长期保存和维护服务。Ecology数据论文的格式非常工整,包含标题、版权声明、Ecology Archives赋予的ID号以及摘要、作者、数据文件(及其链接)和元数据[16]。每个元数据文件分别包含数据集(data set descriptor)、研究动因(research origin descriptors)、数据状态和获取方式(data set status and accessibility)、数据结构(data structural descriptors)和附属描述资料(supplemental descriptors)5 个部分。

依赖于日趋庞大的数据存储库和不断创新的软件工具,数据论文的创作过程不断规范。日前,世界最大的生物多样性信息服务机构——全球生物多样性信息网络(Global Biodiversity Information Facility,GBIF)联合Pensoft出版社,启动了数据论文示范项目。这个项目探索了从数据存储、论文创作、投稿、同行评议、论文修改、投递修改稿再到最后正式发表的全套流程,并推出了GBIF整合发表工具(Integrated Publishing Toolkit,IPT)。 基于在GBIF中存储的数据,IPT元数据编辑器可以帮助作者方便快捷地创作遵从 GBIF元数据规范(GBIF Metadata Profile,GMP)的数据论文(图2)。 这些论文经过同行评议后,最终可在 Pensoft出版社的Zookeys、Phytokeys、MycoKeys、BioRisk、NeoBiota、Nature Conservation等期刊发表。IPT工具的使用不仅为作者提供了极大便利,而且实现了数据的结构化,使数据符合特定标准和规范,便于数据扩展和整合。具体出版流程如下[12]:

a)数据发布者(data publisher)使用IPT为数据集创建元数据,IPT自动分配给元数据一个永久ID。

b)元数据完成后,数据论文自动产生。

c)作者自查并将论文上传到期刊在线投稿系统。

d)同行评议后,初稿连同审稿意见返回给作者。

e)作者根据审稿意见修改论文。

f)同 b),标记的修改版再一次自动转换成论文。

g)论文被接受,进入校样(proof)阶段,加上投稿日期、修改日期和接受日期,并获得DOI号。

h)数据论文经过校对最终确认后,将以4种形式发表:打印版、与打印版一致的PDF格式、语义增强HTML格式和XML格式,多种格式并存有利于日后对文章进行深度数据挖掘。

图2 全球生物多样性信息网络(GBIF)与Pensoft出版社期刊数据论文出版流程示意图[12]

i)数据论文发表后,论文DOI号与在GBIF注册表(GBIF Registry)上注册的元数据文档ID相互链接。

j)数据论文收录进检索系统,供读者使用。

3.2 质量控制

为有效控制数据论文的质量,Pensoft对同行评审标准做了严格详细的规定,审稿人要评估元数据的完整性、数据质量以及发表价值(publication value of data),以及在数据采集、管理和审核过程中采用的方法是否有效和标准是否一致。具体而言,审稿人要审核稿件质量、数据质量和以及内容和元数据一致性等三个方面的问题[8]。

Pensoft投稿指南对三者分别做了详细说明。论文质量审核包括:标题、摘要和关键词是否精确反映了内容?论文组织得是否合理,语言是否正确标准?非文本(如图、表、视频、音频文件等)使用是否得当?缩写和符号是否定义正确?是否涉及到版权冲突等。数据质量审核包括:数据是否完整和统一?数据资源是否包含了重要的科学内容,涵盖范围是否足够大,时间段和(或)分类群是否值得单独发表?数据标准是否一致?是否完整记录了原始数据分析和使用方法,是否可复用?数据是否合理?数据存储库是否合适?论文和数据一致性审核包括:是否对数据及数据获取方法进行了精确描述?数据产生方法是否描述得足够详细?数据是否足够?使用案例是否与数据一致?是否明确指出了可能导致数据错误的原因等[8]。美国生态学会也制定了专门的审稿标准,除了对保密、审稿时限、规避利益冲突等一般性规定外,还要求审稿人必须给出详细的审稿意见:审稿人必需要明确告诉作者其论文的主要贡献、优缺点和是否适合发表的原因,包括一般性意见和具体意见[11]。这些规定都旨在通过制定合理而严格的标准提高数据论文的质量,为数据重用提供保障。

3.3 权益管理

数据论文属于开放知识(open knowledge)范畴,是开放理念(这里数据也被看作是知识体系的一部分)的产物。在遵循版权共享协议的前提下,可被重用、演绎和重新发布。政府、基金资助组织、科研机构和期刊出版界近年来陆续研究和制定了科学数据的管理和共享政策,以促进科学数据的保存和开放获取[17]。目前,绝大多数出版社和期刊都鼓励甚至强制规定作者采用知识共享-署名协议(CCBY)。

Pensoft出版社采用开放数据共享署名(Open Data Commons Attribution License,ODC-BY)作为数据发表的首要和默认协议,这意味着只要以引用或致谢的方式给原作者署名,数据就可以被自由共享、演绎和使用。署名可给数据创作者带来学术信誉(基于此,数据论文的推出被认为是促进数据开放和共享的有效机制,前文有述)[8]。此外,Pensoft期刊也强烈推荐作者采用知识共享豁免(Commons CC0,CC-Zero)和开放数据共享公有领域的贡献与许可(Open Data Commons Public Domain Dedication and Licence,PDDL)协议,该协议可有效避免“署名堆积(attribution stacking)”。

因为同时涉及数据和论文引用,所以对数据论文的引用与传统的文献引用有所不同。通常情况下,被引数据和数据论文都需要在文中和文后参考文献目录中有所体现。根据数据引用元数据核心(DataCite Metadata Kernel)的规定,Pensoft期刊文中和文后数据和论文引用标准示例为[8]:

正文引用:“这篇文章使用了来自“数据存储平台”的数据,网址是:http://dx.doi.org/*****(Jones et al.2008a),该数据首次刊发于Jones etal.2008b一文 ”。

目录引用格式为:数据引用:“Jones A,Bloggs B,Smith C(2008a).数据标题.数据存储平台名称.标识符:*****.”。论文引用:“Jones A,Saul D,Smith C(2008b).论文标题.刊名.卷:页码.

.”。

4 推动数据论文的意义

“数据洪流(data deluge)的时代已经来临”[15]。要真正有效利用庞大的科学数据支持科学研究,践行数据共享理念是必然之路。实际上,数据共享并不是一个崭新的话题[14]。近年来,很多基金资助组织、科研机构和学者都在积极呼吁科学数据共享。美国国家自然科学基金委员会(NSF)建议受资助的科研人员共享数据和实验材料[18],基金申请人员除了提交项目申请书外,还需要提交数据管理计划,这份计划作为申请书的一部分,也要接受同行评审。中国也在积极采取措施促进数据资源的公开,近年来,国家也支持了相应的大型项目,如科技部和财政部资助的中国科技资源共享平台项目。

Borgman(2013)对数据共享的原因和由此带来的益处做了总结:公开数据方便同行验证和开展重复实验;公共基金资助的研究结果理应服务于公众;数据被同行和不同行业的人使用后促使新科学问题的提出;提升科研总体创新水平[15]。然而,令人遗憾的是很多数据并没有被合理共享[19-22],反对数据共享的声音也不绝于耳[23]。在有些科学家看来,数据公开可能导致研究成果被他人使用,且对数据贡献者没有显著回馈,不能帮助科研人员或数据拥有者提高学术信誉。数据论文的出现恰好可以有效弥补这一不足。首先,其是正式出版的学术论文,可被引用,能为数据发布者带来学术信誉;其次,其采用结构化数据,遵循通用数据标准,便于整合和扩展;再次,其经过同行评议,在质量上有严格保证[24]。数据论文还可以有效鼓励数据拥有机构和人员公开历史久远的原始数据。比如,单就生物多样性领域而言,在过去的250年时间里,世界范围内6500家自然历史博物馆大概记录了3亿条数据[25-26],被发现和公开发布的仅仅是其中的很小一部分,黑色数据(没被发现和公开的数据)仍然占据主体,它们的产生鲜有计划,数据质量缺乏审核,发现和获取尤为困难,面临极大的丢失风险,而这些数据可能拥有极其重要的价值[26]。数据论文的推出极有可能成为发现和保存这些数据的有效机制[12]。

5 推动中文数据论文的一点思考

科技期刊在数据管理方面发挥的作用日益重要。如上文所述,国际上已有一些有影响力的大型出版社参与数据存储和数据发表。反观国内科技期刊出版界,虽然有关开放获取的探讨很多,但到目前为止,还未针对科学数据公开发布真正采取切实有效的措施。近来,生物学类核心期刊《生物多样性》开设了生物编目栏目,该栏目刊发生物多样性热点地区、调查空白地区的物种编目以及中国和世界重要生物类群的编目[27]。自2011年以来,该刊已刊发17篇生物编目类论文。《植物生态学报》开辟了资料论文专栏,旨在刊发特定尺度上(如群落、景观或区域)植物群落的样方数据[28]。这两类文章是国内期刊对数据论文的开创性尝试,它们具备数据论文的基本特点:是正式的学术论文,对文章的科学假设和科学问题不做必然要求,重点关注数据本身,论文和数据本身都经过严格的同行评审。但相较于国际上比较成熟的数据论文,还存在非常明显的差距。如,没有专业的数据存储平台,更没有对数据标准的规定和说明,对数据的管理仅仅停留在论文附属资料的简单层面;没有对数据共享、传播、重用、演绎等权益做明确说明,或者没有开放这些权益;没有对数据引用格式做详细说明。究其根本,造成这些差距的主要原因在于国内对科学数据的认识不够深入,重视程度不足。

在开放理念日益盛行的今天,作为激励科研人员共享科学数据的有效机制,数据论文模式有必要在国内科技期刊出版界推广。当然,这需要科研群体、数据保存机构、科技期刊和基金资助组织共同推动。数据论文的核心是数据,这首先牵涉到数据保存问题。目前国内尚缺乏有广泛影响的成熟的科学数据存储平台。因此,要建立成熟完善的中文数据论文发表通道,首先需要从数据存储平台建设上做起。可以考虑以区域节点方式参与国际数据存储平台建设,快速移植国外平台的框架、体系规范、数据标准和管理模式。数据存储也便于作者和期刊管理和重用数据。建议国内科技期刊与数据存储平台通力合作,积极鼓励作者采用国际标准存储数据。此外,国内期刊对数据共享和传播应该采取更为开放的态度,限制数据重用有违数据论文的核心理念,也会阻碍数据论文的持续性发展,因此建议国内期刊尽可能采用开放程度大的数据共享协议,如CC-BY(知识共享-署名)协议。

当然,科技期刊的发表通道再顺畅,出版流程再专业,如果没有科研群体贡献科学数据,都只能是无米之炊、无水之源。因此,笔者呼吁基金资助组织鼓励科研群体将公益资金资助的数据共享,唯此方能从源头上保障我国数据论文的发展。

参考文献

1 邓仲华,李志芳.科学研究范式的演化——大数据时代的科学研究第四范式.情报资料工作,2013,20(4):19-23

2 Vision TJ.Open data and the social contract of scientific publishing.Bioscience, 2010, 60(5): 330-331

3 Huang XL,Qiao G.Biodiversity databases should gain support from journals.Trends in Ecology&Evolution, 2011, 26(8): 377-378

4 Molloy JC.The open knowledge foundation:Open datameansbetter science.Plos Biology, 2011, 9(12): e1001195

5 Whitlock MC.Data archiving in ecology and evolution:best practices.Trends in Ecology&Evolution, 2011, 26(2): 61-65

6 Reichman OJ, Jones MB, Schildhauer MP.Challenges and opportunities of open data in ecology.Science, 2011, 331(6018):703-705

7 Hampton SE,Strasser CA,Tewksbury JJ et al.Big data and the future of ecology.Frontiers in Ecology and the Environment, 2013,11(3): 156-162

8 Pensoft data publishing policies and guidelines for biodiversity data.[EB/OL] [2014-06-20].http://www.pensoft.net/J_FILES/Pensoft_Data_Publishing_Policies_and_Guidelines.pdf

9 Cassey P,Blackburn TM.Reproducibility and repeatability in ecology.Bioscience, 2006, 56(12): 958-959

10 Giles J.The trouble with replication.Nature, 2006, 442(7101):344-347

11 Instruction for data paper of ESA.[EB/OL] [2014-06-20].http://www.esapubs.org/archive/instruct_d.htm

12 Chavan V, Penev L.The data paper: a mechanism to incentivize data publishing in biodiversity science.BMC Bioinformatics, 2011,12:S2

13 Newman P,Corke P.Data papers-peer reviewed publication of high quality data sets.International Journal of Robotics Research, 2009,28(5): 587-587

14 Huang XL, Hawkins BA, Qiao GX.Biodiversity data sharing: will peer-reviewed data paperswork?Bioscience, 2013, 63(1): 5-6

15 Borgman CL.科研数据共享的挑战.现代图书情报与技术,2013, 34(5): 1-20

16 Exlore ecologcal archives.[EB/OL] [2014-06-20].http://esapubs.org/archive/search.php?journal=E&year=2014&firstAuthor=&isDP=1

17 黄永文,张建勇,黄金霞等.国外开放科学数据研究综述.现代图书情报技术.2013,34(5):21-27

18 Policy DS.National Science Foundation.[EB/OL] [2014-06-20].http: //www.nsf.gov/pubs/policydocs/pappguide/nsf11001/aag_6.jsp

19 About scientifc data.[EB/OL] [2014-06-20].http://www.nature.com/scientificdata/about/

20 Yesson C,Brewer PW,Sutton T,et al.How global is the global biodiversity information facility?Plos One, 2007, 2(11): e1124

21 Alsheikh-Ali AA, Qureshi W, Al-Mallah MH, et al.Public availability of published research data in high-impact journals.Plos One, 2011, 6(9): e24357

22 Vines TH, Albert AYK, Andrew L, et al.The availability of research data declines rapidly with article age.Current Biology,2014, 24(1): 94-97

23 Tenopir C, Allard S, Douglass K,et al.Data sharing by scientists:practices and perceptions.Plos One, 2011, 6(6): e21101

24 Costello MJ, Michener WK, Gahegan M, et al.Biodiversity data should be published, cited,and peer reviewed.Trends in Ecology&Evolution, 2013, 28(8): 454-461

25 Chavan VS,Ingwersen P.Towards a data publishing framework for primary biodiversity data:challenges and potentials for the biodiversity informatics community.BMC Bioinformatics, 2009, 10(Suppl 14): S2

26 Heidorn P.Shedding light on the dark data in the long tail of science.Library Trends, 2008, 57(2): 280-299

27 生物多样性投稿简则.[EB/OL] [2014-09-20].http://www.biodiversity-science.net/CN/column/column16.shtml

28 植物生态学报投稿简则.[EB/OL] [2014-09-20].http://www.plant-ecology.com/CN/column/column106.shtml

猜你喜欢

论文期刊科学
期刊更名启事
期刊简介
期刊问答
点击科学
科学大爆炸
科学拔牙
下期论文摘要预登
下期论文摘要预登
下期论文摘要预登
2013年5—12月最佳论文