科学数据的保存与维护∶国际组织的动向
2015-07-22武汉大学信息资源研究中心湖北武汉43007武汉大学信息管理学院湖北武汉43007
司 莉 封 洁(.武汉大学信息资源研究中心 湖北武汉 43007;.武汉大学信息管理学院 湖北武汉 43007)
科学数据的保存与维护∶国际组织的动向
司莉1封洁2
(1.武汉大学信息资源研究中心湖北武汉430072;2.武汉大学信息管理学院湖北武汉430072)
〔摘要〕为全面了解国际组织近年来关于科学数据保存与维护工作的进展,文章对有关科学数据保存与维护的国际组织进行了介绍,并调查总结了2010年以来相关国际组织关于科学数据保存维护工作的会议动态、政策声明及服务项目,以期为我国的科学数据保存维护工作提供参考,推动我国科学数据事业的发展。
〔关键词〕科学数据保存科学数据维护国际组织
当前,随着人们对科学数据价值认识的不断加深,科学数据的管理与共享已引起人们的广泛关注。科学数据的保存与维护是科学数据共享的前提。目前关于科学数据的保存与维护的研究相对较少,其研究及实践活动大多集中在各国各自发展的阶段,各种层次的科学数据保存与维护缺少全球化的统一原则与标准,这给更大范围内的科学数据保存与维护带来了困难与阻碍。[1]
为全面了解国际组织关于科学数据保存与共享的相关实践与政策,笔者调查研究了相关国际组织自2010年以来的动向,从政策声明、服务项目、会议动态三个方面进行总结分析,以期为科学数据进一步研究提供参考,进而推进我国的科学数据保存与共享工作。
1 与科学数据保存与维护相关的国际组织
随着世界各国对科学数据价值认识的不断深入,与科学数据相关的国际组织纷纷成立,共同致力于科学数据的保存维护与共享利用。笔者将与科学数据相关的国际组织大致分为三类,即与科学数据直接相关的核心机构、具体学科领域的国际组织以及其他相关国际组织。
1.1与科学数据直接相关的核心机构
1.1.1国际科学理事会
国际科学理事会(International Council of Scientific Unions,简称ICSU),于1931年在布鲁塞尔成立,现法定处所和秘书处设在法国巴黎。国际科学理事会是国际间的非政府组织,也是世界上最大的国际学术组织之一,在国际科学活动中倡导、制定和实行科学普遍性原则,尊重科学家的权利和责任。以为社会的利益促进世界科学发展为使命。为实现这一目标,国际科学理事会集合国际科学界的知识与资源,致力于:(1)确认并提出对科学社会至关重要的问题;(2)促进世界各国各学科科学家之间的交流;(3)提升世界所有科学家对国际科学事业的参与度,不论种族、国际、语言、政治立场及性别;(4)提供独立权威的建议,以促进科学团体与政府、公民社会、私人部门之间建设性的对话。[2]
1.1.2国际科技数据委员会
国际科技数据委员会(Committee on Data for Science and Technology, CODATA)是国际科学理事会于1966年成立的国际性学术组织,秘书处设在法国巴黎。其宗旨为通过提高对科学及技术数据的管理和利用来促进国际科学的发展,以造福全社会。致力于提高科技领域重要数据的质量、可靠性、管理与可访问性,旨在促进科技数据的编辑、评价与传播,其目标为:(1)提升数据及数据获取、管理、分析、评估的方法(尤其是发达国家的数据及方法)的质量及可访问性;(2)为国际间数据收集、整理及利用的合作提供便利;(3)提高各科学技术组织对科学数据共享利用活动的认识;(4)关注数据存取及知识产权问题。[3]
1.1.3世界数据系统
世界数据系统(World Data System,WDS)是国际科学理事会在2008年29届莫桑比克马普托大会上成立的独立的科学数据组织,前身是世界数据中心,其目标为:(1)促使有质量保证的数据、数据服务、产品和信息的普遍公平获得;(2)确保长期的数据管理工作;(3)促进遵从公认的数据标准及规范;(4)提供促进和提升数据及数据产品获取的机制。截至2014年4月15日,世界数据系统共有82个成员组织,包括54个正式成员(Regular Members),9个网络成员(Network Members),3个合作成员(Partner Member)和16个联系成员(Associate Members)。2014年6月18日,世界数据系统制定了2014-2018年的战略计划,提出5项主要战略目标,包括:(1)确保数据服务成为国际科学合作研究不可分割的一部分;(2)培养学科和多学科的科学数据服务团体;(3)改善数据服务的资助环境;(4)提升科学数据服务的可信度、质量及开放性;(5)将ICSU-WDS定位为全球多学科网络的高质量数据的保障。[4]
1.1.4社会科学数据保存联盟
社会科学数据保存联盟(Data Preservation Alliance for the Social Sciences, Data-PASS)成立于2004年,是一个自发性的合作组织,旨在存储、编目、保存用于社会科学研究的数据,包括调查问卷、投票记录、家庭成长收入调查、社会网络数据、政府统计数据以及衡量人类活动的地理数据,成员包括哈佛大学的社会科学定量研究所等5所大学的研究所以及美国国家档案馆的电子与特殊媒体记录服务机构,其目标为:(1)保存有丢失风险的社会科学数据;(2)对数据进行编目并提升保存在数据联盟中数据的可获取性;(3)复制保存已存储收集的数据;(4)倡导数字保存的最佳实践方法。[5]1.1.5数据引用组织
数据引用组织(DataCite)于2009年12月1日成立于伦敦,是一个非盈利性的国际组织。其宗旨为:(1)建立科学数据最便利的获取方式;(2)增强科学数据作为学术记录的可接受性;(3)为未来学术的再利用而支持数据存储归档。数据引用组织通过每6个月召开一次的冬季会议与夏季会议来建立工作组之间的联系,加强各成员之间的合作。[6]
1.2具体学科领域的国际组织
具体学科领域的国际组织专注于某一科学领域,致力于该领域的科学研究数据保存、维护与共享,他们不仅是科学数据的组织维护者,也是科学数据的直接创造者,因而对科学数据的相关工作起着至关重要的作用。例如,欧洲生物信息学研究所(European Bioinformatics Institute,简称EMBL-EBI)成立于1994年,是一个非营利性的学术机构,其主要任务是为科学界提供免费生物信息资源、促进基础研究、提供培训和传播行业尖端技术,管理和维护多个大型生物信息公告数据库。[7]
1.3其他相关国际组织
除与科学数据相关的核心机构和具体学科领域的国际组织之外,还有一些国际组织与科学数据相关。这些国际组织虽不是直接以致力于科学数据保存维护工作为宗旨,但也直接或间接的制订了若干促进科学数据保存维护工作的政策,对科学数据保存维护工作的发展起到了重要作用。这些相关国际组织包括:联合国教科文组织(UNESCO)、经济合作与发展组织(OECD)、国际图书馆协会联合会(IIFLA)、欧洲科学技术研究协会(EASST)等。
2 国际组织关于科学数据保存与维护的政策及声明
2.1社会科学数据保存联盟原则
社会科学数据保存联盟(Data-PASS)针对不同机构关于科学数据保存与维护的信息请求作出了一系列回应,为不同机构制定了相关的政策声明。其中,2013年6月,Data-PASS在对美国国家卫生研究所(NIF)关于中心数据目录(Central Data Catalog)的信息请求作出的回应中,为其制定了如下原则:(1)由NIH资助出版的文章要符合出版标准,在进行数据引用时,至少要包含持久性标示符、题名、作者及日期;(2)由NIH资助的数据及引用数据的元数据需要在开放获取许可下通过公开应用程序界面实现可获取,并且其标识符需要与可索引的交叉学科目录兼容;(3)建议NIH资助的研究提供该研究机构的相关数据清单,并且该数据清单应遵从NIH的数据引用及获取政策;(4)研究机构应该提供数据引用及长期访问的渠道。
2013年5月,Data-PASS针对美国科学研究委员会关于联邦资助的研发数据的公共获取发布了相关声明,声明中提到标准和指导大纲有利于公众对科学数据的获取,具体来说,对联邦机构发展公共获取计划的科学数据提出以下要求:(1)可发现(Discoverable);(2)有意义且有用的(Meaningful & Usable);(3)长久保存(Persistent);(4)可信赖的(Trustworthy);(5)机密的(Confidential);(6)可引用的(Citable)。[8]
2.2相关组织对OSTP科研数据保存政策的建议
美国白宫科技政策办公室(OSTP)针对联邦资助的科研数据的长期保存和扩大公共获取问题向社会团体及个人广泛征求建议,对此,社会科学数据保存联盟(Data-PASS)、校际社会科学数据联盟(ICPSR)、美国国家数字管理联盟(NDSA)等机构纷纷作出回应。其中,ICPSR针对联邦资助的科研数据长期保存及公共获取问题制订了如下政策建议[9]:(1)将所有联邦资助的科学研究所产生的科学数据存放在一个合适的知识库中;(2)长期资助某一项具体领域的知识库以确保数据的保存与传播;(3)在科学出版发布中遵循一致的引用格式;(4)鼓励数据及元数据标准的制定;(5)将数据再利用作为评价研究设计的一项考量标准。
2.3欧洲联盟GRDI2020建议
2011年1月,欧盟第七框架计划资助的GRDI2020项目(GRDI2020-Towards a 10-Year Vision for Global ResearchData Infrastructures)发布了《全球科学数据基础设施:重大数据挑战》报告[10]。该报告提出了构建全球科学数据基础设施所面临的主要挑战和必须解决的问题,并提出了10 项建议以帮助实现GRDI2020 有关全球科学数据基础设施的愿景,包括:(1)全球科学数据基础设施必须基于坚实的科学基础;(2)必须开发和实施与数据、元数据、不确定性和质量相关的正式模型及查询语言;(3)必须开发先进的新型数据工具;(4)科学数据基础设施必须支持开放链接的数据空间;(5)科学数据基础设施必须支持科学数据与文献间的互操作;(6)科学数据基础设施必须支持数据密集型研究;(7)科学数据基础设施必须支持多学科和跨学科的研究;(8)科学数据基础设施必须支持科学生态系统;(9)应创建一个新的国际研究团体;(10)必须培养新的专业人士。
该报告还提出支持以下功能的服务和工具,以使涉及数据密集型跨学科活动的研究人员从中受益,包括:(1)支持科学数据整个生命周期(采集、维护、分析、可视化、存储和发布)的研究开发;(2)支持数据的跨学科共享;(3)通过连接不同学科的数据集,支持创建开放链接的数据空间;(4)支持科学数据与文献的互操作。
3 国际组织关于科学数据保存与维护的服务及项目
3.1国际科技数据委员会
国际科技数据委员会通过设立不同的任务组(Task Groups)及工作组(Working Groups)来开展学术活动,这些任务组和工作组是在两年召开一次的CODATA全体大会上确立的。目前执行的任务组及工作组是由2012年在台北召开的大会所提出或者更新的,共有12项任务组以及1项工作组,其中,有多项任务组工作涉及科学数据的保存与维护问题,包括“数据风险”(Data at Risk)、“数据引用标准及实践”(Data Citation Standards and Practices)、“发展中国家的科技数据保存与获取”(Preservation of and Access to Scientific and Technical Data in/for/with Developing Countries, PASTD)[11]。如CODATA与中国科学院(CAS)在2012年举办了“发展中国家的数据管理与可持续发展研讨班”,主要关注科学数据的生命周期管理、可持续发展和再利用问题,发展中国家广泛参与,包括越南、印度、阿富汗、泰国、蒙古等,为发展中国家数据保存和管理事业做出了积极贡献。
3.2世界数据系统
世界数据系统在全球共有54个数据中心,每个数据中心承担了汇集不同领域的科学数据并向科技界开放和提供服务的任务,还设有一个可以检索到中心成员所有数据的数据库(Databib),该检索系统基于各成员的元数据记录而建立,包括了生物学、化学、计算机科学、地球科学、地理学、生命科学、海洋科学、数学、物理、空间科学、统计学、地震学、土地利用科学。用户可以通过数据描述来检索,也可以通过数据的其他属性、地理坐标以及数据创建和提交的时间来检索,并支持分学科检索服务。
除此之外,世界数据系统还建立了数据门户服务(Data Portal),该项目开始于2007年,之后为收集更多的世界数据系统的数据而处于更新中,将于2014年重新开放使用。数据门户的使用者需要遵循在空间数据基础设施(Spatial Data Infrastructures, SDI)领域的原则标准。[12]
3.3社会科学数据保存联盟
社会科学数据保存联盟为保存与共享社会科学数据提供了两项重要服务,共享目录(Shared Catalog)及安全存档(SafeArchive)。Data-PASS共享目录可供任何人检索或者浏览由大多数Data-PASS成员所提供的数据,并可以根据研究的需要下载并分析公开的研究项目。[13]而SafeArchive是由Data-PASS成员建立的一个政策驱动的数字资源复制存储平台,为希望复制其数据以实现共享合作的图书馆、博物馆、档案馆提供了一个开放的资源工具。机构成员可自主使用,而不需要专业技术人员的帮助。SafeArchive为数据档案的存储与复制管理提供了一个良好解决办法,大大推动了科学数据的保存复制工作。[14]
3.4数据引用组织
数据引用组织(DataCite)为帮助用户发现、获取再利用数据,提供了一系列服务项目,包括元数据存储服务(DataCite Metadata Store)、元数据检索服务(DataCite Metadata Search)、开放档案提供服务(DataCite OAI Provider)、统计数据服务(DataCite Statistics)、引用格式服务(Citation Formatter)等。其中,元数据检索服务使用户可以方便检索到DataCite数据集中的元数据,引用格式服务支持45种不同的语言,为用户提供不同的引用格式及可检索的数据标示符,用户可以在超过500个数据引用格式中选择自己所需的格式类型。
4 国际组织关于科学数据保存与维护的会议
4.1国际科学技术委员会
国际科学技术委员会自1968年起,每两年举办一次国际学术会议,邀请世界各领域的科学家共同讨论科学数据领域面临的问题与挑战,并评审任务组的各项工作。其中,第23届CODATA国际学术会议于2012年10月28-31日在台北召开[15],主题为“开放数据与信息:变化中的地球”(Open Data and Informationfor a Changing Planet),会议深入探讨了数据对未来地球的重要性、数据出版及知识管理的数据引用标准、原始数据基于再分析以促进新科学产生等重要议题。会议还对协同知识管理主题进行了探讨,为协同环境下的知识管理带来了新的发展方向。
此外,2014年11月2-5日将在印度新德里召开国际科学数据大会[16]。会议由印度国家科学院承办,是CODATA与WDS首次联合举办的大型国际科学会议,其主题为“全球可持续发展的数据整合与共享”(Data Sharing and Integration for Global Sustainability),旨在为数据领域的专家学者及决策者提供一个国际平台,发掘数据服务对于全球可持续发展的潜能,探讨全球数据挑战以及开放数据、共享信息和数据整合与集成对科学、社会、经济和政策的重要作用。
4.2世界数据系统
世界数据系统每年举办两次世界数据系统科学委员会大会(WDS Scientific Committee Meeting,以下简称WDS-SC会议),讨论世界数据系统的运转方式,制定新的发展战略,规划各成员的组织活动。从2009年起,WDS-SC会议已成功举办了10届,如表1所示[17]。
表1 世界数据系统科学委员会大会
除此之外,世界数据系统还组织召开国际科学理事会数据系统大会(以下简称ICSU-WDC大会)。2011 年9月,第一届ICSU-WDC大会在日本京都的京都大学召开[18],有来自22个国家的155个参与者参加,会议主题为“为全球科学发展的全球数据”(Global Data for Global Science)。在此次会议上达成了以下共识,ICSU-WDC将坚持科学普遍性原则,致力于保障高质量的数据获取、数据服务长期事业,以整合跨学科的科学数据及信息为目标。
4.3国际数据管理会议
国际数据管理会议(International Digital Curation Conference, 以下简称IDCC)是由数据管理中心(Digital Curation Centre,DCC)召开的国际会议,每年举办一次,自2005至今,国际数据管理会议已经成功举办了9届(见表2)[19]。会议将致力于将数据管理的不同学科领域的个人、团体及机构组织者召集起来,共同探讨数据管理的政策及实践问题,以推动国际数据管理事业。
表2 国际数据管理会议
4.4科技数据长期保存与增值会议
科技数据长期保存与增值会议(Ensuring Long-Term Preservation and Adding Value to Scientific and Technical Data)致力于确保科学技术数据的长期保存与增值服务。自2002年起,该会议已分别在法国、意大利、英国、德国、西班牙成功举办了5届会议。2011年的科技数据长期保存与增值会议在法国图卢兹举办[20],由法国国家太空研究中心主办。此次会议的主题为“探讨增值服务的存储及互操作标准”,该会议认为在开放变化的软件结构环境下,探讨存储及互操作标准对于提高存储档案间的互操作性、实现数据增值服务、确保最终用户的数据利用十分必要。
当前,科学数据对于科学事业及全球发展的重要性已经引起了世界范围内的广泛关注,不少关于科学数据的国际组织纷纷成立。同时,科学数据的保存与维护是实现科学数据共享利用、发挥其最大价值的重要基础。国际组织作为国际性的团体或机构,积极召集各国有关科学数据的团体组织,共同商讨科学数据保存与维护问题,制定全球化的统一原则与标准,同时提供国际层面的领导与实践,为国际数据保存与维护事业做出了巨大贡献。及时了解科学数据保存与维护相关国际组织的动向,将有利于我国充分利用国际科学数据保存与维护的资源,借鉴国际组织有关的指南与声明,完善我国科学数据保存与维护政策,从而推动我国科学数据保存与维护事业的发展。
(来稿时间:2014年10月)
参考文献:
1.邢文明. 国际组织关于科学数据的实践、会议与政策及对我国的启示. 国家图书馆学刊,2013(2):78-84
2.ICSU. About ICSU. [2014-03-10]. http://www.icsu.org/ about-icsu/about-us
3.CODATA. Data Science Journal. [2014-03-10]. http://www. codata.org/dsj/index.html
4.WDC. Home-World Data System. [2014-07-01].http:// www.icsu-wds.org/organization/intro-to-wds
5.Data-PASS. Overview of the Project. [2014-03-10].http:// www.data-pass.org/about.jsp
6.DataCite. Helping you to find, access, and reuse data. [2014-03-10].http://www.datacite.org/
7.EMBL-EBI. Welcome to EMBL-EBI. [2014-03-10]. http:// www.ebi.ac.uk/about
8.Data-PASS. Best Practices. [2014-03-14]. http://www. data-pass.org/best-practices.jsp
9.ICPSR. ICPSR Response. [2014-03-14]. http://www.datapass.org/node/95
10.姜禾. 欧盟GRDI2020发布《全球科学数据基础设施:重大数据挑战》报告. [2014-03-14]. http://www.gisti-thinkbank. ac.cn/admin/upload/20111101-20110311.pdf
11. CODATA. CODATA Task Groups 2012-2014. [2014-03-14]. http://www.codata.org/taskgroups/index.html
12. WDS. Data and Service. [2014-03-14]. http://www.icsuwds.org/services
13. Data-PASS. Shared Catalog. [2014-03-14]. http://www. data-pass.org/call.jsp
14. Data-PASS. SafeArchive. [2014-03-14].http://www.datapass.org/syndicated-storage.jsp
15. CODATA. Open Data and Information for a Changing Planet. [2014-03-15].http://codata2012.tw/
16. ICSU. SciDataCon 2014. [2014-03-15]. http://www. scidatacon2014.org/
17. WDS. News Archive. [2014-05-09]. http://www.icsu-wds. org/news/news-archive
18. WDS. Summary and Shared Understandings. [2014-03-15]. http://www.icsu-wds.org/files/wds-conference-preliminaryreport.pdf
19. DCC. International Digital Curation Conference. [2014-03-15].http://www.dcc.ac.uk/events/international-digital-curationconference-idcc
20. CNES. PV2011 Conference. [2014-03-15]. http://www. pv2011.com/
〔分类号〕G25
〔作者简介〕司莉,女,武汉大学信息资源研究中心教授,图书馆学系主任,博士生导师,发表论文100余篇;封洁,女,武汉大学信息管理学院硕士研究生。
Data: The Progress of International Organizations
Si Li1Feng Jie2
( 1.Center for the Studies of Information Resources of Wuhan University; 2.School of Information Management of Wuhan University )
〔Abstract〕In order to learn about the progress of international organizations on scientific data preservation and maintenance, the article introduces the international organizations related with preservation and maintenance of scientific data as well as investigates and summarizes their conferences, policies and services from 2010. The article expects to provide reference for the undertakings about scientific data preservation and maintenance in China, thereby promoting development of scientific data career in our country.
〔Key words〕Scientific data preservationScientific data maintenanceInternational organization