APP下载

研究数据联盟——建立全球数据共享和数据交换的基础架构

2016-01-19王艳翠李书宁李爱红编译聊城大学图书馆山东聊城5059北京师范大学图书馆北京00875

图书馆理论与实践 2015年1期

●王艳翠,李书宁,李爱红编译(.聊城大学图书馆,山东 聊城 5059;.北京师范大学图书馆,北京 00875)

研究数据联盟
——建立全球数据共享和数据交换的基础架构

●王艳翠1,李书宁2,李爱红1编译
(1.聊城大学图书馆,山东聊城252059;2.北京师范大学图书馆,北京100875)

[关键词]数据共享和交流;研究数据联盟;焦点区域

[摘要]为了满足全球日益增长的对于数据基础设施的需求,研究数据联盟作为一个全球性的、团体驱动的组织于2013年计划并推出(简称RDA)。本文对RDA的着眼点和使命、出现及快速发展、运转机制、焦点区域、建立数据共享和交流的技术基础设施和社会基础设施以及开展的一系列工作进行了介绍。

1 研究数据联盟的着眼点和使命

今天的技术能够对以前无法想象的大量数据进行收集和分析。通过新方法、新应用以及新服务的开发,这类数据正在改变着私人的、公共的、学术的等方方面面。无处不在的数据不仅仅改变“是什么”,它正在改变“将是什么”——致力于基础工作从而推动新的创新的出现。从这个意义上说,研究领域对促使数字化数据改变的需求最迫切。目前,越来越多的问题需要使用复杂的模型和新方法对来自各个不同科学领域的数据进行综合分析,而研究人员具备共享和综合关键数据集的能力是基础。只有具备了这样的基础,才能开发出解决问题的新方法。

数据共享和数据交流使我们能够揭示那些以前未连接过的事物之间的连通性。例如,为了研究大都市地区的哮喘病风险,就要结合健康学、环境、人口和其他数据等进行研究;这就需要有支持获取、使用、重复使用、管理、协调以及相关数据集管理的基础框架。对于这类数据的相关共享和阐述来说,仅仅提供可用数据是远远不够的。为了使研究更具挑战性,不同的研究团体都有各自不同的数据标准、政策和实践。因此,正如同今天的互联网需要新的技术基础设施和共同的协议来实现计算机网络的连接一样,需要有足以能够支持技术和社会基础设施整合来自不同群体的数据集并能在这些群体中实现合作的组织。

为了满足全球日益增长的对于数据基础设施的需求,研究数据联盟(以下简称RDA)作为一个全球性的、团体驱动的组织于2013年计划并推出。它的着眼点是研究者和创新者们跨技术、学科以及国界公开共享数据,从而解决全社会面临的巨大挑战。它的使命是建立能够使数据实现共享的社会桥梁和技术桥梁。这些都是通过创造、采纳并应用社会、组织以及必要的技术基础设施来降低数据共享和数据交流的壁垒而完成的。在实践中,RDA成员不仅致力于数据共享和数据交流的技术基础设施(包括其基本的)结构和组成要素(持续的数字标识符,共享的元数据框架等)方面的研究,还致力于团体合作所需要的社会基础设施(公共政策和组织实践、统一的标准、数据获取和保存的通用方法等)方面的研究。

2 RDA简介

对于研究人员、数据科学家和各种团体组织来说,RDA是一个新兴的、快速发展的国际化组织。这是一个成员驱动的组织,任何个人只要愿意接受RDA的开放、协商决策、技术中立、均衡代表各方利益等基本原则,就可以免费加入联盟。其他组织也可以以机构成员(具有投票权)或合作组织成员加入RDA。各类组织也可以作为组织成员(在组织内有投票权的)或合作组织成员加入RDA。

RDA是由选举产生的九名资深人员组成的委员会领导的。RDA委员会与RDA成员——选举产生的技术咨询委员会和组织成员与分支机构密切合作,用以

鼓励和支持重点工作组和更广泛的兴趣组。RDA由工作组、兴趣组和合作组组成。工作组和兴趣组是RDA的核心。工作组致力于在12~18个月的短期时间内在多个机构内实现特定的工具、代码、最好的实践、标准等的实施;兴趣组则具备更宽广的范围和更长的时间,他们工作的目的是确定常见问题及兴趣,而这些工作最终导致更多的焦点工作组的创立。截止到2013年秋天,RDA形成了36个研讨课题范围更广泛的兴趣组和工作组。目前,工作组和兴趣组的数量继续高速增长。合作组包括RDA的主要管理和行政机构,负责联盟日常管理,并为工作组和兴趣组提供支持和鼓励。

RDA的组织和运作一直以来都是由美国、欧盟和澳大利亚的政府机构组成的国际指导委员会指导。美国的参与是由美国国家科学基金会的RDA学术报告会发起的;欧盟的参与是通过欧洲委员会的资助;澳大利亚的参与是由于获得澳大利亚政府通过澳大利亚国家数据服务中心的资助;其他还包括查尔姆斯理工大学、美国国家标准技术与研究所;微软研究院对RDA的全体会议提供了额外的支持。

图 RDA的组织机构

3 RDA的出现及快速发展

数据团体和国际机构寻求加速研究创新以及数字化研究数据前所未有的增长使得数据基础设施的开发成为可能是RDA出现最根本的原因。2011年和2012年,美国国家科学基金会、美国国家标准和技术委员会、欧洲委员会、澳大利亚政府以及许多其他机构就加快世界范围的研究数据共享和交流而建设更加有效的基础设施进行了多次磋商讨论。这些讨论以及日益增长的开发和协调全球研究数据基础设施的需求,通过数据访问及互操作性任务小组(DAITF)的探索和“数据网络论坛”白皮书的总结加以揭示。许多机构认识到需要更宽泛的努力加快高校基础设施的开发和应用,从而促使美、欧、澳的组织者们提出国际化开发研究数据联盟的设想。研究数据联盟可以实现和扩展DAITF的设想和“数据网络论坛”的概念;推动基础设施的开发、应用及使用,从而加快开放存取研究数据的全球共享和交流。2012年8月,RDA最初的组委会聚集到一起对这个新生的组织进行了规划和组织。

2012年至2013年,RDA巨大的群体兴趣和增长远远超过了预期。2013年3月RDA在瑞典哥德堡举行了第一次全体会议,有来自31个国家的240多人参加。2013年9月在华盛顿举行第二次全体会议,有来自53个国家和地区的大约1300多人参加了RDA论坛。2014年3月在都柏林举行第三次全体会议。

4 RDA的运转机制

RDA的工作是由他的工作组和兴趣组来执行的。当一个相关的团体围绕一个主题发展的时候就会形成一个群,而且这个主题具备良好定义的问题、共同的目标、并有机会创造一个及时行动的框架。工作组和兴趣组围绕同一个主题及该主题的快速发展而协同开发。工作组根据书面的案例陈述提出一个新的问题范围,然后研究数据联盟与工作群密切合作,确保其成果可在12~18个月内提交至框架,并确保该成果是可以操作实施的。兴趣组则经常召开会议,让各个团体围绕工作群的短期目标进行时间分配。一年的时间里,工作组和兴趣组的活动主要集中在:克服研究数据共享障碍、克服出版障碍、克服引用障碍和归档障碍以及开发必要的基础设施来支持这些任务上面。为了促进工作组和兴趣组的成功运转,技术咨询委员会代表RDA团体进行工作。技术咨询委员会是RDA的技术路线图,负责发现和解决差距。短期(12~18个月)工作组聚集到一起解决下列问题:①为一个特定的但又真实存在的目标社区创建能够促进数据共享和交流的基础设施的具体部分;②在目标社区内应用该基础设施;③使用该基础设施加快数据驱动创新。工作组的焦点在于其可交付成果的影响和可实施性。兴趣组在主体范畴方面提供了论坛,使得工作组作为基础设施的必需部分而获得支持。

5 RDA的焦点区域及相关活动

目前,RDA工作组和兴趣组的活动可以分为以下五个方面,这五个方面仅仅是一直以来新的团体不断涌现、新的组织快速发展的快照。

(1)科学领域。参与RDA团体的成员往往是围绕

着某一科学领域,在相对狭窄的学科领域内,通过RDA克服技术障碍和社会障碍而实现数据共享。通过共享数据模型来实现这种共享。以生物学为例,共享词汇或分类系统,或就材料数据管理来说,实现跨境协议连接。目前,RDA科学领域的工作主要集中在四个方面:生物学、农业、社会科学(尤其是数字化历史和人种学)、工程(尤其是材料科学)。

(2)数据归档和出版。该领域目前有五个工作组处理面临着把仓储/档案集作为扩展数据集的关键性问题。这些小组普遍追求方法共享、工具共享,并着眼于降低运营成本。具体活动包括最常见的通过数据生命周期表示数据源;对于正在认证中的仓储数据实现开放的、低成本高效益运转并且共享标准;文献计量;为长尾理论研究需求提供服务;更好地管理数据出版费用等。

(3)在科学研究和教育实践活动中数据的共享和重复利用的需求。RDA中有部分固定的小组使用有针对性的方法来更好地捕捉研究数据用户群体的需求,这些是通过配置文件以及通过有针对性的努力(如专注于发展中国家在云计算中的教育材料)来实现的。

(4)数据引用参考。当目标是研究数据的重复利用时,全球数据共享就遇到了诸多壁垒。该领域的三个小组对不同的壁垒进行了调查研究。研究发现,在某一出版物中引用的数据,整体作为时间序列数据来说,可能是更大的一部分而且时间是模糊的,引用这类数据的子集部分应当对引用方式作出约定,RDA的一个小组正试图对约定引用方式达成协议。目前,数字化数据客体被描述成多种语言,而RDA正在力图用单一语言编码来对数字化数据客体进行阐述。最后,跨国界的数据共享遇到了诸多的法律壁垒,这也是RDA小组共同面临的一个难题。

(5)基础设施。RDA中有八个工作组和兴趣组致力于基础设施的研究方面。基础设施被划分成具体范畴和详细范畴两大类。前者的成果是通过服务水平驱动代码予以演示,后者实际上是建设框架。目前,具体范畴的分类活动包括:①对于建立可互操作性的工具来说,参考数据模型和随之而来的词汇都是最基本的需求;②对仓储管理共享可控政策,一旦通过了确认,可以简化认证并提高仓储及档案文件的透明度;③元数据标准目标和数据类型注册表合并在一起,有助于一旦发掘出数据目标,能够迅速对其作出解释说明。而大数据分析的精细组则建立了美国国家标准及技术研究所大数据工作组。联合识别认证管理正在寻求推进国际联合识别认证。

(6)RDA的相关活动。下表列出了RDA成立一年来的五大类活动。

表3 RDA一年的活动

6 前景、展望

受到快速增长的激发后,RDA目前正致力于开发一个高效组织,这个组织能满足并适应RDA的任务,并且作为一个支持模型至少可以覆盖五年的时间,而这五年的时间对于组织来说是证明其影响力是否成功的关键时期。这一时期衡量组织是否成功的重点在于:①一个持续的、不断扩大的

数据基础设施通道的开发,通过社区的应用和利用加速数据共享和交流;②随着数据团体对数据基础设施的潜在影响越来越大,在整个数据团体中,提高RDA作为“独立空间”用于协调组织间、个人间及组织和个人间的合作的效能;③开发一种灵活的、精干的、高效的组织用以支持数据团体在全球及区域间的扩展以及越来越多的合作。基于研究数据在科研中发挥的作用越来越大,而且不同机构对于研究数据共享的需求也越来越强烈,国内相关机构和研究人员也应该密切关注RDA组织的发展态势,并争取机会参与其中,以加强合作,实现国内相关研究数据的共享。

[编译文献来源]

[1]http://dlib.org/dlib/january14/parsons/01parsons.html.

[2]http://dlib.org/dlib/january14/01guest_editorial.html.

[3]http://dlib.org/dlib/january14/plale/01plale.html.

[4]https://rd-alliance.org/.

[收稿日期]2014-04-29 责任编辑]邵晋蓉

[作者简介]王艳翠(1973-),女,硕士,聊城大学图书馆副研究馆员,已发文数篇;李书宁(1976-),男,博士,北京师范大学图书馆副研究馆员;李爱红(1970-),女,本科,聊城大学图书馆馆员。

[文章编号]1005-8214(2015)01-0052-03

[文献标志码]A

[中图分类号]G250.73