开放科研数据平台的建设策略研究
2022-04-20姚翔宇
姚翔宇
关键词:开放科研数据平台;数据周期;建设策略
摘 要:开放科研数据平台是开放科研数据活动中的有形实体,以面向数据周期的视角考察现有平台实例,其分为存储型、索引型和导航型3类。文章根据各类开放科研数据平台的功能,按照打通单一链路、连接链路节点、编织路径网络的建设思路,构建了以存储型平台为基石、以索引型平台为关键连接节点、以导航型平台为补充的开放科研数据平台体系。
中图分类号:G250 文獻标识码:A 文章编号:1003-1588(2022)03-0091-03
开放科研数据是开放数据运动的组成部分,指开放在科研活动中产生的各种实验数据及观测、统计、仿真等数据[1]。开放科研数据既能降低学术交流成本,加快科学知识的创造与传播速度,又能使科研数据得到长期保存,方便人们开展研究工作。开放科研数据活动的组成要素有科研人员、组织机构、数据、平台、政策、法律、技术、资金等,其中,开放科研数据平台是承载和表现其他要素的有形实体[2]。目前,虽然部分开放科研数据平台在一定范围内已具有一定的影响力,但其整体图景仍不够清晰,学界应对其实现形式进行更深入的调查、对比和归纳,总结各类型平台的特性、适用性和相互关系,进一步提出现实可行的建设策略,推动开放科研数据平台的建设实践。
1 以面向数据周期的视角考察现有平台实例
司莉将开放科研数据与机构知识库建设相结合,把开放科研数据平台划分为机构和联盟两类,庄晓喆根据这一观点提出了联盟平台集中式、分布式和混合式3种建设模式[3-4]。完颜邓邓在调研开放科研数据平台建设的过程中重点关注了国家、科研资助机构、高校等建设主体的差异[5]。黄国彬根据发布内容将开放科研数据平台分为单一科学数据发布平台和科技文献与科学数据混合发布平台[6]。吴雅威认为开放科研数据平台建设应强调集中与融合,使其具有数据收集、数据标准化、数据监护、数据分析、数据共享和数据创新等多种功能,并总结出支持条件、数据功能、评价标准三个平台建设元素[7]。上述研究成果从不同方面描绘了开放科研数据平台的形态,虽然学者们提供了各自的开放科研数据平台建设意见,但仍存在过于关注平台的某些子集或关联因素及过分追求功能的全面性和完备性等问题。数据活动存在固有的生命周期,DDI(Data Documentation Initiative)将其划分为概念、收集、处理、存储、发布、发现、分析、重用等八个阶段,其中,处理、存储、发布、发现、分析、重用阶段构成了一个再循环路径,开放科研数据主要服务于存储、发布、发现、重用阶段。以面向数据周期的视角对开放科研数据平台进行分类,更加符合数据活动的本质,且可剔除非核心要素,避免形式交叉的干扰。
2 开放科研数据平台的分类及特征
根据开放科研数据活动在数据周期中的对应阶段,可明确以下开放科研数据平台的表现形式:一是关涉数据存储在平台中,二是发布关涉平台展示的内容,三是发现关涉平台内容的组织和检索方式,四是重用关涉数据的访问获取和引用。笔者据此选取了CNCB-NGDC Database Commons、DataONE、Harvard Dataverse、RCSB PDB、re3data、Research Data Australia等处于运营状态的开放科研数据平台进行调查和比较,将开放科研数据平台分为存储型、索引型和导航型三类。
2.1 存储型开放科研数据平台
存储型开放科研数据平台(以下简称“存储型平台”)是以数据存储库为主要基础设施建立的,核心特征是直接保存科研数据本体,其在数据的提交、保存、访问政策和用户使用体验方面具有较高的一致性,覆盖了数据活动生命周期中的存储、发布、发现、重用等阶段,成为连接数据生产者和使用者的中介,可被视为开放科研数据平台体系中的基本单元或底层单元。数据集是存储型平台的管理单元,对应现实研究环境中的项目、事件等实体,其上游是元数据,通过约定字段指向描述数据集整体的关键性信息,其下游是数据文件,是科研数据经过数字化处理后用于保存、传播和再利用的具体形式。从开放科研数据平台的运营主体和数据主题看,目前有两种典型案例值得注意:一是机构存储。机构存储以单个或联合数据生产机构为主体,科研数据面向不特定的学科领域。二是学科存储。学科存储以单个或联合学术出版或资助机构为主体,科研数据面向特定的学科领域,如:RCSB PDB平台专注于存储蛋白质、核酸等生物结构信息,其在元数据、存储格式、质量标准等方面更符合学科使用习惯,并具有在线展示和分析功能。
2.2 索引型开放科研数据平台
索引型开放科研数据平台(以下简称“索引型平台”)主要收集与整合其他类型平台中的科研数据的元数据,其核心特征是不直接保存科研数据本体。现阶段,虽然不同来源的科研数据元数据通常在字段和格式上存在一定的差异,但仍有相当一部分的字段是共有或兼容的,如:英美政府数据门户网站为了标记学科广泛、来源多样、类型不同的科研数据,总结出科研数据元数据的必选字段,在Dublin Core的基础上制定了通用元数据标准与特定领域元数据标准[8]。事实上,索引型平台的工作重点是处理不同平台的元数据的兼容性问题,通过清洗和映射构建结构一致的元数据仓库,并提供统一的检索界面,建立一站式的数据发现系统,通过统一标识符或链接的方式提供数据访问途径。Research Data Austria是索引型平台的典型代表,作为澳大利亚国家科研基础设施计划的一部分,由政府主导建设,数据内容几乎涵盖了所有研究领域,其既不存储数据本体,也不干涉数据所有权,仅显示数据发布合作伙伴持有的元数据和数据链接,并对这些信息进行有序组织。
2.3 导航型开放科研数据平台
导航型开放科研数据平台(以下简称“导航型平台”)主要提供描述各类平台的元数据,其核心特征是不直接触及科研数据本体层和元数据层。现阶段,无论是存储型平台还是索引型平台的覆盖范围都十分有限,导航型平台在数据发现层面提供了另一种思路。导航型平台采集其他类型平台的基本信息并进行分析处理,以自定标准加工得到描述相应平台的元数据,通过分类或
关键词检索协助用户发现潜在数据源,或帮助持有科研数据的用户发现合适的存储型平台。例如,re3data是科学数据存储库的注册导航平台,接受全球各学科存储型平台的注册登记,为各平台建立包括基本信息、机构信息、开放条款、数据标准在内的元数据描述,可提供学科、内容、国家的垂直分类导航,用户可直接检索相关信息;中国国家生物信息中心下辖的CNCB-NGDC Database Commons是专注于导航生物領域的开放科研数据平台,能够自主采集和整理元数据信息,并在客观描述的基础上提供排名、评分、相关推荐等增强功能。
3 开放科研数据平台建设策略
3.1 多层次关联的平台体系模式
充足的数据量和数据交叉关联是实现开放科研数据倍增效益的前提条件,理想的环境是在同一个框架且相对集中的平台上包容开放发布、统一发现、协议共享。但现实情况是,仅re3data平台就已登记了超过2,450家科研数据存储平台。造成这种现象的原因有偏向技术性的数据安全和隐私、数据多样性等问题,以及在数据所有权和各方信任问题上难以达成绝对共识。在这种背景下,搭建多层有序的平台体系是一种合理现实的平台建设模式,其中的存储型平台保留数据本体,是该体系的基石,基于主体“信任”阈值的不同,存储型平台可以联合或独立的形式存在,数量相对较多,需要在保证开放数据质量和兼容性的协议层面达成一定共识;索引型平台是体系中的关键连接节点,虽然数量较少,但可通过整合元数据的方式聚合数据,且不干涉数据的所有权,降低开放数据的发现和获取成本;导航型平台作为存储型平台和索引型平台的补充,可实现辅助发现并拥有开放数据运动的社区功能。
3.2 平台体系的建设阶段
3.2.1 第一阶段。科研数据生产机构建立自主可控的存储型平台。在该阶段,平台建设主体相对集中,技术力量有限,建设目的主要是扩充数据存量,发现及解决实践过程中存在的问题,并尽力加强技术层面的交流和研究,评估开发架构的通用性,减少重复投入。目前,虽然我国部分机构在相关建设方面已初具规模,但影响力有限,如:自然科学领域的科学数据银行、国家基因组科学数据中心,社会科学领域的复旦大学社会科学数据平台、北京大学开放研究数据平台等。
3.2.2 第二阶段。随着分布式存储型平台的建设,数据积累量不断增加,部分关系紧密的特定社区基于高度的信任和共识会考虑扩大存储型开放平台的成员范围,使学术主体之外的商业性数据托管机构、科研服务机构等有机会加入。导航型平台在该阶段应承担起科研数据发现和连接的职责,并开展针对平台的监测和评价工作。
3.2.3 第三阶段。在该阶段,存储型平台已相对成型并平稳运行,可持续提供科研数据资源,数据利用的共识与权利界限逐渐明确,用户对数据质量控制、追踪和评价等衍生服务的需求增加;索引型平台经过整合与淘汰逐渐集中,成为科研数据发现和访问中心;导航型平台成为多层次关联平台体系的补充部分,服务和联络其他类型平台成员,扮演专业协会或学术社区的角色。
3.3 平台的功能性建设要点
3.3.1 存储型平台的功能性建设要点。存储型平台涉及用户参与的环节较多,在功能建设过程中应注重交互的便捷性,包括上传、发布、更新数据和元数据的流畅度,以及清晰的界面层次、方便的多人协作和批量操作功能、正确的版本控制逻辑等,以降低用户的学习和操作成本。存储型平台应突出元数据功能的通用性、可控性和学术性,奠定索引基础,如:将元数据分为基本元数据和拓展元数据,兼顾通用性和差异性;精确定义必填项,减少人工填写项,引入受控词表以增强规范性;提供元数据导出文件和引用格式,方便数据重用;加强数据加密、数据备份、密钥核对、MD5校验等安全功能。
3.3.2 索引型平台的功能性建设要点。索引型平台集中和发布不同来源的数据及元数据,在元数据功能方面应优先保证字段选择的基础性,实现宽兼容;着重加强发现系统功能,提升分类检索和结果筛选能力,增加地图检索等可视化的发现方式,并利用元数据的数量优势实现关联发现,为重用评价奠定基础。作为数据访问的中介,索引型平台应做好对数据来源页面的自动校验工作,保障收录数据的有效性,并在条件允许的情况下加入统一身份认证功能,方便用户获取受限数据。
3.3.3 导航型平台的功能性建设要点。与存储型和索引型平台相比,导航型平台的功能结构相对简单,其工作重点是信息的收录、维护和更新,通过综合自主提交、自动校验、人工维护和反馈校正等方式实现收录信息的齐全、有效。为了增强导航发现效能,导航型平台应在垂直分类中为其收录的平台描述性元数据建立多维度目录,并进一步加入平台指标评价和社区交流功能。
参考文献:
[1] 黄永文,张建勇,黄金霞,等.国外开放科学数据研究综述[J].现代图书情报技术,2013(5):21-27.
[2] 盛小平,袁圆.国内外科学数据开放共享影响因素研究综述[J].情报理论与实践,2021(8):173-179.
[3] 司莉,曾粤亮.国外机构科研数据知识库研究进展[J].情报学报,2017(8):859-870.
[4] 庄晓喆,司莉.机构科研数据知识库联盟建设模式比较[J].图书馆论坛,2018(8):55-60.
[5] 完颜邓邓,高峰.英美澳科学数据存储与共享平台建设现状调查及启示[J].图书馆建设,2016(3):29-34.
[6] 黄国彬,刘馨然,姜颖.影响科学数据引用的外部因素分析[J].数字图书馆论坛,2017(6):2-8.
[7] 吴雅威,张向先.我国Data Commons平台的建设策略研究[J].图书馆学研究,2019(18):46-53.
[8] 司莉,李鑫.英美政府数据门户网站科学数据组织与查询研究[J].图书馆论坛,2014(10):110-114.
(编校:冯耕)