数据密集型科研环境下的科研数据管理框架研究*
2017-08-07彭鑫邓仲华
彭鑫,邓仲华
(武汉大学信息管理学院,武汉 430072)
数据密集型科研环境下的科研数据管理框架研究*
彭鑫,邓仲华
(武汉大学信息管理学院,武汉 430072)
随着科学研究第四范式概念的不断深入,科学研究越来越依赖于从大量科研数据中发现新的知识和科学规律,科研数据的管理成为科学研究第四范式发展面临的首要问题。通过文献调研,梳理数据密集型科研环境下科研数据的特征,分析科研用户对科研数据管理的具体需求,并梳理科研数据管理各阶段的具体任务,基于此提出科研数据管理框架。结合国内外实践现状,对科研数据管理框架的发展提出建议,为科研数据管理平台或工具的开发提供借鉴和参考,对解决数据密集型科研环境下缺乏数据管理工具的困境具有一定意义。
数据密集型科研环境;第四范式;科研数据管理
随着大数据时代的来临,数字化程度加深,科学研究进入数据密集型科研环境。科研数据不仅是科研活动的产物,还是科研活动开展的基础。科学研究越来越依赖于对大量科研数据实时、动态地监测和分析来解决各种科学问题,第四范式应运而生[1]。第四范式又称作数据密集型的知识发现,借助数据工具和计算机技术进行建模、分析以发现新的知识或科研规律。吉姆•格雷提出E-Science环境和科学研究第四范式的概念,指出数据密集型环境下科学研究缺乏数据管理和分析工具的现状[2]。随着科研数据大量积累,面对大量、分散、结构多样的科研数据,科学研究第四范式的发展面临多方面挑战。科研数据的价值日益凸显,科研范式的转变以及对科研数据开放获取的需求增加,使得有效的科研数据管理成为亟待解决的问题。
1 数据密集型科研环境下科研数据管理
1.1 科研数据及特征分析
科研数据指人类从事科研活动所产生的原始观测数据(如遥感学、地理学、社会经济学等领域的观测数据)、实验室仪器设备产生的实验数据(如光谱图像、基因序列等数据)、仿真数据以及Web数据。科研数据迅速增长并大量积累,来自不同学科领域不同类型的科研数据,共同构成数据密集型科研环境。科研数据具有大数据的一般特征:(1)数据来源广泛、分布分散,包括高校实验室、机构库、学科库、政府数据库及互联网等;(2)数据体量巨大,海量历史数据不断积累,且呈PB级别动态增长;(3)数据结构多样,结构化与非结构化数据混合;(4)数据价值性,科研数据具有研究价值和使用价值。相较一般的大数据,科研数据对时效性要求较低,更强调从大量、积累的科研数据中演化和发现新的科研规律或知识[3]。因此,科研数据又呈现一定的特殊性:(1)学科差异性,不同学科领域数据体量、数据结构、数据形式等方面具有较大差异;(2)学科交叉性和关联性,数据通常涉及多个学科领域,对跨领域、跨机构、跨数据库的数据融合提出新要求;(3)历史积累性,大数据环境下强调数据的动态实时性,而数据密集型科研环境下更注重数据的历史积累和数据体系的完整;(4)准确性和完整性,科研数据需要长期存储,存储成本高,要尽可能保证数据的真实性、准确性,并对数据质量和研究价值进行评估。
1.2 科研数据管理的内涵及生命周期理论
李晓辉认为有效的科研数据管理能避免科研数据流失,促进数据成果出版,提高数据曝光度,以此实现数据的有效共享,对质疑提供科学验证,鼓励科研观点多样性,能极大节省科研成本,充分发挥资助机构的研究价值[4];Cox等将科研数据管理定义为科研生命周期中围绕数据收集、存储、安全、共享和重用展开的系列管理活动[5];崔宇红认为科研数据管理是对科研数据进行统筹协调和配置,最终形成科研数据管理的相关理念、政策、规范和体系[6]。科研数据管理的对象是科研活动所产生的过程数据和成果数据,主要管理活动包括数据采集、筛选、存储、维护、发布与共享等;科研数据管理的目的即支持科研人员在科研过程中对数据反复利用,充分挖掘科研数据的研究价值。
科研数据管理过程具有明显的周期性和阶段性特征,基于科研活动不同阶段的数据形态和数据处理活动,形成关于科研数据管理的相关生命周期理论。新墨西哥大学图书馆DataONE项目从数据服务和信息框架实施的角度,提出科研数据生命周期的八个阶段,即计划、收集、质量保证、描述、保存、发现、集成、分析[7];英国数据监护中心提出经典的数据监护框架,内容包括数据概念化、数据产生、获取和使用、数据评估和选择、数据存储、归档、长期保存、数据重新评估、标准化存储、数据公开和再利用、知识转化[8];美国政治与社会校际联盟从数据管理过程提出科研数据管理生命周期框架,包括提出数据管理和发展计划、项目启动、数据收集和文件创建、数据分析、数据共享准备和数据存储六个阶段[9]。生命周期理论的提出,有助于对科研数据管理各阶段任务进行梳理,对进一步规范科研数据管理的细节提供引导思路,为科研数据管理工具的开发提供依据[10]。
本文从支撑科研数据管理工具开发的角度,将科研数据管理过程划分为五个阶段:数据采集、数据组织与整合、数据验证及评估、数据存储和数据共享利用。
2 科研数据管理需求分析
数据密集型科研环境下,科研数据管理工具的缺乏成为制约科研数据价值发挥的重要因素。结合当前科研数据管理实践现状,明确用户对科研数据管理各阶段的需求,对进一步解决科研数据管理面临的挑战具有重要意义。
2.1 国内外科研数据管理实践现状
国外高校和基金机构已不同程度地开展科研数据管理相关实践。英国数据监护中心开发数据管理计划工具DMPOnline,通过基金机构获得资助的科研项目从制定数据管理计划开始,按照指导框架完成数据采集、元数据描述、数据长期存储、数据共享、数据安全等数据管理相关工作的描述[11];美国国家自然科学基金委员会通过强制要求项目申请者提交数据管理计划书,要求申请者在项目申报阶段便对科研数据的管理细节制订详细计划,并借助加利福尼亚大学开发的DMPTools完成在线数据管理计划制订;康奈尔大学在科研数据管理实践中采取嵌入式服务方式,并构建数据阶段性存储平台DataStaR协助研究者长期发布和使用数据成果[12];剑桥大学通过一系列管理工具协助科研数据管理(如利用DMPOnline创建数据管理计划,利用ISA Tools完成元数据创建等)。国内科研数据管理实践尚处于探索阶段,我国有9个学科中心于1988年正式加入世界数据中心[13],针对学科领域数据建设共享平台提供科研数据管理与共享服务。中国科学院正在建设科学数据云平台,拟利用云计算和大数据技术,为科研数据的管理、存储、分析提供相关服务[14];此外,武汉大学、厦门大学图书馆不同程度地开展对科研数据管理平台建设的探讨,武汉大学基于Dspace开源系统为全校师生提供可实现数据保存、数据管理与数据共享的服务平台[15]。
2.2 科研数据管理面临的挑战
尽管科研数据管理的重要性被学者不断强调,但在实践过程中仍面临多方面的挑战:(1)数据来源广泛,数据管理缺乏统一标准,为数据的采集和整合带来挑战;(2)通用型科研数据管理平台或工具的缺乏,小规模科研团队、个人科研用户因缺乏足够的科研经费或开放的科研数据管理渠道,致使大量科研数据流失;(3)科研数据管理意识不足,科研用户的数据管理习惯未养成,对科研数据主动收集和共享意识不足,使科研数据管理在实践中存在一定阻碍;(4)科研数据具有跨学科特点,数据管理相关标准的缺失使数据孤岛现象严重,数据的组织和融合存在一定难度,数据价值难以发挥;(5)大规模数据的长期存储,对存储空间、存储技术以及数据组织提出更高要求。
2.3 科研数据管理需求分析
结合当前国内科研环境、科研数据特征以及科研数据管理不同阶段面临的挑战,科研数据管理需契合多方面需求[16]。(1)数据采集方案多样化。为保证数据资源体系的完整性,既需要为用户提供灵活便捷的科研数据存储、管理和共享一体化平台,还需要完成科研数据的融合,整合机构库、知识库及互联网多渠道的科研数据。(2)数据标准统一化。制定统一的数据格式标准、元数据标准、数据组织标准,以实现对不同结构科研数据的统一管理。标准的制定,对科研数据规范化管理十分关键。(3)数据多维度组织。科研数据的学科交叉性和关联性,使数据可从多个维度进行组织和分类,科研数据在管理过程中需要通过元数据、数据标识、数据标签等方式,对数据进行多维度描述和组织,实现对数据的有效组织和关联。(4)数据质量管理。科研数据管理目的是协助科研用户更好地挖掘数据价值,支撑科研活动。科研数据的准确性、完整性一定程度上决定数据的研究和使用价值,应加强数据质量管理与控制。(5)数据的长期存储。科研数据存储既要满足数据的历史积累,又要满足数据的动态增长,对存储空间、存储能力、安全性提出更高要求。(6)数据管理平台的通用性[17]。科研数据管理既要满足学科化特征,又要满足用户个性化和针对性的数据管理需求,对构建通用型数据管理平台提出要求。
3 科研数据管理框架构建
3.1 科研数据管理框架
科研数据管理是一项复杂、时间跨度长的项目,科学研究的不同阶段科研数据管理面临不同的任务和要求,用户提出的科研数据管理需求也不同。本文从科研数据组织和融合的角度,对科研数据管理各阶段的具体任务和处理流程进行梳理,提出科研数据管理框架(见图1)。
(1)科研数据采集。科研数据的不同来源决定科研数据采集主要包括共享联盟、主动上传和直接获取三种方式[18]。①共享联盟。一般来源于大型实验室、科研单位机构库、政府数据库等科研数据,根据不同机构的标准存储于各数据库。通过获取其数据接口权限,制定相应学科标准和技术标准,以下载或转录的方式实现科研数据的融合[19]。②主动上传。许多中小型实验室、研究机构以及科研人员,因缺乏经费难以获得科研数据管理与共享的资源,由用户主动上传和共享科研数据构建的科研数据共享平台,是分散科研数据的采集渠道之一。③直接获取。爬虫技术日趋成熟,使来源于互联网的分散科研数据得到有效地采集和整合。结合不同的学科特点、数据来源,有针对性地提出数据采集方案,以尽可能从数据采集层面确保数据资源体系的完整性。
(2)科研数据组织与整合。科研数据具有学科交叉性,对数据的分析是多维度的,因而需对科研数据进行有序地组织。①标准制定。科研数据来源分散、结构多样,可能涉及多个学科领域,科研数据标准的制定对统一数据管理具有重要作用。标准的制定既要综合考虑学科层面的数据标准,又要从数据组织层面对数据设立标准(包括数据格式标准、元数据标准以及数据组织相关标准)。②数据管理计划制定。借鉴国外经验,在项目开展前,对科研数据采集、组织、存储等管理过程进行有效规划,以提升数据管理的效率和质量。预先制定规划,对数据来源、数据类型、数据体量进行预估,并制定数据组织和存储方案,结合相关科研数据政策,确保数据管理的可行性。③数据组织。首先,根据制定的数据标准对数据格式进行转化,使数据以系统可处理的标准格式暂存于系统;其次,对数据进行清洗,剔除冗余、错误、不完整的数据;再次,对数据集进行多维度描述,完善元数据相关内容;最后,通过对数据进行标识建立数据间联系,为后续数据交叉应用建立基础。
(3)科研数据验证及评估。科学研究是一项精密、严谨的活动,科研数据作为科学研究的基础,使数据质量和数据的严谨性决定数据的研究价值,因此对数据进行验证和评估十分必要。从科研数据监护看,科研数据的验证和评估主要包括对数据进行识别、度量和监控等[20]。从数据质量管理看,科研数据验证主要包括以下方面:①通过核实数据格式,确保与数据集的一致性;②通过统计分析(如最大值、最小值、平均值等)或图表的方式,核实可疑值、不可能值,识别异常值;③通过在能反映质量的数据集内编码,以验证数据通信的质量;④识别缺失值,通过核实相似数据集发现潜在问题。除对数据进行评估和审查外,还包括对数据采集过程、数据处理过程等进行基本评估,避免因处理不当影响数据质量[7]。
图1 科研数据管理框架
(4)科研数据存储。数据存储指将科研数据按照一定方式,进行有序组织,并长期存储在数据库中,为后续数据共享和分析利用提供基础。数据存储主要涉及两个层面问题。第一个层面是针对数据资源的组织与存储。从数据归属划分,主要包括基于学科、基于机构、基于项目以及综合性四种分类组织方式;从数据本身划分,包括主体领域、机密性、内容类型以及数据规模四种方式[19]。因此,需要对数据进行有序的分类和组织,并通过建立索引和访问机制对数据进行标引,使得物理上存储于不同的数据库、机构库或知识库的数据,在逻辑上形成完整的资源体系。第二个层面考虑到科研数据的历史积累性,从数据的存储空间以及空间扩展性、存储安全性出发,在技术上提出更高要求。如部分机构在数据存储实践中引入云计算技术,使数据在物理存储上分布合理,在逻辑上具有整体性和关联性,在空间上具有较强的扩展性。
(5)科研数据共享及利用。科研数据的有效整合和管理,为数据的共享和利用建立了基础,但科研数据的共享还涉及数据安全、知识产权以及学术道德等问题,需充分考虑政策环境、权限管理等多方面的因素,为用户提供便捷、快速、安全的数据公开共享渠道。科研数据利用是实现数据价值的重要过程,包括:其他科研人员能快速检索和便捷地获取所需原始科研数据,对数据进行再验证;通过对原始科研数据进行分析,挖掘新知识;从积累的大量原始科研数据中,通过演化或大数据技术发现新研究规律等[21]。数据利用具有灵活性,需充分结合研究人员的科研需求,从不同的角度和层面对数据加以分析,不可一概而论。
3.2 科研数据管理框架的重要环节
面向科学研究第四范式的科研数据管理相较一般的数据管理,对数据的真实性、准确性、关联性、研究价值,以及数据资源的完整性提出更高要求,因此框架的构建需充分考虑数据来源多渠道、数据结构多样化以及数据交叉性等多种因素。识别科研数据管理的关键环节,并结合科研数据特征和不同的学科领域进行分析,能提升框架的适用性和可行性。
(1)数据标准的统一。标准的制定为科研数据管理奠定基础,制定统一的数据标准和技术标准,是科研数据管理的前提和重要环节。针对不同学科领域和不同类型的数据,统一数据的存储格式、组织结构,对构建和整合数据资源具有重要意义。数据标准的制定为数据关联、构建语义联系提供基础。如元数据标准的制定,为进一步的数据标识和数据识别奠定基础。此外,从数据采集和组织的角度制定规范,包括针对分散的子系统制定统一的接口标准;对不同形式的数据格式进行转换,制定数据转化标准;在数据进行存储时,按照数据存储的格式标准、分类标准和组织标准进行操作。
(2)数据关联的重要性。数据密集型环境下科学研究的对象为科研大数据集合,数据的研究价值很大程度上取决于数据完整性。因此,在大量积累的科研数据中构建数据间的关联,对发挥数据跨领域、跨学科的研究价值具有重要意义。从数据资源组织和整合看,通过制定数据标签、建立数据标引以及构建语义网等,能从技术上解决科研数据集关联的问题。在数据资源尽可能丰富的情况下,数据关联能使物理上分布的数据,在逻辑上呈现网络化和整体性,解决数据孤岛问题,促进对数据潜在价值的挖掘。
(3)元数据制定的必要性。制定元数据能完善对数据的描述,提升数据资源的识别率,便于对数据资源的评价和追踪,还能有效地实现对数据资源的发现、组织和管理[22]。元数据管理具有明显的学科特性,不同学科领域的元数据在构成要素、标准格式、组织上存在一定差异。尽管有学者从必选项、推荐项和参考项提出通用元数据标准,仍需为用户提供充分的咨询和引导服务,协助用户完善元数据的相关内容,建立元数据记录。
(4)数据质量是数据价值的前提。科学研究具有严谨性,基于科研数据的科学发现对数据的准确性、真实性、可追溯性等影响数据质量的因素提出更高要求。目前,国外通过数据管理计划、元数据描述,对数据收集和处理过程进行记录,对数据集进行详细描述,为数据质量评估提供依据。随着数据监护的发展,在科研数据管理过程中有意识地避免因数据采集和处理过程不当而影响数据质量,确保数据可追溯、数据质量可验证。由于不同学科领域科研数据的特殊性,构建数据质量评估体系具有必要性。
4 发展建议
科研数据管理框架的提出对进一步促进科研数据管理工具的开发具有重要意义,但框架的实施还需在实践探索中不断完善。武汉大学在对不同学科的科研数据量和科研数据管理需求进行调研的基础上,结合国内外科研数据管理与共享平台的建设经验,开展科研数据管理平台试点项目,并在部分学院开展项目试点。项目实践经验表明,对科研数据管理进行明确的定位,对科研数据管理活动的具体流程进行梳理,对各阶段的具体任务进行规划具有必要性。对科研数据管理框架与实践进行融合,可从三个方面展开。
(1)从顶层设计着手,配合团队建设展开。科研数据管理过程复杂,涉及的利益相关方众多,在科研数据管理项目开展前期,应从项目的整体规划着手。由于国内科研数据管理实践经验不足,对科研数据管理过程进行梳理和规范,总结并提炼出科研数据管理的框架,为通用型科研数据管理工具或平台的开发提供指导具有必要性。另外,科研数据管理的实践需要多方参与者共同配合,团队建设在一定程度上决定实践是否具有可行性。“武汉大学科研数据管理”项目在实践过程中联合国内外科研数据管理专家、学校科研管理部门、学校图书馆以及试点学院的多方合作,为项目的实施提供专业建议,并给予多方面支持。
(2)明确目标与定位,逐步推行项目实施。科研数据管理项目实践需充分考虑科研用户需求、资金、技术、人力等多方面因素,以便进行科学定位。明确科研数据管理的具体目标,对项目进行准确定位,并逐步开展和完善项目建设,确保科研数据管理项目的建设不偏离初衷。中国科学院早期基于研究所建立了多个机构数据库,积累大量科研数据,并围绕科研数据管理开展相关服务。随着技术的发展,数据管理趋势的变化,中国科学院进行重新定位并构建科研数据云平台,充分利用云计算、大数据技术以及开源工具,提供科研数据的存储、管理和分析利用等服务。武汉大学在进行科研数据管理项目时,以部分学院作为试点,通过不断地实践和尝试,逐步完善平台功能和服务。因此,以科研数据管理框架为指导,结合用户需求,明确科研数据管理的目标和定位,逐步完善和推行项目的实施,提升项目的实践可行性。
(3)支撑科研数据管理的相关服务。科研数据管理具有学科性和专业性,因此,需要配合相关服务,满足用户个性化需求。康奈尔大学采用典型的嵌入式科研数据服务,由数据服务人员参与科研团队指导科研人员完成科研数据管理的相关工作,并为科研人员提供咨询、培训等服务。嵌入式服务一方面能帮助科研数据管理服务提供者更充分地了解用户需求和当前科研数据管理存在的不足;另一方面,能充分考虑科研人员的学科背景和需求差异,极大地推动科研数据管理项目的开展与实施。因此,为用户提供科研数据采集、存储、元数据、咨询和培训等服务,能在一定程度上弥补管理工具的不足,共同推进科研数据管理框架的实施。
5 结语
在科学研究第四范式的发展历程中,科研数据管理和共享的需求不断增长,使科研数据管理工具的开发及建设成为当前首要任务。随着开源技术的发展,科研数据管理工具的开发成本将更低,开发效率将极大提升,通用型平台和管理工具将在科研领域普及。标准化的科研数据管理流程和管理框架将从顶层设计的角度,为科研数据管理通用平台或工具的开发提供指导,在一定程度上避免跨部门数据融合存在的数据标准不一致等问题,对跨平台、跨机构的数据管理与融合具有重要意义。随着科研环境和数据政策的进一步完善,科研人员的数据管理意识不断提升,机构间的合作将更加紧密,科研数据管理的应用空间将得到更大拓展。
[1]HEY T,TANSLEY S,TOLLE K.第四范式:数据密集型科学发现[M].张晓林,潘教峰,译.北京:科学出版社,2012.
[2]朗扬琴,孔丽华.科学研究的第四范式吉姆•格雷的报告“E-Science:一种科研模式的变革”简介[J].科研信息化技术与应用,2010(2):92-94.
[3]白如江,冷伏海.“大数据”时代科研数据整合研究[J].情报理论与实践,2014,37(1):94-99.
[4]李晓辉.图书馆科研数据管理与服务模式探讨[J].中国图书馆学报,2011(5):46-52.
[5]COX A M,PINFIELD S.Research data management and libraries:current activities and future priorities[J].Journal of Librarianship and Information Science,2014,46(4):299-316.
[6]崔宇红.E-Science环境中研究图书馆的新角色:科学数据管理[J].图书馆杂志,2012(10):20-23.
[7]STRASSER C,COOK R,MICHENER W,et al.Primer on Data Management: What you always wanted to know[EB/OL].[2017-05-09].https://www.dataone.org/sites/all/documents/DataONE_BP_Primer_020212.pdf.
[8]What is digital curation?[EB/OL].[2017-02-28].http://www.dcc.ac.uk/digital-curation/what-digital-curation.
[9]Guide to Social Science Data Preparation and Archiving:Introduction[EB/OL].[2017-06-01].http://www.icpsr.umich.edu/icpsrweb/content/deposit/guide/index.
[10]徐芳.高校图书馆科研数据协同监管模式构建研究[J].情报理论与实践,2017,40(3):14-19.
[11]刘峰,张晓林.数据管理计划构成规范及其可操作数据监护模型研究[J].现代图书情报技术,2016(1):11-16.
[12]杨鹤林.从数据监护看美国高校图书馆的机构库建设新思路——来自DataStaR的启示[J].大学图书馆学报,2012(2):23-28.
[13]王卷乐,孙九林.世界数据中心(WDC)中国学科数据共享进展[J].中国基础科学,2007(2):36-40.
[14]中国科学院数据云[EB/OL].[2017-06-11].http://www.csdb.cn/.
[15]高校科学数据共享平台.武汉大学科研数据管理[EB/OL]. [2017-06-11].http://sdm.lib.whu.edu.cn/jspui/.
[16]胡永生,刘颖.基于用户调查的高校科学数据管理需求分析[J].图书情报工作,2013,57(6):28-32,78.
[17]刘霞,饶艳.高校图书馆科学数据管理与服务初探——武汉大学图书馆案例分析[J].图书情报工作,2013,57(6):33-38.
[18]熊文龙,李瑞婻.基于科学数据管理的图书馆数据服务研究[J].图书情报工作,2014,58(22):48-53.
[19]唐燕花.高校科研数据管理服务实践研究及建议[J].图书情报工作,2016,60(24):130-138.
[20]吴金红,陈勇跃.面向科研第四范式的科学数据监管体系研究[J].图书情报工作,2015,59(16):11-17.
[21]BORGMAN C L.科研数据共享的挑战[J].青秀玲,译.现代图书情报技术,2013(5):1-20.
[22]刘峰,张晓林.科学数据元数据标准评述及其通用化设计研究[J].现代图书情报技术,2015(12):3-12.
作者简介
彭鑫,女,1993年生,硕士研究生,研究方向:科学研究第四范式和科研数据管理,E-mail:px001@foxmail.com。
邓仲华,男,1957年生,教授,博士生导师,研究方向:管理信息系统、大数据、云计算。
Study of Research Data Management Model Under the Data-Intensive Scientific Environment
PENG Xin, DENG ZhongHua(School of Information Management, Wuhan University, Wuhan 430072, China)
With the concept of the fourth paradigm of science deepen, discovery of new knowledge and science laws rely more and more on data-intensive scienti fi c discovery, and research data management becomes the primary issue. Through literature research, we concluded the features of research data under the data-intensive environment, analyzed the requirements of research data management, and concluded the tasks of data management during different period. Based on those we came up with a data management model and gave some suggestions on its development based on the practices experiences at home and abroad, which will help with the lacking of data management tools, and have reference meanings for the development of data management tools.
Data-Intensive Scienti fi c Environment; Fourth Paradigm; Research Data Management
G250
10.3772/j.issn.1673-2286.2017.07.011
2017-05-24)
* 本研究得到国家自然科学基金项目“大数据环境下面向科学研究第四范式的信息资源云研究”(编号:71373191)资助。