APP下载

南海及邻近海区科学数据中心资源建设初探

2021-12-04杨远征徐超唐世林李莎

热带海洋学报 2021年6期
关键词:海区数据中心南海

杨远征, 徐超, 唐世林,2, 李莎

1. 中国科学院南海海洋研究所, 广东 广州 510301;

2. 南方海洋科学与工程广东省实验室(广州), 广东 广州 511458

科学数据是指人类社会科技活动所产生的基本科学技术数据、资料及其衍生数据(孙九林 等,2009), 是继物质和能量之后的第三类资源, 也是支撑和保障科技创新、经济发展和相关决策的国家战略资源(王卷乐 等, 2019)。近年来, 越来越多的国家政府意识到科学数据的重要性, 相继在国家层面上制定了科学数据管理和共享政策。美国国立卫生研究院为了促进科学数据开放共享, 在2003 年发布了科学数据共享政策(National Institute of Health,2020)。2011 年, 美国国家科学基金会也发布了科学数据共享政策, 以促使科研人员共享在该基金资助下的科研过程中产生的科学数据(National Science Foundation, 2020)。2013 年, 白宫科技政策办公室通过出台《增强对联邦资助科学研究成果的获取》指令来促进科研数据和文献成果的开放获取(U.S.Agency for International Development, 2016)。澳大利亚为了规范管理科学数据, 早在2007 年就通过国家层面的政策文件《澳大利亚责任研究行为守则》, 明确规定了机构和科研人员在科学数据管理的相关责任和义务(Australian Government, 2007)。英国研究理事会在2011 年发布了《数据政策通用原则》, 英国皇家学会在2012 年也颁发了《科学作为开放事业》有关科学数据管理的政策文件(The Royal Society Science Policy Centre, 2012; UK Research and Innovation, 2020), 有力地促进了科学数据的开放共享。尽管我国一直重视科学数据的管理和共享,但相较于发达国家, 在科学数据管理政策的制定方面相对滞后。2015 年9 月, 国务院发布了《促进大数据发展行动纲要》, 明确提出了“积极推动由国家公共财政支持的公益性科研活动获取和产生的科学数据逐步开放共享”(中华人民共和国国务院, 2015)。我国首次在国家层面出台的科学数据管理政策是在2018 年3 月, 国务院办公厅颁发了《科学数据管理办法》, 为我国科学数据的采集、整合、开放和共享等各个环节的工作提供了国家层面的制度保障(中华人民共和国国务院办公厅, 2018)。

科学研究已经进入了数据密集型的新科研模式(张柏春, 2012), 意味着科学数据在科学研究中具有重要的地位, 是科学研究持续发展的基础。海洋科学是典型的数据密集型学科(陈戈 等, 2019), 一方面, 海洋观测监测等海洋相关科研活动能够产生大量的科学数据, 其获取一般需要通过仪器设备在特定的、复杂的海洋现场观测环境下进行, 成本巨大且现场观测数据具有唯一性; 另一方面,海洋科学问题的解决, 以及科研成果的验证都离不开相关科学数据的佐证。因此, 海洋科学数据具有重要的存储、开放共享和利用价值。在海洋科学数据建设和发展方面, 发达国家较早在国家层面加大对科学数据中心的建设。美国国家航空航天局在1989 年首次提出“在国家层面上构建数据共享框架和实现数据共享”计划后, 从1990 年代表美国从国家层面开始建设由9 个数据中心构成的国家级科学数据中心群——分布式最活跃数据档案中心群, 涵盖海洋、生物、大气等领域(刘闯 等, 2002)。英国也较早开展了海洋数据管理和共享的工作, 在英国自然环境研究首轮理事会后就积极加入了经济合作与发展组织(Organization for Economic Co-operation and Development, OECD)的国家科学数据共享计划, 并建立了英国海洋数据中心等5 个国家级环境科学领域的科学数据中心, 开放共享的数据内容涵盖陆地、海洋、气候、极地等自然环境领域(姜颖, 2018)。日本通过国家海洋数据中心的建设, 持续整合并共享了覆盖全球的海温、海流、盐度、水深、潮流等要素的海洋水文数据。韩国海洋数据中心不断整合和开放了1921 年以来的沿海海洋观测数据, 并开放了海洋环境监测数据、海洋渔业数据、海洋生物数据、海洋灾害数据等(王汉雨, 2016)。

我国方面, 中国科学院早在1987 年就开始建设中国科学院科学数据库及其信息系统, 并在中国科学院信息化专项持续支持建设下, 建成了国内较大规模的综合科技数据基础资源共享与服务平台(黎建辉 等, 2017)。国家自然科学基金委在2003 年启动建设了“国家自然科学基金青岛海洋科学资料共享服务中心”, 设计了青岛海洋资料共享服务系统,从而实现了国家自然科学基金海洋科学数据资料、研究成果、报告、标准、文献、产品和其他相关信息的网络化管理和共享(李朗, 2008; 刘海行 等,2008)。国家海洋局(现为自然资源部)在2006 年启动了我国首个大型海洋信息系统工程项目“数字海洋”,通过构建“数字海洋”数据共享服务平台整合了分布在11 个沿海省(自治区、直辖市)海洋行政主管部门的海洋信息资源, 并实现了海洋信息资源分布式管理与共享(蒋冰 等, 2018)。然而, 尽管我国构建了不少海洋科学数据共享平台, 并在一定程度上促进了海洋科学数据的开放共享, 但由于这些平台是各个部门或地区根据各自的需求进行建设的, 难免会存在各自为政、部门封闭、数据垄断和重复建设等问题, 严重阻碍了我国海洋科学数据开放共享的进一步发展。鉴于此, 科技部、财政部借鉴国际经验, 在2019 年将原有科学数据类国家科技资源共享服务平台优化调整为“国家地球系统科学数据中心”等20 个国家科学数据中心(中华人民共和国科学技术部 等,2019), 旨在加强在国家层面上提升科学数据资源的统一汇聚、整合和开放共享能力, 提升科学数据分析挖掘能力和水平, 并在此基础上加强开展数据增值服务的能力建设, 以支撑和保障国家科技创新、经济社会发展和相关决策活动。

南海是我国最大的跨越热带和亚热带的边缘海,毗邻粤港澳大湾区等中国经济活力最强的区域, 是21 世纪海上丝绸之路的重要通道, 拥有丰富的油气能源和生物资源等。南海在国际政治、经济、科技、军事领域中具有重要的战略地位, 特别是在当前国家实施海洋强国和21 世纪海上丝绸之路等国家海洋战略的背景下, 南海海洋资源、能源、气候、环境和生态等成为了目前国内外关注的焦点。作为国家地球系统科学数据中心的分中心之一, 南海及邻近海区科学数据中心紧跟国家海洋战略的步伐, 以国家重大战略需求为导向, 在中国科学院科学数据库前期工作的基础上, 从2011 年开始建设, 旨在汇聚、组织、描述、抢救和存储海洋科学数据资源, 并持续整合和共享了1985 年以来的南海水文、气象、生态、地质等多学科、多要素、多尺度的海洋科学数据资源, 实现了我国南海海洋科学考察数据的在线共享从无到有的创新发展。南海及邻近海区科学数据中心的建设不仅能为海洋科技创新、国家有效管理与海洋环境保护、合理开发利用南海海洋资源和海洋经济可持续发展提供数据支撑, 而且可助力国家实施海洋强国和“一带一路”倡议等国家海洋战略, 也可为国际相关活动中掌握南海海洋环境事务方面的主导权, 以及捍卫我国南海海洋权益提供数据支持。本文重点阐述了南海及邻近海区科学数据中心的海洋科学数据资源建设情况, 主要包括标准规范、数据资源建设、特色数据库, 共享成效等。

1 南海及邻近海区科学数据中心数据资源建设

1.1 南海及邻近海区科学数据标准规范体系

标准规范是保障数据中心科学规范地整合、集成和开放共享的基础。由于南海及邻近海区科学数据中心是国家地球系统科学数据中心的分中心, 因此在数据汇聚、组织、描述、共享和服务等建设过程中, 一方面依据国家地球系统科学数据总中心制定的元数据标准等19 项数据管理类、数据汇交方案等13 项数据汇交类, 以及平台共享服务规范等2 项共享服务类的标准规范(杨雅萍 等, 2019); 另一方面根据中国科学院南海海洋研究所海洋科学数据管理的实际需求, 制定了《中国科学院南海海洋研究所数据管理办法》。这些标准规范为南海及邻近海区科学数据中心资源建设提供了科学、规范和可持续发展的保障。此外, 南海及邻近海区科学数据中心数据共享主要通过软件平台实施, 而软件平台开发的主要依据是数据标准规范的有关规定, 并在软件平台中实现了数据共享的相关功能。因此, 南海及邻近海区科学数据中心的数据标准体系与软件编码体系之间有着紧密的联系。

1.2 数据资源建设体系与策略

针对海洋科学数据具有数据体量大、数据范围广、数据内容丰富的特点(白亭颖 等, 2020), 为了能给不同用户提供高质量的数据服务和决策支持, 中心采用“学科分类-主题要素-数据集”三级目录的数据资源建设体系, 建成了在学科范围上涵盖物理海洋、海洋气象、海洋生物、海洋化学、海洋生态、海洋地质, 在空间尺度上涵盖全球、国家、区域、站点, 在时间尺度上实现年度、月度、日度、实时和未来的综合性海洋科学数据共享服务平台, 在国内形成了一定的影响力。已建设的主要数据资源如表1 所示。

表1 南海及邻近海区科学数据中心主要数据资源整合情况Tab. 1 Major data resources of South China Sea and Its Adjacent Seas Data Center

另外, 为了能规范化整合集成数据资源, 使用户能全面快速地了解数据资源的元数据、数据质量和数据实体等信息, 中心按照数据实体、数据说明文档、数据缩略图、数据样例、数据分类和元数据表的数据描述、组织和集成策略, 即“六位一体”的数据资源整合集成策略, 满足用户快速检索、认识、下载和使用数据的需求。

1.3 数据资源建设内容

南海及邻近海区科学数据中心资源建设主要包括海洋科学数据集的元数据建设, 以及海洋科学数据集的数据实体建设。

数据实体建设主要包括数据的采集、加工、质量控制和入库, 如图1 所示。南海及邻近海区科学数据中心的数据资源的采集主要是通过地(西沙观测台站、南沙观测台站等)、海(“实验1”号、“实验2”号、“实验3”号调查船和海上浮标以及潜标等)、天(Landsat、MODIS 等卫星遥感)、空(GPS 探空等)等全方位的海洋观测体系进行采样, 采集的主要数据资源内容包括如下几个方面。

图1 数据实体建设体系Fig. 1 Data construction system

1) 海洋物理资料内容:深度、温度、盐度、密度、海流、波浪等水文资料; 气压、海面空气温度、相对湿度、风、降水量等气象资料;

2) 海洋化学资料内容:海洋化学要素、同位素化学要素、沉积物化学要素等资料;

3) 海洋生态资料内容:浮游植物、浮游动物、底栖生物、叶绿素a、初级生产力等资料;

4) 海洋底质资料内容:地形、地层、沉积物、黏土矿物、珊瑚礁等资料。

在数据的加工方面, 海洋科学数据具有种类丰富、格式各异、时空变化大等特点, 在直接应用上有一定的困难。因此, 依靠信息技术对海洋科学数据进行加工处理, 就成为海洋科学领域必不可少的关键环节, 也一直是该领域致力解决的难题。南海及邻近海区科学数据中心针对不同海洋学科数据资源采取不同的加工处理技术, 主要包括多源数据融合、遥感反演、信息提取和数据同化等加工技术。其中, 南海SeaWiFS 月平均叶绿素二级产品数据集(1999—2001)利用第二代海洋水色传感器SeaWiFS探测到的南海海域海水辐亮度, 采用几何纠正和大气校正的处理技术, 并通过SeaDAS 软件提取叶绿素浓度遥感信息(陈楚群 等, 2001); 南海海洋再分析产品数据集利用海表高度、海表温度、海表盐度、海表流及温盐剖面资料等不同类型的海洋观测数据,采用数据同化技术, 产生了一套1999—2011 年高分辨率格点化的南海及其邻近海区海表高度和三维温盐流数据集(Zeng et al, 2014); 南海海洋预报数据集是利用南海海温、盐度和海流等海洋环境观测要素,采用海洋数值模拟技术, 预测了起报时刻起120h 内的南海海洋温盐流预报数据。

在数据质量控制方面, 数据质量实质上是数据对应用的适用性(Shankaranarayanan et al, 2000)。海洋数据质量控制主要是基于海洋数据的多种来源、多种类型、多维度、不同时空尺度等特性, 对海洋数据进行非法码检验、合理性检验、范围检验和连续性检验等常规检验, 以及海洋数据中的重要参数的反演、校正和改正等质量控制, 目的是在实际应用时保持数据的时效性、精确性、完整性和可信性,最终实现数据的可用性。比如, 在处理2009—2012年南海海洋断面科学考察走航ADCP 海流观测数据集时, 除了范围检验、非法码检验和连续性检验等常规质控外, 还对该数据集的两个参数(速率和方向)的误差进行了修正(杨远征 等, 2019), 确保数据的精确性和可信性。

在数据入库方面, 将已统一规范后的元数据、数据文档、数据样例和数据实体导入到数据库中进行存储、管理和发布, 并通过以下安全认证设置相应的数据资源下载权限:1)邮箱认证:用户完善邮箱等资料后, 才能申请下载相应权限的数据资源;2)手机认证:需用户绑定手机, 才能提升到相应的数据资源权限; 3)实名认证:用户进行实名认证后,将拥有更多数据资源申请权限; 4)课题认证:用户通过课题认证, 将有资格获得与研究课题相关的精品数据。

元数据是描述数据特征和属性方面的数据(杨文晖 等, 2015), 元数据建设主要是对数据资源的特征和属性进行清晰、详细和全面的描述, 帮助用户更好地发现、获取、理解和利用数据集。南海及邻近海区科学数据中心元数据建设的依据是国家地球系统科学数据中心制定的元数据标准, 建设内容包括数据核心描述信息、数据贡献者和数据负责单位及联系人。其中数据核心描述信息是为用户提供数据的最主要信息(数据标题、数据时间、空间位置、数据类型和数据详细描述等), 从而用户能够方便快捷地发现、检索和理解数据。海洋科学数据元数据的数据核心描述信息如表2 所示。

表2 南海及邻近海区科学数据中心元数据的数据核心描述信息Tab. 2 The core information of metadata at South China Sea and Its Adjacent Seas Data Center

1.4 特色数据库建设

根据实际需要和采集到的数据类型, 南海及邻近海区科学数据中心还建设了以下4 个特色数据库,为相应领域的研究提供个性化的数据支撑。

1) 南沙及邻近海区综合考察数据库。南沙及邻近海区综合考察是20 世纪80 年代中国科学院南海海洋研究所组织实施的大规模的南沙群岛及邻近海域的科学考察(赵焕庭 等, 2017)。该库收录了1984年至2007 年间, 南沙群岛综合科学考察航次在南沙群岛及其邻近海区的现场观测数据, 包括海底地形、地貌、沉积物及海洋水文气象、海水光学特性、海洋化学、海洋生物等方面的宝贵资料。

2) 南海北部海洋观测开放航次数据库。2004年起, 南海北部海洋观测开放航次开始由中国科学院南海海洋研究所“实验3”号科学考察船实施(曾丽丽 等, 2015)。该库收集整理了自2004 年以来南海北部海洋观测开放航次在南海北部海区及西部局部海区的现场观测数据, 包括物理海洋学、海洋生物学、海洋地质学和海洋化学数据等多个海洋学科数据。

3) 南海海洋断面科学考察数据库。中国科学院南海海洋研究所“实验3”号科学考察船2009—2012年在南海18°N、10°N、6°N 断面和113°E 子午向断面实施的南海海洋断面科学考察航次(徐超 等,2016)。该库收集整合了2009 年春季航次, 2010 年秋季航次, 2011 年冬季航次, 2012 年夏季航次共约75个站位的海洋观测数据, 包括经度、纬度、流速、温度、密度、盐度、营养盐、浮游植物等多个要素数据。

4) 印度洋海域综合考察航次数据库。印度洋海域综合考察航次是自2010 年起, 在中国科学院和国务院各部委的大力支持下, 中国科学院南海海洋研究所“实验1”号科学考察船开始实施的东印度洋海洋学综合科学考察, 调查海域是在 80°E—105°E,10°S—10°N 范围内(梁湛林 等, 2018), 该库整合了该航次自2010 年以来获取的温度、盐度、密度等海洋环境要素的数据, 以及海底表层样品、海水生化样品等资料。

2 南海及邻近海区科学数据中心数据资源共享成效

数据共享是指通过政策规定和共享技术, 让更多的用户能够使用具有可访问性的数据(Borgman等, 2013)。南海及邻近海区科学数据中心在数据共享方面遵照《科学数据管理办法》等有关国家科学数据政策规定, 并通过国家地球系统科学数据共享关键技术(杨雅萍 等, 2019)等共享技术, 初步改善了海洋科学数据分散、封闭、滞留和低效状况, 有效促进了海洋科学数据的开放共享。在用户服务方面, 建立了以用户需求为导向的服务理念, 不断探索用户的需要, 不断提升用户的服务水准, 留住了一批数据用户群, 真正让更多不同需求的用户能够访问利用到数据。具体而言, 南海及邻近海区科学数据中心共享服务主要聚焦在:一方面服务国家重大战略需求, 为21 世纪海上丝绸之路、粤港澳大湾区生态可持续发展等国家战略提供海洋科学数据基础支撑; 另一方面支撑海洋科技热点研究, 为国家和地方重大项目/工程项目、海洋科技创新提供数据支撑服务和技术服务, 其中已为国家科技基础性项目“南海海洋断面科学考察”提供了数据管理和共享服务(徐超 等, 2016); 为“973”项目“南海海气相互作用与海洋环流和涡旋演变规律”提供数据整合与汇交服务; 为南海风暴潮研究(Ye et al, 2017; Li et al,2019)、西沙群岛岛屿尾迹研究(Zhao et al, 2019)和南海北部陆坡研究(Guo et al, 2020)等提供了基础数据支撑。

3 总结与展望

经过多年的建设和发展, 南海及邻近海区科学数据中心紧跟时代的步伐, 围绕国家重大战略需求,合理布局, 持续开展了海洋科学数据资源的采集、整理、加工、存储和共享, 承担科研项目所产生的科学数据资源的汇交和整编任务, 构建了一个具有数据采集、数据整理、数据分析及数据可视化的海洋科学数据全生命周期管理与共享服务平台, 为国家科技创新提供了支撑, 并提升了我国海洋科学数据资源的开放共享水平和应用服务水平。

展望未来, 随着信息技术和海洋科学的不断发展, 海洋科技创新出现了新趋势和新需求, 无人船、自主水下机器人等智能化的海洋数据获取手段越来越普及, 海洋数据资源的数量越来越多, 类型也越来越复杂, 用户的个性化需求也越来越多样化, 这势必对数据中心在海洋数据资源的遴选、采集、汇聚、组织、描述、关联和存储, 以及相应的揭示、发现、精准推送等方面提出了新的挑战。因此, 海洋科学数据中心应从海洋科学数据的内涵和数据价值产生的机理等方面科学认识海洋数据, 准确把握海洋科学数据发展规律, 突破海洋数据采集、处理、分析和应用等方面的技术瓶颈, 促进形成以用户为导向的高效便捷的数据服务体系, 不断满足用户日益增长的个性化、多样化需求, 建立自主可控的海洋数据安全体系, 切实保障国家海洋数据安全, 推动云计算、大数据、人工智能等新一代信息技术同海洋科学数据全生命周期管理的深度融合, 从而更好地支撑国家在海洋事业方面的科技创新, 促进经济社会发展, 并保障国家安全。

关于南海及邻近海区科学数据中心未来的资源建设, 本文提出以下几条建议。

1) 持续研发海洋信息提取技术。海洋数据量已经迈入了PB 级别(钱程程 等, 2018), 并随着海洋数据获取手段的不断丰富, 将继续产生大量的、不完全的、有噪声的、模糊的、随机的各种海洋数据, 因此需要不断加强数据挖掘等信息提取技术的研发,才能提取出隐含的、事先未知的、潜在有价值的海洋信息, 从而发挥它们潜在的海洋信息价值, 最终促进海洋数据资源的高效利用。

2) 注重标准规范体系建设。标准规范体系具有引领和指导作用, 在很大程度上决定着科学数据中心的发展水平。因此, 数据中心不仅要执行好现有的标准规范, 而且要结合实际应用情况, 不断地完善和修正标准规范体系, 借鉴国内外同行先进的标准规范, 研究建立系统完整的标准规范体系, 真正发挥标准规范的引领和指导作用, 有效地支撑科学数据中心的资源建设。

3) 加强海岸带数据资源管理体系建设。海岸带是海洋系统与陆地系统复合交叉、相互作用的地理单元(伊飞 等, 2011), 因此海岸带数据包括了海洋、陆地和空间数据。目前, 南海及邻近海区科学数据中心仅管理了有关海洋方面的数据资源, 尚未开展建设海岸带数据管理体系。党的十九大报告已明确提出了“坚持陆海统筹, 加快建设海洋强国”, 而陆海统筹被认为是海岸带综合管理中最重要的组成部分(文超祥 等, 2019)。因此, 未来数据中心资源建设应加强开展海岸带数据资源管理体系建设, 为海岸带综合管理提供基础数据支撑, 进而为国家陆海统筹的战略提供参考。

4) 加快建设智能的海洋数据管理体系。每一次海洋数据或海洋信息领域的跨越式发展几乎都依靠信息技术的发展。当前, 南海及邻近海区科学数据中心利用数字化、互联网等信息技术, 实现了海洋数据的数字化和网络化。随着信息技术的不断发展,特别是大数据、人工智能和物联网等新一代信息技术的飞速发展, 应用逐步融合到海洋领域, 人们认识海洋的平台和手段将会迎来根本性的变革。因此,科学数据中心应加大力度研究新一代信息技术, 致力于海洋数据全生命周期管理体系与新一代信息技术的融合发展。利用物联网、人工智能等新一代信息技术, 加快开展海洋数据或海洋信息的全面感知等智能采集、实时传输以及机器学习和模糊识别等智能处理, 从而实现海洋数据的智能服务。

猜你喜欢

海区数据中心南海
酒泉云计算大数据中心
南海明珠
不正规半日潮海区高(低)潮选取的探讨
北海北、南海南
浅析数据中心空调节能发展趋势
关于建立“格萨尔文献数据中心”的初步构想
地铁长大过海区间隧道人员疏散模拟分析
南海的虎斑贝
静海区林业结构调整与经济效益研究
南海随笔