APP下载

中国东部大气环境数据库和分析共享服务网的建立与应用*

2021-09-24刘永红林苑柔赵春生

科技创新与应用 2021年26期
关键词:分析

刘永红,郭 松,林苑柔,赵春生

(1.中山大学 智能工程学院,广东 广州 510275;2.北京大学 环境科学与工程学院,北京 100871;3.广东省交通环境智能监测与治理工程技术研究中心,广东 广州 510275;4.北京大学 物理学院 大气与海洋科学系,北京 100871)

1 研发背景

大数据时代下,科学数据共享对推动科技创新研究、促进国家经济社会发展发挥着越来越重要的作用[1-3]。在美国,数据共享平台发展早、投资大、且具有完备的法律体系等优势,目前已建成著名数据中心包括美国航空航天局(NASA)分布式最活跃数据档案中心群(DAACs)、美国国家大气研究中心(NCAR)数据归档中心等[4-5]。近年来我国不断加强对信息资源的利用,从2001年正式启动“科学数据共享工程”起,科技部、财政部先后在多个领域支持建成了国家科技资源共享服务平台[6-11],累计投资经费上亿元[12]。我国科学数据共享程度不断深化,相关政策制度逐步完善,但在数据内容、管理标准及安全、共享范围、服务多样性、可持续机制上仍有较大的发展空间[13-15]。

我国东部城市正面临着多污染物叠加、复杂物理化学反应机理下的大气复合污染的问题。为揭示污染物成因,各地相继开展长期的综合观测[16-17]。与此同时,大量观测数据分散在监测站、气象局以及高校和科研机构,涉及数据类型、格式复杂多样、数据质量良莠不齐,导致数据利用率低,不利于大气复合污染的研究以及决策管理[18-19]。为解决“数据数量与质量问题、推动共享”技术难题与机制创新问题,由北京大学、中山大学等单位共同研发,建立了中国东部大气环境数据库和分析共享服务网(Ministry of Scienceand Technology of the People's Republic of China Database of Air Pollution in East China,简称MOST DAPEC)。平台围绕“全引入、全共享、可交流学习、可持续发展”的原则,旨在建成行业领先的国际性大气环境数据、技术工具及研究成果的共享交流平台。

2 关键技术突破

2.1 研发环境的搭建

平台技术路线的选择以成熟可靠为首要考虑条件,以保障软件系统长时间无故障稳定运行为目标进行搭建。平台使用专业的商业数据库软件对数据进行存储,方便系统用户对数据进行查询、搜索、同步、分析等操作。Web应用服务器承担相关的业务数据处理、Web服务响应等任务。采用千兆以太网为骨干网搭建局域网,实现各类服务器、客户端之间的联接,向其他相关职能部门、公众等提供数据服务和信息发布。根据不同的业务需求,配置不同等级和数量的硬件平台。预报预警信息交换系统建设使用B/S模式(Browser/Server,浏览器/服务器模式)和C/S模式(Client/Server,客户/服务器模式)相结合的结构,使得整个系统与Windows操作系统有着极大的兼容性,最大限度保障了环境监测使用人员以及公众发布服务的实用性和易用性。

为了保证数据安全,基于RBAC数据存储与访问控制模型设计多级用户系统和实施模式,以隔离集中式业务管理模式带来的系统故障风险[20]。除此之外,同时采用了防火墙、存储冗余设计、访问隔离、访问验证等技术,辅以严格的平台系统安全管理规范,定期巡检及修复漏洞等处理手段防止黑客攻击及病毒入侵。

2.2 多源数据接入与质控

针对我国目前大气环境数据来源多样、维度多、涉及数据提供单位的数据格式各不相同,硬软件系统及通信传输协议各不相同的问题,研发标准化、通用化的数据采集和传输技术是共享平台重点攻克的难题之一。

结合当前各业务部门、科研机构的大气复合观测现状,本平台支持三种数据接入模式:一是手工(离线)上传。数据提供方按照模板形成标准化上报文件,将其手工录入系统;二是自动监测直连传输;三是通过中间层转接传输。第二、第三种模式基于不同监测子站的建设情况进行选择,以满足不同数据来源接入的要求。对标准化监测子站,既可以通过标准直连协议实现实时数据上报和平台控制指令的接收和执行,也可以通过生成标准XML格式文件上传。而非标准化的监测站则需要升级系统实现自动生成XML文件,或开放数据结构,由标准化监测子站或标准化软件系统对数据格式化后上传。整体拓扑如图1所示。

图1 多源数据接入及质控拓扑图

目前平台已实现包括空气质量监测常规站及超级站的数据接入。数据采集内容包括监测子站、时间、因子的编码、监测数据、数据状态编码(数据标识)、仪器状态(参数)等,实现了从传统单一数据采集到采集数据状态数据等质控数据采集的转变。

2.3 数据存储与访问

目前我国大气环境多源数据存储管理缺少统一的规范,导致全国多数科研部门和业务部门的数据割裂化、碎片化。同时,大气环境监测数据涵盖结构化、非结构化、半结构化等多种类型的数据,要更好地使用、挖掘上述数据,必须要形成统一的数据存储规范。因此,MOST DAPEC基于多源融合关联的数据管理大数据模型,以关系数据库、文件存储系统和空间数据存储系统为存储结构,建立了多时空尺度、不同污染组分及多类型污染源的高精度区域大气环境管理的关系型与NoSQL组合数据库。采用GeoHash和Hilbert曲线相结合的数据多级划分策略,针对包含丰富的时间、空间和语义信息的数据进行划分及统一编码后存入数据库。通过设计空间索引,多源数据保存在数据库时以经纬度作为索引,转化为地理空间问题,实现海量数据的快速检索与分析。

根据平台面向公众、政府、科研机构、行业(四个面向)的目标,平台围绕分级分类管理、用户权限控制与数据全面共享三个方面管理平台数据访问。分级分类管理指根据不同用户的需求,对数据、工具和论文等资料进行分类管理;用户权限控制即不同级别的用户,所对应的可获取数据范围及时空精度等情况不同;全面共享的数据则是根据不同用户需求,最终实现所有共享数据不同层次的全面共享。

2.4 面向应用的专题数据产品设计开发

为了盘活数据资源,深度挖掘数据基础特征,平台开发了十余个快速分析工具,形成专题软件工具包。用户可基于已接入的监测数据或自行上传数据,进行数据后处理和再分析。快速分析工具可对空间、时序、成因诊断、特性、组分、气象/环境关联等内容的分析,从而获取污染来源、污染成因、传输规律等初步分析结果,为精细化污染评估、防治提供便捷准确的科学支撑。

平台嵌入了多个成熟应用的模型代码,围绕PM2.5和O3污染监测参数展开综合分析。例如,PMF受体模型、潜在源贡献因子模型(PSCF)、浓度权重估计分析模型(CWT)等,从受体角度、污染气流等多角度解析污染源的贡献情况。

在线分析工具还实现了数据统计及可视化处理。一是分析工具对原始数据进行计算处理,得出关键分析指标。如目前比较成熟的颗粒物二次关键指标算法,可实现关键分析指标的自动计算,其中包括重要比值如阴/阳离子摩尔浓度、SO42-/NO3-等。臭氧生成潜势模型(OFP)、二次有机气溶胶生成潜势模型(SOA)则可对VOCs成分谱进行分析,识别出关键的贡献物种。二是对分析后的数据可视化展示,显示数据时空或其他方面的特性,也可依据用户个性化需求,形成并下载分析结果示意图。例如污染日历算法的开发,实现了以日历图的形式,用不同颜色渲染监测值,从而展示不同监测因子随时间变化的特征。

另外,平台简报生成系统也是满足用户个性化需求的另一设计。系统可自动生成观测期间空气质量、各污染物水平变化情况等总结报告,分析边界层气象条件,解析污染物物理、化学和光污染变化情况,得出初步结论。用户则可根据自身研究目标在线编辑分析简报,并存储、下载。

2.5 数据共享与应用成效评价

由于数据产品丰富、面向用户群体多元,因此可持续的共享机制的设计至关重要。共享机制的构建从数据共享技术的研发开始,首先,根据数据的内容、特点、现状等因素,确定共享的方式、要求、流程、质量管理要求等。常用的共享技术包括元数据集中式共享以及数据集、数据库分布式共享等。其次,要设立与之匹配的数据共享机制,设置共享数据管理办法、安全保密协议等。最后,建立共享数据管理指标体系,以达到提高数据来源的质量、鼓励科研单位和业务部门开放数据的效果[21-22]。数据共享成效评价可考虑对数据和社会效益评价两方面进行评价,其中,数据评价以数据提供者的等级评价和用户给予的评价或评分获取数据的综合性评分;社会效益评价将从应用规模、关注程度、决策支持、学术成果等方面进行考查。整体的共享机制与规范框架如图2所示。

图2 数据共享机制与规范框架

3 应用成效

结合前文对我国科学数据管理数据库与共享平台的发展现状的研究,本项目创新形成“数据-分析工具-方法学”三层共享模式。共享结构如图3所示。

图3 平台共享结构示意图

数据层面目前接入了涵盖环境监测、气象监测、气象预报、超级站数据、综合观测数据、遥感反演数据、闭合数据七大数据集。数据类型包括基础(原始)数据,日、周、月、季度等统计数据,成因诊断等深度挖掘产品,用于综合业务分析展示专题产品数据。分析工具层面,平台根据业务和科研不同需求,设计了气溶胶专题、气象分析专题、常规分析专题、光化学专题、垂直观测专题、气象预污染综合分析专题及简报专题七大分析产品包,包含十余个快速分析算法。另外,平台正在接入包括观测、闭合技术、质控方法、以及数据分析报告、实验报告、学术论文等来自国内领先高校科研机构的最新研究成果。通过共享前沿研究成果,实现成果再现和转化,形成研究人员自由交流、传递与共享知识学术的社交平台。

目前数据库和平台集成了国内超过5亿条的大气环境复合污染观测的数据、方法、分析报告、学术论文等多种资源,数据总量超过100TB。数据来源于全国1498个空气质量自动国控点、100余个国家气象站、国内外9个主流气象预报模式等公开数据,德洲超级站、项目内及其他合作方多套空气质量外场观测/长期基础观测数据以及其他第三方来源数据信息的接入。

在数据共享方面,平台不断与多个单位合作并将数据“引进来”的同时,也正在大力推进数据的对外共享。目前已与广东省环境监测中心、长三角环境气象预报预警中心签订了数据共享协议,实现“环保、气象、科研”三大源头全引入,保障可持续的数据来源。与此同时,平台已向南京大学等科研单位和多个省市级环境监测部门提供了稳定的接口式数据共享(见图4)。研发的数据分析工具包已在全国产业化应用,服务于中国环境监测总站以及广东、福建、湖北、四川等十多个省市环境监测中心站,为厦门金砖五国会议、北京“一带一路”高峰论坛等重大活动提供保障。

图4 中国东部大气环境数据库与分析共享服务网(http://202.104.69.206:8090/)

4 结束语

针对目前大气环境监测数据利用问题及日益增长的需求,中国东部大气环境数据库与分析共享服务网应用成熟平台建设技术,辅以完善数据标准管理规范,保证海量数据接入基础上,提高数据质量及利用率,是在大数据发展趋势下推动大气污染研究及决策管理的重要平台。

目前平台已向公众开放,并朝着国家科学数据中心的发展目标奋进:建立和推广可持续的运行模式,完善数据及产品设计,提升数据资源共享成效。以打造资源共享、学术社交、研究再现、成果转化、统计评估“五位一体”的PaperHub学术社交平台为定位,丰富共享的内容及形式。以更多元化的可持续共享机制,面向不同用户形成不同等级、层级的开放共享,开启数据驱动下的大气环境研究与管理新范式。

猜你喜欢

分析
0~6岁儿童行为测听与tb-ABR的相关性分析
高层建筑加固纠偏技术分析
基于FLAC3D的深基坑开挖模拟分析
高层建筑结构设计分析探讨
民航甚高频通信同频复用干扰分析
隐蔽失效适航要求符合性验证分析
分析:是谁要过节
回头潮
电力系统及其自动化发展趋势分析
徐訏 40 年代“现代志怪” 的小说叙事分析