APP下载

深圳市生态环境大数据中心开发技术探讨

2023-04-16毛庆国

环境 2023年3期
关键词:生态环境数据中心大数据

毛庆国

摘要:深圳市生态环境大数据中心在开发过程中,解决了数据资源规划、数据标准规范、数据采集汇聚、数据治理和存储、数据共享、数据应用、数据安全等关键性技术问题,突破了历史数据汇聚、数据质量控制、“一数一源”保障等技术难点,取得了较好的成效。

关键词:生态环境 大数据 数据中心 信息资源规划

一、背景

深圳市的生态环境信息化建设起步比较早。为满足生态环境部门不同阶段的业务需求,从2000年左右开始,深圳市陆续建设了80余套环境保护业务系统,并因此积累了丰富的数据资源。但由于缺乏统一的顶层设计和开发管理,庞大的数据存在很多问题,如结构分散、来源多样、标准不一、互相矛盾、共享程度低等,数据壁垒、数据孤岛现象严重。2018年,《深圳市新型智慧城市建设总体方案》出台,其中明确要求“建立陆海统筹、天地一体、上下协同、信息共享的生态环境监测网络,加强水、气、声、固废、生态资源等环境资源数据汇集”。2019年,在全市新型智慧城市建设的总体框架下,“深圳市智慧环保平台项目”启动建设,开发统一的生态环境大数据中心被列为其中最重要的建设内容之一,以解决困扰多年的数据问题。

二、生态环境大数据中心开发中的关键性技术问题

深圳市生态环境大数据中心的设计规模大、体系严谨,开发过程中面临许多技术挑战,主要包括数据资源规划、数据标准规范、数据采集汇聚、数据治理和存储、数据共享、数据应用、数据安全等关键性技术问题,需要综合运用数据管理的基本理论、系统开发的最新技术,结合生态环境业务的实际情况,逐一解决。

(一)数据资源规划。数据资源规划是生态环境大数据中心开发的基础。深圳市运用信息资源规划(Information Resource Planning,IRP)理论,对生态环境数据系统性地整理出12个业务大类、729个业务小类,并按照政务管理、社会服务、污染源监管、环境质量管理应用4大类型,划分出52个业务职能域,然后对每个职能域的用户视图、数据流进行具体的规划,形成职能域的数据元素集。

(二)数据标准规范。统一的数据标准规范是高质量、可持续数据管理的前提。深圳市在相关法律法规和国内相关数据标准的基础上,建立了一套智慧环保数据标准体系,包括数据元管理规范、共享数据规范、元数据管理规范、资源目录标准体系、数据安全管理规范、数据质量管理规范、公共代码管理规范、空间地理信息管理规范等,以保障数据定义和使用的一致性。

(三)数据采集汇聚。数据采集汇聚的难点在于解决不同来源数据的采集和汇聚问题。针对物联感知数据、业务系统数据、离线非结构化和互联网数据这四种主要数据来源,深圳市生态环境大数据中心统一采取接口方式进行采集,并分别设计了整套标准接口方案。对物联感知数据统一通过物联网平台采集并存入时序数据库,对线上的业务系统数据采用标准化接口方式采集,对图片、视频等非结构化数据采用离线文件采集接口方式,对互联网数据按照一定的规则手动或者自动抓取。

(四)数据治理和存储。数据治理是保证数据质量的必要措施,包括初步数据库标准化、数据智能稽查和统一元数据管理三个步骤,最终实现端到端的闭环治理。

数据存储的难点在于存储结构的科学合理,以利于数据读取的高效便捷。数据汇入大数据中心后,基于统一的元数据规范按照基础数据库、专题库和决策库建立标准化数据库体系,存储形成统一的生态环境主题库。基础数据库存放环境质量数据中相对固定且作为基础核心的数据,包括环境质量点位信息库、污染源基础信息库、企业基本信息库、政策法规信息库、环境空间地理信息库、环境行业代码信息库等;业务专题库是以业务领域为核心为其提供相关信息集合的库和表,包括大气环境质量专题库、水环境质量专题库、土壤环境专题库、污染源监管信息库等;综合决策库是面向数据运营和决策分析需求,按照多维的方式进行数据存储的数据集,包括空气质量达标规划决策库、水环境精准治污决策库、水环境异常告警分析决策库等。最终形成了包含7大基础数据库,28个业务专题库和7个综合决策库的生态环境主题库。

(五)数据共享。基于采集到的生态环境数据,深圳市构建了完整的数据资源目录体系,并按照不同安全等级要求、共享类型、信息公开属性进行数据共享。对内全部通过大数据中心共享,对外统一采用接口方式进行共享,其中与全市的政务数据共享交换平台之间实现实时共享。

(六)数据应用。数据应用的目标是最大程度发挥数据的价值。深圳市生态环境大数据中心集成了大气、水、生态、噪声4大类共18个环境仿真模型,通过输入原始业务数据,调用模型,产生包括预测、分析等结果数据等支持业务应用,并结合业务场景,搭建了异常闯入识别、溢流识别、漂浮物识别等AI智能模型,支撑固体废物管理、水环境管理等具体业务应用。

(七)数据安全。深圳生态环境大数据中心从四个方面全方位保障数据安全。一是统一数据安全平台,围绕数据全生命周期,提供定制化安全策略;二是基础安全中台支撑,利用安全态势感知工具,提供从开发、运营到监管的360度安全基础保障;三是可信执行环境,基于CPU内核机制和指令集层面的可信执行环境,搭建基于物理/网络隔离以及沙箱技术的数据安全屋;四是严格业务安全控制,针对不同安全等级要求的业务应用场景,自动执行不同安全保障的业务流程。

三、生态环境大数据中心开发中的技术难点

在深圳市生态环境大数据中心的开發中,历史数据汇聚、数据质量控制、“一数一源”保障是突出的技术难点,需要重点突破。

(一)关于历史数据汇聚。在深圳市原有80余套已建的环境保护业务系统中,大部分系统年代久远,数据结构和数据定义各不一致、内容费解、数据字典缺失,数据汇聚面临很大困难。为了解决这个问题,深圳市通过大量的调研和协调工作,制定了一套标准的数据汇聚方案,编制了覆盖生态环境业务及相关领域的通用数据字典,在此基础上完成了80余个历史数据库、1万余张历史数据表的数据汇聚工作。

(二)关于数据质量控制。数据质量控制的影响因素众多,在进行数据资产建设之初就应当从战略角度对数据质量体系进行规划。深圳市生态环境大数据中心在开发前,以元数据为基础构建了一套完整的、标准化的元数据管理规范,建立了完整的数据表述体系,形成了128个公共数据元、1750个环保数据元;同时配套形成了6大数据管理要求,以管理数据的完整性、有效性、一致性、唯一性、正确性、准确性、充足性,从而形成了有效的数据质量控制机制。

(三)关于“一数一源”保障。生态环境数据“一数多源”和“一源多数”的问题普遍存在,必须明确数据来源的主体性,确保“一数一源”。深圳市生态环境大数据中心的开发过程遵循一套“数据权属”的核心原则,制定了数据来源、流程节点、时间更新、行政级别等数据整合原则,优先选用数据源生产或采集单位的数据、时间较新的数据或者行政级别较高的数据,保障数据的完整性、准确性和一致性,减少重复收集造成的资源浪费和数据冗余。

四、生态环境大数据中心的建设成效

深圳市生态环境大数据中心于2019年底开始建设,至2022年9月完成项目终验,初步实现了各类污染源、生态环境质量和生态环境管理数据的全面汇聚,目前已汇聚各类数据676.76亿条,除生态环境部门之外,还有水务、气象、住房建设、自然资源等15个部门的重要数据接入,在大数据中心与省、市、区以及其他部门的数据平台之间开发了400多个共享接口,数据共享通道畅顺;大数据中心通过统一的数据支撑和决策分析支持,保障了智慧环保平台上48个应用系统的有效运行,覆盖了大多数生态环境业务,在新冠疫情防控、污染防治攻坚、“无废城市”建设、执法指挥调度等重要工作中发挥了积极作用。

深圳市生态环境大数据中心下一步将继续优化、完善和升级,基于深圳市城市信息模型(City Information Model,CIM)打造生态环境三维数据底座,对各种数据“应接尽接、全量接入”,加强数据治理和研究,提高数据开放水平和服务能力,挖掘更多应用場景,助力生态环境监管和综合分析决策,充分发挥数据作为生产要素的应有价值。(作者系深圳市生态环境智能管控中心主任,博士,高级工程师)

参考文献:

[1]彭威:《水利信息化中信息资源规划技术探讨》,《中国信息化》2019年第2期。

[2]赵丽丽:《信息资源规划中主题数据库规划研究与应用》,大连海事大学,2016年。

[3]逯衍:《大数据平台数据采集系统的设计与实现》,北京交通大学,2018年。

[4]王翔,郑磊:《面向数据开放的地方政府数据治理:问题与路径》,《电子政务》2019年第2期。

[5]张程烨:《基于元数据的动态数据资源管理机制研究》,《信息技术与信息化》2017年第12期。

猜你喜欢

生态环境数据中心大数据
酒泉云计算大数据中心
民航绿色云数据中心PUE控制
自然资源资产离任审计评价体系研究
对媒体融合生态环境中出版教育的思考
我国对外贸易促进经济发展的研究
如何强化我国生态环境监察工作
基于大数据背景下的智慧城市建设研究
基于云计算的交通运输数据中心实现与应用
Overlay Network技术在云计算数据中心中的应用