大数据时代下生态环境资源数据中心发展展望
2018-10-16田云
田云
为落实国家政策要求以及解决生态环境资源数据中心目前发展中面临的问题,本文对大数据时代下生态环境资源数据中心的发展方向进行了探索。面对数据来源众多,尺度差异大,接入方式复杂的海量环境数据,急需通过大数据技术提升数据的采集、存储及分析挖掘能力,促进数据整合共享,通过数据治理手段,提高数据质量水平,保障数据准确可用,最终支撑创新大数据的应用,推动监管创新。
党中央、国务院高度重视我国大数据的发展和应用,将大数据确定为国家级发展战略,随后各部门相继推出了指导意见以及落地政策:国务院办公厅印发《政务信息系统整合共享实施方案》、生态环境部印发《生态环境大数据建设总体方案》、生态环境部印发《环境保护部政务信息系统整合共享实施方案》等相关文件。
因此,依托大数据、云计算等技术手段推进环境治理能力现代化已成为必然趋势,本文重点探索如何解决大数据时代生态环境数据资源中心建设面临的海量环境数据的接人、存储问题,数据质量不高的问题以及如何对数据进行分析挖掘为环境管理提供支撑的问题。
1.大数据时代下生态环境资源数据中心面临的问题
生态环境资源数据中心是全面实现环境信息资源的集中、整合、共享和管理的核心,是推动生态环境大数据建设应用的根本,目前生态环境资源数据中心面临以下问题:
1.1 传统平台的技术局限性,不能满足新形势「的数据管理需求
随着技术的进步,环境数据逐步呈现容量大、类型多、存取速度快的特点,传统的环境资源数据中心在大容量数据吞吐、PB级数据存储、数据实时采集与传送等方面均面临瓶颈性问题,不能满足新形势下的数据管理需求。
1.2 数据质量水平低,影响环境精准监管与科学决策
数据采集的过程中缺乏有效的数据管理手段,通常会造成各手擞据质量问题,例如单位上报数据不完整、不准确,不一致;在线监测数据通常会产生丢失、错误、失序、造假等各币阿贡量问题,最终难以支撑环境精准监管与科学决策的需求。
1.3 数据对业务的支撑不足,数据没有充分利用
没有应用,数据永远只是数据,海量的数据.只有在应用中才能发挥价值。目前环境业务信息系统积累了一定的环境管理数据,但多数依然停留在原始数据收集展示的层面上,无法做到智慧化的分析与发掘,为环境科学决策提供支撑的能力明显不足。
2.环境信息的融合应用是生态环境资源数据中心的发展趋势
全面整合生态环境数据资源,开展生态环境信息资源规划,统筹生态环境数据采集,建立数据资源关联关系,提高生态环境大数据分析能力,提升生态环境信息共享与服务能力是生态环境资源数据中心的发履必然要求。
2.1 推进生态月镜数据融合共享开放
开展数据资源的集成整合,深化业务数据和社会数据关联分析、融合利用,切实避免数据分散和信息孤岛,建立以环保部门业务数据、监测物联网传感器数据为主,国土、水利、农业、林业、气象等外部委数据和互联网数据为辅的环境大数据资源体系,能够有效推动生态环境数据资源共享服务和生态环境数据开放。
2.2 增强大数据技术的应用能力
面对海量数据整合共享给传统环境资源数据中心带了的挑战,应该充分利用大数据技术实现海量数据的采集与接人,重点解决复杂结构化、半结构化和非结构化大数据管理与处理,同时应用人工智能、机器学习、模式识别等新技术,挖掘隐藏于海量数据中的信息,提升预测、预警、溯源、模拟模型支持能力,最终为生态环境管理创新应用提供支撑。
2.3 提升环境资源数据管理水平
数据的质量问题一直制约着生态环境数据的分析与应用,没有准确的数据支撑,难以对数据进行深度分析,生态环境资源数据中心的今后建设要通过对数据标准管理、元数据管理、主数据管理、数据质量管理等提升数据整体质量,提高数据的可用性和易用性,为数据资源向数据资产的转变打下坚实的基础。一是要基于数据标准和标准样例库,与进入环境资源数据中心的数据进行校核,主动发现数据问题,从而实现对环境数据的标准化管理;二是在传统环境资源数据中心以结构化数据为主的元数据基础上,升级元数据管理,实现关系型、非结构化、半结构化、时序数据等海量异构数据的字典管理;三是将多个业务系统中最核心的、需要共享并保持一致的数据视为主数据,实现对主数据清洗、整合、管理与共享。四是对数据质量进行核查,帮助用户定位数据在缺失、重复、极值异常、单调性异常等方面的质量问题。
3.应用大数据驱动环境监管模式创新
应用是生态环境大数据建设的核心,它是将数据价值传递给用户的桥梁,通过大数据技术对数据进行关联分析,从中发现趋势、找准问题,主动发现企业风险,促进环境监管模式从被动响应向主动预见转变。
3.1 建立污染源敏感点分析
打通各种污染源监管数据,如排污许可证申报、排污费申报、污染源在线监控等,通过数据比对分析、模型分析等手段发现问题,包括识别监测数据异常、生产及排放情况异常、互联网舆情举报等问题。
3.2 形成企业标签体系
基于污染源敏感点分析结果,结合统计分析、建模分析以及预测分析等算法手段,多维度刻画企业历史、现在、将来行为属性特征,即定义企业标签体系:
事实标签:基于原始数据,提取出事实标签。例如:连续5日超标、一年内处罚超过两次等标签。
模型标签:将原始数据及事实标签作为数据基础,结合算法模型,形成模型标签。如企业违法风险等级等。
预测标签:将原始数据集、事实标签、模型标签作为数据基础,结合预测模型,得出预测标签。例如:高风险企业、高危流域污染源等内容。
3.3 企业违法等级计算
企业违法等级计算模型以污染源敏感点分析评价体系以及标签体系,对目标企业进行特征值提取及特征加权分析,计算得出企业违法分数。针对企业违法等级得分范围划定,给出每个企业违法等级评定结果。
通过以上分析可以发现目前的环境资源数据中心的发展遇到瓶颈,急需通过大数据技術提升数据的采集、存储及分析挖掘能力,最终实现数据整合共享、提高数据质量,推动生态环境监管创新。