上海市环保大数据建设实践与探索
2017-10-12王勤
王勤
上海市环境保护信息中心
上海市环保大数据建设实践与探索
王勤
上海市环境保护信息中心
基于TOGAF企业架构和HADOOP大数据架构方法,结合“云物移大智”等新技术,提出了上海市环保大数据建设“一中心、两平台三应用、三体系”的总体架构,为上海市环保大数据建设提供顶层设计阐述了数据资源中心建设实践和大数据在空气质量预测预报、污染源精准管理等方面的应用探索,为环保大数据建设提供了思路和借鉴。
环保大数据;总体架构;数据资源中心;创新应用
Abstract: Based on TOGAF enterprise architecture and HADOOP big data rchitecture method, the author puts forward ‘one center, two platforms, three applications, three systems’ overall architecture for Shanghai environment protection big data construction combined with‘cloud thing mobile big intelligence’ etc new technologies as top level design of Shanghai environment protection big data construction.The article introduces data resource center construction practice and application exploration of big data on air quality prediction, pollution source precision management and gives ideas and reference to environment protection big data construction.
Key words: Environment Protection Big Data Construction, Overal Architecture, Data Resource Center, Innovative Application
大数据是以数据体量巨大(Volume)、数据类型繁多(Variety)、价值密度低(Value)、处理速度快(Velocity)为特征的数据集合,其本质是用崭新的思维和技术对海量数据进行整合分析,从中发现新知识、创造新价值、提升新能力,带来“大知识”“大科技”“大利润”和“大发展”[1],已成为政府运作方式转变的一个热点[2]。
党中央、国务院高度重视大数据在推进生态文明建设中的地位和作用。《促进大数据发展行动纲要》等文件明确要求:构建“互联网+”绿色生态,实现生态环境数据互联互通和开放共享,促进大数据的创新应用。习近平总书记指示,要推进全国生态环境监测数据联网共享,开展生态环境大数据分析。李克强总理强调,要在环保等重点领域引入大数据监管,主动查究违法违规行为。环保部印发的《生态环境大数据建设总体方案》,强调要以改善环境质量为核心,统一基础设施建设,集中管理数据资源,推进系统整合关联和数据开放共享,促进业务协同[3]。
上海市环保顺应大数据时代发展趋势,根据国家、市和环保部的总体要求,运用顶层设计、“互联网+”等新思维,结合“云物移大智”等新技术,对上海市环保大数据建设进行了深入研究、认真实践和积极探索。
图1 上海市环保大数据建设总体架构图
1 上海市环保大数据建设总体架构
上海市环保基于TOGAF企业架构[4]和HADOOP大数据架构方法,以改善环境质量为核心,以推动信息资源整合共享和开放、促进业务协同联动、加强大数据综合应用和集成分析能力为目标,从业务架构、应用架构、数据架构、技术架构4方面开展深入研究,提出了“一中心、两平台、三应用、三体系”的上海市环保大数据建设总体架构,为大数据建设提供了顶层设计(见图1)。
1.1 数据资源中心
一中心即数据资源中心,涵盖基础设施层和数据资源层。
基础设施层包含一体化建设的IT机房、环保云、物联网等基础设施,为大数据处理和应用提供统一的基础硬件支撑环境。
数据资源层包含数据来源、数据采集、数据存储、数据共享4个子层和数据资源管理平台5部分,为大数据应用提供数据支撑服务。环保大数据主要来源为环保内部业务系统、各委办局共享数据和互联网数据;数据采集层包含统一的数据传输交换平台,将源数据采集传输交换到数据存储层;数据存储层承担数据存储和计算处理职能,包含污染源、环境质量、环境政务3个主题核心库和关系型数据库、分布式文件两大管理系统,平时关系型数据存储于关系型数据库,进行高效的查询和更新,需进行大数据分析时,再纳入分布式文件管理系统,与非结构化、流数据等分别进行计算处理和存储;数据共享层通过统一的数据共享服务平台与环保部、市各委办局、各区环保局和局各应用系统进行数据共享;数据资源管理平台包含资源目录、数据质量、数据清洗整合、数据资源监控等管理系统,实现对数据采集、传输、存储、共享全过程管理。
1.2 综合业务平台和公众服务平台
二平台即综合业务平台和公众服务平台,是大数据界面访问层。综合业务平台构筑于政务外网之上,为环保系统内部业务办公的统一门户,集成整合日常办公功能和各业务系统,实现一站式登录,业务协同办理。公众服务平台,即上海环境网站+微博+微信+APP,构筑于互联网上,是上海市环保服务公众的主渠道,具备网上办事、信息公开、投诉举报等功能。
1.3 环境质量、污染源和环境政务三应用体系
三应用即根据环境管理对象确立的污染源、环境质量和环境政务三应用体系,是大数据业务应用层,为大数据在各领域应用提供综合服务。根据环境要素,各应用体系可分为水、气、声、土壤、生态、核与辐射等,针对各环境业务,还有监测、监察、监管和应急等业务领域,“十三五”期间,污染源监管、生态环境监测、环境监察执法、环境应急、环境影响评价管理和网站被定为六大环保大数据创新应用领域。
应用支撑层,主要包括分布式搜索引擎、大数据分析模型和工具、可视化工具、身份认证、权限管理、工作流引擎等公共的应用开发服务,支撑各大数据应用开发建设。
1.4 大数据建设保障体系
三个保障体系分别为标准规范体系、信息安全体系和运维管理体系,为大数据规范建设、安全稳定运行提供全面保障。
2 上海市环保数据资源中心建设实践
大数据建设中数据资源中心建设是基础,更是核心,上海市环保率先以环境数据资源中心建设为突破,强化建设实践,有效推动信息资源整合共享和开放,为深化大数据综合应用和集成分析奠定了坚实的基础。
2.1 标准规范体系建设
编制了《上海市环保信息化建设总体技术要求》,明确了上海市环保大数据建设将采用统一规划、统一标准、集约建设、集中管理,市区分级使用的建设模式,数据集中存储于市环保数据资源中心,属地数据可共享到各区县数据中心。研究确立了上海市环境数据资源标准规范体系,制定了数据库设计、数据传输交换、数据共享服务、数据质量控制、运维管理等技术规范,形成环保数据资源中心建设和管理有标可循、有标引领、有标支撑的局面,有效促进了大数据建设的规范性、数据资源整合的有效性、数据质量的可靠性和数据更新维护的可持续性。
2.2 基础设施建设
建设了150 m2的市环保中心机房,采用冗余设计。具备政务外网、政务内网、互联网和环境监测4套网络,其中,依托政务外网实现部、市、区、街镇四级纵向联通及与各委办局横向互联,接入带宽100 M,桌面带宽10 M;基于互联网,建立市、区二级无线为主的在线监控网络;拥有服务器132台,存储近200 T,近期,利用20台核心服务器和100 T存储进行虚拟化、资源池化建设改造,构建上海市环保云。
2.3 数据资源梳理
环保数据主要有内外两个来源。内部数据来源于环保业务,按环境管理对象分为污染源、环境质量和环境政务3大系列。环境质量数据包含对区域水、气、声、土壤、生态、核与辐射等各环境要素质量的自动监测、人工监测、预测预报等数据近20套。
数据类型包括关系型结构化数据,本文、图片、视屏等非结构化或半结构化数据,以及在线监测等流数据。
2.4 资源目录体系建设
建立了资源目录体系,制定了环境信息资源分类方法、标识符编码、核心元数据管理等规则,明确了应用模式和多权限多角色管理要求,按业务和组织架构相结合的双重分类模式,对各类型数据分别进行编目;建立了资源目录管理系统,实现了环境资源目录收集整理、编制注册、审核、查询、浏览、共享应用的信息化、规范化管理。
2.5 核心数据库建设
根据环保管理对象和管理特点,按照数据库设计规范,建立污染源、环境质量、环境政务3大主题核心库,存储按主题整合处理后的各类数据,具有列式存储、键值存储、文件存储、图存储、XML等多种存储方式,其中,污染源主题核心库存储的是通过污染源统一编码,关联整合13套污染源监测、监察、监管数据后形成的污染源核心数据,目前核心库数据存储量约为50余T。
2.6 数据传输交换与共享服务系统建设
基于ESB总线,以前置库方式为主、Web Service接口为辅构建数据传输交换和共享服务系统。数据传输交换系统按照资源目录定位各信息资源,实时将业务系统产生的异地、异构数据及文件等信息,根据数据质量控制规范要求,采用ETL工具进行抽取、清洗、结构转换等规范化处理后存入前置库,再将各前置库中数据按污染源、环境质量等主题整合后,集中存储于数据中心各主题核心库,进行管理;数据共享服务系统则将数据资源中心的数据资源,按共享权限分别为环保部、各区县环保局、内部各业务应用、市各部门提供信息共享服务。目前配置的数据交换和共享服务共涉及34类业务近400项,并以每年约30%的速度增长。
2.7 资源监控系统建设
建立了数据资源监控系统,对基础设施、数据资源、数据交换和服务任务、虚拟化环境安全等方面进行全面监控,形成监控日志,通过可视化界面实时、直观反映监控情况,发现问题及时通过微信、短信、邮件、系统告警页等多种形式进行告警;建立故障处理知识库,辅助快速排除故障;实行监控数据统计分析,辅助软硬件配置优化、掌握数据资源利用情况。
2.8 安全保障体系建设
从安全管理策略、信息安全监控、信息安全应急和信息安全评估4个环节保障信息安全。采用防火墙、入侵检测、网络安全审计、漏洞扫描及计算机病毒防杀等技术实现全面安全防范;规范数据备份,相对稳定的备份异地存放;建立统一的用户授权机制,不同用户拥有不同的访问权限,对数据访问提供日志跟踪审计手段,采用三重DES加密算法,对信息加密后进行传输、存储;建立安全管理制度和应急预案,定期进行安全评估和应急演练。
3 上海市环保大数据创新应用探索
上海市环保以空气质量预测预报和污染源精准管理为试点,开展大数据创新应用探索,为在多领域开展大数据综合分析应用提供思路和借鉴。
3.1 大数据在空气质量预测预报中的应用
近年来,秋冬季雾霾时有发生,准确预报空气质量、及时采取应急措施是保障公众身体健康、生产生活正常开展的重要举措。
上海空气质量预测预报数据来源主要包括4类,第1类是美国国家环境预报中心的全球预报系统(GFS) 气象数据,数据量每天5 G左右;第2类是全国空气质量监测数据,包括常规AQI数据及超级站的监测数据;第3类是背景数据,主要是东亚地形地貌数据及气候特征数据、污染排放特征数据,数据量每天2 G左右;第4类是大气污染物排放源清单数据,包括城市排放清单和区域排放清单数据。将这四类数据,结合NAQPMS、CMAQ、CAMx、WRF-Chem等 大 气化学模型构成的多模式结合数值预报模型,产生不同的预报值,供环境管理者最终预报参考。
空气质量预测预报后台需要复杂的计算和判断过程,随着后台数据量的累计和大数据等各项技术发展,预报准确度及能力均有大幅提升,从2013年的24 h预报提升到今年6月5日起的72 h预报,且2016年预测相关系数已达到70%以上。
3.2 大数据在污染源精准监管中的应用
根据最近一次污染源普查,上海市有污染源9万余家,为加强对污染源的监管,促进企业、政府和公众对环境管理的共识共治,建立基于标签体系的企业环境行为评价。在整合污染源管理13套数据、互联网舆情数据和企业经济活动数据等环境行为数据基础上,建立并运用排放模式识别、合规性规则识别、环境行为舆情情感识别等模型,以及动态环境行为标签标定技术,实现企业环境行为等级评估及分析,绘制企业环境行为画像,实现企业环境行为特征分析,辅助识别高风险企业,实施精准执法,为绿色金融和绿色信贷奠定基础。
4 总结
上海市环保基于TOGAF企业架构和HADOOP大数据架构方法,研究提出了“一中心、两平台、三应用、三体系”的上海市环保大数据总体架构,为上海市环保大数据建设提供顶层设计。以数据资源中心建设为突破,开展大数据建设实践,实现了统一基础设施建设,集中数据资源管理,数据资源整合共享开放,为深化大数据应用建设奠定了坚实的基础。并以空气质量预测预报、污染源精准管理等为试点,进行了创新应用探索,取得了良好效果。下一步,将以加强大数据综合应用和集成分析能力建设、强化六大领域的创新应用开发为重点,更好地为推进环境管理转型、提升环境治理能力提供支撑。
[1]涂子沛. 大数据[M]。桂林:广西师范大学出版社,2012
[2]徐继华. 冯启娜,陈贞如。智慧政府:大数据治国时代的来临[M]。北京:中信出版社, 2014.
[3] 生态环境大数据建设总体方案环办厅[2016]23号
[4]赵捷.企业信息化总体架构[M]。北京:清华大学出版社,2011-1
Practice and Exploration of Environment Protection Big Data Construction in Shanghai
Wang Qin
Shanghai Environment Protection Information Center
10.13770/j.cnki.issn2095-705x.2017.09.002
王勤:(1968-),女,硕士研究生,高级工程师,上海市环境保护信息中心副主任,长期从事上海市环境信息化发展规划编制、标准规范制定、数据中心建设、应用系统开发和项目管理等工作。