基于Hadoop+BP神经网络的海绵城市大数据平台设计研究
2020-04-24王洁瑜杨婉宁赵江峰刘晓东
王洁瑜 杨婉宁 赵江峰 苏 锋 刘晓东 权 锋
(1.中国电建集团西北勘测设计研究院有限公司,陕西 西安 710065;2.陕西省礼泉县水利管理站,陕西 礼泉 713200;3.中电建路桥集团有限公司,北京 100048)
随着城市化的快速发展,海绵城市建设逐步成为中国城市建设的一项基本国策和生态基础设施的重要组成部分,在充分保护、修复和恢复城市水生态系统,统筹低影响开发雨水系统、城市雨水管渠系统、超标雨水排放系统,实现雨水的自然积存、自然渗透、自然净化和利用的同时,为更好地适应环境变化和应对自然灾害的城市开发建设,亟需运用数字化、信息化手段支撑海绵城市的建设和运营,借助大数据平台存储、处理及分析的能力,可视化呈现海绵城市建设效果和总体控制目标,实现城市供水、排水和水环境的智慧化管控。
近年来,水环境领域均开展了大数据建设的研究工作。江苏省基础地理信息中心就江苏水利信息化需求,搭建了水利地理信息平台专题空间数据服务平台,极大地推动了当地水利信息化建设进程;刘凯等人基于成都市水环境的基本情况,进行了成都市水环境信息化建设与研究[1]。王霣等人构建了天津市生态环境信息化体系,并对大数据技术在未来生态环境治理中的重点应用进行了分析[2]。
由于海绵城市工程建设涉及植草沟、绿色屋顶、雨水花园等LID海绵设施的空间布局及相关参数、市政规划管网及海绵地块划分等,具有海量、空间多源、异构的数据特点,具体包括矢量数据、光栅数据、排水管网数据、土地利用数据、水文资料、气象资料等,且数据存储量最高达到PB级别,并且分布于总控中心、气象局、水利局等多个监管部门,传统的数据平台已无法满足海绵城市工程建设的实际需求,本文依托西安小寨区域海绵城市工程建设现状,构建基于Hadoop+BP神经网络的海绵城市大数据平台[3-5],提高数据同时访问效率、分布式处理及计算能力的同时,为工程项目提供了强有力的决策支撑。
1 海绵城市大数据平台构建关键技术
为了实现与海绵城市建设相关设施的空间、属性、监测信息及文档资料的统一而有效地管理,建立一个高效率、低冗余的存储机制是建立海绵城市大数据平台库首要考虑的问题。因此海绵城市大数据平台的设计需遵循结构可扩充性设计、数据安全性设计、数据完整性设计、空间与属性可关联性设计、数据多源性设计、数据编辑并发性设计六个层面的设计原则,为高效精准的存储、处理及分析海绵城市工程建设大数据,该项目采用Hadoop框架作为基础研究平台[4,5]。
1.1 Hadoop基础平台
Hadoop是一个基于Java的分布式数据处理和数据分析的软件框架,以分布式文件系统HDFS(Hadoop Distributed File System)、Hbase和Map Reduce为核心,提供了系统底层细节透明的分布式基础框架。将Hadoop基础平台作为海绵城市大数据平台的分布式计算平台,Hadoop框架见图1。
Hadoop通过Map Reduce算法模型将任务分布并行运行在一个集群服务器中,实现大规模的海绵城市工程数据的并行计算,同时保证计算的准确性和高效性。
HDFS是Hadoop的分布式文件系统,采用Master-slave结构,HDFS由一个NameNode(master)和多个DataNode(slave)组成。
Hbase为典型非关系型数据库,面向开源分布式的存储模型,包括Master(master),RegionServer(slave)和ClientLibrary组件。
1.2 基于Hadoop的BP神经网络算法
在海绵城市工程项目建设过程中,涉及多项考核指标用于建设前后的海绵效果评价,本小节研究借助云的计算向数据迁移机制及MapReduce并行处理海量数据的优势,解决BP神经网络在处理大规模降雨样本数据时计算量大、网络训练时间长的瓶颈问题。构建了海绵城市建设效果评价网络模型,在Hadoop下应用并行BP网络算法,实现了对用于评价分析城市内涝风险指标数据及水质风险指标数据进行分类挖掘,挖掘分析结果对海绵城市建设效果评估具有决策指导性意义[6]。
1.2.1海绵城市考核评价BP神经网络模型
海绵城市考核评价包含多个考核方向及考核内容,本文以城市内涝考核方向为例结合城市内涝风险评价的国家标准和实际情况,采用BP神经网络激励函数为双极性S型函数:
(1)
输出范围为[-1,1],具有双极性(函数值可为正、负值),满足输出为负的要求,比单极性(仅为正值)函数更能减少收敛时间。
1.2.2网络拓扑结构的确定
1)输入层和输出层神经元的确定。
输入和输出层的神经元由输入和输出向量的维数决定。其中涉及内涝风险的因素,包括降雨强度、径流系数、下垫面不透水系数、下垫面洼蓄量、下垫面下渗系数、蒸发系数等作为城市内涝神经元输入。
输出层的神经元为评估城市内涝风险输出等级,参照相关研究,结合西安当地实际情况,内涝风险等级输出为5个等级,因此为5个输出神经元,进行了西安城市内涝等级划分,如表1所示[7,8]。
表1 城市内涝风险等级划分标准
2)隐含层神经元数的确定。
该项目的隐含层神经元数由排水管网水量计算、暴雨计算公式及降雨时序等计算结果决定,因此,经过多次调整隐含层的节点得到管网及地表漫流结果,节点应取值12时,网络模型可得到精准输出符合实际的内涝风险等级。
2 海绵城市大数据平台设计
2.1 海绵城市大数据平台架构
基于Hadoop+BP神经网络的海绵城市大数据平台架构图如图2所示,主要分为数据源、数据集成和加工、分布式存储、大数据分析、应用服务及用户访问[8]。
2.1.1数据源
数据源主要包括地理信息数据源、在线监测数据源、运行管理数据源以及文档多媒体数据源。其中地理数据源指行政区划、水系、植被、公路、河流岸线等基础地形数据及海绵城市建设项目、设施、监测设备的空间信息,管线、节点以及汇水区等雨水系统地理数据。运行管理数据源指项目位置描述、工程规模、项目指标值、设施设计参数、设施实际规模、设施维护信息等。在线监测数据源指在线监测仪器在排水分区、河道水系、市政排水管道、地块中所采集得到的雨量、流量、液位、水质、温度、设备状态等实时数据。文档多媒体数据源指海绵城市建设相关的文档资料、图片数据、视频数据等。
2.1.2数据集成和加工
数据集成和加工过程包括数据采集、数据加工清洗、数据变换以及数据整合,实现从数据源中抽取数据到Hadoop平台进行数据分析,将关系数据库、非结构化数据及非关系数据库分别导入HDFS及Hase中,结构化数据导入Hive中。
2.1.3大数据分析
应用Hadoop的MapReduce框架,根据不同的应用场景,提供的空间多维度水文数据模型服务并可按照模型结构灵活性的高低支持算法设置和子过程选择,同时模型计算分析将作为隐式算法嵌入该计算框架当中,自动对默认参数进行优化,提高模型精度。由于各项监测数据分布各个监测点,因此该系统选择分布式服务Hadoop框架的核心技术HDFS负责监测数据的存储和管理。
2.1.4平台应用服务
通过BP神经网络及回归分析算法对海绵城市考核指标进行深层次的统计分析及智能预测,同时借助Cesium GIS工具,以一张图的方式展示海绵监测设施设备的空间位置、海绵地块信息等,同时支持分层查看。此外,各项数据处理及分析预测的结果均可根据需求通过API接口方式接入市政监管平台等。
2.2 海绵城市大数据平台应用
2.2.1大数据一张图展示
“大数据一张图”展示全天候在线监测海绵城市相关元素,全面、实时、准确掌握区域内的水环境、水生态、水安全、水资源等信息,涵盖雨量、流量、液位、水质等多项指标的监测仪表设备的建设,以及相关设施、设备的监测数据和运行状态监控。
2.2.2考核评估
统计对比展示西安小寨海绵城市建设考核指标目标值和实际建设情况值,从“水安全、水环境、水生态、水资源”四个方面分别进行比较,考核指标主要分为年径流总量控制率、城市暴雨内涝灾害防治、城市雨水管渠系统排水能力、水环境质量、SS削减率、热岛效应、雨水资源收集利用率及污水再生利用率。
2.2.3模型计算分析及预测展示可视化
该系统采用Hadoop框架的Map-Reduce分布式计算程序,结合数学模型计算结果,完成监测数据的分布式处理,并根据不同的业务需求分别设计不同的并行计算方式及数据分析功能,包括水质分析、水量分析等城市水环境评估及生态评估,同时在分析结果的基础上,能够预测洪水影响范围、空间分布特征和时间动态变化。为海绵城市工程建设提供有效的支持与保障[10]。
2.2.4大数据管理
大数据管理是考核评估的基础支撑,支持多种类型格式于批量数据的导入、导出,提供数据表、趋势线、分布图等多种数据展示方式,同时提供数据统计分析功能,帮助管理者快速、准确的分析工作的重难点问题。
3 结语
在小寨海绵城市建设中,涉及到了大量种类繁多且需实时更新的数据资料,小寨海绵城市大数据平台的建立,可以将这些数据按照统一的设计原则及标准进行整理汇总,并划分到不同的框架当中,为小寨海绵城市各级管控提供强有力的数据基础,为小寨海绵城市建设提供了安全保障,同时为实现海绵城市试点建设成效的可视化展示及后续业务奠定了坚实的基础。