基于上海市水务海洋行政审批数据技术分析及应用研究
2019-05-22张晓东朱永凯陈明生
张晓东,朱永凯,彭 超,陈明生
(1.上海市水务局行政服务中心(上海市海洋局行政服务中心),上海 200050;2.上海开澜软件有限公司,上海 201900)
上海市水务局积极响应推广电子政务应用的号召,从2006年起,逐步推进网上审批建设[1],将水务事项审批加入网上行政审批流程,到2009年又将海洋审批事项纳入网上行政审批范畴。2016年5月中旬,上海市水务局、上海市海洋局已经将全部46项行政审批事项接入市网上政务大厅,2018年9月所有行政审批事项全部接入市“一网通办”平台,实现了行政审批“全部上网、全程上网”的目标,为进一步提高行政审批的质量和效率提供了技术支撑和平台保证[2]。
同时,随着“一网通办”工作的不断推进,行政审批数据逐渐累积,如何利用行政审批数据来更好地指导“一网通办”成为市水务局、市海洋局工作的重点之一[3- 4]。目前,“一网通办”还存在一些显著问题,例如:网上审批材料精简不够,审批材料复杂、较多;网上审批事项授权不到位,窗口仅限于申报材料的收发、许可文件的发放,真正的审批步骤则需要由具体的部门进行审批,所以会出现办理者部门、窗口两头跑,没有真正实现“网上预约办理”“只跑一次”的整体目标[5];网上行政审批时间虽有法定限制,但办理环节和流程仍可优化,提高审批效率;数据安全是最需要被重视的问题,网上行政审批所产生的数据都保存在服务器的数据库中,一旦服务器崩溃或是服务器被攻击,就会导致审批资料的消失或泄露,因此安全性的提高至关重要[6]。
为了更好地解决当前存在的问题,本文利用MongoDB对行政审批数据进行分布式存储来提升数据的安全性[7],然后对数据进行整体分析、专项分析,得到开展“一网通办”工作建议[8],给上海市水务局提出了改进建议。
本文分析的数据来源于上海市水务、海洋局的46项行政审批事项,其中水利事项19项,供水事项8项,排水事项5项,海洋事项14项。
1 MapReduce和MongoDB简介
面对海量的上海市水务海洋行政审批数据,我们利用MongoDB(NoSQL数据库)进行原始数据、结果数据的存储,使用Hadoop的MapReduce(并行计算框架)进行数据分析[9- 10]。接下来分别介绍一下Hadoop的MapReduce和MongoDB。
1.1 MapReduce介绍
Hadoop是由Apache Software Fundation公司开发的分布式系统基础框架,它的核心是HDFS(分布式文件系统)和MapReduce(分布式计算框架)[11]。HDFS是一种运行在商用硬件上的分布式文件系统,由于Hadoop是主/从(Master/Slave)框架,只需要一台主服务器和多台廉价计算机就可构成并进行数据分析和文件存储,所以它具有高可靠性、高扩展性、高效性、高容错性等优点[12]。
通俗来说,MapReduce是一套从海量源数据中提取分析元素,最后返回结果集的编程模型。MapReduce的基本原理就是将大量数据分成小块进行逐个分析(Mapper过程),然后再将提取出来的数据汇总分析(Reducer过程),最终获得我们想要的结果。当然怎么分块分析,怎么做Reduce操作非常复杂,Hadoop已经实现了数据分析,在实际的应用中,在搭建完成Hadoop分布式框架之后,我们只需要编写并实现Hadoop的Mapper和Reducer接口,在接口中实现自己需要的代码,即可利用Hadoop完成对海量数据的具体计算和分析[13]。
1.2 MongoDB介绍
MongoDB是基于分布式文件存储的数据库,由C++语言编写,是一种典型的非关系型数据库(NoSQL)。作为一种特殊的非关系型数据库,MongoDB还保留着大部分关系型数据库特有的操作如查询、建立索引等[14]。当然它也有自己的特性,如MongoDB釆用了面向对象的思想,将每条记录作为一个文档对象(Document),其数据格式为BSON,类似于JSON[15]。MongoDB数据库中也可以存储不同结构的文件,在同一集合中存储的数据键值对可部分相同、部分不同。在现实生活中,由于其支持查询、支持索引、面向集合存储、支持高效的二进制数据存储、支持自动分片以适应扩展性、支持多语种等特性,受到了广泛的应用和重视[16]。
2 数据分析及结果可视化
2.1 分析思路介绍
本文的总体分析思路如图1所示。首先是数据的清理和整合,其次是数据的转存,搭建数据分析网站系统,接着利用Hadoop的MapReduce对行政审批数据完成整体分析、专项分析以及效率分析。
图1 行政审批数据分析整体规划
2.2 整体分析
2.2.1办理数量分析
首先我们利用MapReduce按事项名称统计办理数量,并将结果降序排列,表1是办理总量排名前十的事项名称及其办理数量,表2是办理量为0的事项统计表。
表1 总办理数量排名前十的事项名称及办理数量
表2 办理数量为0的事项名称
由表1—2可以发现办理数量最多的是核发《排水许可证》事项,其次是核发《取水许可证》、填堵河道的审批等,可对这些事项进一步专项分析。但是无居民海岛开发利用活动的审批、临时用海项目备案等事项办理量为0,可以考虑将这些发生数量较少的事项进行事项的合并。
2.2.2办理量行业分析
分别统计水利、供水、排水、海洋历年的办理数量和总共办理数量,得到的结果如图2所示。从图2中可以明显看出排水办理量最多,其次是水利、供水,最后是海洋。同理,可分别统计每年每月各行业的办理量,如图3所示。
从图2—3中可以看出,不管是按年统计,还是按月统计,排水行业的办理数量都是最多的,因此,可以加大对排水行业的人员投入、流程优化。
2.2.3办理量区县分析
最后分析各个区县4大行业的办理数量,各区县4大行业的总体办理量如图4所示。同理可统计每年4大行业在各区县的办理数量,图5是2015年各区县4大行业的办理量结果图。分析图4—5可以得出,闵行区排水行业的办理量是最多的,其次是宝山区和嘉定区。
通过整体分析,可以发现排水行业是每年办理数量最多的一个行业,并且闵行区申请办理的数量是最多的,而在排水行业中,核发《排水许可证》事项是最多的,因此,该事项是最值得开启网上“一站式”办理的,这将大大提高水务局行政审批效率。
图2 各行业总体办理数量
图3 2015年各行业总体办理数量
图4 各行业在各个区县的办理数量
图5 2015年各行业在各个区县的办理数量
2.3 专项分析
专项分析是从4大方面中挑选典型事项进行分析。
2.3.1核发《排水许可证》专项分析
经过分析可以发现,到目前为止,核发《排水许可证》的保有量为20877条,其中有4792张排水许可证已经出现过续办、变更等操作。
从许可证到期角度来说,以2016年为基准,2016年到期的核发《排水许可证》数量总共有1217张,未到期有6678张,到期比率为21.02%。同时在到期的1217张取水许可证中,2016年已完成到期换证的有85张,主动换证比率为6.98%。同时分析得到各区县到期数量和未到期数量及其到期比率结果统计见表3。从到期数量角度出发,由于闵行区《排水许可证》办理数量是最多的,因此到期的许可证数量也是最多的。从到期比率来看,浦东新区、黄浦区、徐汇区到期百分比排名前3位。
接着,统计2016年有效期内,不同项目类型的总排水量、总用水量,结果见表4。得到的折线图如图6所示,可以发现居民小区、商办楼、其他等项目的总排水量处于前3名,种植业、渔业、自来水业的排水量是最少的。
表3 2016年核发《排水许可证》到期数量、未到期数量统计
表4 2016不同项目性质排水量、用水量统计
图6 2016年有效期内不同项目性质的排水量
然后对2007—2017年各个外排系统每天的排水量进行分析,图7是各个外排系统每年排水量的堆叠柱状图,图8是外排水量变化折线图。
图7 2007—2017年各个外排系统排水量堆叠柱状图
图8 2007—2017年各个外排系统排水量折线图
结合外排系统排水量的分析结果图,可以看出排水量呈现波动上升趋势,并且白龙港的排水量是每年最多的,其次是石洞口和竹园,其中,石洞口和竹园的排水量呈现逐渐增长趋势,而且石洞口的增长速度大于竹园。
可以根据外排系统所在区县的不同,统计有效期内每年区县排水量,得到结果如图9所示,可以看出大部分区县的办理量随着时间的增长,排水量都在增加,闵行区、宝山区排水量远远大于其几个区县。
图9 2007—2017年各个区县排水量折线图
最后,通过核发《排水许可证》的专项分析,可以发现,目前闵行区排水许可证有效数量最多,且每年到期数量也是最多的,但是到期比率不是最高的,且目前自动换证比率较低,需要加强到期提醒功能。上海市的排水量呈现波动增长态势,外排系统的排水量也呈现波动增长态势,闵行区的排水量是历年排水量最多的。因此,核发《排水许可证》可优先开启网上预约。
2.3.2核发《取水许可证》专项分析
首先统计分析2009—2017年历年有效的取水许可证数据量,得到如图10所示的柱状分布图。根据2017年数据的不完全统计,取水许可证数量处于先增长,后平稳波动的趋势。
图10 2009—2017年有效期内的取水许可证数量统计柱状图
根据不同的取水用途,获取取水许可证数量,得到如图11所示的饼状图,应急备用的取水证数量最多,其次是生活用水、采灌井。
图11 不同取水用途的取水许可证数量
在数据分析中,还发现优水优用只有2家公司,分别是上海静安寺、上海驰明食品有限公司。接着对取水口位置[17]进行经纬度变换分析,取水口集中分布于静安区、长宁区、虹口区、普陀区。
最后,根据取水许可证的办理类型新扩改、变更、延续,计算对应的办理数量,结果如图12所示,可以看出基本上每年延续的取水许可证数量都大于新扩改和变更,每年变更的取水许可证数量基本上都是个位数。
图12 2009—2017年各取水类型的办理数量
总体来讲,通过对核发《取水许可证》的专项分析,对取水许可证事项的整体情况有了了解,对取水口的分析,可用于指导取水口的下一步规划。
2.3.3填堵河道事项的审批专项分析
由于数据有限,我们只分析2014年的填堵河道事项。首先分析2014年每月的规划开填河面积、实际开填河面积,部分结果见表5。可发现2014年每月规划的面积大于实际面积,开河面积大于填河面积。
根据区县分析,统计每年各个区县,开、填河面积的分布,2014年各区县规划开河面积和区县的关系如图13所示,颜色越深,表示规划开河面积越大,同时2014年各区县规划开河面积和规划填河面积的对比折线如图14所示,看出区县规划开河面积大于规划填河面积,实际开河面积和实际填河面积的对比如图15所示。
表5 2014年每月规划填河面积、规划开河面积、实际填河面积、实际开发面积对比结果 单位:m2
图13 2014年各区县规划开河面积分布
图14 2014年规划开河面积与规划填河面积折线
图15 2014年实际开河面积与实际填河面积对比
综合上述分析,发现对填堵河道事项的审批来说,每年的规划开、填河面积大于实际开、填河面积,规划、实际开河面积大于规划、实际的填河面积,并且浦东新区开、填河面积最大。
2.3.4海域使用权的审批专项分析
我们对2013—2017年海域使用权的审批事项,根据用海面积、占用岸线长度进行分析,得到图16—17,可以发现用海面积呈现波动趋势,占用岸线长度处于增长形态,在2017年占用岸线长度为5946m。
图16 2013—2017年用海面积结果
图17 2013—2017年占用岸线长度结果
图18 2013—2017年不同项目性质用海面积分析结果
图19 2013—2017年不同项目性质占用岸线长度分析结果
同时根据不同的项目性质,分析2013—2017年的用海面积和占用岸线长度,如图18—19所示。可以看出,经营性的用海面积、占用岸线长度都大于公益性,但是公益性的用海面积、岸线长度有明显的增长态势,说明,目前公益性投入在增加。
3 总结与结论
本文将水务、海洋行政审批数据整合到MongoDB数据库中,搭建分布式存储系统,解决政务大数据分布存储、安全性问题。对行政审批数据进行整体和专项分析,指导“一网通办”建设,提升行政服务水平,同时优化未来水务发展规划,促进上海市水务行业的发展。但是使用Hadoop分析现有数据还不能对未来事务办理量进行较为准确地预测,接下来可以利用机器学习建立模型,既可以预测典型事项在各区县、每年每月的办理数量,为政府部门资源的合理化配置提供技术支撑,也可以提高文中事项分析的准确度。