数据挖掘技术在城市住建领域的应用
2019-05-13解维唐鹏
解维 唐鹏
摘要:随着城市建设施工数据量的日益庞大,如何将其加以利用并为新型智慧城市作出贡献呢?本文主要采用数据挖掘技术,分析了住建局所许可的用地在施工期间,对周边的公共交通,以及交通违章行为所产生的一些影响,而后提出了更加合理化的公共交通改道建议,以及为降低交通违章行为在合适位置设立告示牌建议。
关键词:施工数据;数据挖掘;公交改道建议;告示牌建议
中图分类号:TP3-05 文献标识码:A 文章编号:1007-9416(2019)01-0096-03
0 引言
随着全国城市化进程的加快,尤其是一线城市的土地持续供应,用地许可不断增加。城市建设施工期间对周边的交通以及施工结束后对公共资源分配都产生深远影响。市交通局、教育局等单位需要科学化、合理化的决策,快速响应建筑施工所带来的变化,提高对公众服务的质量。
本文基于施工期间交通流量数据和违章罚单数据的变化,采用大数据分析技术,帮助人们进行科学快速的交通规划以及城市决策[1]。因为近几年,大数据以及云计算等新兴的信息技术已经深入人们的生活。各个行业都在随着新技术的兴起而进行的变革。在新兴技术的推动下,伴随着知识社会环境下不断城市创新生态的诞生,智慧城市逐步开放。那么我们就在思考:如何让“城市施工数据”发挥优势,助推深圳发展?基于目前使用价值不高的“施工数据”,是否也能为智慧城市发展作出一份贡献呢?于是,就有了我们的项目“施工数据慧说话”。那么,本文所设计的系统具体所解决的问题有以下两点:一是住建工程施工工地周边影响区域内的公共交通改道问题。如何重新规划受影响的交通线路的行驶路径可以最大程度地方便附近居民换乘,降低拥堵,提高通行效率。二是优化设立告示牌以降低因施工带来的交通违章行为的增加问题。如何设立告示牌可以起到对市民安全通过施工路段的提示作用,进而减少违章罚单的数量。
1 系统架构设计
系统设计使用B/S架構模式,立足于深圳政府主动开放的大量施工数据,结合本单位大数据平台和北斗导航服务平台等领域的技术基础,对数据进行关联挖掘分析,并在地图上进行直观展示。服务端基于大数据处理平台,提供数据的存储和挖掘分析功能,统计地图当前位置周边的施工信息,终端(包含浏览器和移动终端)定位或移动地图时,向服务平台发送施工信息位置请求,服务平台计算后返回结果,终端进行显示。
其中,大数据平台的核心部分包括数据存储、数据查询、数据分析、流数据处理、计算服务以及数据统一访问等模块。数据存储模块对智慧城市的多源异构开放数据进行统一的存储管理;数据分析模块借助分布式的内存计算技术和分布式执行引擎,对住建影响圈儿的各种数据统计分析计算任务进行分解和调度执行,利用通过多机并行的模式提高计算效率;流数据处理模块针对公交打卡记录、计程车定位信息等具有时间属性的数据进行实时处理,对数据流进行接入、分发、持久化,并通过实时算法对数据进行分析;数据查询模块对存储模块中的数据构建分布式的数据索引,并利用分布式搜索引擎对原始数据、分析结果等进行快速数据定位和结果返回;计算服务模块接收上层应用的各种计算任务并进行统一的编排调度,使计算平台达到负载均衡和资源充分利用的效果;数据统一访问模块封装了JDBC、Web Service、SQL等多种数据访问接口,供上层应用调用,以达到平台应用快速开发的目的。
2 数据挖掘技术在系统中的应用与实现
本系统在网络数据方面,将利用百度地图的GIS基础数据以及相关联的道路数据,以达到分析规划结果可视化展现的效果。有关部门数据包括:施工许可证信息,公交线路信息,出租车公司-出租车数据,深圳通记录数据,交委-处罚情况。因此本系统主要目标是给深圳政府和市民直观的呈现当前施工信息和施工对交通造成的影响,并对以往的历史数据进行分析,为政府和市民提供绕行建议和决策辅助[2]。
系统将以上数据批量导入到原始数据库中,通过数据清洗,对数据按照时间戳等信息进行模拟实施加载,通过大数据分析引擎进行学区载荷分析、公交人流分析、违章情况分析等,结合百度地图开放API,将各种数据和分析结果动态展现在GIS界面上,使得分析结果等能够直观表现。数据使用思路如图1所示。
2.1 数据预处理
(1)施工点信息预处理。由于施工信息的时间跨度较长,需要过滤大量历史数据,因此系统选择2015年12月1日之后的数据。
(2)交通违章信息预处理。由于违章数据中交通违规时间集中发生在2017年1月1日至2017年3月31日之间,那么,根据违规日期,进一步筛选此时间范围内的施工点信息。另外,根据“GCMC”字段中的关键字,筛选出几种常见的施工类别,并进行统计分类。
对于违章信息,其中“CFYY”字段均按照"经调查,本机关认为你(单位)在XXX在(违法地点)XXX实施了XXX的违法行为"固定格式赋值,于是,抽取每条记录中第一个“XXX”字符串作为该条违规行为的发生地点,第二个“XXX”字符串作为处罚原因,抽取“CFSJ”字段作为违规记录的发生时间。
(3)公交线路信息预处理。将公交信息中的“SXXLZDMC”和“SXXLZDMC”两个字段信息合并,作为一个完整的线路信息。根据之前处理得到的施工点经纬度信息,找出施工点周围2公里以内的公交站点数据。
(4)出租车信息预处理。由于出租车信息量较大,将其数据存入到HDFS分布式文件系统中,找出目标施工点周围出租车路线重叠最多的部分。若重合点为集中分布的散点,则选取这些散点的中心点作为备选公交站,若重合部分为一条线,则随机选取该线上的一点作为备选公交点(若有相应的数据支持,可以根据周围居民信息进行具体站点的选择)。
得到需要改道的公交站点和备选公交站点后,将两点之间的时间作为权重,使用Floyd算法[3],计算出耗时最短路线。
2.2 数据分析过程
通过大数据体系相关技术,结合上述预处理思路,将多源数据进行汇总存储和管理。通过数据清洗、过滤等手段将原始数据进行整理后进行分布式的数据分析和挖掘,最终通过统一的数据访问接口将分析结果、方案规划等展现在地理图层上,数据分析处理过程如图2所示。
具体的数据分析过程如下:
(1)分析出的数据A(施工点数据):根据“施工许可证信息”数据中提供的“工程地址”字段,调用百度开放api,可分析得到施工点所对应的经纬度数据,便可以在原型界面中展现深圳市所有施工点。(2)分析出的数据B:根据“深圳通刷卡数据”和“公交线路信息两部分数据,结合相应的“施工点”数据,可以分析出施工点2公里范围内,在施工前后一个月内的公交线路拥堵情况对比。(3)分析出的数据C:从平台提供2015年12月共30天的“出租车公司-出租车数据”中看出,出租车是以每隔15秒的频率记录的,再依据其他几个字段,使用SparkGraphx工具,不难推出出租车的行驶轨迹。(4)分析出的数据D:依据数据C,可分析得到出租车运行通畅的路段数据。(5)分析出的数据E:对违章信息和施工点进行关联分析,可以得到违章点和施工点之间的散点图,其分析结果图如图3所示。
最后,依据数据D,分析出公交车优化改道线路。依据数据E,给出设立告示牌的合适位置建议。
2.3 系统详细设计
本原型产品融合了移动端设备、大数据分析平台、GIS服务等多领域的技术,将数据采集、数据分析、结果推送等一系列数据流程整合在一个解决方案中,如图4所示。
施工人员可以通过移动端设备进行施工现场数据采集,实时提供最新施工数据。将采集到的施工数据作为交通违章分析、拥堵情况监控的补充数据,增强数据分析的准确性,可以更加精确的分析施工工地性质与交通违章和拥堵情况之间的关联。普通用户可以利用移动端APP,结合GIS展现功能实时查看深圳市现阶段正在施工的地点,点击查看施工进度、单位、周期等详细信息,并且可以查看施工前道路通行情况,以及施工后道路绕行方案,达到信息实时推送的目的。利用目前已有的移动端信息采集工具,可以获得公交车、出租车等车辆通行轨迹信息,上传到服务端进行记录和大数据分析,提供施工周边指定路段每天通过的车辆数量,以及车辆通行平均速度,分析施工是否影响通行,是否应增加绕行方案,为交通管理部门决策提供依据。
在交通拥堵分析方面,本web系统可以根据对施工工地施工前后公交车、出租车的打点信息,分析出道路拥堵情况变化。然后根据施工前后的拥堵变化情况,结合出租车运行轨迹数据,给出公交线路改道建议以及改道后交通改善情况预估[4]。
在交通违章分析方面。本web系统可分析得出,具体施工点2公里范围内的违章数量变化热力图。并且提供了更为详细的柱状分析图,从施工类型、违章类型、违章点这三个维度分析其对违章数量的影响程度。
2.4 系统使用方法
本系统分为对移动终端和web系统两大模块。
(1)在移动终端,施工人员登录后,通过GPS进行定位,对施工现场进行拍摄、填报施工现场情况描述,与GPS定位信息一起提交到服务端。服务端根据GPS信息自动将现场图片和文字描述与对应的施工工地进行关联。普通用户在移动端登录后,首先可以根据自身所处位置,查看附近的施工工地信息以及对交通的影响。使用“导航”和“路线规划”功能时,系统自动根据施工现场情况和对交通的影响,规划合理线路。(2)在Web端,用户首先可以通过界面查看深圳市现有施工中的工地在GIS中的坐标点位。点击某个工地标志,系统通过弹出窗口展示施工工地的施工类型、施工时间等详细信息。并且可展示工地附近的公交线路情况。在弹出窗口中选择某条公交线路,可看到工地施工前后公交过站时间的变化情况。点击“线路优化”按钮,可以展示这条公交线路的改道建议,以及改道后的公交过站时间改善情况。
3 系统测试与分析
本系统使用了深圳平台开放的公交过站间隔时间记录、出租车打点信息以及施工数据,通过系统测试,GIS信息展示正常,数据分析结果可视化效果正常。
但是系统中仍存在一定的局限性,施工点周边的公交线路有可能不是当时最新数据,因为官方提供的“公交线路信息”数据中包含一个“最后更新时间”字段,这个字段表明含义较不清晰,可能说明是在这个时间截点新增的一条线路,可能说明是在这个时间截点线路有调整,也可能说明仅仅是数据的更新时间而不是实际线路变化时间,总之这个时间字段并不能说明具体问题。因此我们只能暂且假定分布在施工点周围的公交线路是当时最新路线。虽然有不合理处,但是这种不合理也只是小概率事件,不足以影响整个系统的分析作业。
4 结语
对于我们目前设计的这款面向相关政府决策部门的web产品,虽然围绕施工数据展开一系列较为准确的预测及方案建议,但仍然存在可以进一步优化的地方。例如,站在目前先进的交通信息技术角度考虑,在公共交通车改道路径选择标准及算法中,还应该要融入乘客乘车站点选择心理问题、多车道問题、道路立交等因素,对设计考虑公交最优改道路线,是值得我们作为将来的一个研究方向。
参考文献
[1] 孙建中.数据仓库与数据挖掘技术在建筑施工企业管理中的应用[J].城市建设理论研究,2014(22):3311-3311.
[2] 屈家奎.基于BIM技术的项目管理大数据分析决策[J].包装世界,2018(4):211-213.
[3] 左秀峰,沈万杰.基于Floyd算法的多重最短路问题的改进算法[J].计算机科学,2017,44(5):232-234,267.
[4] 赵礼峰,黄奕雯.基于矩阵自定义运算的Floyd改进算法[J].计算机技术与发展,2016,26(10):41-44,49.
Abstract:With the increasing amount of urban construction data, how to make use of it and contribute to the new intelligent city? This paper mainly uses data mining technology to analyze the impact of land allowed by the Housing Bureau on the surrounding public transport and traffic violations during the construction period, and then puts forward more reasonable suggestions for public transport diversion, as well as suggestions for setting up signs to reduce traffic violations in appropriate locations.
Key words:construction data;data mining;suggestions on bus diversion;billboard recommendations