互联网位置大数据空间可视化研究与应用
2022-11-26吴秀芸王海江梁寒冬
吴秀芸,王海江,梁寒冬
(1.宁波市测绘和遥感技术研究院,浙江 宁波 315042)
当前,地理信息产业正面临着以互联网、大数据为依托的信息化多业共生、融合发展模式,GIS技术拥抱大数据已成为热潮[1],正在重构地理信息的产业链条。宁波市作为全国首批系统开展智慧城市建设的城市,发展大数据基础扎实、前景广阔。近年来,宁波市政府频频出招,积极推动大数据落地。2016年10月宁波市人民政府发布的《关于推进大数据发展的实施意见》提出,到2020年将宁波打造成为国家级城市大数据产业基地。2016年12月宁波市政府与百度公司签订战略合作备忘录,决定以“全国首个试点示范”的高标准共建百度云智·宁波大数据产业基地。2020年5月宁波与阿里巴巴(中国)有限公司签署全面合作框架协议,建立宁波阿里中心,将围绕五大领域开展一系列合作,推进智慧城市、智能经济和大数据产业融合发展。
互联网大数据作为用户覆盖最广、信息最丰富的大数据,包含了人类群体的时空活动特征,能有效展现城市人口流动的轨迹和时空聚集状态;通过一定的空间可视化表达处理,可直观描述城市中人群的分布状况,较好地弥补传统静态地理数据的局限性,具有重要的研究意义和应用价值。
1 数据源分析与处理
互联网位置大数据的样本量大、数据客观全面、采样不会有很明显的倾向性,且具有较强的时空连续性,可观测到用户出行的整个过程,是任何其他数据源无法实现的。阿里巴巴作为目前国内最大的互联网公司,占据了80%的智能手机用户,每日定位和路径规划请求达到了千亿级,通过在不同环境场景下对GPS定位、IP定位、基站定位、WiFi定位4种定位数据的选择与组合,实现用户位置信息的记录和跟踪,形成用户定位轨迹数据;依托阿里系产品(如高德地图、天猫、淘宝、饿了吗等)和高德地图独有的人地关系数据,按照不同维度对用户线上行为数据进行标记、排序、提取,并与用户手机ID进行关联,形成用户画像信息。本文利用从阿里云特定接口解析处理并滤除用户属性后的加密手机信号数据,不会涉及个人隐私信息。在进行研究工作之前,需对这些数据进行格式转换、清洗降噪等预处理,并将手机定位数据映射到地理空间位置,从而完整、客观地还原手机用户的出行链轨迹,最终挖掘得到人口空间分布与活动特征信息。
1.1 数据预处理
由于原始的互联网位置大数据是以JSON格式存储的,时间、位置均没有单位的存储,数据冗余度高,因此首先需按照数据内容分别建立数据字典,将其统一转换至Postgre SQL数据库中。此外,由于受到传输干扰、信号弹跳、漂移等原因,基于互联网采集的定位轨迹大数据会产生大量无效且错误的数据,导致原始数据不能真实反映用户的出行轨迹[2],因此需对原始数据进行清洗,识别并清除错误无效的数据。对于用户ID数据缺失的情况,可通过上下文信息进行补全,滤除时间连续、坐标偏移却很大的数据,抽稀同一个空间位置出现的一系列密集点,完成互联网位置大数据的标准化、格式化清洗入库。
1.2 地理空间关联
互联网大数据原始数据除时间属性有序外,其空间位置和空间语义均高度无序,无法直接进行出行统计分析,需进行地理空间关联,以实现大数据地图的可视化展示。本文结合已有的电子地图、地名地址等要素矢量数据,将互联网大数据的位置信息与地理网格(包括区县、乡镇街道、社区村、基层网格等各级行政区划信息)进行多级绑定关联,建立语义信息与地理空间的索引字典,并基于时间戳对其进行时间聚类,得到具备空间属性的用户出行大数据时间序列;再以月、周、天、小时、分等不同时间段为单位,根据各类数据的时间戳分别进行时间聚类,并以公安、政法等人口调查数据为母体,根据样本与母体的数量差异计算扩样系数,从手机用户群体有效扩样至总体人口(包括持手机人群与无手机人群);最终构建出具有空间属性的以时段为单位的位置大数据集合。
1.3 出行特征提取
在地理空间关联的基础上,提取出行特征,构建完整的出行链。出行链是指用户从起点出发至目的地的位移过程中所经过的空间位置序列[3]。判断同一用户相邻两次出行记录是否为单次出行行为,需要最小间隔距离和最短间隔时间两个阈值。函数模型为:
其具体思路为:首先将用户出行轨迹按照时间序列进行排序;然后判断相邻点之间的距离,若大于给定阈值,则初步判定为一个有效出行点,加入停留点预选序列;再判断预选序列中相邻点之间的时间间隔,若大于时间间隔阈值,则标记为停留点,以此类推直至遍历完整个数据集,如图1所示。
图1 出行链示意图
通过大量数据反复验证得出,相邻点之间的时间阈值约为5 min,相邻间隔距离为10 m,即认为这是一次有效的出行链,反之则认为是该用户两次不同的出行行为。在出行链集的基础上,以一段较长时期(1年)的人口活动情况训练识别夜间居住地(home)和白天工作地(work),具体策略为:连续1年对定位设备进行跟踪,当在某个位置反复出现,且时间集中在9:00-19:00时,判定该位置为工作地;反之,若时间集中在20:00之后,且周末时间大多出现在该位置,则判定为居住地,最终得到完整的出行链信息。出行链集的每条数据均具备地理坐标、起始网络编号、终点网络编号、耗时、距离、时间分区、是否为居住地、是否为工作地等属性。
2 大数据地理空间可视化
大数据地理空间可视化是用地图结合统计图表的方式对大数据进行可视化表达,不仅很好地解决了大数据的空间位置表达问题,而且初步实现了大数据的分析利用,直观展示出大数据的内在含义。目前的海量空间数据可视化应用大多数是通过专业GIS软件平台构建、可视化函数库开发工具搭建以及基于地图组件的二次定制开发。这些方式在一定程度上加快了可视化应用的搭建效率,但仍具有较高的操作入口门槛,且缺少复用性,很难再次移植使用,对于海量多维大数据也缺少动态关联表达[4]。
本文以HTML+CSS+Javascript语言为主体,以PostgreSQL为互联网大数据存储数据库,以Vue为整个模块化组件工具与界面框架,以GeoServer为空间数据分析的后台服务器,采用开源WebGIS框架Leaflet作为地图的展示容器[5],集成DataV和ECharts,利用Node.js实现前后端分离,最终构建了面向互联网大数据的地图可视化开发与应用框架。整个框架设计如图2所示。
图2 大数据可视化框架图
1)数据层。该层利用PostgreSQL的拓展插件PostGIS存储JSON格式的互联网大数据,将互联网大数据进行标准化清洗后,导入PostGIS中完成数据的存储和地理关联。
2)逻辑服务层。该层利用Tomcat服务器安装GeoServer.war包实现GeoServer的部署。GeoServer可添加数据链接到PostGIS,将PostGIS作为数据源进行服务发布。该层负责数据的发布与分析工作,在Web服务器部分,Tomcat服务器负责接收用户在网页端的单击或其他类型的操作事件,并将其得到的请求事件与其内部进行特定主机的地址匹配,匹配完成后将请求转发给GIS服务器GeoServer;在逻辑服务层部分,GeoServer服务器接收到Tomcat服务器发来的请求后,对其需求的服务类型进行解析,从中得到请求者需要的GIS服务内容,并将其回传给Tomcat服务器,完成整个服务的请求过程。整个过程通过Node.js完成前后端的分离。
3)前端表现层。该层主要由界面框架Vue、UI框架Element UI、Leaflet、DataV、ECharts组成,在Leaflet框架下实现基本地图操作,利用Leaflet开发框架 中 的Map类、Maker类、Tile Layer类、Popup类、Control类 以 及Heat Laye类 的Leaflet.markercluster插件、Leaflet-meaure插 件,并 集成DataV和ECharts图表可视化功能,对需要重复利用的代码进行模块化组织,即将常用的地图浏览(放大、缩小、平移)、地图标记、地图瓦片加载、图层控制、弹窗等功能分为不同的组件模块,封装形成一系列通用的大数据个性化标准套件。
4)展示应用层。该层为地图展示界面,主要载体为Web浏览器,支持IE、Chrome、Firefox等主流浏览器。通过以地图为核心的图表可视化要素的联动,以气泡图、热力图、灯光图、动图、散点图、流场图、柱状图、饼图、树图等可视化形式展示大量的点、线、面数据,形成面向大数据展示与开发应用的新型可视化地图引擎,能兼容当前绝大多数已有的可视化框架,支持跨平台跨终端显示,支持自定义个性化配置组件、多维数据绑定关联和秒级动态渲染,满足海量数据的动态接入和实时展示,可帮助各行业用户快速搭建个性化的空间可视化系统。
3 典型应用成果
目前,该框架已先后在城市空间规划、智慧港区管理、森林火险预警、新冠疫情防控等领域进行了初步应用,为政府提供了基于大数据视角的决策依据,促进了城市的精细化、智慧化管理。
3.1 城市空间规划
基于可视化框架,利用互联网大数据有效分析了宁波市人口时空分布情况,研究了各板块职住通勤状态,为城市发展策略的制定和城市规划的编制、评估提供了更合理、科学的方法体系[6]。工作日一天中全市人口活动变化情况如图3所示,直观展示了城市人口热力分布随时间推移变化的情况,对比了不同时段的人口热力活跃度;再结合周边POI公共设施信息,可为宁波空间规划设计与活力提升提供参考。宁波市各区县通勤联系情况如图4所示,通过统计各区域职住比、通勤空间、通勤距离等数据,对各区县之间的通勤关系进行了客观评价,直观反映了各分区之间的相互联系,可为区域协调规划发展提供可靠依据[7]。
图3 城市活力分析研究(工作日)
图4 全市通勤统计
3.2 智慧港区管理
基于可视化框架,利用动态位置大数据监测港区客流情况,统计工作日、节假日分小时和时段的客流量、历史客流人数(图5),为港区管理决策、战略发展、公共服务、应急指挥、旅游统计提供大数据支撑,推动港区智慧化管理。
图5 月均客流统计
3.3 森林火险预警
基于可视化框架,利用动态位置大数据实时监控森林火灾高发期、高发区附近的人口分布情况和区域密度,对宁波市历史火灾多发区、旅游风景区、墓区、游步道等重要区域或地段人流进行实时监控,重点监控周末、十一、元旦、清明等法定节假日的人流情况,实现对森林火灾更有针对性的预防,为森林防火工作部署和领导决策提供有效依据。
3.4 新冠疫情防控
在新冠疫情发生后,利用人口流动迁徙大数据分析展示全国其他主要城市,尤其是高风险地区人口迁入宁波市的情况,连续跟踪每日各地入甬人口规模变化趋势,帮助预判疫情传播趋势,为疫情防控、复工复产、精准施策提供辅助支撑[8],推动卫生安全等公共领域的常态化数据监测,提升城市对大型公共安全突发事件的响应能力。
4 结语
本文详细介绍了动态位置大数据清洗扩样、地理关联、特征提取等关键技术,设计并开发了以地图为核心要素的大数据空间可视化框架,阐述了该框架在城市规划、森林防火、疫情防控等多个领域的应用示范。作为一次运用互联网大数据进行地理信息应用的尝试和探索,在研究方法和对大数据的处理上尚有诸多不成熟之处,在后续工作中将继续深化研究,以期为其他同类大数据研究和应用提供参考。